RM新时代专业团队|首入球时间,rm新时代平台靠谱吗

1. 騰訊云宣布全面支持Llama2等主流開源模型

原文：https://t.cj.sina.com.cn/articles/view/1654203637/629924f5020010xw1?from=tech

騰訊云方面16日宣布，騰訊云TI平臺已經(jīng)全面接入Llama 2、Falcon、Dolly、Vicuna、Bloom、Alpaca等20多個主流模型，這些主流模型支持直接部署調(diào)用、應(yīng)用流程簡單、可全程低代碼操作。企業(yè)、開發(fā)者可以根據(jù)不同細(xì)分場景的業(yè)務(wù)需求，靈活選擇各類大模型，降低大模型使用成本。

據(jù)騰訊云公眾號透露，騰訊云是國內(nèi)第一批上架和支持開源模型的大模型廠商，騰訊云持續(xù)推動MaaS（Model-as-a-Service）建設(shè)，讓大模型更懂行業(yè)、更易落地。

在具體執(zhí)行方面，騰訊云發(fā)布了行業(yè)大模型解決方案，依托騰訊云TI平臺打造行業(yè)大模型精選商店，提供涵蓋模型預(yù)訓(xùn)練、模型精調(diào)、智能應(yīng)用開發(fā)等一站式行業(yè)大模型服務(wù)，已為10大行業(yè)提供了超50個大模型解決方案。騰訊云還推動大模型時代底層基礎(chǔ)設(shè)施建設(shè)，發(fā)力算力、網(wǎng)絡(luò)、數(shù)據(jù)“鐵三角”，為客戶提供HCC高性能計算集群、星脈高性能計算網(wǎng)絡(luò)以及向量數(shù)據(jù)庫等基礎(chǔ)設(shè)施服務(wù)，加速大模型落地。與此同時，騰訊云積極參與、推動行業(yè)大模型標(biāo)準(zhǔn)建設(shè)。早在2020年，騰訊就被選舉為全國信標(biāo)委人工智能分委會委員兼副秘書長。前不久，騰訊云聯(lián)合信通院牽頭開展國內(nèi)首個金融行業(yè)大模型標(biāo)準(zhǔn)，助力金融行業(yè)智能化的高質(zhì)量規(guī)范化發(fā)展。

2. 稚暉君人形機(jī)器人問世：大模型加持，會自己換胳膊，要上生產(chǎn)線造車

原文：https://mp.weixin.qq.com/s/cgfbJgl9enzGXGTb6q6FGA

大模型技術(shù)的新一波浪潮：具身智能，已經(jīng)有了重要進(jìn)展。剛剛，稚暉君的創(chuàng)業(yè)公司「智元機(jī)器人」開了自己的第一場發(fā)布會。

以「天才少年」身份加入華為的稚暉君（彭志輝）于去年底宣布離職創(chuàng)業(yè)，人們都在關(guān)注他在機(jī)器人與大模型方向探索的新實踐。今天在上海，他成立的智元機(jī)器人終于發(fā)布了首款產(chǎn)品「遠(yuǎn)征 A1」。在現(xiàn)場，機(jī)器人走上了講臺，這是稚暉君創(chuàng)業(yè)以來交出的第一份答卷。

遠(yuǎn)征 A1 不僅長得像人，也有著近似人類的一系列數(shù)據(jù)：它身高 175cm，重 53kg，最高步速達(dá)到 7km/h，全身有 49 個自由度，可以承重 80kg，單臂最大負(fù)載 5kg。這款機(jī)器人在雙足行走、智能任務(wù)、人機(jī)互動等領(lǐng)域展現(xiàn)了業(yè)界領(lǐng)先的能力。

稚暉君表示：「遠(yuǎn)征 A1 是我們的第一臺通用型智具身智能機(jī)器人，它融合了各種先進(jìn)的本體控制、感知、認(rèn)知和決策的智能技術(shù)，基于當(dāng)前 AI 領(lǐng)域前沿的大語言模型，以及我們自研的視覺控制模型，完成了一系列創(chuàng)新?！?/span>此前，很多機(jī)器人產(chǎn)品大多具備 20 余個自由度。據(jù)介紹，遠(yuǎn)征 A1 的 49 個自由度是考慮到實際應(yīng)用場景，如汽車生產(chǎn)過程中整理線束、擰螺絲、總裝等任務(wù)來確定的。它雖然是個人形機(jī)器人，但從一開始就面向工業(yè)制造：

未來也可以成為人們?nèi)粘Ｉ畹闹郑?/span>

「遠(yuǎn)征 A1」是模塊化的，可以面向不同任務(wù)，自己給自己換組件：

稚暉君表示，把機(jī)器人做得像人，是因為現(xiàn)在的世界一直是為人形態(tài)而設(shè)計的，人形機(jī)器人可以在大量工作中直接應(yīng)用現(xiàn)有工具、任務(wù)和場景，同時更具有親和力。但想讓機(jī)器人模仿人類，需要在機(jī)械設(shè)計、運(yùn)動和感知等方面解決很多挑戰(zhàn)。

自研電機(jī)，模塊化設(shè)計

用兩條腿來走路，又能夠擁有生產(chǎn)力，這意味著硬件設(shè)計要有強(qiáng)大的能力。智元機(jī)器人構(gòu)建了一套自研的硬件系統(tǒng)，包括關(guān)節(jié)電機(jī)、靈巧手等。如果從零部件算，整個機(jī)器人的國產(chǎn)化率在 80% 以上。

自研核心關(guān)節(jié)電機(jī) PowerFlow

如果想讓人形機(jī)器人行動靈敏、準(zhǔn)確，它的關(guān)節(jié)需要滿足很多條件，比如體積小、重量輕、功率密度高、能量利用效率高、響應(yīng)帶寬高、耐沖擊等等。其中，核心關(guān)節(jié)不僅是讓人形機(jī)器人更加靈活、更加自由的關(guān)鍵，也是未來實現(xiàn)規(guī)模量產(chǎn)、低成本制造的重要門檻之一，稚暉君在現(xiàn)場解釋說。為了實現(xiàn)這些目標(biāo)，智元團(tuán)隊自研、設(shè)計了一款專用關(guān)節(jié) ——PowerFlow。這個關(guān)節(jié)采用了準(zhǔn)直驅(qū)的方案，它的優(yōu)點是功率高、不需要傳感器（可以用電機(jī)電流判斷力矩），通過電流直接做力矩控制，價格低。為了增加功率密度，遠(yuǎn)征 A1 的關(guān)節(jié)模組還集成了液冷循環(huán)散熱系統(tǒng)。搭配上自研的一體化矢量驅(qū)動控制器，整個關(guān)節(jié)的峰值扭矩可以達(dá)到 350Nm。不過，稚暉君表示，他們還沒有測到扭矩的真正上限，估計潛力比想象中高。而且，由于水冷散熱的加持，它可以保持更長時間的峰值扭距輸出，而重量僅為 1.6 公斤。

這個關(guān)節(jié)還有個非常有意思的設(shè)計，它讓機(jī)器人的膝關(guān)節(jié)向后彎曲，而不是和人一樣向前。稚暉君解釋說，這是為了讓機(jī)器人干活更加方便，畢竟再好的人造關(guān)節(jié)也不可能讓機(jī)器人像人一樣那么靈活，反屈膝關(guān)節(jié)的設(shè)計可以讓它擁有更大的操作空間。

自研靈巧手 SkillHand

要想讓機(jī)器人更好地干活，手是另外一個關(guān)鍵部件，因此智元研發(fā)了靈巧手 SkillHand。這個靈巧手有 12 個主動自由度、5 個被動自由度，而且所有驅(qū)動都是內(nèi)置的。考慮到這個靈巧手未來將面對精密制造場景，智元在它的指尖安裝了一些傳感器。其中，視覺傳感器可以分辨操作物的顏色、材質(zhì)?；诟鞣N算法的數(shù)據(jù)融合，指尖還可以做到近似的觸覺壓力傳感器效果。由于這些傳感器可以幫助機(jī)器人實現(xiàn)末端的視覺閉環(huán)，整機(jī)的電機(jī)精度需求得以降低。有意思的是，如果場景需要，這個機(jī)器人其實可以自主更換靈巧手，比如把手換成螺絲刀。稚暉君說，這是模塊化設(shè)計思想在他們機(jī)器人中的體現(xiàn)。類似的模塊化設(shè)計還可以讓機(jī)器人由腿式變成輪式，「這是它通用性的一個體現(xiàn)」。

全套 AI 框架

如何讓通用機(jī)器人實現(xiàn)低成本量產(chǎn)，產(chǎn)生實際應(yīng)用價值？稚暉君表示，硬件只是前提條件之一，更重要的其實是背后的機(jī)器人大腦。在當(dāng)前的具身智能領(lǐng)域，很多研究都在嘗試將大模型作為機(jī)器人的大腦，稚暉君也不例外，他也想用多模態(tài)大模型的能力賦能智元機(jī)器人的行為動作編排。在智元機(jī)器人上個月發(fā)布的一個視頻中，我們已經(jīng)看到了這個想法的初步實現(xiàn)，比如給出自然語言指令「把離你最近的木塊放到紫色的方塊右邊 3 厘米」，機(jī)器人就會按照指示行動。

稚暉君把這個機(jī)器人背后的大模型叫做 WorkGPT，這是一個百億級參數(shù)的大模型。

在稚暉君看來，語言和圖像大模型對于機(jī)器人領(lǐng)域應(yīng)用最大的價值在于兩個方面，一是龐大的先驗知識庫和強(qiáng)大的通識理解能力，比如你不用告訴它什么是垃圾，它就能自己分辨出來；二是復(fù)雜的語義多級推理能力，即所謂的「思維鏈」，這體現(xiàn)在它可以把復(fù)雜的指令分成一個一個的步驟。「在大模型時代到來之前，機(jī)器人都是專用設(shè)備，我們需要針對性地對每一個任務(wù)進(jìn)行調(diào)試和部署?，F(xiàn)在利用大模型的各種通識能力和舉一反三的推理能力，我們可以看到解決這些問題，然后最終走向通用機(jī)器人的一道曙光?！怪蓵熅f。所以，在智元，他們打造了一個名為 EI-Brain 的具身智腦框架。在框架中，機(jī)器人系統(tǒng)被分為不同層級，包括部署在云端的超腦，部署在端側(cè)的大腦、小腦以及腦干，分別對應(yīng)機(jī)器人任務(wù)不同級別的技能，包括技能級、指令級、伺服級等。具體來說，「大腦」負(fù)責(zé)跟我們?nèi)祟愐粯舆M(jìn)行抽象思考、多級推理，「小腦」負(fù)責(zé)運(yùn)動控制方面的一些指令生成，「腦干」負(fù)責(zé)電機(jī)控制、伺服等硬件底層任務(wù)。

如果端側(cè)模型泛化能力不夠，系統(tǒng)可以去連接云端，實現(xiàn)更復(fù)雜的任務(wù)調(diào)度；另一方面，偏向于硬件底層的電機(jī)控制等工作都在本地甚至模塊中完成。「這類似于自動駕駛上 L1 到 L5 的不同分級 —— 想要構(gòu)建全場景通用的智能機(jī)器人，存在不同的發(fā)展階段，」稚暉君表示?！肝覀兌x了一系列 Meta skill，在語言操作庫范圍限定的有限泛化的場景內(nèi)，機(jī)器人可以實現(xiàn)自主的推理決策，然后完成端到端的任務(wù)編排。隨著能力庫不斷擴(kuò)充，機(jī)器人能夠勝任的任務(wù)空間也將指數(shù)級增長，最終可以實現(xiàn)全場景的覆蓋，切入千行百業(yè)。這體現(xiàn)了具身智能在交互和學(xué)習(xí)中進(jìn)化成長的邏輯。」為了讓這些層級起作用，智元不止在大模型方面展開了探索，還迭代了其他方面的算法。比如，在運(yùn)動控制算法方面，他們在幾個月的時間里進(jìn)行了多次迭代，一直迭代到最近使用的非線性的 NMPC，以及目前正在開發(fā)中的基于各種 learning （比如強(qiáng)化學(xué)習(xí)）的方法。

同時，他們也在搭建一個用于離線軌跡優(yōu)化的動作庫平臺。

未來，他們還將建立一個開放平臺，為開發(fā)者提供持續(xù)的技術(shù)支持、資金獎勵以及合作的機(jī)會，而且鼓勵開發(fā)者基于智元的機(jī)器人平臺去開發(fā)各種創(chuàng)新的應(yīng)用功能和解決方案。未來，這個開放平臺會包含整個機(jī)器人的開發(fā)套件，包括 HDK、SDK、基于中間件 AGi ROS 的仿真平臺，以及一些基礎(chǔ)的預(yù)訓(xùn)練大模型等等。同時他們也會去考慮推出一個低成本的教育版的硬件，供大家去進(jìn)行二次開發(fā)。

未來要賣 20 萬以內(nèi)

公司成立半年不到就發(fā)布第一款樣機(jī)，還具備完整的體系，讓人們不由得感嘆現(xiàn)在 AI 領(lǐng)域創(chuàng)業(yè)公司速度之快。更重要的是，智元機(jī)器人并不是一味在追求前沿技術(shù)探索，而是「所有產(chǎn)品都在為商業(yè)落地服務(wù)」。發(fā)布會上稚暉君表示，希望能把整機(jī)成本控制在 20 萬元以內(nèi)，使其具備落地的條件，并計劃在遠(yuǎn)征 A1 發(fā)布后，以此為基礎(chǔ)馬上推出第一代商用產(chǎn)品。商業(yè)化也已經(jīng)有了相對具體的方向：基于當(dāng)前的人形機(jī)器人技術(shù)，公司已在與國內(nèi)新能源頭部車企商討合作。希望在汽車制造總裝線、分裝線等場景上進(jìn)行商用化落地的嘗試，另外也在和 3C 制造的大廠研究合作。智元機(jī)器人還計劃在未來幾年里把人形機(jī)器人推廣到更多領(lǐng)域。在消費(fèi)級市場，人形機(jī)器人預(yù)計可適用的方式包含烹飪、家政、家庭護(hù)理、康復(fù)訓(xùn)練等。智元機(jī)器人（AGIBOT）成立于 2023 年 2 月，目前融資已經(jīng)完成了四輪，投資方包括高領(lǐng)、百度等風(fēng)投機(jī)構(gòu)。說到公司未來的發(fā)展，智元計劃逐步開放開發(fā)平臺，在未來以每年一代的速度迭代新的樣機(jī)產(chǎn)品，并不斷進(jìn)行商用驗證。稚暉君也表示，為了支持計劃，公司即將開啟秋招。

智元機(jī)器人投身的具身智能當(dāng)前是一個熱門領(lǐng)域。谷歌、斯坦福、英偉達(dá)等國際科技機(jī)構(gòu)都在這方面展開了研究，并在近期展示了他們的具身智能機(jī)器人成果。今年 3 月份，一家名為 1X 的具身智能機(jī)器人公司還拿到了 OpenAI 的投資。隨著稚暉君等國內(nèi)外優(yōu)秀人才的快速進(jìn)場，或許我們很快就能看到行業(yè)內(nèi)出現(xiàn)顛覆性的應(yīng)用。「我的夢想是有一天能夠真正造出科幻電影中的智能機(jī)器人，它不再是簡單的機(jī)械裝置，而是擁有自主思考和學(xué)習(xí)能力的智能伙伴，能夠感知、理解我們的世界，并與我們深入溝通，」稚暉君說道?！高h(yuǎn)征 A1 的發(fā)布，只是我們追求的起點。」

3. 釘釘個人版開放內(nèi)測：無打卡、無已讀提供一站式AI服務(wù)

原文：https://news.mydrivers.com/1/929/929366.htm

快科技8月16日消息，根據(jù)釘釘官網(wǎng)顯示，全新的釘釘個人版已經(jīng)正式啟動內(nèi)測，所有用戶都可在官網(wǎng)申請加入內(nèi)測。據(jù)了解，釘釘個人版，主要面向小團(tuán)隊、個人用戶、高校大學(xué)生等人群，旨在探索每個個體、每個團(tuán)隊的數(shù)字生產(chǎn)力工具，讓智能化變革普惠每一個個體，AI人人可用。

加入內(nèi)測后，用戶可搶先體驗各類AI服務(wù)，目前文生文、文生圖、角色化對話以及AI創(chuàng)作等服務(wù)均限時免費(fèi)。值得一提的是，釘釘個人版并沒有常規(guī)的打卡和消息已讀顯示功能，對個人用戶來說更加友好。

內(nèi)測版本僅有空間、AI、云盤、會議4項功能，產(chǎn)品將以AI為核心，用戶可一站獲取類似ChatGPT、Midjourney、Notion AI等各類大模型能力，并提供“賈維斯”文生文 AI 和“繆斯”文生圖 AI。釘釘個人版負(fù)責(zé)人表示，除了支持升級會員版本提高功能權(quán)益外，釘釘個人版在商業(yè)化設(shè)計方面，也將率先推出“算?！边@一AI服務(wù)的計量單位，用戶使用 AI 問答、AI 圖片將會消耗不同數(shù)量的算粒，消耗完之后將只能使用免費(fèi)的限額次數(shù)，或者增購算粒。

4. GPT-4數(shù)學(xué)再提30分，代碼解析器任督二脈被打開，網(wǎng)友：像大腦的工作方式

原文：https://www.thepaper.cn/newsDetail_forward_24270135

GPT-4數(shù)學(xué)能力還能更強(qiáng)！新研究發(fā)現(xiàn)GPT-4代碼解釋器做題準(zhǔn)確率與其使用代碼的頻率有關(guān)。為此，研究人員提出新方法對癥下藥，直接將其數(shù)學(xué)能力拔至新SOTA：在MATH數(shù)據(jù)集上，做題準(zhǔn)確率從53.9%增加到了84.3%。

你沒聽錯，就是前段時間被稱為ChatGPT推出后最強(qiáng)模式的那個代碼解析器（Code Interpreter）。研究人員窺探了其代碼生成和執(zhí)行機(jī)制，使用自我驗證、驗證引導(dǎo)加權(quán)多數(shù)投票的方法，直接打開其做數(shù)學(xué)題的任督二脈。好奇網(wǎng)友隨即而來：還想看他們做高數(shù)。

還有網(wǎng)友認(rèn)為：這也就是大腦的工作方式，人類在解決數(shù)學(xué)問題時也會自我驗證。

一起來康康這項研究的細(xì)節(jié)～兩步提升數(shù)學(xué)能力GPT-4代碼解析器的代碼生成和執(zhí)行機(jī)制究竟是怎樣的？來自港中文MMLab、南京大學(xué)、中科大、清華、城大、長沙理工等多個機(jī)構(gòu)的學(xué)者為解開這一問題，使用特定代碼約束提示進(jìn)行了一項試驗。

他們設(shè)計了3種不同的提示方法，限制GPT-4代碼解析器使用代碼的頻率：Prompt 1：完全不允許使用代碼，輸出完全依賴自然語言推理，禁止將代碼合并到解決方案中。Prompt 2：只允許使用1次代碼，也就是在生成解決方案時，只能在單個代碼塊內(nèi)使用代碼。Basic Prompt：沒有限制，GPT-4代碼解析器可以進(jìn)行一系列推理步驟，每個步驟都可由文字+Python代碼組成。

△（a）不同提示回答準(zhǔn)確率比較（b）代碼使用頻率與五個難度級別準(zhǔn)確率都成比例，這種現(xiàn)象在數(shù)學(xué)問題相對復(fù)雜時尤為明顯。結(jié)果發(fā)現(xiàn)，允許GPT-4代碼解析器多次生成和執(zhí)行代碼，其解題正確度明顯高于僅用自然語言推理或只用1次代碼的情況。經(jīng)分析，研究人員認(rèn)為代碼的多次生成和執(zhí)行可以讓GPT-4代碼解析器逐步完善解決方案，當(dāng)代碼執(zhí)行產(chǎn)生錯誤時，GPT-4代碼解析器可以自我調(diào)試修改方案。繼而引入“代碼使用頻率”概念，量化不同提示方法下代碼的使用次數(shù)。基于前面的分析結(jié)果，研究人員希望能加強(qiáng)GPT-4代碼解析器生成準(zhǔn)確代碼、評估代碼執(zhí)行結(jié)果以及自動調(diào)整解決方案的能力。所以提出了CSV（自我驗證）提示的方法，也就是為解決方案C引入了一個額外的驗證階段，稱為V。加入自我驗證提示效果對應(yīng)上圖綠色Verification Prompt。如此一來，GPT-4代碼解析器需額外生成代碼來驗證答案，如果結(jié)果是False則重新推理得到正確答案。

CSV提示不僅對驗證到邏輯推理每一步都進(jìn)行了擴(kuò)展，而且可以自動更正錯誤，無需外部模型或人工參與。

△MATH數(shù)據(jù)集中第712個中級代數(shù)問題。CSV prompt：To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.通過上圖這個例子可看出，在沒有自我驗證的情況下，模型生成了一個錯誤的答案。通過自我驗證，模型糾正了錯誤并生成了正確的答案。此外，鑒于CSV可以有效地驗證問題的答案，研究人員又提出了驗證引導(dǎo)加權(quán)多數(shù)投票（VW-voting）的方法，將自我驗證結(jié)果集成到多數(shù)表決中，給予不同驗證狀態(tài)不同權(quán)重，使表決更可靠。

在實際操作中，一旦一個答案被確認(rèn)為錯誤，那就不會進(jìn)行額外的驗證，從而得到一個錯誤的驗證狀態(tài)。研究人員分配相應(yīng)的權(quán)重給這些狀態(tài)：真實（wT）、不確定（wU）和錯誤（wF）。

最后從候選答案中擇取得分最高的那一個：

比此前最高水平提高30%用上了上述方法，GPT-4代碼解析器做數(shù)學(xué)題的能力up up。在MATH數(shù)據(jù)集上，原始GPT-4代碼解析器的準(zhǔn)確率為69.69%，使用CSV提示后提高到73.54%，再結(jié)合加權(quán)多數(shù)表決后進(jìn)一步提高到84.32%，相比之前SOTA提高了30%以上。

△在MATH數(shù)據(jù)集上的準(zhǔn)確率（%）在MATH數(shù)據(jù)集的各個子任務(wù)中，提出方法均取得顯著提高，尤其是在高難度級別的題目中效果更明顯。例如在中級代數(shù)（Intermediate Algebra）題目中，原來的GPT-4代碼解析器準(zhǔn)確率為50.1%，使用新方法后提高到74.4%。除此之外，研究人員還在GSM8K、MMLU-Math、MMLU-STEM等數(shù)據(jù)集上進(jìn)行了驗證。

△在GSM8K數(shù)據(jù)集上的表現(xiàn)上表可以看出，使用驗證引導(dǎo)加權(quán)多數(shù)投票的方法還可以顯著減少需要采樣的解路徑數(shù)量（Sampled paths），在GSM8K數(shù)據(jù)集上只需要5個路徑就達(dá)到97%的準(zhǔn)確率。

△在MMLU數(shù)據(jù)集上的表現(xiàn)針對不同難度的題目（下圖a）以及不同類型題目（下圖b）的測試中，使用新方法后準(zhǔn)確率都有了提升。

△每條曲線上的四個點分別對應(yīng)于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的結(jié)果。研究人員還發(fā)現(xiàn)GPT-4代碼解析器的代碼使用頻率提高與準(zhǔn)確率提高正相關(guān)。隨著題目難度的增加，代碼使用頻率穩(wěn)步上升。這說明在較難的數(shù)學(xué)問題上，更頻繁地使用代碼很重要。此外，值得注意的是，盡管添加基于代碼的自我驗證可以提高每個單獨題目類型的性能，但改進(jìn)的程度也因題目類型而異，從7.6%到僅0.6%不等。研究人員指出：特別是幾何問題的準(zhǔn)確性僅提高了0.6%，原本GPT-4代碼解析器的準(zhǔn)確性也只有54.0%，在各個題目類型中屬于較低的。這種差異可能是因為解決幾何問題通常需要多模態(tài)，超出了本文研究范圍。論文傳送門：https://arxiv.org/abs/2308.07921參考鏈接：[1]https://twitter.com/_akhaliq/status/1691734872329699813?s=20[2]https://x.com/justfannet/status/1691983780498600376?s=46&t=iTysI4vQLQqCNJjSmBODPw

5. 數(shù)學(xué)能力超ChatGPT，70B開源大模型火了：用AI微調(diào)AI，微軟全華班出品

原文：https://www.thepaper.cn/newsDetail_forward_24224649

用AI生成的指令微調(diào)羊駝大模型，數(shù)學(xué)能力超ChatGPT——微軟最新開源大模型WizardMath來了。

如下圖所示，經(jīng)過GSM8k數(shù)據(jù)集測試，WizardMath數(shù)學(xué)能力直接擊敗了ChatGPT、Claude Instant 1、PaLM 2-540B等一眾大模型——并且是在參數(shù)只有700億，遠(yuǎn)不及后三者的情況之下。

HuggingFace已上線3個在線可玩版本（分別為7B、13B和70B參數(shù)），各種數(shù)學(xué)題可以直接丟進(jìn)去試一試。比如解決下面這道四次多項式方程：

或者是一道簡單的微積分：

亦或者是稍微修改過的拉格朗日方程推導(dǎo)：

它都全部正確（過程也不需要等太久）。有網(wǎng)友向作者表示：效果真的很驚人，感謝你們對開源LLM的貢獻(xiàn)。

目前，相關(guān)代碼、復(fù)現(xiàn)方式以及論文也都開源或上線，GitHub短短幾天已攬獲4.8k標(biāo)星。

那么，WizardMath究竟是如何做到的？用AI生成的指令增強(qiáng)大模型能力OpenAI的大模型（InstructGPT、GPT-4等）能夠取得巨大成功、去執(zhí)行各種復(fù)雜和多樣化的任務(wù)，一部分原因是使用了真實人類用戶生成的開放域指令數(shù)據(jù)進(jìn)行了微調(diào)。然而，不是誰都能像這家公司一樣獲得這樣的指令數(shù)據(jù)集。一是因為整個注釋過程極其昂貴且耗時，二是人工難以創(chuàng)建出足夠比例的高難度指令。因此，開發(fā)出一種成本相對較低的、大規(guī)模開放域指令自動生產(chǎn)方法，成為當(dāng)下指令調(diào)優(yōu)語言模型的關(guān)鍵。在此，作者將他們的方法命名為Evol Instruction。它是一種利用AI來代替人類自動生成涵蓋各種難度級別開放域指令的新方法。具體而言，Evol Instruction分為指令進(jìn)化器和指令消除器。其中指令進(jìn)化器可通過深度進(jìn)化（藍(lán)線）或廣度進(jìn)化（紅線）兩種路徑，將簡單指令升級為更復(fù)雜的指令或創(chuàng)建一條全新指令。具體執(zhí)行哪一條？隨機(jī)選擇就好。

其中，深度進(jìn)化的具體“進(jìn)化法”，則是通過五種類型的操作來完成，包括：添加約束（add constraints）、深化（deepening）、具體化（concretizing）、增加推理步驟（increase reasoning steps）和使輸入復(fù)雜化（complicate input）。由于所有指令均由AI完成，有時難免會出現(xiàn)錯誤。因此，指令消除器就是用于過濾失敗指令的。以下是一個具體示例，該方法從“1+1=？”開始，最終通過以上步驟自動生成了相當(dāng)多的新指令。

通過重復(fù)這一生成過程，最終我們就能得到足夠多的指令，然后將它們合并并隨機(jī)打亂，組成一個難度級別均勻分布的指令集，就可以對基礎(chǔ)大模型進(jìn)行微調(diào)了。在此，作者選擇Alpaca的訓(xùn)練數(shù)據(jù)（僅由175條人工創(chuàng)建的種子指令生成）作為初始數(shù)據(jù)集，然后使用ChatGPT的API執(zhí)行了四個進(jìn)化周期，最終獲得25萬條指令。為了與Vicuna的70k真實用戶數(shù)據(jù)（ShareGPT）進(jìn)行公平比較，作者從這25萬條數(shù)據(jù)中抽取了等量的樣本，訓(xùn)練LLaMA 7B模型，最終得到WizardLM，結(jié)果WizardLM的性能明顯優(yōu)于Vicuna。（Alpaca：斯坦福在LLaMa-7B基礎(chǔ)上微調(diào)出來的模型；Vicuna，UC伯克利在LLaMa-13B的基礎(chǔ)上微調(diào)得來）此外，在更為復(fù)雜的測試指令下，人類更喜歡WizardLM的輸出，而非ChatGPT，這表明該方法可以顯著提高LLM處理復(fù)雜指令的能力。基于此，作者又利用Evol Instruction生成了很多數(shù)學(xué)領(lǐng)域相關(guān)的指令，然后微調(diào)羊駝大模型，得到了WizardMath。其效果如開頭所示，在GSM8k數(shù)據(jù)集上測得其數(shù)學(xué)能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一眾大模型，位列第5名，僅次于GPT-4、Claud1.3和2.0，以及5400億參數(shù)的Flan-PaLM 2之后。以此類推，作者還在羊駝之上得到了專攻代碼能力的WizardCoder，效果超越Claude和Bard（詳情可戳文末地址）。

團(tuán)隊介紹本文共9位作者，全華人。一作有3位：Can Xu，微軟亞洲互聯(lián)網(wǎng)工程院S+D NLP組高級應(yīng)用科學(xué)家，之前曾在微軟小冰研究組和微軟亞研院從事聊天機(jī)器人系統(tǒng)工作；Qingfeng Sun， Microsoft Research科學(xué)家，研究方向為自然語言處理和信息檢索，精通構(gòu)建高效搜索系統(tǒng)，為Microsoft Bing和Office 365貢獻(xiàn)了核心深度模型；Kai Zheng，Microsoft Research科學(xué)家，研究方向為自然語言處理、搜索和推薦排名，同樣為Microsoft Bing和Office 365貢獻(xiàn)了核心深度模型。

通訊作者為姜大昕，微軟全球合伙人、副總裁、前微軟亞洲研究院首席科學(xué)家，在微軟工作16年有余、曾作為微軟必應(yīng)搜索引擎和Cortana智能助手自然語言理解負(fù)責(zé)人，。

另還有一位作者Jiazhan Feng，是北大學(xué)生，這篇合著論文是TA在微軟實習(xí)時產(chǎn)出的。項目主頁：https://github.com/nlpxucan/WizardLM/tree/main/WizardMath論文地址：https://arxiv.org/abs/2304.12244（WizardLM）https://arxiv.org/abs/2306.08568（WizardCoder） ———————End———————

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

RT-Thread

RT-Thread

+關(guān)注

關(guān)注
31

文章
1285

瀏覽量
40081

原文標(biāo)題：【AI簡報20230818期】人形機(jī)器人問世：大模型加持；用AI微調(diào)AI，微軟全華班出品！

文章出處：【微信號：RTThread，微信公眾號：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

RM新时代网站-首页

搜索歷史

【AI簡報20230818期】人形機(jī)器人問世：大模型加持；用AI微調(diào)AI，微軟全華班出品！

1. 騰訊云宣布全面支持Llama2等主流開源模型