RM新时代网站,rm新时代赚钱吗是真的吗

在智能體的開發(fā)中，強(qiáng)化學(xué)習(xí)與大語言模型、視覺語言模型等基礎(chǔ)模型的進(jìn)一步融合究竟能擦出怎樣的火花？谷歌 DeepMind 給了我們新的答案。

一直以來，DeepMind 引領(lǐng)了強(qiáng)化學(xué)習(xí)（RL）智能體的發(fā)展，從最早的 AlphaGo、AlphaZero 到后來的多模態(tài)、多任務(wù)、多具身 AI 智能體 Gato，智能體的訓(xùn)練方法和能力都在不斷演進(jìn)。

從中不難發(fā)現(xiàn)，隨著大模型越來越成為人工智能發(fā)展的主流趨勢，DeepMind 在智能體的開發(fā)中不斷嘗試將強(qiáng)化學(xué)習(xí)與自然語言處理、計(jì)算機(jī)視覺領(lǐng)域融合，努力實(shí)現(xiàn)不同模態(tài)任務(wù)的統(tǒng)一。Gato 很好地說明了這一點(diǎn)。

近日，谷歌 DeepMind 在一篇新論文《Towards A Unified Agent with Foundation Models》中，探討了利用基礎(chǔ)模型打造統(tǒng)一的智能體。

一作 Norman Di Palo 為帝國理工學(xué)院機(jī)器學(xué)習(xí)博士生，在谷歌 DeepMind 實(shí)習(xí)期間（任職研究科學(xué)家）參與完成本論文。

論文地址：https://arxiv.org/pdf/2307.09668.pdf

何謂基礎(chǔ)模型（Foundation Models）呢？我們知道，近年來，深度學(xué)習(xí)取得了一系列令人矚目的成果，尤其在 NLP 和 CV 領(lǐng)域?qū)崿F(xiàn)突破。盡管模態(tài)不同，但具有共同的結(jié)構(gòu)，即大型神經(jīng)網(wǎng)絡(luò)，通常是 transformer，使用自監(jiān)督學(xué)習(xí)方法在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行訓(xùn)練。

雖然結(jié)構(gòu)簡單，但基于它們開發(fā)出了極其有效的大語言模型（LLM），能夠處理和生成具有出色類人能力的文本。同時(shí)，ViT 能夠在無監(jiān)督的情況下從圖像和視頻中提取有意義的表示，視覺語言模型（VLM）可以連接描述語言中視覺輸入或?qū)⒄Z言描述轉(zhuǎn)換為視覺輸出的數(shù)據(jù)模態(tài)。

這些模型的規(guī)模和能力使社區(qū)創(chuàng)造出了「基礎(chǔ)模型」一詞，這些模型可以用作涵蓋各種輸入模態(tài)的下游任務(wù)的支柱。

問題來了：我們能否利用（視覺）語言模型的性能和能力來設(shè)計(jì)更高效和通用的強(qiáng)化學(xué)習(xí)智能體呢？

在接受網(wǎng)絡(luò)規(guī)模的文本和視覺數(shù)據(jù)訓(xùn)練后，這些模型的常識(shí)推理、提出和排序子目標(biāo)、視覺理解和其他屬性也出現(xiàn)了。這些都是需要與環(huán)境交互并從環(huán)境中學(xué)習(xí)的智能體的基本特征，但可能需要花費(fèi)大量的時(shí)間才能從反復(fù)試錯(cuò)中顯現(xiàn)出來。而利用存儲(chǔ)在基礎(chǔ)模型中的知識(shí)，我們能夠極大地引導(dǎo)這一過程。

受到這一思路的啟發(fā)，谷歌 DeepMind 的研究者設(shè)計(jì)了一個(gè)全新的框架，該框架將語言置于強(qiáng)化學(xué)習(xí)機(jī)器人智能體的核心，尤其是在從頭開始學(xué)習(xí)的環(huán)境中。

圖 1：框架示意圖。

他們表示，這個(gè)利用了 LLM 和 VLM 的框架可以解決強(qiáng)化學(xué)習(xí)設(shè)置中的一系列基礎(chǔ)問題，具體如下：

1）高效探索稀疏獎(jiǎng)勵(lì)環(huán)境

2）重新使用收集的數(shù)據(jù)來有序引導(dǎo)新任務(wù)的學(xué)習(xí)

3）調(diào)度學(xué)得的技巧來解決新任務(wù)

4）從專家智能體的觀察中學(xué)習(xí)

在最近的工作中，這些任務(wù)需要不同的、專門設(shè)計(jì)的算法來單獨(dú)處理，而本文證明了利用基礎(chǔ)模型開發(fā)更統(tǒng)一方法的可能性。

此外，谷歌 DeepMind 將在 ICLR 2023 的 Reincarnating Reinforcement Learning Workshop 中展示該研究。

以語言為中心的智能體框架

該研究旨在通過分析基礎(chǔ)模型的使用，設(shè)計(jì)出更通用的 RL 機(jī)器人智能體，其中基礎(chǔ)模型在大量圖像和文本數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。該研究為 RL 智能體提出了一個(gè)新框架，利用 LLM 和 VLM 的出色能力使智能體能夠推理環(huán)境、任務(wù)，并完全根據(jù)語言采取行動(dòng)。

為此，智能體首先需要將視覺輸入映射到文本描述；然后該研究要用文本描述和任務(wù)描述 prompt LLM，以向智能體提供語言指令。最后，智能體需要將 LLM 的輸出轉(zhuǎn)化為行動(dòng)。

使用 VLM 連接視覺和語言

為了以語言形式描述從 RGB 相機(jī)獲取的視覺輸入，該研究使用了大型對(duì)比視覺語言模型 CLIP。

CLIP 由圖像編碼器和文本編碼器組成，在含有噪聲的大型圖像 - 文本描述對(duì)數(shù)據(jù)集上進(jìn)行訓(xùn)練。每個(gè)編碼器輸出一個(gè) 128 維的嵌入向量：圖像嵌入和匹配的文本描述會(huì)經(jīng)過優(yōu)化以具有較大的余弦相似度。為了從環(huán)境中生成圖像的語言描述，智能體會(huì)將觀察Ot提供給，并將可能的文本描述 ln提供給，如下圖 2 所示：

用 LLM 進(jìn)行推理

語言模型將語言形式的 prompt 作為輸入，并通過自回歸計(jì)算下一個(gè) token 的概率分布并從此分布中采樣來生成語言形式的輸出。該研究旨在讓 LLM 獲取表征任務(wù)的文本指令，并生成一組供機(jī)器人解決的子目標(biāo)。在模型方面，該研究使用 FLAN-T5，定性分析表明，F(xiàn)LAN-T5 的表現(xiàn)略好于未根據(jù)指令進(jìn)行微調(diào)的 LLM。

LLM 的 in-context 學(xué)習(xí)能力使該研究能夠直接使用它們，無需進(jìn)行域內(nèi)微調(diào)，并僅需要提供兩個(gè)任務(wù)指令和所需的語言輸出樣本來指導(dǎo) LLM 的行為。

將指令轉(zhuǎn)化為行動(dòng)

然后，使用語言條件策略網(wǎng)絡(luò)將 LLM 提供的語言目標(biāo)轉(zhuǎn)化為行動(dòng)。該參數(shù)化為 Transformer 的網(wǎng)絡(luò)將語言子目標(biāo)的嵌入和時(shí)間步 t 時(shí)的 MDP 狀態(tài)（包括物體和機(jī)器人終端執(zhí)行器的位置）作為輸入，每個(gè)輸入都用不同的向量表征，然后輸出機(jī)器人在時(shí)間步 t + 1 時(shí)要執(zhí)行的動(dòng)作。如下所述，該網(wǎng)絡(luò)是在 RL 循環(huán)中從頭開始訓(xùn)練的。

收集與推斷的學(xué)習(xí)范式

智能體從與環(huán)境的交互中學(xué)習(xí)，其方法受到收集與推理范式的啟發(fā)。

在「收集」階段，智能體與環(huán)境互動(dòng)，以狀態(tài)、觀察結(jié)果、行動(dòng)和當(dāng)前目標(biāo)（s_t, o_t, a_t, g_i）的形式收集數(shù)據(jù)，并通過其策略網(wǎng)絡(luò) f_θ(s_t, g_i) → a_t 預(yù)測行動(dòng)。每一集結(jié)束后，智能體都會(huì)使用 VLM 來推斷收集到的數(shù)據(jù)中是否出現(xiàn)了任何子目標(biāo)，從而獲得額外獎(jiǎng)勵(lì)，將在后面詳細(xì)說明。

在「推斷」階段，研究者會(huì)在每個(gè)智能體完成一集后，即每完成 N 集后，通過行為克隆對(duì)經(jīng)驗(yàn)緩沖區(qū)中的策略進(jìn)行訓(xùn)練，從而在成功的情節(jié)上實(shí)現(xiàn)一種自我模仿。然后，更新后的策略權(quán)重將與所有分布式智能體共享，整個(gè)過程重復(fù)進(jìn)行。

應(yīng)用與成果

將語言作為智能體的核心，這為解決 RL 中的一系列基本挑戰(zhàn)提供了一個(gè)統(tǒng)一的框架。在這部分內(nèi)容中，研究者討論了這些貢獻(xiàn)：探索、重用過去的經(jīng)驗(yàn)數(shù)據(jù)、調(diào)度和重用技能以及從觀察中學(xué)習(xí)。算法 1 描述了整體框架：

探索：通過語言生成課程

Stack X on Y 和 Triple Stack 的結(jié)果。在下圖 4 中，研究者所提出框架與僅通過環(huán)境獎(jiǎng)勵(lì)進(jìn)行學(xué)習(xí)的基線智能體進(jìn)行了比較。從學(xué)習(xí)曲線可以清楚地看到，在所有任務(wù)中，本文的方法都比基線方法高效得多。

值得注意的是，在 Triple Stack 任務(wù)中，本文智能體的學(xué)習(xí)曲線迅速增長，而基線智能體仍然只能獲得一個(gè)獎(jiǎng)勵(lì)，這是因?yàn)槿蝿?wù)的稀疏度為 10^6 。

這些結(jié)果說明了一些值得注意的問題：可以將任務(wù)的稀疏程度與達(dá)到一定成功率所需的步驟數(shù)進(jìn)行比較，如下圖 5 所示。研究者還在「抓取紅色物體」任務(wù)上訓(xùn)練了該方法，這是三個(gè)任務(wù)中最簡單的一個(gè)，其稀疏程度約為 10^1?？梢钥吹?，在本文的框架下，所需步驟數(shù)的增長速度比任務(wù)的稀疏程度更慢。這是一個(gè)特別重要的結(jié)果，因?yàn)橥ǔＴ趶?qiáng)化學(xué)習(xí)中，情況是正好相反的。

提取和轉(zhuǎn)移：通過重用離線數(shù)據(jù)進(jìn)行高效的連續(xù)任務(wù)學(xué)習(xí)

研究者利用基于語言的框架來展示基于智能體過去經(jīng)驗(yàn)的引導(dǎo)。他們依次訓(xùn)練了三個(gè)任務(wù)：將紅色物體堆疊在藍(lán)色物體上、將藍(lán)色物體堆疊在綠色物體上、將綠色物體堆疊在紅色物體上，將其稱之為 [T_R,B、T_B,G、T_G,R]。

順序任務(wù)學(xué)習(xí)的經(jīng)驗(yàn)重用結(jié)果。智能體應(yīng)用這種方法連續(xù)學(xué)習(xí)了 [T_R,B、T_B,G、T_G,R]。在每個(gè)新任務(wù)開始時(shí)，研究者都會(huì)重新初始化策略權(quán)重，目標(biāo)是探索本文框架提取和重用數(shù)據(jù)的能力，因此要隔離并消除可能由網(wǎng)絡(luò)泛化造成的影響。

下圖 7 中繪制了智能體需要在環(huán)境中采取多少交互步驟才能在每個(gè)新任務(wù)中達(dá)到 50% 的成功率。實(shí)驗(yàn)清楚地說明了本文使用技術(shù)在重復(fù)利用以前任務(wù)收集的數(shù)據(jù)方面的有效性，從而提高了新任務(wù)的學(xué)習(xí)效率。

這些結(jié)果表明，本文提出的框架可用于釋放機(jī)器人智能體的終身學(xué)習(xí)能力：連續(xù)學(xué)習(xí)的任務(wù)越多，學(xué)習(xí)下一個(gè)任務(wù)的速度就越快。

調(diào)度和重復(fù)使用所學(xué)技能

至此，我們已經(jīng)了解到框架如何使智能體能夠高效地探索和學(xué)習(xí)，以解決回報(bào)稀少的任務(wù)，并為終身學(xué)習(xí)重復(fù)使用和傳輸數(shù)據(jù)。此外，框架還能讓智能體調(diào)度和重復(fù)使用所學(xué)到的 M 技能來解決新任務(wù)，而不局限于智能體在訓(xùn)練過程中遇到的任務(wù)。

這種模式與前幾節(jié)中遇到的步驟相同：一條指令會(huì)被輸入到 LLM，如將綠色物體疊放在紅色物體上，或?qū)⒓t色疊放在藍(lán)色物體上，再將綠色疊放在紅色物體上，然后 LLM 會(huì)將其分解為一系列更短視距的目標(biāo)，即 g_0:N。然后，智能體可以利用策略網(wǎng)絡(luò)將這些目標(biāo)轉(zhuǎn)化為行動(dòng)，即 f_θ(s_t, g_n) → a_t。

從觀察中學(xué)習(xí)：將視頻映射到技能

通過觀察外部智能體學(xué)習(xí)是一般智能體的理想能力，但這往往需要專門設(shè)計(jì)的算法和模型。而本文智能體可以以專家執(zhí)行任務(wù)的視頻為條件，實(shí)現(xiàn) one-shot 觀察學(xué)習(xí)。

在測試中，智能體拍攝了一段人類用手堆疊物體的視頻。視頻被分為 F 個(gè)幀，即 v_0:F。然后，智能體使用 VLM，再配上以子目標(biāo) g_0:M 表示的關(guān)于所學(xué)技能的 M 文本描述來檢測專家軌跡遇到了哪些子目標(biāo)，具體如下圖 8：

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)查閱原論文。

原文標(biāo)題：語言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

文章出處：【微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2909

文章
44557

瀏覽量
372760

原文標(biāo)題：語言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

螞蟻集團(tuán)收購邊塞科技，吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

領(lǐng)域的研究與發(fā)展。令人矚目的是，邊塞科技的創(chuàng)始人吳翼已正式加入該實(shí)驗(yàn)室，并擔(dān)任首席科學(xué)家一職。吳翼在其個(gè)人社交平臺(tái)上對(duì)這一變動(dòng)進(jìn)行了回應(yīng)。他表示，自己最近接受了螞蟻集團(tuán)的邀請(qǐng)，負(fù)責(zé)大模型強(qiáng)化

發(fā)表于 11-22 11:14 ?561次閱讀

【書籍評(píng)測活動(dòng)NO.51】具身智能機(jī)器人系統(tǒng) | 了解AI的下一個(gè)浪潮！

的。這種理論強(qiáng)調(diào)，智能行為源于智能體的物理存在和行為能力，智能體必須具備感知環(huán)境并在其中執(zhí)行任務(wù)的能力。具身

發(fā)表于 11-11 10:20

如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

的計(jì)算圖和自動(dòng)微分功能，非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境（Environment）在強(qiáng)化學(xué)習(xí)中，環(huán)境是一個(gè)抽象的概念，它定義了智能體

發(fā)表于 11-05 17:34 ?280次閱讀

AI大模型與深度學(xué)習(xí)的關(guān)系

AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系，它們互為促進(jìn)，相輔相成。以下是對(duì)兩者關(guān)系的介紹：一、深度學(xué)習(xí)是

發(fā)表于 10-23 15:25 ?648次閱讀

言犀智能體平臺(tái)上線了！趕緊來試試！連接大模型與企業(yè)應(yīng)用的“最后一公里”

言犀智能體平臺(tái)是企業(yè)級(jí)一站式 AI 智能體搭建與發(fā)布平臺(tái)。聚合大

發(fā)表于 08-07 14:47 ?248次閱讀

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

和判斷以確定最終答案。這一過程可能涉及對(duì)多個(gè)候選答案的比較、評(píng)估和選擇。最終，模型會(huì)生成一段符合語言規(guī)范和邏輯結(jié)構(gòu)的文本作為問題的答案。應(yīng)

發(fā)表于 08-02 11:03

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇，對(duì)于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀，但對(duì)于我還是有許多的知識(shí)點(diǎn)

發(fā)表于 07-25 14:33

Python在AI中的應(yīng)用實(shí)例

Python在人工智能（AI）領(lǐng)域的應(yīng)用極為廣泛且深入，從基礎(chǔ)的數(shù)據(jù)處理、模型訓(xùn)練到高級(jí)的應(yīng)用部署，Python都扮演著至關(guān)重要的角色。以下將詳細(xì)探討Python在AI中的幾個(gè)關(guān)鍵應(yīng)用

發(fā)表于 07-19 17:16 ?1057次閱讀

大模型應(yīng)用之路：從提示詞到通用人工智能（AGI）

鋪平道路。基于AI大模型的推理功能，結(jié)合了RAG（檢索增強(qiáng)生成）、智能體（Agent）、知識(shí)庫、向量數(shù)據(jù)庫、知識(shí)圖譜等先進(jìn)技術(shù)，我們向?qū)崿F(xiàn)真正的AGI（

發(fā)表于 06-14 10:20 ?2178次閱讀

通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中，我們將介紹并實(shí)現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí)

發(fā)表于 06-05 08:27 ?346次閱讀

大模型不夠用，還有“AI智能體”？

前不久，在一場活動(dòng)中有人工智能專家圍繞“AI智能體”的話題展開了討論，他們表示，AI

發(fā)表于 05-12 08:04 ?344次閱讀

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

大語言模型的核心特點(diǎn)在于其龐大的參數(shù)量，這賦予了模型強(qiáng)大的學(xué)習(xí)容量，使其無需依賴微調(diào)即可適應(yīng)各種下游任務(wù)，而更傾向于培養(yǎng)通用的處理能力。然而

發(fā)表于 05-07 17:10

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

學(xué)習(xí)能力。這些模型以生成能力強(qiáng)和靈活性強(qiáng)為特點(diǎn)，逐漸演變成一種通用計(jì)算平臺(tái)。其參數(shù)多樣性、生成能力和涌現(xiàn)性使其不僅在自然語言處理領(lǐng)域表現(xiàn)出色

發(fā)表于 05-04 23:55

谷歌DeepMind推出SIMI通用AI智能體

近日，谷歌的DeepMind團(tuán)隊(duì)發(fā)布了其最新研究成果——SIMI（Scalable Instructable Multiworld Agent），這是一個(gè)通用人工智能智能

發(fā)表于 03-18 11:39 ?952次閱讀

名單公布！【書籍評(píng)測活動(dòng)NO.30】大規(guī)模語言模型：從理論到實(shí)踐

一階段訓(xùn)練的獎(jiǎng)勵(lì)模型，對(duì)有監(jiān)督微調(diào)模型對(duì)用戶提示詞補(bǔ)全結(jié)果的質(zhì)量進(jìn)行評(píng)估，與語言模型建模目標(biāo)綜合得到更好的效果。這

發(fā)表于 03-11 15:16

RM新时代网站-首页

搜索歷史

語言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

評(píng)論

螞蟻集團(tuán)收購邊塞科技，吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

【書籍評(píng)測活動(dòng)NO.51】具身智能機(jī)器人系統(tǒng) | 了解AI的下一個(gè)浪潮！

如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

AI大模型與深度學(xué)習(xí)的關(guān)系

言犀智能體平臺(tái)上線了！趕緊來試試！連接大模型與企業(yè)應(yīng)用的“最后一公里”

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

Python在AI中的應(yīng)用實(shí)例

大模型應(yīng)用之路：從提示詞到通用人工智能（AGI）

通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

大模型不夠用，還有“AI智能體”？

【大語言模型：原理與工程實(shí)踐】大語言模型的預(yù)訓(xùn)練

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

谷歌DeepMind推出SIMI通用AI智能體

名單公布！【書籍評(píng)測活動(dòng)NO.30】大規(guī)模語言模型：從理論到實(shí)踐

搜索歷史

語言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

評(píng)論

語言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路