NLP還能做什么?北航、ETH、港科大、中科院等多機構(gòu)聯(lián)合發(fā)布百頁論文,系統(tǒng)闡述后ChatGPT技術(shù)鏈 焦點滾動
機器之心編輯部
一切都要從 ChatGPT 的橫空出世說起......
(相關(guān)資料圖)
曾經(jīng)一片祥和的 NLP 社區(qū),被這個突如其來的 “怪物” 嚇到了!一夜之間,整個 NLP 圈發(fā)生了巨大的變化,工業(yè)界迅速跟進,資本 “狂飆”,開始了復(fù)刻 ChatGPT 之路;學(xué)術(shù)界突然陷入了一片迷茫的狀態(tài)......大家慢慢開始相信 “NLP is solved!”
然而,從最近依然活躍的 NLP 學(xué)術(shù)圈和層出不窮的優(yōu)秀工作來看,事實并非如此,甚至可以說 “NLP just got real!”
這幾個月,北航、Mila、香港科技大學(xué)、蘇黎世聯(lián)邦理工學(xué)院(ETH)、滑鐵盧大學(xué)、達特茅斯學(xué)院、謝菲爾德大學(xué)、中科院等多家機構(gòu),經(jīng)過系統(tǒng)、全面的調(diào)研之后,打磨出一篇 110 頁的論文,系統(tǒng)闡述了后 ChatGPT 時代的技術(shù)鏈:交互。
論文地址:/abs/
項目資源:/InteractiveNLP-Team
對工業(yè)界:如果大模型有事實性、時效性等難以解決的問題,那 ChatGPT+X 能否解決呢?甚至就像 ChatGPT Plugins 那樣,讓它和工具交互幫我們一步到位訂票、訂餐、畫圖!也就是說,我們可以通過一些系統(tǒng)化的技術(shù)框架緩解當(dāng)下大模型的一些局限。
對學(xué)術(shù)界:什么是真正的 AGI?其實早在 2020 年,深度學(xué)習(xí)三巨頭、圖靈獎獲得者 Yoshua Bengio 就描繪了交互型語言模型的藍圖 [1]:一個可以和環(huán)境交互,甚至可以和其他智能體進行社會交互的語言模型,才能有最為全面的語言語義表示。在某種程度上,與環(huán)境、與人的交互造就了人類智慧。
因此,讓語言模型(LM)與外部實體以及自我進行交互,不僅僅可以幫助彌合大模型的固有缺陷,還可能是通往 AGI 的終極理想的一個重要的里程碑!
什么是交互?
其實 “交互” 的概念并不是作者們臆想的。自從 ChatGPT 問世之后,誕生了很多關(guān)于 NLP 界新問題的論文,比如:
Tool Learning with Foundation Models 闡述了讓語言模型使用工具進行推理或者執(zhí)行現(xiàn)實操作 [2];
Foundation Models for Decision Making: Problems, Methods, and Opportunities 闡述了如何使用語言模型執(zhí)行決策任務(wù) (decision making)[3];
ChatGPT for Robotics: Design Principles and Model Abilities 闡述了如何使用 ChatGPT 賦能機器人 [4];
Augmented Language Models: a Survey 闡述了如何使用思維鏈 (Chain of Thought)、工具使用(Tool-use)等增強語言模型,并指出了語言模型使用工具可以給外部世界產(chǎn)生實際的影響(即 act)[5];
Sparks of Artificial General Intelligence: Early experiments with GPT-4 闡述了如何使用 GPT-4 執(zhí)行各種類型的任務(wù),其中包括了與人、環(huán)境、工具等交互的案例 [6]。
可見,NLP 學(xué)界的關(guān)注點,逐漸從 “怎么打造模型”,過渡到了 “怎么打造框架”,也就是將更多的實體納入到語言模型訓(xùn)練、推理的過程當(dāng)中。最為典型的例子就是大家所熟知的 Reinforcement Learning from Human Feedback (RLHF), 基本原理就是讓語言模型從與人的交互(反饋)中進行學(xué)習(xí) [7],這一思想成為了 ChatGPT 畫龍點睛的一筆。
因此可以說,“交互” 這個特性,是 ChatGPT 之后,NLP 最為主流的技術(shù)發(fā)展路徑之一!作者們的論文首次定義并系統(tǒng)解構(gòu)了 “交互式 NLP”,并主要基于交互對象的維度,盡可能全面地討論了各種技術(shù)方案的優(yōu)劣以及應(yīng)用上的考慮,包括:
LM 與人類交互,以更好地理解和滿足用戶需求,個性化回應(yīng),與人類價值觀對齊 (alignment),并改善整體用戶體驗;
LM 與知識庫交互,以豐富語言表達的事實知識,增強回應(yīng)的知識背景相關(guān)性,并動態(tài)利用外部信息生成更準(zhǔn)確的回應(yīng);
LM 與模型和工具交互,以有效分解和解決復(fù)雜推理任務(wù),利用特定知識處理特定子任務(wù),并促進智能體社會行為的涌現(xiàn);
LM 與環(huán)境交互,以學(xué)習(xí)基于語言的實體表征(language grounding),并有效地處理類似推理、規(guī)劃和決策等與環(huán)境觀察相關(guān)的具身任務(wù)(embodied tasks)。
因此,在交互的框架下,語言模型不再是語言模型本身,而是一個可以 “看”(observe)、可以 “動作”(act)、可以 “獲取反饋”(feedback) 的基于語言的智能體。
與某個對象進行交互,作者們稱之為 “XXX-in-the-loop”, 表示這個對象參與了語言模型訓(xùn)練或者推理的過程,并且是以一種級聯(lián)、循環(huán)、反饋、或者迭代的形式參與其中的。
與人交互
讓語言模型與人交互可以分為三種方式:
使用提示進行交流
使用反饋進行學(xué)習(xí)
使用配置進行調(diào)節(jié)
另外,為了保證可規(guī)模化的部署,往往采用模型或者程序模擬人類的行為或者偏好,即從人類模擬中學(xué)習(xí)。
總的來說,與人交互要解決的核心問題是對齊問題 (alignment), 也就是如何讓語言模型的響應(yīng)更加符合用戶的需要,更加有幫助、無害且有理有據(jù),能讓用戶有更好的使用體驗等。
“使用提示進行交流” 主要著重于交互的實時性和持續(xù)性,也就是強調(diào)連續(xù)性質(zhì)的多輪對話。這一點和 Conversational AI [8] 的思想是一脈相承的。也就是,通過多輪對話的方式,讓用戶連續(xù)地問下去,讓語言模型的響應(yīng)在對話中慢慢地對齊于用戶偏好。這種方式通常在交互中不需要模型參數(shù)的調(diào)整。
“使用反饋進行學(xué)習(xí)” 是當(dāng)前進行 alignment 的主要方式,也就是讓用戶給語言模型的響應(yīng)一個反饋,這種反饋可以是描述偏好的 “好 / 壞” 的標(biāo)注,也可以是自然語言形式的更為詳細(xì)的反饋。模型需要被訓(xùn)練,以讓這些反饋盡可能地高。比較典型的例子就是 InstructGPT 所使用的 RLHF [7],首先使用用戶標(biāo)注的對模型響應(yīng)的偏好反饋數(shù)據(jù)訓(xùn)練獎勵模型,然后使用這個獎勵模型以某種 RL 算法訓(xùn)練語言模型以最大化獎勵(如下圖)。
Training language models to follow instructions with human feedback [7]
“使用配置進行調(diào)節(jié)” 是一種比較特殊的交互方式,允許用戶直接調(diào)整語言模型的超參數(shù)(比如 temperature)、或者語言模型的級聯(lián)方式等。典型的例子比如谷歌的 AI Chains [9], 帶有不同預(yù)設(shè) prompt 的語言模型互相連接構(gòu)成了一個用于處理流程化任務(wù)的推理鏈條,用戶可以通過一個 UI 拖拽調(diào)整這個鏈條的節(jié)點連接方式。
“從人類模擬中學(xué)習(xí)” 可以促進上述三種方式的規(guī)?;渴?,因為尤其在訓(xùn)練過程,使用真實的用戶是不現(xiàn)實的。比如 RLHF 通常需要使用一個 reward model 來模擬用戶的偏好。另一個例子是微軟研究院的 ITG [10], 通過一個 oracle model 來模擬用戶的編輯行為。
最近,斯坦福 Percy Liang 教授等人構(gòu)建了一個非常系統(tǒng)化的 Human-LM 交互的評測方案:Evaluating Human-Language Model Interaction [11], 感興趣的讀者可以參考本論文或者原文。
與知識庫交互
語言模型與知識庫交互存在三個步驟:
確定補充知識的來源:Knowledge Source
檢索知識:Knowledge Retrieval
使用知識進行增強:詳細(xì)請參閱本論文 Interaction Message Fusion 部分,這里不多做介紹。
總的來說,與知識庫進行交互可以減輕語言模型的 “幻覺” 現(xiàn)象 (hallucination), 即提升其輸出的事實性、準(zhǔn)確性等,還能幫助改善語言模型的時效性問題,幫助補充語言模型的知識能力(如下圖)等。
MineDojo [16]:當(dāng)一個語言模型智能體遇到不會的任務(wù),可以從知識庫中查找學(xué)習(xí)資料,然后在資料的幫助下,完成這個任務(wù)。
“Knowledge Source” 分為兩種,一種是封閉的語料知識 (Corpus Knowledge), 如 WikiText 等 [15];另一種是開放的網(wǎng)絡(luò)知識 (Internet Knowledge), 比如使用搜索引擎可以得到的知識 [14]。
“Knowledge Retrieval” 分為四種方式:
基于語言的稀疏表示以及 lexical matching 的稀疏檢索 (sparse retrieval):如 n-gram 匹配,BM25 等。
基于語言的稠密表示以及 semantic matching 的稠密檢索 (dense retrieval):如使用單塔或者雙塔模型作為檢索器等。
基于生成式檢索器:屬于比較新的方式,代表工作是谷歌 Tay Yi 等人的 Differentiable Search Index [12], 將知識都保存在語言模型的參數(shù)當(dāng)中,給一個 query 后,直接輸出對應(yīng)知識的 doc id 或者 doc content. 因為語言模型,就是知識庫 [13]!
基于強化學(xué)習(xí):也是比較前沿的方式,代表工作比如 OpenAI 的 WebGPT [14],使用 human feedback 訓(xùn)練模型,以進行正確知識的檢索。
與模型或者工具交互
語言模型與模型或者工具交互,主要的目的是進行復(fù)雜任務(wù)的分解,比如將復(fù)雜的推理任務(wù)分解為若干子任務(wù),這也是 Chain of Thought [17] 的核心思想。不同的子任務(wù)可以使用具有不同能力的模型或者工具解決,比如計算任務(wù)可以使用計算器解決,檢索任務(wù)可以使用檢索模型解決。因此,這種類型的交互不僅可以提升語言模型的推理 (reasoning)、規(guī)劃 (planning)、決策 (decision making) 能力,還能減輕語言模型的 “幻覺” (hallucination)、不準(zhǔn)確輸出等局限。特別地,當(dāng)使用工具執(zhí)行某種特定的子任務(wù)時,可能會對外部世界產(chǎn)生一定影響,比如使用 WeChat API 發(fā)了一條朋友圈等,稱為 “面向工具的學(xué)習(xí)”(Tool-Oriented Learning) [2].
另外,有時候顯式地分解一個復(fù)雜的任務(wù)是很困難的,這種時候,可以為不同的語言模型賦予不同的角色或者技能,然后讓這些語言模型在互相協(xié)作、溝通的過程當(dāng)中,隱式、自動地形成某種分工方案 (division of labor),進行任務(wù)的分解。這種類型的交互不僅僅可以簡化復(fù)雜任務(wù)的解決流程,還可以對人類社會進行模擬,構(gòu)造某種形式的智能體社會。
作者們將模型和工具放在一起,主要是因為模型和工具不一定是分開的兩個范疇,比如一個搜索引擎工具和一個 retriever model 并沒有本質(zhì)的不同。這種本質(zhì),作者們使用 “任務(wù)分解后,怎樣的子任務(wù)由怎樣的對象來承擔(dān)” 進行界定。
語言模型與模型或者工具交互時,有三種類型的操作:
Thinking: 模型與自己本身進行交互,進行任務(wù)的分解以及推理等;
Acting:模型調(diào)用其他的模型,或者外部工具等,幫助進行推理,或者對外部世界產(chǎn)生實際作用;
Collaborating: 多個語言模型智能體互相溝通、協(xié)作,完成特定的任務(wù),或者模擬人類的社會行為。
注意:Thinking 主要論及的是 “多階段思維鏈” (Multi-Stage Chain-of-Thought),即:不同的推理步驟,對應(yīng)著語言模型不同的調(diào)用 (multiple model run),而不是像 Vanilla CoT [17] 那樣,跑一次模型同時輸出 thought+answer (single model run).
這里部分承襲的是 ReAct [18] 的表述方式。
Thinking 的典型工作包括了 ReAct [18], Least-to-Most Prompting [19], Self-Ask [20] 等。例如,Least-to-Most Prompting [19] 首先將一個復(fù)雜問題分解為若干簡單的模塊子問題,然后迭代式地調(diào)用語言模型逐個擊破。
Acting 的典型工作包括了 ReAct [18], HuggingGPT [21], Toolformer [22] 等。例如,Toolformer [22] 將語言模型的預(yù)訓(xùn)練語料處理成了帶有 tool-use prompt 的形式,因此,經(jīng)過訓(xùn)練后的語言模型,可以在生成文本的時候,自動地在正確的時機調(diào)用正確的外部工具(如搜索引擎、翻譯工具、時間工具、計算器等)解決特定的子問題。
Collaborating 主要包括:
閉環(huán)交互:比如 Socratic Models [23] 等,通過大型語言模型、視覺語言模型、音頻語言模型的閉環(huán)交互,完成特定于視覺環(huán)境的某些復(fù)雜 QA 任務(wù)。
心智理論 (Theory of Mind): 旨在讓一個智能體能夠理解并預(yù)測另一個智能體的狀態(tài),以促進彼此的高效交互。例如 EMNLP 2021 的 Outstanding Paper, MindCraft [24], 給兩個不同的語言模型賦予了不同但互補的技能,讓他們在交流的過程中協(xié)作完成 MineCraft 世界中的特定任務(wù)。著名教授 Graham Neubig 最近也非常關(guān)注這一條研究方向,如 [25].
溝通式代理 (Communicative Agents): 旨在讓多個智能體能夠進行彼此交流協(xié)作。最為典型的例子就是斯坦福大學(xué)最近震驚世界的 Generative Agents [26]:搭建一個沙盒環(huán)境,讓好多個由大模型注入 “靈魂” 的智能體在其中自由活動,它們竟然可以自發(fā)地呈現(xiàn)一些類人的社會行為,比如聊天打招呼等,頗有一種 “西部世界” 的味道(如下圖)。除此之外,比較出名的工作還有 DeepGCN 作者的新工作 CAMEL [27],讓兩個大模型賦能的智能體在彼此溝通的過程當(dāng)中開發(fā)游戲,甚至炒股,而不需要人類的過多干預(yù)。作者在文章中明確提出了 “大模型社會” (LLM Society) 的概念。
Generative Agents: Interactive Simulacra of Human Behavior, /pdf/
與環(huán)境交互
語言模型和環(huán)境屬于兩個不同的象限:語言模型建立在抽象的文字符號之上,擅長 high-level 的推理、規(guī)劃、決策等任務(wù);而環(huán)境建立在具體的感知信號之上(如視覺信息、聽覺信息等),模擬或者自然發(fā)生一些 low-level 的任務(wù),如提供觀察 (observation)、反饋 (feedback)、狀態(tài)更新 (state transition) 等(如:現(xiàn)實世界中一個蘋果落到了地上,模擬引擎中一個 “苦力怕” 出現(xiàn)在了你的面前)。
因此,要讓語言模型能夠有效且高效地與環(huán)境進行交互,主要包括了兩個方面的努力:
Modality Grounding: 讓語言模型可以處理圖像、音頻等多模態(tài)信息;
Affordance Grounding: 讓語言模型在環(huán)境具體場景的尺度下對可能的、恰當(dāng)?shù)膶ο髨?zhí)行可能的、恰當(dāng)?shù)膭幼鳌?/p>
對于 Modality Grounding 最為典型的就是視覺 - 語言模型。一般而言可以使用單塔模型如 OFA [28], 雙塔模型如 BridgeTower [29], 或者語言模型與視覺模型的交互如 BLIP-2 [30] 來進行。這里不再多說,讀者可以詳看本論文。
對于 Affordance Grounding 主要有兩個考慮,即:如何在給定任務(wù)的條件下進行 (1) 場景尺度的感知 (scene-scale perception), 以及 (2) 可能的動作 (possible action)。舉個例子:
比如上圖的場景,給定任務(wù) “請關(guān)閉客廳里面的燈”,“場景尺度的感知” 要求我們找到全部紅色框選的燈,而不要選中不在客廳而在廚房的綠色圈選的燈,“可能的動作” 要求我們確定可行的關(guān)燈方式,比如拉線燈需要使用 “拉” 的動作,而開關(guān)燈需要使用 “撥動開關(guān)” 的動作。
通常而言,Affordance Grounding 可以使用一個依附于環(huán)境的價值函數(shù)解決,如 SayCan [31] 等,也可以使用一個專門的 grounding model 如 Grounded Decoding [32] 等。甚至也可以通過與人、與模型、與工具等的交互來解決(如下圖)。
Inner Monologue [33]
用什么交互:交互接口
在論文 Interaction Interface 章節(jié),作者們系統(tǒng)地討論了不同交互語言、交互媒介的用法和優(yōu)劣,包括:
自然語言:如 few-shot example, task instruction, role assignment 甚至結(jié)構(gòu)化的自然語言等。主要討論了其在泛化性、表達性上的特點及作用等。
形式語言:如代碼、語法、數(shù)學(xué)公式等。主要討論了其在可解析性、推理能力上的特點及作用等。
機器語言:如 soft prompts, 離散化的視覺 token 等。主要討論了其在泛化性、信息瓶頸理論、交互效率上的特點及作用等。
編輯:主要包括了對文本進行的刪除、插入、替換、保留等操作。討論了它的原理、歷史、優(yōu)勢以及目前存在的局限。
共享記憶:主要包括了 hard memory 和 soft memory. 前者將歷史狀態(tài)記錄在一個 log 里面作為記憶,后者使用一個可讀可寫的記憶外置模塊保存張量。論文討論了兩者的特點、作用以及存在的局限等。
怎么交互:交互方法
論文還全面、詳細(xì)、系統(tǒng)地討論了各種各樣的交互方法,主要包括:
Prompting: 不調(diào)整模型參數(shù),僅僅通過 prompt engineering 的方式調(diào)用語言模型,涵蓋了上下文學(xué)習(xí)(In-Context Learning)、思維鏈提示 (Chain of Thought)、工具使用提示 (Tool-use)、級聯(lián)推理鏈 (Prompt Chaining) 等多種方法,詳細(xì)討論了各種 Prompting 技巧的原理、作用、各種 trick 和局限等,比如在可控性和魯棒性上的考慮等。
Fine-Tuning: 進行模型參數(shù)的調(diào)整,以讓模型從交互信息中進行學(xué)習(xí)更新。本節(jié)涵蓋了監(jiān)督指令精調(diào) (Supervised Instruction Tuning)、參數(shù)高效精調(diào) (Parameter-Efficient Fine-Tuning)、持續(xù)學(xué)習(xí) (Continual Learning)、半監(jiān)督學(xué)習(xí) (Semi-Supervised Fine-Tuning) 等方法。詳細(xì)討論了這些方法的原理、作用、優(yōu)勢、在具體使用時的考慮、及其局限。其中還包括了部分 Knowledge Editing 的內(nèi)容(即編輯模型內(nèi)部的知識)。
Active Learning: 交互式的主動學(xué)習(xí)算法框架。
Reinforcement Learning: 交互式的強化學(xué)習(xí)算法框架,討論了在線強化學(xué)習(xí)框架、離線強化學(xué)習(xí)框架、從人類反饋中學(xué)習(xí)(RLHF)、從環(huán)境反饋中學(xué)習(xí)(RLEF)、從 AI 反饋中學(xué)習(xí) (RLAIF) 等多種方法。
Imitation Learning: 交互式的模仿學(xué)習(xí)算法框架,討論了在線模仿學(xué)習(xí)、離線模仿學(xué)習(xí)等。
Interaction Message Fusion: 為上述所有交互方法提供了一個統(tǒng)一的框架,同時在這個框架中,向外擴展,討論了不同的知識、信息融合方案,比如跨注意力融合方案 (cross-attention)、約束解碼融合方案 (constrained decoding) 等。
其他討論
囿于篇幅,本文不詳細(xì)介紹其他方面的討論,如評測、應(yīng)用、倫理、安全以及未來發(fā)展方向等。但是這些內(nèi)容在該論文原文中,仍然占據(jù)了 15 頁的內(nèi)容,因此推薦讀者在原文中查看更多細(xì)節(jié),以下為這些內(nèi)容的大綱:
對交互的評測
論文中對評測的討論主要涉及以下關(guān)鍵詞:
交互式 NLP 的主要應(yīng)用
可控文本生成 (Controllable Text Generation)
與人交互:RLHF 的思想鋼印現(xiàn)象等
與知識交互:Knowledge-Aware Fine-Tuning [34] 等
與模型、工具交互:Classifier-Guided CTG 等
與環(huán)境交互:affordance grounding 等
交互式寫作助手 (Writing Assistant)
Content Support: 內(nèi)容支持型
Content Checking and Polishing:內(nèi)容檢查、潤色型
Content Enrichment:內(nèi)容豐富型
Content Co-creation:內(nèi)容創(chuàng)作型
具身智能 (Embodied AI)
Observation and Manipulation: 基礎(chǔ)
Navigation and Exploration: 進階 (., long-horizon embodied tasks)
Multi-Role Tasks: 高級
游戲 (Text Game)
包含文本的交互式游戲平臺:Interactive Text Game Platforms
交互型語言模型如何玩轉(zhuǎn)僅文本類型的游戲:Playing Text-Only Games
交互型語言模型如何賦能包含文本媒介的游戲:Powering Text-Aided Games
其他應(yīng)用
領(lǐng)域、任務(wù)專門化(Specialization):比如如何基于交互打造特定于金融領(lǐng)域、醫(yī)學(xué)領(lǐng)域等的語言模型框架。
個性化與人格化 (Personalization & Personality):比如如何基于交互打造特定于用戶個人的、或者帶有特定人格的語言模型。
基于模型的評測(Model-based Evaluation)
倫理與安全
討論了交互型語言模型在教育上的影響,還針對社會偏見、隱私等倫理安全問題進行了討論。
未來發(fā)展方向與挑戰(zhàn)
Alignment:語言模型的對齊問題,如何讓模型的輸出更加無害、更加符合人類價值觀、更加有理有據(jù)等。
Social Embodiment:語言模型的 Grounding 問題,如何進一步推動語言模型具身化和社會化。
Plasticity:語言模型的可塑性問題,如何保證模型知識的持續(xù)更新,且不會在更新的過程中遺忘先前獲得的知識。
Speed & Efficiency:語言模型的推理速度、訓(xùn)練效率等問題,如何在不影響性能的情況下,加速推理,以及加速訓(xùn)練的效率。
Context Length:語言模型的上下文窗口大小限制。如何擴充上下文的窗口大小,使其能夠處理更長的文本。
Long Text Generation:語言模型的長文本生成問題。如何讓語言模型在極長文本的生成場景下,也能保持優(yōu)良的性能。
Accessibility:語言模型的可用性問題。如何讓語言模型從閉源到開源,如何在不過度損失性能的前提下,讓語言模型能夠部署在邊緣設(shè)備如車載系統(tǒng)、筆記本上等。
Analysis:語言模型的分析、可解釋性等問題。比如如何預(yù)測模型 scaling up 之后的性能,以指導(dǎo)大模型的研發(fā),如何解釋大模型內(nèi)部的機理等。
Creativity:語言模型的創(chuàng)造性問題。如何讓語言模型更加具有創(chuàng)造性,能夠更好地使用比喻、隱喻等,能夠創(chuàng)造出新的知識等。
Evaluation:如何更好地針對通用大模型進行評測,如何評測語言模型在交互上的特性等。
參考文獻
Grounds Language, /abs/
Learning with Foundation Models
Models for Decision Making: Problems, Methods, and Opportunities
for Robotics: Design Principles and Model Abilities
Language Models: a Survey
of Artificial General Intelligence: Early experiments with GPT-4
language models to follow instructions with human feedback, /abs/
AI, /
Chains: Transparent and Controllable Human-AI Interaction by Chaining Large Language Model Prompts, /abs/
Text Generation
Human-Language Model Interaction
Memory as a Differentiable Search Index, /abs/
Models as Knowledge Bases?, /abs/
: Browser-assisted question-answering with human feedback, /abs/
:Few-shot Learning withRetrieval Augmented Language Models, /pdf/
:Building Open-EndedEmbodied Agents with Internet-Scale Knowledge, /pdf/
Prompting Elicits Reasoning in Large Language Models, /abs/
: Synergizing Reasoning and Acting Inlanguage Models, /abs/
Prompting Enables complex reasoning in Large Language Models, /pdf/
and Narrowingthe Compositionality Gap in Language Models, /
, /abs/
: Language Models Can Teach Themselves to Use Tools, /abs/
Models, /pdf/
: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks, -/
Language Acquisition with Theory of Mind, /forum?id=C2ulri4duIs
Agents: Interactive Simulacra of Human Behavior, /pdf/
: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society, /
: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework, /abs/
: Building Bridges Between Encoders in Vision-Language Representation Learning, /abs/
: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, /pdf/
As I Can,Not As I Say:Grounding Language in Robotic Affordances, /
Decoding: Guiding Text Generation with Grounded Models for Robot Control, /
Monologue:Embodied Reasoning through Planning with Language Models, /
Large Language Models with Controllable Working Memory, /abs/
?THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@
關(guān)鍵詞:
相關(guān)閱讀
最近更新
- 06-22
- 06-22
- 06-22