您的位置：首頁 > 熱點 > 正文

NLP還能做什么？北航、ETH、港科大、中科院等多機構(gòu)聯(lián)合發(fā)布百頁論文，系統(tǒng)闡述后ChatGPT技術(shù)鏈焦點滾動

來源：機器之心時間：2023-06-22 14:40:25

機器之心專欄

機器之心編輯部

一切都要從 ChatGPT 的橫空出世說起......

(相關(guān)資料圖)

曾經(jīng)一片祥和的 NLP 社區(qū)，被這個突如其來的 “怪物” 嚇到了！一夜之間，整個 NLP 圈發(fā)生了巨大的變化，工業(yè)界迅速跟進，資本 “狂飆”，開始了復(fù)刻 ChatGPT 之路；學(xué)術(shù)界突然陷入了一片迷茫的狀態(tài)......大家慢慢開始相信 “NLP is solved!”

然而，從最近依然活躍的 NLP 學(xué)術(shù)圈和層出不窮的優(yōu)秀工作來看，事實并非如此，甚至可以說 “NLP just got real!”

這幾個月，北航、Mila、香港科技大學(xué)、蘇黎世聯(lián)邦理工學(xué)院（ETH）、滑鐵盧大學(xué)、達特茅斯學(xué)院、謝菲爾德大學(xué)、中科院等多家機構(gòu)，經(jīng)過系統(tǒng)、全面的調(diào)研之后，打磨出一篇 110 頁的論文，系統(tǒng)闡述了后 ChatGPT 時代的技術(shù)鏈：交互。

論文地址：/abs/

項目資源：/InteractiveNLP-Team

與傳統(tǒng)的 “人在環(huán)路（HITL）”、“寫作助手” 等類型的交互不同，本文所討論的交互，有著更高、更全面的視角：

對工業(yè)界：如果大模型有事實性、時效性等難以解決的問題，那 ChatGPT+X 能否解決呢？甚至就像 ChatGPT Plugins 那樣，讓它和工具交互幫我們一步到位訂票、訂餐、畫圖！也就是說，我們可以通過一些系統(tǒng)化的技術(shù)框架緩解當(dāng)下大模型的一些局限。

對學(xué)術(shù)界：什么是真正的 AGI？其實早在 2020 年，深度學(xué)習(xí)三巨頭、圖靈獎獲得者 Yoshua Bengio 就描繪了交互型語言模型的藍圖 [1]：一個可以和環(huán)境交互，甚至可以和其他智能體進行社會交互的語言模型，才能有最為全面的語言語義表示。在某種程度上，與環(huán)境、與人的交互造就了人類智慧。

因此，讓語言模型（LM）與外部實體以及自我進行交互，不僅僅可以幫助彌合大模型的固有缺陷，還可能是通往 AGI 的終極理想的一個重要的里程碑！

什么是交互？

其實 “交互” 的概念并不是作者們臆想的。自從 ChatGPT 問世之后，誕生了很多關(guān)于 NLP 界新問題的論文，比如：

Tool Learning with Foundation Models 闡述了讓語言模型使用工具進行推理或者執(zhí)行現(xiàn)實操作 [2]；

Foundation Models for Decision Making: Problems, Methods, and Opportunities 闡述了如何使用語言模型執(zhí)行決策任務(wù) (decision making)[3]；

ChatGPT for Robotics: Design Principles and Model Abilities 闡述了如何使用 ChatGPT 賦能機器人 [4]；

Augmented Language Models: a Survey 闡述了如何使用思維鏈 (Chain of Thought)、工具使用（Tool-use）等增強語言模型，并指出了語言模型使用工具可以給外部世界產(chǎn)生實際的影響（即 act）[5]；

Sparks of Artificial General Intelligence: Early experiments with GPT-4 闡述了如何使用 GPT-4 執(zhí)行各種類型的任務(wù)，其中包括了與人、環(huán)境、工具等交互的案例 [6]。

可見，NLP 學(xué)界的關(guān)注點，逐漸從 “怎么打造模型”，過渡到了 “怎么打造框架”，也就是將更多的實體納入到語言模型訓(xùn)練、推理的過程當(dāng)中。最為典型的例子就是大家所熟知的 Reinforcement Learning from Human Feedback (RLHF), 基本原理就是讓語言模型從與人的交互（反饋）中進行學(xué)習(xí) [7]，這一思想成為了 ChatGPT 畫龍點睛的一筆。

因此可以說，“交互” 這個特性，是 ChatGPT 之后，NLP 最為主流的技術(shù)發(fā)展路徑之一！作者們的論文首次定義并系統(tǒng)解構(gòu)了 “交互式 NLP”，并主要基于交互對象的維度，盡可能全面地討論了各種技術(shù)方案的優(yōu)劣以及應(yīng)用上的考慮，包括：

LM 與人類交互，以更好地理解和滿足用戶需求，個性化回應(yīng)，與人類價值觀對齊 (alignment)，并改善整體用戶體驗；

LM 與知識庫交互，以豐富語言表達的事實知識，增強回應(yīng)的知識背景相關(guān)性，并動態(tài)利用外部信息生成更準(zhǔn)確的回應(yīng)；

LM 與模型和工具交互，以有效分解和解決復(fù)雜推理任務(wù)，利用特定知識處理特定子任務(wù)，并促進智能體社會行為的涌現(xiàn)；

LM 與環(huán)境交互，以學(xué)習(xí)基于語言的實體表征（language grounding），并有效地處理類似推理、規(guī)劃和決策等與環(huán)境觀察相關(guān)的具身任務(wù)（embodied tasks）。

因此，在交互的框架下，語言模型不再是語言模型本身，而是一個可以 “看”(observe)、可以 “動作”(act)、可以 “獲取反饋”(feedback) 的基于語言的智能體。

與某個對象進行交互，作者們稱之為 “XXX-in-the-loop”, 表示這個對象參與了語言模型訓(xùn)練或者推理的過程，并且是以一種級聯(lián)、循環(huán)、反饋、或者迭代的形式參與其中的。

與人交互

讓語言模型與人交互可以分為三種方式：

使用提示進行交流

使用反饋進行學(xué)習(xí)

使用配置進行調(diào)節(jié)

另外，為了保證可規(guī)模化的部署，往往采用模型或者程序模擬人類的行為或者偏好，即從人類模擬中學(xué)習(xí)。

總的來說，與人交互要解決的核心問題是對齊問題 (alignment), 也就是如何讓語言模型的響應(yīng)更加符合用戶的需要，更加有幫助、無害且有理有據(jù)，能讓用戶有更好的使用體驗等。

“使用提示進行交流” 主要著重于交互的實時性和持續(xù)性，也就是強調(diào)連續(xù)性質(zhì)的多輪對話。這一點和 Conversational AI [8] 的思想是一脈相承的。也就是，通過多輪對話的方式，讓用戶連續(xù)地問下去，讓語言模型的響應(yīng)在對話中慢慢地對齊于用戶偏好。這種方式通常在交互中不需要模型參數(shù)的調(diào)整。

“使用反饋進行學(xué)習(xí)” 是當(dāng)前進行 alignment 的主要方式，也就是讓用戶給語言模型的響應(yīng)一個反饋，這種反饋可以是描述偏好的 “好 / 壞” 的標(biāo)注，也可以是自然語言形式的更為詳細(xì)的反饋。模型需要被訓(xùn)練，以讓這些反饋盡可能地高。比較典型的例子就是 InstructGPT 所使用的 RLHF [7]，首先使用用戶標(biāo)注的對模型響應(yīng)的偏好反饋數(shù)據(jù)訓(xùn)練獎勵模型，然后使用這個獎勵模型以某種 RL 算法訓(xùn)練語言模型以最大化獎勵（如下圖）。

Training language models to follow instructions with human feedback [7]

“使用配置進行調(diào)節(jié)” 是一種比較特殊的交互方式，允許用戶直接調(diào)整語言模型的超參數(shù)（比如 temperature）、或者語言模型的級聯(lián)方式等。典型的例子比如谷歌的 AI Chains [9], 帶有不同預(yù)設(shè) prompt 的語言模型互相連接構(gòu)成了一個用于處理流程化任務(wù)的推理鏈條，用戶可以通過一個 UI 拖拽調(diào)整這個鏈條的節(jié)點連接方式。

“從人類模擬中學(xué)習(xí)” 可以促進上述三種方式的規(guī)?；渴?，因為尤其在訓(xùn)練過程，使用真實的用戶是不現(xiàn)實的。比如 RLHF 通常需要使用一個 reward model 來模擬用戶的偏好。另一個例子是微軟研究院的 ITG [10], 通過一個 oracle model 來模擬用戶的編輯行為。

最近，斯坦福 Percy Liang 教授等人構(gòu)建了一個非常系統(tǒng)化的 Human-LM 交互的評測方案：Evaluating Human-Language Model Interaction [11], 感興趣的讀者可以參考本論文或者原文。

與知識庫交互

語言模型與知識庫交互存在三個步驟：

確定補充知識的來源：Knowledge Source

檢索知識：Knowledge Retrieval

使用知識進行增強：詳細(xì)請參閱本論文 Interaction Message Fusion 部分，這里不多做介紹。

總的來說，與知識庫進行交互可以減輕語言模型的 “幻覺” 現(xiàn)象 (hallucination), 即提升其輸出的事實性、準(zhǔn)確性等，還能幫助改善語言模型的時效性問題，幫助補充語言模型的知識能力（如下圖）等。

MineDojo [16]：當(dāng)一個語言模型智能體遇到不會的任務(wù)，可以從知識庫中查找學(xué)習(xí)資料，然后在資料的幫助下，完成這個任務(wù)。

“Knowledge Source” 分為兩種，一種是封閉的語料知識 (Corpus Knowledge), 如 WikiText 等 [15]；另一種是開放的網(wǎng)絡(luò)知識 (Internet Knowledge), 比如使用搜索引擎可以得到的知識 [14]。

“Knowledge Retrieval” 分為四種方式：

基于語言的稀疏表示以及 lexical matching 的稀疏檢索 (sparse retrieval)：如 n-gram 匹配，BM25 等。

基于語言的稠密表示以及 semantic matching 的稠密檢索 (dense retrieval)：如使用單塔或者雙塔模型作為檢索器等。

基于生成式檢索器：屬于比較新的方式，代表工作是谷歌 Tay Yi 等人的 Differentiable Search Index [12], 將知識都保存在語言模型的參數(shù)當(dāng)中，給一個 query 后，直接輸出對應(yīng)知識的 doc id 或者 doc content. 因為語言模型，就是知識庫 [13]！

基于強化學(xué)習(xí)：也是比較前沿的方式，代表工作比如 OpenAI 的 WebGPT [14]，使用 human feedback 訓(xùn)練模型，以進行正確知識的檢索。

與模型或者工具交互

語言模型與模型或者工具交互，主要的目的是進行復(fù)雜任務(wù)的分解，比如將復(fù)雜的推理任務(wù)分解為若干子任務(wù)，這也是 Chain of Thought [17] 的核心思想。不同的子任務(wù)可以使用具有不同能力的模型或者工具解決，比如計算任務(wù)可以使用計算器解決，檢索任務(wù)可以使用檢索模型解決。因此，這種類型的交互不僅可以提升語言模型的推理 (reasoning)、規(guī)劃 (planning)、決策 (decision making) 能力，還能減輕語言模型的 “幻覺” (hallucination)、不準(zhǔn)確輸出等局限。特別地，當(dāng)使用工具執(zhí)行某種特定的子任務(wù)時，可能會對外部世界產(chǎn)生一定影響，比如使用 WeChat API 發(fā)了一條朋友圈等，稱為 “面向工具的學(xué)習(xí)”(Tool-Oriented Learning) [2].

另外，有時候顯式地分解一個復(fù)雜的任務(wù)是很困難的，這種時候，可以為不同的語言模型賦予不同的角色或者技能，然后讓這些語言模型在互相協(xié)作、溝通的過程當(dāng)中，隱式、自動地形成某種分工方案 (division of labor)，進行任務(wù)的分解。這種類型的交互不僅僅可以簡化復(fù)雜任務(wù)的解決流程，還可以對人類社會進行模擬，構(gòu)造某種形式的智能體社會。

作者們將模型和工具放在一起，主要是因為模型和工具不一定是分開的兩個范疇，比如一個搜索引擎工具和一個 retriever model 并沒有本質(zhì)的不同。這種本質(zhì)，作者們使用 “任務(wù)分解后，怎樣的子任務(wù)由怎樣的對象來承擔(dān)” 進行界定。

語言模型與模型或者工具交互時，有三種類型的操作：

Thinking: 模型與自己本身進行交互，進行任務(wù)的分解以及推理等；

Acting：模型調(diào)用其他的模型，或者外部工具等，幫助進行推理，或者對外部世界產(chǎn)生實際作用；

Collaborating: 多個語言模型智能體互相溝通、協(xié)作，完成特定的任務(wù)，或者模擬人類的社會行為。

注意：Thinking 主要論及的是 “多階段思維鏈” (Multi-Stage Chain-of-Thought)，即：不同的推理步驟，對應(yīng)著語言模型不同的調(diào)用 (multiple model run)，而不是像 Vanilla CoT [17] 那樣，跑一次模型同時輸出 thought+answer (single model run).

這里部分承襲的是 ReAct [18] 的表述方式。

Thinking 的典型工作包括了 ReAct [18], Least-to-Most Prompting [19], Self-Ask [20] 等。例如，Least-to-Most Prompting [19] 首先將一個復(fù)雜問題分解為若干簡單的模塊子問題，然后迭代式地調(diào)用語言模型逐個擊破。

Acting 的典型工作包括了 ReAct [18], HuggingGPT [21], Toolformer [22] 等。例如，Toolformer [22] 將語言模型的預(yù)訓(xùn)練語料處理成了帶有 tool-use prompt 的形式，因此，經(jīng)過訓(xùn)練后的語言模型，可以在生成文本的時候，自動地在正確的時機調(diào)用正確的外部工具（如搜索引擎、翻譯工具、時間工具、計算器等）解決特定的子問題。

Collaborating 主要包括：

閉環(huán)交互：比如 Socratic Models [23] 等，通過大型語言模型、視覺語言模型、音頻語言模型的閉環(huán)交互，完成特定于視覺環(huán)境的某些復(fù)雜 QA 任務(wù)。

心智理論 (Theory of Mind): 旨在讓一個智能體能夠理解并預(yù)測另一個智能體的狀態(tài)，以促進彼此的高效交互。例如 EMNLP 2021 的 Outstanding Paper, MindCraft [24], 給兩個不同的語言模型賦予了不同但互補的技能，讓他們在交流的過程中協(xié)作完成 MineCraft 世界中的特定任務(wù)。著名教授 Graham Neubig 最近也非常關(guān)注這一條研究方向，如 [25].

溝通式代理 (Communicative Agents): 旨在讓多個智能體能夠進行彼此交流協(xié)作。最為典型的例子就是斯坦福大學(xué)最近震驚世界的 Generative Agents [26]：搭建一個沙盒環(huán)境，讓好多個由大模型注入 “靈魂” 的智能體在其中自由活動，它們竟然可以自發(fā)地呈現(xiàn)一些類人的社會行為，比如聊天打招呼等，頗有一種 “西部世界” 的味道（如下圖）。除此之外，比較出名的工作還有 DeepGCN 作者的新工作 CAMEL [27]，讓兩個大模型賦能的智能體在彼此溝通的過程當(dāng)中開發(fā)游戲，甚至炒股，而不需要人類的過多干預(yù)。作者在文章中明確提出了 “大模型社會” (LLM Society) 的概念。

Generative Agents: Interactive Simulacra of Human Behavior, /pdf/

與環(huán)境交互

語言模型和環(huán)境屬于兩個不同的象限：語言模型建立在抽象的文字符號之上，擅長 high-level 的推理、規(guī)劃、決策等任務(wù)；而環(huán)境建立在具體的感知信號之上（如視覺信息、聽覺信息等），模擬或者自然發(fā)生一些 low-level 的任務(wù)，如提供觀察 (observation)、反饋 (feedback)、狀態(tài)更新 (state transition) 等（如：現(xiàn)實世界中一個蘋果落到了地上，模擬引擎中一個 “苦力怕” 出現(xiàn)在了你的面前）。

因此，要讓語言模型能夠有效且高效地與環(huán)境進行交互，主要包括了兩個方面的努力：

Modality Grounding: 讓語言模型可以處理圖像、音頻等多模態(tài)信息；

Affordance Grounding: 讓語言模型在環(huán)境具體場景的尺度下對可能的、恰當(dāng)?shù)膶ο髨?zhí)行可能的、恰當(dāng)?shù)膭幼鳌?/p>

對于 Modality Grounding 最為典型的就是視覺 - 語言模型。一般而言可以使用單塔模型如 OFA [28], 雙塔模型如 BridgeTower [29], 或者語言模型與視覺模型的交互如 BLIP-2 [30] 來進行。這里不再多說，讀者可以詳看本論文。

對于 Affordance Grounding 主要有兩個考慮，即：如何在給定任務(wù)的條件下進行 (1) 場景尺度的感知 (scene-scale perception), 以及 (2) 可能的動作 (possible action)。舉個例子：

比如上圖的場景，給定任務(wù) “請關(guān)閉客廳里面的燈”，“場景尺度的感知” 要求我們找到全部紅色框選的燈，而不要選中不在客廳而在廚房的綠色圈選的燈，“可能的動作” 要求我們確定可行的關(guān)燈方式，比如拉線燈需要使用 “拉” 的動作，而開關(guān)燈需要使用 “撥動開關(guān)” 的動作。

通常而言，Affordance Grounding 可以使用一個依附于環(huán)境的價值函數(shù)解決，如 SayCan [31] 等，也可以使用一個專門的 grounding model 如 Grounded Decoding [32] 等。甚至也可以通過與人、與模型、與工具等的交互來解決（如下圖）。

Inner Monologue [33]

用什么交互：交互接口

在論文 Interaction Interface 章節(jié)，作者們系統(tǒng)地討論了不同交互語言、交互媒介的用法和優(yōu)劣，包括：

自然語言：如 few-shot example, task instruction, role assignment 甚至結(jié)構(gòu)化的自然語言等。主要討論了其在泛化性、表達性上的特點及作用等。

形式語言：如代碼、語法、數(shù)學(xué)公式等。主要討論了其在可解析性、推理能力上的特點及作用等。

機器語言：如 soft prompts, 離散化的視覺 token 等。主要討論了其在泛化性、信息瓶頸理論、交互效率上的特點及作用等。

編輯：主要包括了對文本進行的刪除、插入、替換、保留等操作。討論了它的原理、歷史、優(yōu)勢以及目前存在的局限。

共享記憶：主要包括了 hard memory 和 soft memory. 前者將歷史狀態(tài)記錄在一個 log 里面作為記憶，后者使用一個可讀可寫的記憶外置模塊保存張量。論文討論了兩者的特點、作用以及存在的局限等。

怎么交互：交互方法

論文還全面、詳細(xì)、系統(tǒng)地討論了各種各樣的交互方法，主要包括：

Prompting: 不調(diào)整模型參數(shù)，僅僅通過 prompt engineering 的方式調(diào)用語言模型，涵蓋了上下文學(xué)習(xí)（In-Context Learning）、思維鏈提示 (Chain of Thought)、工具使用提示 (Tool-use)、級聯(lián)推理鏈 (Prompt Chaining) 等多種方法，詳細(xì)討論了各種 Prompting 技巧的原理、作用、各種 trick 和局限等，比如在可控性和魯棒性上的考慮等。

Fine-Tuning: 進行模型參數(shù)的調(diào)整，以讓模型從交互信息中進行學(xué)習(xí)更新。本節(jié)涵蓋了監(jiān)督指令精調(diào) (Supervised Instruction Tuning)、參數(shù)高效精調(diào) (Parameter-Efficient Fine-Tuning)、持續(xù)學(xué)習(xí) (Continual Learning)、半監(jiān)督學(xué)習(xí) (Semi-Supervised Fine-Tuning) 等方法。詳細(xì)討論了這些方法的原理、作用、優(yōu)勢、在具體使用時的考慮、及其局限。其中還包括了部分 Knowledge Editing 的內(nèi)容（即編輯模型內(nèi)部的知識）。

Active Learning: 交互式的主動學(xué)習(xí)算法框架。

Reinforcement Learning: 交互式的強化學(xué)習(xí)算法框架，討論了在線強化學(xué)習(xí)框架、離線強化學(xué)習(xí)框架、從人類反饋中學(xué)習(xí)（RLHF）、從環(huán)境反饋中學(xué)習(xí)（RLEF）、從 AI 反饋中學(xué)習(xí) (RLAIF) 等多種方法。

Imitation Learning: 交互式的模仿學(xué)習(xí)算法框架，討論了在線模仿學(xué)習(xí)、離線模仿學(xué)習(xí)等。

Interaction Message Fusion: 為上述所有交互方法提供了一個統(tǒng)一的框架，同時在這個框架中，向外擴展，討論了不同的知識、信息融合方案，比如跨注意力融合方案 (cross-attention)、約束解碼融合方案 (constrained decoding) 等。

其他討論

囿于篇幅，本文不詳細(xì)介紹其他方面的討論，如評測、應(yīng)用、倫理、安全以及未來發(fā)展方向等。但是這些內(nèi)容在該論文原文中，仍然占據(jù)了 15 頁的內(nèi)容，因此推薦讀者在原文中查看更多細(xì)節(jié)，以下為這些內(nèi)容的大綱：

對交互的評測

論文中對評測的討論主要涉及以下關(guān)鍵詞：

交互式 NLP 的主要應(yīng)用

可控文本生成 (Controllable Text Generation)

與人交互：RLHF 的思想鋼印現(xiàn)象等

與知識交互：Knowledge-Aware Fine-Tuning [34] 等

與模型、工具交互：Classifier-Guided CTG 等

與環(huán)境交互：affordance grounding 等

交互式寫作助手 (Writing Assistant)

Content Support: 內(nèi)容支持型

Content Checking and Polishing：內(nèi)容檢查、潤色型

Content Enrichment：內(nèi)容豐富型

Content Co-creation：內(nèi)容創(chuàng)作型

具身智能（Embodied AI）

Observation and Manipulation: 基礎(chǔ)

Navigation and Exploration: 進階 (., long-horizon embodied tasks)

Multi-Role Tasks: 高級

游戲 (Text Game)

包含文本的交互式游戲平臺：Interactive Text Game Platforms

交互型語言模型如何玩轉(zhuǎn)僅文本類型的游戲：Playing Text-Only Games

交互型語言模型如何賦能包含文本媒介的游戲：Powering Text-Aided Games

其他應(yīng)用

領(lǐng)域、任務(wù)專門化（Specialization）：比如如何基于交互打造特定于金融領(lǐng)域、醫(yī)學(xué)領(lǐng)域等的語言模型框架。

個性化與人格化 (Personalization & Personality)：比如如何基于交互打造特定于用戶個人的、或者帶有特定人格的語言模型。

基于模型的評測（Model-based Evaluation）

倫理與安全

討論了交互型語言模型在教育上的影響，還針對社會偏見、隱私等倫理安全問題進行了討論。

未來發(fā)展方向與挑戰(zhàn)

Alignment：語言模型的對齊問題，如何讓模型的輸出更加無害、更加符合人類價值觀、更加有理有據(jù)等。

Social Embodiment：語言模型的 Grounding 問題，如何進一步推動語言模型具身化和社會化。

Plasticity：語言模型的可塑性問題，如何保證模型知識的持續(xù)更新，且不會在更新的過程中遺忘先前獲得的知識。

Speed & Efficiency：語言模型的推理速度、訓(xùn)練效率等問題，如何在不影響性能的情況下，加速推理，以及加速訓(xùn)練的效率。

Context Length：語言模型的上下文窗口大小限制。如何擴充上下文的窗口大小，使其能夠處理更長的文本。

Long Text Generation：語言模型的長文本生成問題。如何讓語言模型在極長文本的生成場景下，也能保持優(yōu)良的性能。

Accessibility：語言模型的可用性問題。如何讓語言模型從閉源到開源，如何在不過度損失性能的前提下，讓語言模型能夠部署在邊緣設(shè)備如車載系統(tǒng)、筆記本上等。

Analysis：語言模型的分析、可解釋性等問題。比如如何預(yù)測模型 scaling up 之后的性能，以指導(dǎo)大模型的研發(fā)，如何解釋大模型內(nèi)部的機理等。

Creativity：語言模型的創(chuàng)造性問題。如何讓語言模型更加具有創(chuàng)造性，能夠更好地使用比喻、隱喻等，能夠創(chuàng)造出新的知識等。

Evaluation：如何更好地針對通用大模型進行評測，如何評測語言模型在交互上的特性等。

參考文獻

Grounds Language, /abs/

Learning with Foundation Models

Models for Decision Making: Problems, Methods, and Opportunities

for Robotics: Design Principles and Model Abilities

Language Models: a Survey

of Artificial General Intelligence: Early experiments with GPT-4

language models to follow instructions with human feedback, /abs/

AI, /

Chains: Transparent and Controllable Human-AI Interaction by Chaining Large Language Model Prompts, /abs/

Text Generation

Human-Language Model Interaction

Memory as a Differentiable Search Index, /abs/

Models as Knowledge Bases?, /abs/

: Browser-assisted question-answering with human feedback, /abs/

:Few-shot Learning withRetrieval Augmented Language Models, /pdf/

:Building Open-EndedEmbodied Agents with Internet-Scale Knowledge, /pdf/

Prompting Elicits Reasoning in Large Language Models, /abs/

: Synergizing Reasoning and Acting Inlanguage Models, /abs/

Prompting Enables complex reasoning in Large Language Models, /pdf/

and Narrowingthe Compositionality Gap in Language Models, /

, /abs/

: Language Models Can Teach Themselves to Use Tools, /abs/

Models, /pdf/

: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks, -/

Language Acquisition with Theory of Mind, /forum?id=C2ulri4duIs

Agents: Interactive Simulacra of Human Behavior, /pdf/

: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society, /

: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework, /abs/

: Building Bridges Between Encoders in Vision-Language Representation Learning, /abs/

: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, /pdf/

As I Can,Not As I Say:Grounding Language in Robotic Affordances, /

Decoding: Guiding Text Generation with Grounded Models for Robot Control, /

Monologue:Embodied Reasoning through Planning with Language Models, /

Large Language Models with Controllable Working Memory, /abs/

?THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@

關(guān)鍵詞：

亚洲高清国产拍精品动图,人妻无码专区视频网站,日日摸夜夜添夜夜无码区,粉嫩虎白女P虎白女在线,国产精品视频一区二区噜噜

NLP還能做什么？北航、ETH、港科大、中科院等多機構(gòu)聯(lián)合發(fā)布百頁論文，系統(tǒng)闡述后ChatGPT技術(shù)鏈焦點滾動

相關(guān)閱讀

最近更新

推薦閱讀

財經(jīng)熱圖

熱門標(biāo)簽

亚洲高清国产拍精品动图,人妻无码专区视频网站,日日摸夜夜添夜夜无码区,粉嫩虎白女P虎白女在线,国产精品视频一区二区噜噜

NLP還能做什么？北航、ETH、港科大、中科院等多機構(gòu)聯(lián)合發(fā)布百頁論文，系統(tǒng)闡述后ChatGPT技術(shù)鏈 焦點滾動

相關(guān)閱讀

最近更新

推薦閱讀

財經(jīng)熱圖

熱門標(biāo)簽

NLP還能做什么？北航、ETH、港科大、中科院等多機構(gòu)聯(lián)合發(fā)布百頁論文，系統(tǒng)闡述后ChatGPT技術(shù)鏈焦點滾動