資訊詳情

要理解語(yǔ)言模型，我們必須將“語(yǔ)言”與“思想”分開

2023-02-27 10:33:174636

本文是揭秘AI的一部分，該系列文章（試圖）消除圍繞AI的行話和神話的歧義。

隨著ChatGPT等高級(jí)模型的發(fā)布，圍繞大型語(yǔ)言模型(LLM)的討論變得更加兩極分化。爭(zhēng)論的范圍從法學(xué)碩士是“思維機(jī)器”到將記憶的文本拼接在一起的愚蠢程序。

德克薩斯大學(xué)奧斯汀分校和麻省理工學(xué)院(MIT)的研究人員認(rèn)為，為了消除混淆，我們需要一個(gè)不同的框架來考慮法學(xué)碩士。在一篇題為“在大型語(yǔ)言模型中分離語(yǔ)言和思想：認(rèn)知視角”的論文中，研究人員認(rèn)為，要了解LLM的力量和局限性，我們必須將“正式”語(yǔ)言能力與“功能”語(yǔ)言能力區(qū)分開來。

研究人員表示，法學(xué)碩士在前者方面取得了令人矚目的進(jìn)步，但在后者方面仍有很多工作要做。這種區(qū)別有助于澄清圍繞LLM的討論，并找到構(gòu)建“以類似人類的方式理解和使用語(yǔ)言”的模型的途徑。

要理解語(yǔ)言模型，我們必須將“語(yǔ)言”與“思想”分開

關(guān)于語(yǔ)言模型的兩個(gè)常見謬誤

“與任何事情一樣，我認(rèn)為人們看待LLM的方式受到他們自己的背景、培訓(xùn)和經(jīng)驗(yàn)的影響，”該論文的合著者和UT奧斯汀的計(jì)算語(yǔ)言學(xué)家Kyle Mahowald告訴TechTalks。“令人興奮的是，LLM吸引了學(xué)術(shù)界眾多領(lǐng)域的興趣：不僅是NLP領(lǐng)域，還有語(yǔ)言學(xué)、神經(jīng)科學(xué)、哲學(xué)、人類學(xué)、社會(huì)學(xué)、政治學(xué)等。這自然導(dǎo)致了對(duì)LLM及其觀點(diǎn)的多樣化能力。當(dāng)然，對(duì)我們來說也是如此。這就是為什么我們將‘認(rèn)知視角’放在論文標(biāo)題中的部分原因。”

在論文中，研究人員探討了與語(yǔ)言和思維相關(guān)的兩種常見謬誤。第一種說法是擅長(zhǎng)語(yǔ)言的實(shí)體也善于思考，科學(xué)家將其描述為“善于語(yǔ)言->善于思考”的謬論。這種謬誤導(dǎo)致了這樣一種論點(diǎn)，即大型語(yǔ)言模型是邁向“思維機(jī)器”和通用人工智能(AGI)的一步。

第二個(gè)謬誤，稱為“不擅長(zhǎng)思考->不擅長(zhǎng)語(yǔ)言”，表明如果一個(gè)語(yǔ)言模型不能完全捕捉人類思想的豐富性和復(fù)雜性，那么它就不是一個(gè)好的人類語(yǔ)言模型。

這種思路的特點(diǎn)是不斷批評(píng)語(yǔ)言模型的常識(shí)推理能力差，缺乏一致的、可概括的世界知識(shí)。

“這兩個(gè)謬誤實(shí)際上源于同一個(gè)誤解：將語(yǔ)言和思想等同起來，”該論文的合著者、麻省理工學(xué)院博士后研究員Anna Ivanova告訴TechTalks。“這是一個(gè)自然而然會(huì)犯的錯(cuò)誤的一個(gè)原因是，在現(xiàn)實(shí)生活中，我們無法了解另一個(gè)人的想法。如果我們想知道某人的思考能力如何，通常我們能做的最好的事情就是問他們一個(gè)問題，然后聽聽他們的回答。”

該論文建議，如果我們區(qū)分形式語(yǔ)言能力和功能語(yǔ)言能力，就可以避免這些謬誤。

法學(xué)碩士和正式語(yǔ)言能力

字母積木

形式語(yǔ)言學(xué)包括產(chǎn)生和理解給定語(yǔ)言所需的能力。它包括語(yǔ)言規(guī)則以及無法通過規(guī)則捕獲的統(tǒng)計(jì)規(guī)律。

transformer架構(gòu)是當(dāng)今LLM的基礎(chǔ)，已被證明是對(duì)正式語(yǔ)言能力進(jìn)行建模的非常好的工具。Transformer使用多層神經(jīng)元、注意機(jī)制和并行處理來執(zhí)行非常準(zhǔn)確的“下一個(gè)詞”預(yù)測(cè)。

給定足夠的訓(xùn)練數(shù)據(jù)，大型轉(zhuǎn)換器模型可以生成具有一致語(yǔ)言特征的長(zhǎng)文本序列。例如，LLM可以執(zhí)行遠(yuǎn)距離數(shù)字一致（盡管在有嵌套句子時(shí)它們?nèi)匀贿_(dá)不到人類的表現(xiàn)）。他們還擅長(zhǎng)處理主謂一致、wh-問題以及過去的方法通常失敗的語(yǔ)言學(xué)的其他方面。

研究人員寫道：“盡管改變目標(biāo)并專注于這些模型仍然無法做到的事情很誘人……我們認(rèn)為不應(yīng)忽視法學(xué)碩士捕捉各種語(yǔ)言現(xiàn)象能力的顯著進(jìn)步。”

“在我們看來，法學(xué)碩士在我們所謂的‘正式語(yǔ)言能力’方面有多么令人印象深刻，這似乎還沒有得到充分的認(rèn)可，”Mahowald說。“他們可以說出非常流利的語(yǔ)言，正確處理許多非常復(fù)雜的語(yǔ)言結(jié)構(gòu)。這不是什么！

同時(shí)，它們突出了形式語(yǔ)言學(xué)在大型語(yǔ)言模型中的局限性。例如，LLM可以在不學(xué)習(xí)相關(guān)語(yǔ)言信息（例如層次結(jié)構(gòu)和抽象語(yǔ)法類別）的情況下在基準(zhǔn)測(cè)試中取得良好的性能。換句話說，“這些模型可能‘因?yàn)殄e(cuò)誤的原因而正確’，并利用輸入中的某些未被測(cè)試的特征，”研究人員寫道。

大型語(yǔ)言模型還需要不切實(shí)際的數(shù)據(jù)量才能實(shí)現(xiàn)接近人類的性能。研究人員指出，人類語(yǔ)言學(xué)習(xí)者“可能依賴于預(yù)先存在的偏見，以便從稀疏和嘈雜的輸入中快速學(xué)習(xí)——當(dāng)今最先進(jìn)的模型所缺乏的偏見。”一個(gè)有趣的研究方向是可以幫助LLM更快地學(xué)習(xí)并使用更少數(shù)據(jù)的歸納偏差，以及可以捕獲這些偏差的架構(gòu)。

法學(xué)碩士和功能語(yǔ)言能力

拼圖推理

功能語(yǔ)言學(xué)是關(guān)于使用語(yǔ)言在世界上做事。我們使用語(yǔ)言來發(fā)送和接收關(guān)于我們的感知和認(rèn)知系統(tǒng)的信息，例如我們的感官和記憶。這些能力不同于正式的語(yǔ)言能力。我們使用語(yǔ)言來執(zhí)行社交技能和解決現(xiàn)實(shí)世界的問題。正如科學(xué)家們?cè)谒麄兊恼撐闹兴鶎懙哪菢樱?ldquo;一個(gè)孤立的正式語(yǔ)言系統(tǒng)對(duì)語(yǔ)言使用者來說是無用的，除非它可以與其余的感知、認(rèn)知和行動(dòng)相結(jié)合。”

用于訓(xùn)練LLM的大型文本語(yǔ)料庫(kù)包含大量非語(yǔ)言信息。這就是為什么語(yǔ)言模型在某些評(píng)估邏輯和推理能力的基準(zhǔn)測(cè)試中表現(xiàn)出令人印象深刻的表現(xiàn)。基本上，如果一個(gè)場(chǎng)景足夠普遍，LLM就可以成功。但是，如果在需要仔細(xì)推理和規(guī)劃的任務(wù)上稍加推動(dòng)，語(yǔ)言模型就會(huì)開始崩潰。

為什么這很重要？“沒有非語(yǔ)言認(rèn)知技能，現(xiàn)實(shí)生活中的語(yǔ)言使用是不可能的。理解句子、推理其含義并決定說什么——這些技能都依賴于遠(yuǎn)遠(yuǎn)超出詞匯語(yǔ)義或句法的認(rèn)知能力，”研究人員警告說。

本文討論了功能語(yǔ)言學(xué)的四個(gè)關(guān)鍵領(lǐng)域，包括形式推理、世界知識(shí)、情境建模和社會(huì)推理。在所有情況下，LLM都顯示出一定程度的表面能力，可以通過學(xué)習(xí)統(tǒng)計(jì)規(guī)律來獲得。但他們?nèi)狈κ顾麄兡軌蚴冀K如一地執(zhí)行任務(wù)的基礎(chǔ)知識(shí)。

研究人員寫道：“掌握了人類語(yǔ)言的許多句法和分布特性的模型仍然無法以類似人類的方式使用語(yǔ)言。”“換句話說，他們的功能語(yǔ)言能力仍處于起步階段。”

“我們感覺到有些人認(rèn)為這種語(yǔ)言上的成功意味著法學(xué)碩士正在敲開通用人工智能的大門，”Mahowald說。“利用認(rèn)知科學(xué)和認(rèn)知神經(jīng)科學(xué)，我們認(rèn)為人類認(rèn)知不僅僅是流利的語(yǔ)言——即使承認(rèn)流利的語(yǔ)言是一攬子計(jì)劃的一部分。”

“關(guān)注LLM在掌握語(yǔ)言規(guī)則和模式方面取得成功的人會(huì)立即得出結(jié)論，這些模型正在學(xué)習(xí)思考，”Ivanova說。“關(guān)注LLM在語(yǔ)言使用方面失敗的人完全忽視了他們，忽視了他們?cè)趯W(xué)習(xí)規(guī)則和模式方面的成功。”

分離語(yǔ)言和思想

研究人員認(rèn)為，來自認(rèn)知科學(xué)和神經(jīng)科學(xué)的證據(jù)表明，人類的語(yǔ)言和思想是強(qiáng)烈分離的。

例如，失去語(yǔ)言能力的人仍然保持著認(rèn)知能力，例如下棋、作曲和解決算術(shù)問題。核磁共振掃描顯示，大腦的語(yǔ)言網(wǎng)絡(luò)在人們聽、讀或造句時(shí)非?；钴S，但在進(jìn)行算術(shù)、邏輯推理、編寫程序等時(shí)則不然。

“專門處理語(yǔ)言的機(jī)器與負(fù)責(zé)記憶、推理和社交技能的機(jī)器是分開的，”研究人員寫道。

因此，作者建議，如果我們基于形式語(yǔ)言學(xué)和功能語(yǔ)言學(xué)的分離來進(jìn)行LLM研究，我們就可以解決該領(lǐng)域當(dāng)今面臨的一些挑戰(zhàn)。他們提供了一些建議來指導(dǎo)LLM研究的未來。

一種解決方案是引入模塊化，將核心語(yǔ)言與認(rèn)知技能分開。模塊化可以通過組合為不同功能設(shè)計(jì)的組件的架構(gòu)來實(shí)現(xiàn)。它也可以是緊急的，其中底層轉(zhuǎn)換器模型的設(shè)計(jì)方式允許單獨(dú)的、專門的模塊在訓(xùn)練期間自行開發(fā)。研究人員寫道：“無論是內(nèi)置的還是誘導(dǎo)出現(xiàn)的，模塊化都可以引導(dǎo)模型反映人腦的功能組織，從而使它們的行為更加人性化。”

第二種解決方案是超越在網(wǎng)絡(luò)上精選的大型通用文本語(yǔ)料庫(kù)上訓(xùn)練LLM。作者建議為不同的任務(wù)開發(fā)專門的數(shù)據(jù)集，使用反映人類認(rèn)知能力的模塊化架構(gòu)，并在不同的目標(biāo)函數(shù)上訓(xùn)練模型。一個(gè)有前途的方向是從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)，這是一種用于訓(xùn)練ChatGPT的技術(shù)。

最后，作者討論了評(píng)估正式和功能語(yǔ)言能力的不同基準(zhǔn)的必要性。

“明確識(shí)別語(yǔ)言使用所需的不同能力是第一步；建立基準(zhǔn)和有針對(duì)性的測(cè)試來評(píng)估這些能力是第2步；在測(cè)試發(fā)現(xiàn)有問題的區(qū)域改進(jìn)模型是第3步，”Ivanova說。

Mahowald還對(duì)該領(lǐng)域的透明度下降表示擔(dān)憂。隨著初創(chuàng)公司和大型科技公司爭(zhēng)奪更大的LLM市場(chǎng)份額，他們?cè)絹碓讲辉敢鈱⒆约旱难芯砍晒峁┙o其他人。

“我真正關(guān)心的是理解人類語(yǔ)言和認(rèn)知，我認(rèn)為L(zhǎng)LM是一個(gè)非常令人興奮的工具，因?yàn)樗鼈冏屛覀兡軌蚍治鲆粋€(gè)具有真正有趣功能的系統(tǒng)，”他說。“因此，我希望仍然有使用LLM進(jìn)行科學(xué)探究的地方。如果他們變得越來越封閉和私有化（正如我們所看到的），那么這種公開調(diào)查可能就不可能了。因此，我對(duì)為學(xué)術(shù)研究構(gòu)建LLM的開源努力感到興奮和充滿希望。”