要理解語(yǔ)言模型,我們必須將“語(yǔ)言”與“思想”分開
本文是揭秘AI的一部分,該系列文章(試圖)消除圍繞AI的行話和神話的歧義。
隨著ChatGPT等高級(jí)模型的發(fā)布,圍繞大型語(yǔ)言模型(LLM)的討論變得更加兩極分化。爭(zhēng)論的范圍從法學(xué)碩士是“思維機(jī)器”到將記憶的文本拼接在一起的愚蠢程序。
德克薩斯大學(xué)奧斯汀分校和麻省理工學(xué)院(MIT)的研究人員認(rèn)為,為了消除混淆,我們需要一個(gè)不同的框架來考慮法學(xué)碩士。在一篇題為“在大型語(yǔ)言模型中分離語(yǔ)言和思想:認(rèn)知視角”的論文中,研究人員認(rèn)為,要了解LLM的力量和局限性,我們必須將“正式”語(yǔ)言能力與“功能”語(yǔ)言能力區(qū)分開來。
研究人員表示,法學(xué)碩士在前者方面取得了令人矚目的進(jìn)步,但在后者方面仍有很多工作要做。這種區(qū)別有助于澄清圍繞LLM的討論,并找到構(gòu)建“以類似人類的方式理解和使用語(yǔ)言”的模型的途徑。
關(guān)于語(yǔ)言模型的兩個(gè)常見謬誤
“與任何事情一樣,我認(rèn)為人們看待LLM的方式受到他們自己的背景、培訓(xùn)和經(jīng)驗(yàn)的影響,”該論文的合著者和UT奧斯汀的計(jì)算語(yǔ)言學(xué)家Kyle Mahowald告訴TechTalks。“令人興奮的是,LLM吸引了學(xué)術(shù)界眾多領(lǐng)域的興趣:不僅是NLP領(lǐng)域,還有語(yǔ)言學(xué)、神經(jīng)科學(xué)、哲學(xué)、人類學(xué)、社會(huì)學(xué)、政治學(xué)等。這自然導(dǎo)致了對(duì)LLM及其觀點(diǎn)的多樣化能力。當(dāng)然,對(duì)我們來說也是如此。這就是為什么我們將‘認(rèn)知視角’放在論文標(biāo)題中的部分原因。”
在論文中,研究人員探討了與語(yǔ)言和思維相關(guān)的兩種常見謬誤。第一種說法是擅長(zhǎng)語(yǔ)言的實(shí)體也善于思考,科學(xué)家將其描述為“善于語(yǔ)言->善于思考”的謬論。這種謬誤導(dǎo)致了這樣一種論點(diǎn),即大型語(yǔ)言模型是邁向“思維機(jī)器”和通用人工智能(AGI)的一步。
第二個(gè)謬誤,稱為“不擅長(zhǎng)思考->不擅長(zhǎng)語(yǔ)言”,表明如果一個(gè)語(yǔ)言模型不能完全捕捉人類思想的豐富性和復(fù)雜性,那么它就不是一個(gè)好的人類語(yǔ)言模型。
這種思路的特點(diǎn)是不斷批評(píng)語(yǔ)言模型的常識(shí)推理能力差,缺乏一致的、可概括的世界知識(shí)。
“這兩個(gè)謬誤實(shí)際上源于同一個(gè)誤解:將語(yǔ)言和思想等同起來,”該論文的合著者、麻省理工學(xué)院博士后研究員Anna Ivanova告訴TechTalks。“這是一個(gè)自然而然會(huì)犯的錯(cuò)誤的一個(gè)原因是,在現(xiàn)實(shí)生活中,我們無法了解另一個(gè)人的想法。如果我們想知道某人的思考能力如何,通常我們能做的最好的事情就是問他們一個(gè)問題,然后聽聽他們的回答。”
該論文建議,如果我們區(qū)分形式語(yǔ)言能力和功能語(yǔ)言能力,就可以避免這些謬誤。
法學(xué)碩士和正式語(yǔ)言能力
形式語(yǔ)言學(xué)包括產(chǎn)生和理解給定語(yǔ)言所需的能力。它包括語(yǔ)言規(guī)則以及無法通過規(guī)則捕獲的統(tǒng)計(jì)規(guī)律。
transformer架構(gòu)是當(dāng)今LLM的基礎(chǔ),已被證明是對(duì)正式語(yǔ)言能力進(jìn)行建模的非常好的工具。Transformer使用多層神經(jīng)元、注意機(jī)制和并行處理來執(zhí)行非常準(zhǔn)確的“下一個(gè)詞”預(yù)測(cè)。
給定足夠的訓(xùn)練數(shù)據(jù),大型轉(zhuǎn)換器模型可以生成具有一致語(yǔ)言特征的長(zhǎng)文本序列。例如,LLM可以執(zhí)行遠(yuǎn)距離數(shù)字一致(盡管在有嵌套句子時(shí)它們?nèi)匀贿_(dá)不到人類的表現(xiàn))。他們還擅長(zhǎng)處理主謂一致、wh-問題以及過去的方法通常失敗的語(yǔ)言學(xué)的其他方面。
研究人員寫道:“盡管改變目標(biāo)并專注于這些模型仍然無法做到的事情很誘人……我們認(rèn)為不應(yīng)忽視法學(xué)碩士捕捉各種語(yǔ)言現(xiàn)象能力的顯著進(jìn)步。”
“在我們看來,法學(xué)碩士在我們所謂的‘正式語(yǔ)言能力’方面有多么令人印象深刻,這似乎還沒有得到充分的認(rèn)可,”Mahowald說。“他們可以說出非常流利的語(yǔ)言,正確處理許多非常復(fù)雜的語(yǔ)言結(jié)構(gòu)。這不是什么!
同時(shí),它們突出了形式語(yǔ)言學(xué)在大型語(yǔ)言模型中的局限性。例如,LLM可以在不學(xué)習(xí)相關(guān)語(yǔ)言信息(例如層次結(jié)構(gòu)和抽象語(yǔ)法類別)的情況下在基準(zhǔn)測(cè)試中取得良好的性能。換句話說,“這些模型可能‘因?yàn)殄e(cuò)誤的原因而正確’,并利用輸入中的某些未被測(cè)試的特征,”研究人員寫道。
大型語(yǔ)言模型還需要不切實(shí)際的數(shù)據(jù)量才能實(shí)現(xiàn)接近人類的性能。研究人員指出,人類語(yǔ)言學(xué)習(xí)者“可能依賴于預(yù)先存在的偏見,以便從稀疏和嘈雜的輸入中快速學(xué)習(xí)——當(dāng)今最先進(jìn)的模型所缺乏的偏見。”一個(gè)有趣的研究方向是可以幫助LLM更快地學(xué)習(xí)并使用更少數(shù)據(jù)的歸納偏差,以及可以捕獲這些偏差的架構(gòu)。
法學(xué)碩士和功能語(yǔ)言能力
功能語(yǔ)言學(xué)是關(guān)于使用語(yǔ)言在世界上做事。我們使用語(yǔ)言來發(fā)送和接收關(guān)于我們的感知和認(rèn)知系統(tǒng)的信息,例如我們的感官和記憶。這些能力不同于正式的語(yǔ)言能力。我們使用語(yǔ)言來執(zhí)行社交技能和解決現(xiàn)實(shí)世界的問題。正如科學(xué)家們?cè)谒麄兊恼撐闹兴鶎懙哪菢樱?ldquo;一個(gè)孤立的正式語(yǔ)言系統(tǒng)對(duì)語(yǔ)言使用者來說是無用的,除非它可以與其余的感知、認(rèn)知和行動(dòng)相結(jié)合。”
用于訓(xùn)練LLM的大型文本語(yǔ)料庫(kù)包含大量非語(yǔ)言信息。這就是為什么語(yǔ)言模型在某些評(píng)估邏輯和推理能力的基準(zhǔn)測(cè)試中表現(xiàn)出令人印象深刻的表現(xiàn)。基本上,如果一個(gè)場(chǎng)景足夠普遍,LLM就可以成功。但是,如果在需要仔細(xì)推理和規(guī)劃的任務(wù)上稍加推動(dòng),語(yǔ)言模型就會(huì)開始崩潰。
為什么這很重要?“沒有非語(yǔ)言認(rèn)知技能,現(xiàn)實(shí)生活中的語(yǔ)言使用是不可能的。理解句子、推理其含義并決定說什么——這些技能都依賴于遠(yuǎn)遠(yuǎn)超出詞匯語(yǔ)義或句法的認(rèn)知能力,”研究人員警告說。
本文討論了功能語(yǔ)言學(xué)的四個(gè)關(guān)鍵領(lǐng)域,包括形式推理、世界知識(shí)、情境建模和社會(huì)推理。在所有情況下,LLM都顯示出一定程度的表面能力,可以通過學(xué)習(xí)統(tǒng)計(jì)規(guī)律來獲得。但他們?nèi)狈κ顾麄兡軌蚴冀K如一地執(zhí)行任務(wù)的基礎(chǔ)知識(shí)。
研究人員寫道:“掌握了人類語(yǔ)言的許多句法和分布特性的模型仍然無法以類似人類的方式使用語(yǔ)言。”“換句話說,他們的功能語(yǔ)言能力仍處于起步階段。”
“我們感覺到有些人認(rèn)為這種語(yǔ)言上的成功意味著法學(xué)碩士正在敲開通用人工智能的大門,”Mahowald說。“利用認(rèn)知科學(xué)和認(rèn)知神經(jīng)科學(xué),我們認(rèn)為人類認(rèn)知不僅僅是流利的語(yǔ)言——即使承認(rèn)流利的語(yǔ)言是一攬子計(jì)劃的一部分。”
“關(guān)注LLM在掌握語(yǔ)言規(guī)則和模式方面取得成功的人會(huì)立即得出結(jié)論,這些模型正在學(xué)習(xí)思考,”Ivanova說。“關(guān)注LLM在語(yǔ)言使用方面失敗的人完全忽視了他們,忽視了他們?cè)趯W(xué)習(xí)規(guī)則和模式方面的成功。”
分離語(yǔ)言和思想
研究人員認(rèn)為,來自認(rèn)知科學(xué)和神經(jīng)科學(xué)的證據(jù)表明,人類的語(yǔ)言和思想是強(qiáng)烈分離的。
例如,失去語(yǔ)言能力的人仍然保持著認(rèn)知能力,例如下棋、作曲和解決算術(shù)問題。核磁共振掃描顯示,大腦的語(yǔ)言網(wǎng)絡(luò)在人們聽、讀或造句時(shí)非?;钴S,但在進(jìn)行算術(shù)、邏輯推理、編寫程序等時(shí)則不然。
“專門處理語(yǔ)言的機(jī)器與負(fù)責(zé)記憶、推理和社交技能的機(jī)器是分開的,”研究人員寫道。
因此,作者建議,如果我們基于形式語(yǔ)言學(xué)和功能語(yǔ)言學(xué)的分離來進(jìn)行LLM研究,我們就可以解決該領(lǐng)域當(dāng)今面臨的一些挑戰(zhàn)。他們提供了一些建議來指導(dǎo)LLM研究的未來。
一種解決方案是引入模塊化,將核心語(yǔ)言與認(rèn)知技能分開。模塊化可以通過組合為不同功能設(shè)計(jì)的組件的架構(gòu)來實(shí)現(xiàn)。它也可以是緊急的,其中底層轉(zhuǎn)換器模型的設(shè)計(jì)方式允許單獨(dú)的、專門的模塊在訓(xùn)練期間自行開發(fā)。研究人員寫道:“無論是內(nèi)置的還是誘導(dǎo)出現(xiàn)的,模塊化都可以引導(dǎo)模型反映人腦的功能組織,從而使它們的行為更加人性化。”
第二種解決方案是超越在網(wǎng)絡(luò)上精選的大型通用文本語(yǔ)料庫(kù)上訓(xùn)練LLM。作者建議為不同的任務(wù)開發(fā)專門的數(shù)據(jù)集,使用反映人類認(rèn)知能力的模塊化架構(gòu),并在不同的目標(biāo)函數(shù)上訓(xùn)練模型。一個(gè)有前途的方向是從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF),這是一種用于訓(xùn)練ChatGPT的技術(shù)。
最后,作者討論了評(píng)估正式和功能語(yǔ)言能力的不同基準(zhǔn)的必要性。
“明確識(shí)別語(yǔ)言使用所需的不同能力是第一步;建立基準(zhǔn)和有針對(duì)性的測(cè)試來評(píng)估這些能力是第2步;在測(cè)試發(fā)現(xiàn)有問題的區(qū)域改進(jìn)模型是第3步,”Ivanova說。
Mahowald還對(duì)該領(lǐng)域的透明度下降表示擔(dān)憂。隨著初創(chuàng)公司和大型科技公司爭(zhēng)奪更大的LLM市場(chǎng)份額,他們?cè)絹碓讲辉敢鈱⒆约旱难芯砍晒峁┙o其他人。
“我真正關(guān)心的是理解人類語(yǔ)言和認(rèn)知,我認(rèn)為L(zhǎng)LM是一個(gè)非常令人興奮的工具,因?yàn)樗鼈冏屛覀兡軌蚍治鲆粋€(gè)具有真正有趣功能的系統(tǒng),”他說。“因此,我希望仍然有使用LLM進(jìn)行科學(xué)探究的地方。如果他們變得越來越封閉和私有化(正如我們所看到的),那么這種公開調(diào)查可能就不可能了。因此,我對(duì)為學(xué)術(shù)研究構(gòu)建LLM的開源努力感到興奮和充滿希望。”
- 上一篇
AI算法發(fā)現(xiàn)種新納米結(jié)構(gòu),研究時(shí)間從1個(gè)月壓縮到6小時(shí)
實(shí)驗(yàn)來自美國(guó)能源部(DOE)布魯克黑文國(guó)家實(shí)驗(yàn)室,研究人員用AI驅(qū)動(dòng)的技術(shù),發(fā)現(xiàn)了3種新的納米結(jié)構(gòu)。
- 下一篇
人工智能成熟之路——2023 LXT報(bào)告
如今,創(chuàng)新驅(qū)動(dòng)型企業(yè)正在人工智能 (AI) 系統(tǒng)中投入大量資源,以推進(jìn)其 AI 成熟度之旅。據(jù)IDC稱,到 2026 年,全球在以 AI 為中心的系統(tǒng)上的支出預(yù)計(jì)將超過 3000 億美元,而 2022 年為 1180 億美元。