人工智能科學(xué)家正在研究大型語言模型的“緊急”能力
本文是我們對最新AI研究報道的一部分。
大型語言模型(LLM)已經(jīng)成為關(guān)注和炒作的中心,因為它們看似神奇的能力可以產(chǎn)生長篇連貫的文本,做他們沒有接受過訓(xùn)練的事情,并(在某種程度上)參與到過去的話題中。被認(rèn)為是計算機(jī)的禁區(qū)。
但是關(guān)于LLM的工作方式和不工作方式,還有很多需要學(xué)習(xí)的地方。谷歌、斯坦福大學(xué)、DeepMind和北卡羅來納大學(xué)教堂山分校的研究人員進(jìn)行的一項新研究探索了LLM可以在他們成長壯大并接受更多數(shù)據(jù)培訓(xùn)時完成的新任務(wù)。
該研究揭示了大型語言模型的規(guī)模與其“緊急”能力之間的關(guān)系。
什么是涌現(xiàn)?
這項新研究的重點是物理學(xué)、生物學(xué)和計算機(jī)科學(xué)等領(lǐng)域長期以來一直在討論的意義上的涌現(xiàn)。在一篇題為“更多是不同的”(PDF)的文章中,諾貝爾獎獲得者物理學(xué)家菲利普·安德森討論了這樣一種觀點,即量變會導(dǎo)致質(zhì)的不同和意想不到的現(xiàn)象。
受安德森工作的啟發(fā),加州大學(xué)伯克利分校教授雅各布·斯坦哈特將涌現(xiàn)定義為“當(dāng)系統(tǒng)中的量變導(dǎo)致行為發(fā)生質(zhì)的變化時”。
“由于我們想提供更精確的定義,我們將涌現(xiàn)能力定義為‘不存在于較小模型中但存在于較大模型中’的能力,”斯坦福大學(xué)博士生、該論文的合著者Rishi Bommasani說,告訴TechTalks。
為了識別大型語言模型中的新興能力,研究人員尋找相變,在某個規(guī)模閾值以下,模型性能接近隨機(jī),超過該閾值,性能遠(yuǎn)高于隨機(jī)。
Bommasani說:“這將涌現(xiàn)能力與隨規(guī)模平穩(wěn)提高的能力區(qū)分開來:預(yù)測何時會出現(xiàn)涌現(xiàn)能力要困難得多。”
規(guī)??梢杂貌煌姆绞絹砗饬?,包括計算(FLOPs)、模型大?。▍?shù)數(shù)量)或數(shù)據(jù)大小。在他們的研究中,研究人員專注于計算和模型大小,但強(qiáng)調(diào)“沒有一個單一的代理能夠充分捕捉規(guī)模的所有方面。”
大型語言模型中的新興能力
大型語言模型是一個特別有趣的案例研究,因為它們已經(jīng)顯示出非常明顯的出現(xiàn)跡象。LLM是非常大的變壓器神經(jīng)網(wǎng)絡(luò),通??缭綌?shù)千億個參數(shù),在數(shù)百GB的文本數(shù)據(jù)上進(jìn)行訓(xùn)練。它們可用于廣泛的任務(wù),包括文本生成、問題回答、摘要等。
LLM的有趣特征之一是它們的小樣本和零樣本學(xué)習(xí)能力,即執(zhí)行訓(xùn)練示例中未包含的任務(wù)的能力。隨著2020年OpenAI的GPT-3的推出,LLM中的少鏡頭學(xué)習(xí)引起了廣泛關(guān)注,此后對其范圍和局限性進(jìn)行了大量研究。
在他們的研究中,研究人員測試了幾個流行的LLM家族,包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM。他們從BIG-Bench中選擇了幾個任務(wù),這是一個包含200多個任務(wù)的眾包基準(zhǔn),“這些任務(wù)被認(rèn)為超出了當(dāng)前語言模型的能力”。他們還使用了來自TruthfulQA、大規(guī)模多任務(wù)語言理解(MMLU)和語境中的詞(WiC)的挑戰(zhàn),這些都是旨在測試LLM在處理復(fù)雜語言任務(wù)方面的極限的基準(zhǔn)。
研究人員還付出了額外的努力來測試LLM的多步推理、指令跟蹤和多步計算。
“GPT-3是標(biāo)志性的,它在LMs中引入了真正獨特的第一波新興能力,現(xiàn)在眾所周知的小樣本提示/上下文學(xué)習(xí),”Bommasani說。“在這里,可以用自然語言指定任務(wù),并附上描述和任務(wù)輸入輸出結(jié)構(gòu)的五個左右示例,最大的模型(即175B模型)可以在某些任務(wù)上做得相當(dāng)好。換句話說,您需要的特定于任務(wù)的數(shù)據(jù)要少得多,并且可以指定任務(wù)而無需進(jìn)行微調(diào)/基于梯度的方法。”
研究結(jié)果表明,規(guī)模與新能力的出現(xiàn)高度相關(guān)。每個LLM系列都有不同的規(guī)模,在特定規(guī)模以下的任務(wù)上表現(xiàn)出隨機(jī)或低于隨機(jī)的性能。在那之后,他們發(fā)現(xiàn)準(zhǔn)確性突然提高,并隨著模型的變大而繼續(xù)提高。
“一個有趣的例子是Pilehvar和Camacho-Collados(2019)的上下文中的詞(WiC)基準(zhǔn)。在該基準(zhǔn)上,GPT-3和Chinchilla基本上獲得了隨機(jī)單次性能,但使用大約5倍FLOP的PaLM最終證明了性能遠(yuǎn)遠(yuǎn)高于機(jī)會,”Bommasani說。
LLM中出現(xiàn)緊急行為的原因
大型語言模型中涌現(xiàn)能力的存在表明,我們無法通過推斷較小規(guī)模模型的性能來預(yù)測LLM的能力。
“緊急的小樣本提示任務(wù)也是不可預(yù)測的,因為這些任務(wù)沒有明確包含在預(yù)訓(xùn)練中,而且我們可能不知道語言模型可以執(zhí)行的小樣本提示任務(wù)的全部范圍??傮w而言,進(jìn)一步擴(kuò)展可能會賦予更大的語言模型新的新興能力,”研究人員寫道。
然而,一個突出的問題是模型是否真的在學(xué)習(xí)這些新興技能所需的知識。一些研究表明,當(dāng)神經(jīng)網(wǎng)絡(luò)提供正確的結(jié)果時,它通常將輸入映射到輸出,而無需學(xué)習(xí)因果關(guān)系、常識和其他學(xué)習(xí)技能背后的知識。
“總的來說,LMs如何獲得能力/技能在概念層面上并沒有得到很好的理解,”Bommasani說。“總的來說,我想說有(i)證據(jù)表明模型在某些方面隨著規(guī)模變得更加穩(wěn)健,(ii)即使我們最好的模型在關(guān)鍵方面也不是穩(wěn)健/穩(wěn)定的,我不希望通過以下方式解決規(guī)模,以及(iii)穩(wěn)健性/穩(wěn)定性/因果關(guān)系與規(guī)模之間的總體關(guān)系尚不為人所知。”
在他們的論文中,研究人員還討論了一些規(guī)模限制,包括硬件和數(shù)據(jù)瓶頸。此外,他們觀察到某些能力甚至可能不會隨著規(guī)模而出現(xiàn),包括遠(yuǎn)離模型訓(xùn)練數(shù)據(jù)集分布的任務(wù)。他們還警告說,一旦能力出現(xiàn),并不能保證它會隨著規(guī)模的擴(kuò)大而繼續(xù)提高。
“我不希望所有期望的行為都會出現(xiàn),但我確實希望隨著我們的擴(kuò)展我們會看到更多(特別是在密集的自回歸變形金剛之外的制度中,這些制度是純文本的純英文),”Bommasani說。“在更高的層面上,我預(yù)計我們將在一段時間內(nèi)繼續(xù)看到基礎(chǔ)模型范式的重大驚喜;Minerva在MATH基準(zhǔn)上的進(jìn)展令專業(yè)預(yù)測者感到驚訝,這是最近的一個具體例子。”
探索規(guī)?;奶娲桨?/h2>
隨著機(jī)器學(xué)習(xí)社區(qū)朝著創(chuàng)建更大的語言模型邁進(jìn),人們越來越擔(dān)心LLM的研究和開發(fā)將集中在少數(shù)擁有財務(wù)和計算資源來訓(xùn)練和運行模型的組織中。通過發(fā)布開源模型或降低培訓(xùn)和運行它們的成本和技術(shù)開銷,已經(jīng)有一些努力使LLM民主化。
在他們的論文中,研究人員討論了一些規(guī)模化的替代方案,包括在特定任務(wù)數(shù)據(jù)集上微調(diào)較小的模型。“一旦發(fā)現(xiàn)了一種能力,進(jìn)一步的研究可能會使這種能力適用于更小規(guī)模的模型,”作者寫道,他指的是最近關(guān)于提高小規(guī)模LLM準(zhǔn)確性的新微調(diào)方法的研究。
研究人員寫道:“隨著我們繼續(xù)訓(xùn)練越來越大的語言模型,降低新興能力的規(guī)模閾值將變得更加重要,因為這樣可以讓社區(qū)廣泛使用這些能力的研究。”
Bommasani說:“規(guī)模的好處,無論是否通過出現(xiàn),都可能會激勵人們可以投射的資源集中,這將激發(fā)/加劇權(quán)力的集中化。”“從歷史上看,很明顯,人工智能研究從具有開放科學(xué)傳統(tǒng)的學(xué)術(shù)界和工業(yè)界的合作中受益匪淺。鑒于擴(kuò)展的資源密集型性質(zhì),我相信這些必須堅持幾個互補的前進(jìn)道路:(i)規(guī)范研究人員對現(xiàn)有模型的訪問,(ii)開放式合作(例如BigScience、EleutherAI、Masakhane、ML Collective)構(gòu)建由支持去中心化的結(jié)構(gòu)變化支持的新模型,(iii)提供必要計算和數(shù)據(jù)的結(jié)構(gòu)資源(例如,國家研究云在美國作為國家人工智能研究資源)。”
可以肯定的是,在可預(yù)見的未來,大型語言模型仍將是機(jī)器學(xué)習(xí)研究的支柱。隨著它們進(jìn)入實際應(yīng)用,我們需要繼續(xù)研究它們的能力和局限性。
“法學(xué)碩士的新興能力對NLP產(chǎn)生了重大影響,具體改變了該領(lǐng)域的研究,以更好地理解和發(fā)展這種能力。它們還在社會學(xué)上影響了NLP和AI的整體性質(zhì),表明規(guī)模是當(dāng)前系統(tǒng)中的一個重要因素,”Bommasani說。“我們應(yīng)該建立對這些能力的共同理解,并探索未實現(xiàn)的潛力和規(guī)模的最終極限。”
- 上一篇
谷歌將于2023年關(guān)閉谷歌物聯(lián)網(wǎng)核心
谷歌宣布將于2023年8月關(guān)閉谷歌IoT Core。根據(jù)MachNation的首席物聯(lián)網(wǎng)分析師Josh Taubenheim的說法,谷歌這樣做有兩個原因。他們是:1.谷歌取消產(chǎn)品。這遠(yuǎn)不是谷歌第一次取消產(chǎn)
- 下一篇
新研究觀察到Z世代對情感AI的接受度
日本立命館亞太大學(xué)的一項新研究觀察了影響Z世代接受人工智能技術(shù)的社會文化因素。情感AI是一種涉及人類情感的人工智能,它正在迅速發(fā)展并被廣泛應(yīng)用于各種應(yīng)用中。話雖如此,