為什么人工智能的未來是靈活、可重用的基礎(chǔ)模型
學習一門不同的語言時,最簡單的入門方法是填空練習。“正在下貓雨……”
通過犯錯并改正錯誤,您的大腦(語言學家認為這是語言學習的天生)開始發(fā)現(xiàn)語法、詞匯和單詞序列中的模式——這不僅可以用于填空,還可以向其他人傳達意義(或計算機、狗等)。
在談論所謂的“基礎(chǔ)模型”時,最后一點很重要,這是目前人工智能領(lǐng)域最熱門(但報道不足)的話題之一。
根據(jù)2021 年的一篇評論文章,基礎(chǔ)模型是“在廣泛的數(shù)據(jù)(通常使用大規(guī)模自我監(jiān)督)上訓練的,可以適應廣泛的下游任務。”
在非學術(shù)語言中,就像學習填空練習一樣,基礎(chǔ)模型以一種以后可以應用于其他任務的方式學習事物,從而使它們比當前的 AI 模型更靈活。
為什么基礎(chǔ)模型不同?
訓練基礎(chǔ)模型的方式解決了 AI 中最大的瓶頸之一:標記數(shù)據(jù)。
當(為了證明你不是機器人)網(wǎng)站要求你選擇“所有包含船的圖片”時,你實際上是在標記。然后,該標簽可用于將船只圖像輸入算法,以便算法在某個時候能夠可靠地自行識別船只。傳統(tǒng)上,這是訓練 AI 模型的方式;使用人類標記的數(shù)據(jù)。這是一個耗時的過程,需要很多人來標記數(shù)據(jù)。
基礎(chǔ)模型不需要這種類型的標簽。他們不依賴人工注釋,而是使用填空法和自我生成的反饋來不斷學習和提高性能,而無需人工監(jiān)督。
這使得基礎(chǔ)模型對于尚未擁有廣泛可用數(shù)據(jù)的行業(yè)來說更容易獲得。事實上,根據(jù) IBM 院士兼IBMAI 首席技術(shù)官 Dakshi Agrawal 的說法,根據(jù)您在其中訓練基礎(chǔ)模型的領(lǐng)域,幾千兆字節(jié)的數(shù)據(jù)就足夠了。
這些復雜的模型聽起來可能與您這樣的用戶相去甚遠,但您幾乎可以肯定在網(wǎng)上的某個時候看到了一個基礎(chǔ)模型在工作。一些比較著名的是 GPT-3 語言模型,在輸入著名作家的作品后,它可以產(chǎn)生出色的模仿,或者 DALL-E,它根據(jù)用戶的提示產(chǎn)生令人驚嘆的圖像。
除了創(chuàng)造新的娛樂之外,基礎(chǔ)模型帶來的靈活性還可以幫助加速突破性的醫(yī)學研究、科學進步、工程、建筑,甚至編程。
突發(fā)特性
基礎(chǔ)模型具有兩個非常有趣的特性:涌現(xiàn)和同質(zhì)化。
出現(xiàn)意味著模型顯示的新的意想不到的特性,這些特性在前幾代中是不可用的。它通常發(fā)生在模型尺寸增大時。進行基本算術(shù)推理的語言模型是模型的涌現(xiàn)屬性的一個例子,它有點出乎意料。
同質(zhì)化是一個復雜的術(shù)語,指的是經(jīng)過訓練可以理解和使用英語來執(zhí)行不同任務的模型。這可能包括總結(jié)一段文本、以著名作家的風格輸出一首詩或解釋人類給出的命令(GPT-3 語言模型就是一個很好的例子)。
但基礎(chǔ)模型并不局限于人類語言。從本質(zhì)上講,我們教計算機做的是找到過程或現(xiàn)象中的模式,然后它可以在特定條件下復制這些模式。
讓我們用一個例子來解開它。取分子。物理和化學規(guī)定分子只能以特定的配置存在。下一步將是定義分子的用途,例如藥物。然后可以使用大量醫(yī)學數(shù)據(jù)訓練基礎(chǔ)模型,以了解不同分子(即藥物)在治療疾病時如何與人體相互作用。
然后可以使用這種理解來“微調(diào)”基礎(chǔ)模型,以便它可以就在特定情況下可能起作用的分子提出建議。這可以顯著加快醫(yī)學研究,讓專業(yè)人士可以簡單地要求模型提出可能具有某些抗菌特性的分子,或者可能作為一種藥物來對抗某種病毒。
但是,如前所述,這有時會產(chǎn)生意想不到的結(jié)果。最近,一組使用 AI 基礎(chǔ)模型來發(fā)現(xiàn)罕見疾病治療方法的科學家發(fā)現(xiàn),同一模型也可用于發(fā)現(xiàn)人類已知的最強大的化學武器。
基本的擔憂
這些模型可以帶來巨大變化的一個小跡象是提供“提示生成器”的公司不斷涌現(xiàn),這些公司利用人類為 Midjourney 或 DALL-E 等模型提供提示,從而可靠地輸出有趣或準確的圖像。
當然,像這樣的模型會引起爭議。最近,許多藝術(shù)家公開反對使用他們的作品來訓練圖像生成模型。
還有一個關(guān)于訓練大型模型所需的能源使用的案例。此外,創(chuàng)建基礎(chǔ)模型所需的大量計算資源意味著只有世界上最大的科技公司才能負擔得起培訓它們的費用。
然而,正如 Agrawal 解釋的那樣,提高這些模型的培訓和使用效率意味著它們正以越來越快的速度為更多人所用——從而降低能源消耗和成本。
這些模型的另一個更基本(抱歉)的問題是原始模型中的任何偏差或錯誤都可以轉(zhuǎn)移到使用它們構(gòu)建的工具中。因此,如果種族主義語言被用作語言模型的訓練數(shù)據(jù),它可能會導致一些令人反感的輸出,甚至會導致對相關(guān)公司的訴訟。
避免這種情況的一種方法是手動清除不需要的訓練數(shù)據(jù),但另一種更具未來感的方法是使用所謂的合成數(shù)據(jù)。合成數(shù)據(jù)是由 AI 模型生成的重要假數(shù)據(jù),用于模仿真實事物,但以更可控的方式進行。這對于確?;A(chǔ)模型在學習過程中不會吸收任何攻擊性或隱私敏感數(shù)據(jù)很有用。
更先進的人工智能模型會取代我們的工作嗎?
好吧,是的,不是。
大多數(shù)人工智能研究人員將這些模型視為一種工具。就像電動螺絲刀意味著組裝木結(jié)構(gòu)所需的時間更少一樣,仍然需要一個人來使用電動螺絲刀。
以 IBM 的基礎(chǔ)模型 Ansible Wisdom 為例。為了弄清楚是否可以教會計算機編程,研究人員對模型進行了微調(diào),以生成以前必須手動編寫的 Ansible 代碼片段。有了它,開發(fā)人員可以使用自然語言詢問模型,例如建議部署新 Web 服務器的可靠自動化。
Agrawal 認為這將徹底改變程序員的工作。
得益于人工智能,整個創(chuàng)新周期將加速。例如,如果您查看代碼,通過使用基礎(chǔ)模型,使用第一代基礎(chǔ)模型編碼會變得更快。我相信它會在短短幾年內(nèi)使生產(chǎn)力翻一番。
該公司與 Red Hat 合作將該模型作為開源項目發(fā)布,Red Hat 最著名的是開源操作系統(tǒng) Linux 的分發(fā)和維護。
這種用途類似于電動螺絲刀。它需要一項平凡的任務,并使用一種工具來自動化其中的一部分,以便更有效地執(zhí)行任務,從而節(jié)省開發(fā)人員的時間,然后他們可以將這些時間用于更具創(chuàng)造性的工作。
“它可以接管人類今天正在進行的活動,而人類將繼續(xù)從事其他活動。我認為 80% 的美國人口曾經(jīng)從事農(nóng)業(yè)。現(xiàn)在只有不到 2% 的人(根據(jù)美國農(nóng)業(yè)部 ERS——農(nóng)業(yè)和食品行業(yè)與經(jīng)濟)——人類轉(zhuǎn)向其他活動,與此同時,我們的生活質(zhì)量也得到了改善,”Agrawal 說。
基礎(chǔ)模型有可能改變許多現(xiàn)在對人類來說乏味或重復的過程。它們還提供了為我們面臨的一些最棘手的問題創(chuàng)建激進的和不可預測的解決方案的可能性。實際上,基礎(chǔ)模型可能意味著知識創(chuàng)建和應用方式的完全范式轉(zhuǎn)變。關(guān)鍵是要確保這些模型可供更廣泛的公眾使用,并采取適當?shù)谋U洗胧?/p>