大語言模型兵馬未動(dòng),數(shù)據(jù)準(zhǔn)備糧草先行
從OpenAI正式發(fā)布ChatGPT開始,大型語言模型(LLM)就變得風(fēng)靡一時(shí)。對(duì)業(yè)界和吃瓜群眾來說,這種技術(shù)最大的吸引力來自于理解、解釋和生成人類語言的能力,畢竟這曾被認(rèn)為是人類獨(dú)有的技能。類似CoPilot這樣的工具正在迅速融入開發(fā)者的日常工作,而由ChatGPT驅(qū)動(dòng)的應(yīng)用程序也開始變得日益主流。
大語言模型的流行,另一方面也要?dú)w功于普通開發(fā)者也能輕松用上這樣的技術(shù)。隨著大量開源模型陸續(xù)涌現(xiàn),每天都有新的科技初創(chuàng)公司提出基于大語言模型的解決方案。
然而,就算到了AI時(shí)代,數(shù)據(jù)依然是一種“新的石油”。在機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)充當(dāng)了訓(xùn)練、測(cè)試和驗(yàn)證模型的原材料。高質(zhì)量、多樣化、有代表性的數(shù)據(jù)對(duì)于創(chuàng)建準(zhǔn)確、可靠和健壯的大語言模型至關(guān)重要。
我們?cè)跇?gòu)建自己的大語言模型時(shí)可能會(huì)面臨挑戰(zhàn),特別是在收集和存儲(chǔ)數(shù)據(jù)這方面。大量非結(jié)構(gòu)化數(shù)據(jù)如何處理,以及該如何存儲(chǔ)和管理對(duì)數(shù)據(jù)的訪問,這些可能只是各種挑戰(zhàn)中的一小部分。
本文將探討與數(shù)據(jù)管理有關(guān)的挑戰(zhàn),借此讓讀者清楚了解數(shù)據(jù)在大語言模型中的關(guān)鍵作用,并在此基礎(chǔ)上,為讀者在自己的大語言模型項(xiàng)目中有效管理數(shù)據(jù)提供所需知識(shí)。
首先,一起看看有關(guān)大語言模型的基礎(chǔ)知識(shí)吧。
大語言模型的工作原理以及現(xiàn)有模型的選擇
從較高層次來看,大語言模型的工作原理很簡(jiǎn)單:將單詞(或句子)轉(zhuǎn)換為一種稱為嵌入(Embedding)的數(shù)值表達(dá)。這些“嵌入”捕獲了單詞間的語義含義和關(guān)系,模型就是借此理解語言的。例如,大語言模型會(huì)學(xué)習(xí)到“狗”和“小狗”這兩個(gè)詞是相關(guān)的,并且會(huì)將它們放在數(shù)值空間中更接近的位置,而“樹”這個(gè)詞則會(huì)較遠(yuǎn)。
大語言模型最關(guān)鍵的部分是神經(jīng)網(wǎng)絡(luò),這是一類受到人腦功能啟發(fā)創(chuàng)建出的計(jì)算模型。神經(jīng)網(wǎng)絡(luò)可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)這些嵌入及其相互之間的關(guān)系。與大多數(shù)機(jī)器學(xué)習(xí)應(yīng)用一樣,大語言模型需要大量數(shù)據(jù)。通常情況下,對(duì)于模型訓(xùn)練而言,數(shù)據(jù)量越大、質(zhì)量越高,模型的準(zhǔn)確性就越高,這意味著我們需要一種良好的方法來管理大語言模型用到的數(shù)據(jù)。
權(quán)衡現(xiàn)有模型時(shí)需要考慮的因素
幸運(yùn)的是,對(duì)于開發(fā)者而言,目前有很多開源的大語言模型可供選擇,其中不乏一些流行的,甚至可商用的,例如Databricks提供的Dolly、Meta提供的Open LLaMA等。
面對(duì)如此廣泛的選擇,想要找到合適的開源大語言模型可能就有些棘手了。我們必須了解大語言模型所需的計(jì)算和內(nèi)存資源。模型的大?。ɡ巛斎?yún)?shù)為30億與70億之間的模型)會(huì)影響運(yùn)行和使用模型所需的資源量。因此必須考慮選擇能與自己能力相匹配的模型。例如,一些DLite模型專門設(shè)計(jì)為能在筆記本電腦上運(yùn)行,而不需要高成本的云資源。
在研究每個(gè)大語言模型時(shí),一定要注意該模型是如何訓(xùn)練的,以及通常適用于什么樣的任務(wù)。這些區(qū)別也會(huì)影響我們的選擇。此時(shí)的規(guī)劃工作包括:篩選開源模型,了解每個(gè)模型的最佳適用場(chǎng)景,并預(yù)測(cè)自己將需要為每個(gè)模型使用的資源。
根據(jù)需要大語言模型的應(yīng)用程序或環(huán)境,我們可以選擇從現(xiàn)有大語言模型開始,也可以選擇從零開始訓(xùn)練一個(gè)自己的大語言模型。對(duì)于現(xiàn)成的大語言模型,我們可以直接使用它,或者也可以使用額外的數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),使其更符合自己所要處理的任務(wù)特點(diǎn)。
為了根據(jù)需求選擇最佳方法,還要求我們對(duì)用于訓(xùn)練大語言模型的數(shù)據(jù)有深入了解。
大語言模型中使用的數(shù)據(jù)類型
當(dāng)涉及到大語言模型的訓(xùn)練時(shí),通常使用的數(shù)據(jù)是文本數(shù)據(jù)。然而,這些文本數(shù)據(jù)的性質(zhì)可能有很大差異,了解可能遇到的不同類型數(shù)據(jù)是很重要的。一般來說,大語言模型用到的數(shù)據(jù)可分為兩種類型:半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)(即以表格數(shù)據(jù)集形式表示的數(shù)據(jù))通常不太可能用在大語言模型的訓(xùn)練工作中。
· 半結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)會(huì)以某種預(yù)定義的方式組織,并遵循某種模型。這種組織方式使得數(shù)據(jù)的搜索和查詢變得相當(dāng)簡(jiǎn)單直接。在大語言模型領(lǐng)域,半結(jié)構(gòu)化數(shù)據(jù)的類型有很多,例如文本語料庫,其中的每一項(xiàng)都與某些標(biāo)簽或元數(shù)據(jù)相關(guān)聯(lián)。半結(jié)構(gòu)化數(shù)據(jù)的其他例子包括:
新聞文章,每篇文章都與一個(gè)類別(如體育、政治或技術(shù))相關(guān)聯(lián)。
用戶評(píng)論,每條評(píng)論都與評(píng)分和產(chǎn)品信息相關(guān)聯(lián)。
社交媒體帖子,每個(gè)帖子都與發(fā)布者、發(fā)布時(shí)間和其他元數(shù)據(jù)相關(guān)聯(lián)。
在這些情況下,大語言模型可能會(huì)根據(jù)新聞文章預(yù)測(cè)類別,根據(jù)評(píng)論文本預(yù)測(cè)評(píng)分,或根據(jù)內(nèi)容預(yù)測(cè)社交媒體帖子蘊(yùn)含的情緒。
· 非結(jié)構(gòu)化數(shù)據(jù)
另一方面,非結(jié)構(gòu)化數(shù)據(jù)缺乏預(yù)定義的組織或模型。這些數(shù)據(jù)通常以文本為主,并且可能包含日期、數(shù)字和事實(shí),這使得它更加復(fù)雜,難以處理和分析。在大語言模型領(lǐng)域,非結(jié)構(gòu)化數(shù)據(jù)非常普遍,例如:
書籍、文章和其他長篇內(nèi)容
從采訪或播客中提取的文本記錄
網(wǎng)頁或文檔
由于缺乏明確的標(biāo)簽或組織標(biāo)記,非結(jié)構(gòu)化數(shù)據(jù)對(duì)大語言模型的訓(xùn)練更具挑戰(zhàn)性。然而,這類數(shù)據(jù)也可以產(chǎn)生更通用的模型。例如,用大量書籍語料庫訓(xùn)練出的模型可能會(huì)學(xué)會(huì)生成逼真的散文,就像GPT-3那樣。
可想而知,數(shù)據(jù)是大語言模型的核心。但這些數(shù)據(jù)如何從原始狀態(tài)轉(zhuǎn)換為大語言模型可以使用的格式?讓我們將焦點(diǎn)轉(zhuǎn)移到其中涉及的關(guān)鍵過程上。
大語言模型的數(shù)據(jù)管道和數(shù)據(jù)攝入
用于獲取和處理大語言模型數(shù)據(jù)的基本構(gòu)件在于數(shù)據(jù)管道(Data pipeline)和數(shù)據(jù)攝入(Data ingestion)的概念。
1.數(shù)據(jù)管道是什么?
數(shù)據(jù)管道在原始的非結(jié)構(gòu)化數(shù)據(jù)與完全訓(xùn)練好的大語言模型之間形成了一個(gè)通道,借此確保數(shù)據(jù)被正確地收集、處理和準(zhǔn)備,使其能夠在大語言模型構(gòu)建過程的訓(xùn)練和驗(yàn)證階段順利使用。
數(shù)據(jù)管道是一組流程,可將數(shù)據(jù)從源頭移動(dòng)到一個(gè)可以存儲(chǔ)和分析的目的地。通常情況下,其中包括:
數(shù)據(jù)提取:從源頭提取數(shù)據(jù),這個(gè)源頭可以是數(shù)據(jù)庫、數(shù)據(jù)倉庫,甚至外部API。
數(shù)據(jù)轉(zhuǎn)換:原始數(shù)據(jù)需要經(jīng)過清洗和轉(zhuǎn)換,以便轉(zhuǎn)換為適合分析的格式。轉(zhuǎn)換包括處理缺失值、糾正不一致的數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)類型或?qū)︻悇e變量進(jìn)行獨(dú)熱編碼(One-hot encoding)。
數(shù)據(jù)加載:轉(zhuǎn)換后的數(shù)據(jù)被加載到存儲(chǔ)系統(tǒng)(例如數(shù)據(jù)庫或數(shù)據(jù)倉庫)。這些數(shù)據(jù)隨后可以立即用于機(jī)器學(xué)習(xí)模型中。
當(dāng)談?wù)摂?shù)據(jù)攝入時(shí),我們指的是這些管道過程的前端,即數(shù)據(jù)的獲取和為后續(xù)使用所進(jìn)行的準(zhǔn)備。
2.大語言模型的數(shù)據(jù)管道是什么樣子的?
雖然大語言模型的數(shù)據(jù)管道在一般情況下可能與數(shù)據(jù)團(tuán)隊(duì)使用的大多數(shù)管道有所相似,但大語言模型為管理的數(shù)據(jù)提出了一些獨(dú)特的挑戰(zhàn)。例如:
數(shù)據(jù)提取:大語言模型的數(shù)據(jù)提取通常更復(fù)雜、多樣化且計(jì)算密集。由于數(shù)據(jù)來源可能是網(wǎng)站、書籍、文本記錄或社交媒體,每個(gè)來源都有自己的細(xì)微差別,需要獨(dú)特的方法。
數(shù)據(jù)轉(zhuǎn)換:由于大語言模型的數(shù)據(jù)來源范圍非常廣泛,每種類型數(shù)據(jù)的每個(gè)轉(zhuǎn)換步驟都將不同,需要獨(dú)特的邏輯將數(shù)據(jù)處理成大語言模型可以用于訓(xùn)練的更標(biāo)準(zhǔn)化的格式。
數(shù)據(jù)加載:在許多情況下,數(shù)據(jù)加載的最后一步可能需要使用非常規(guī)的數(shù)據(jù)存儲(chǔ)技術(shù)。非結(jié)構(gòu)化文本數(shù)據(jù)可能需要使用NoSQL數(shù)據(jù)庫,而不像很多數(shù)據(jù)管道那樣使用關(guān)系型數(shù)據(jù)存儲(chǔ)。
大語言模型的數(shù)據(jù)轉(zhuǎn)換過程包括了與自然語言處理(NLP)中類似的技術(shù):
詞元化:將文本分解為單個(gè)單詞或詞元(Token)。
停用詞去除:消除常用詞如“and”、“the”和“is”。然而,根據(jù)大語言模型所訓(xùn)練任務(wù)的不同,有時(shí)候這類停用詞可能會(huì)被保留,這可能是為了保留重要的句法和語義信息。
詞形還原:將單詞減少到其基本形式或詞根形式。
可想而知,將所有這些步驟結(jié)合起來,從各種來源攝取海量數(shù)據(jù),可能會(huì)導(dǎo)致一個(gè)非常復(fù)雜且龐大的數(shù)據(jù)管道。為了順利完成任務(wù),我們需要適合的工具和資源。
數(shù)據(jù)攝入的常見工具
數(shù)據(jù)工程領(lǐng)域有幾個(gè)極其流行的工具可以幫助我們處理構(gòu)成數(shù)據(jù)管道的一部分復(fù)雜數(shù)據(jù)攝入過程。如果正在構(gòu)建自己的大語言模型,我們的大部分開發(fā)時(shí)間將用于收集、清理和存儲(chǔ)用于訓(xùn)練的數(shù)據(jù)。那些能夠幫助我們管理大語言模型數(shù)據(jù)的工具可以按以下方式加以分類:
管道編排:用于監(jiān)視和管理數(shù)據(jù)管道中過程的平臺(tái)。
計(jì)算:處理大規(guī)模數(shù)據(jù)所用的資源。
存儲(chǔ):用于存儲(chǔ)有效大語言模型訓(xùn)練所需的大量數(shù)據(jù)的數(shù)據(jù)庫。
讓我們?cè)敿?xì)看看這三類工具。
1.管道編排
Apache Airflow是一個(gè)流行的開源平臺(tái),可用于以編程方式編寫、調(diào)度和監(jiān)視數(shù)據(jù)工作流。它可以幫助我們使用基于Python的編程接口創(chuàng)建復(fù)雜數(shù)據(jù)管道,這種接口不僅功能豐富,而且易于使用。Airflow中的任務(wù)可以組織成有向無環(huán)圖(DAG),其中每個(gè)節(jié)點(diǎn)代表一個(gè)任務(wù),邊表示任務(wù)之間的依賴關(guān)系。
Airflow已被廣泛用于數(shù)據(jù)提取、轉(zhuǎn)換和加載操作,它已經(jīng)成為數(shù)據(jù)攝入過程中的寶貴工具。Linode Marketplace提供了Apache Airflow,用戶可以借此通過簡(jiǎn)單的設(shè)置快速上手使用。
2.計(jì)算
除了使用諸如Airflow之類的工具進(jìn)行管道管理,我們還需要能夠可靠地運(yùn)行大規(guī)模處理所需的計(jì)算資源。隨著攝入大量文本數(shù)據(jù)并從許多來源進(jìn)行下游處理,我們的任務(wù)將需要能夠根據(jù)需求擴(kuò)展計(jì)算資源,最好是以水平的方式進(jìn)行擴(kuò)展。
Kubernetes是一種流行的可擴(kuò)展計(jì)算選項(xiàng)。Kubernetes帶來了靈活性,能與許多工具(包括Airflow)很好地集成。通過利用托管的Kubernetes,我們可以快速、簡(jiǎn)單地啟動(dòng)靈活的計(jì)算資源。
3.存儲(chǔ)
數(shù)據(jù)庫對(duì)于數(shù)據(jù)攝入過程至關(guān)重要,它可充當(dāng)經(jīng)過清理和轉(zhuǎn)換后攝入數(shù)據(jù)的主要目的地。我們可以采用各種類型的數(shù)據(jù)庫。具體使用哪種類型,這取決于數(shù)據(jù)的性質(zhì)和用例的具體要求:
關(guān)系型數(shù)據(jù)庫使用表格結(jié)構(gòu)來存儲(chǔ)和表示數(shù)據(jù)。它適用于具有清晰關(guān)系和數(shù)據(jù)完整性至關(guān)重要的數(shù)據(jù)。盡管我們的大語言模型將依賴于非結(jié)構(gòu)化數(shù)據(jù),但像PostgreSQL這樣的關(guān)系型數(shù)據(jù)庫也可以處理非結(jié)構(gòu)化數(shù)據(jù)類型。
NoSQL數(shù)據(jù)庫:NoSQL數(shù)據(jù)庫包括面向文檔的數(shù)據(jù)庫,它不使用表格結(jié)構(gòu)來存儲(chǔ)數(shù)據(jù),適用于處理大量非結(jié)構(gòu)化數(shù)據(jù),可提供高性能、高可用性和易擴(kuò)展性。
作為大語言模型數(shù)據(jù)存儲(chǔ)的替代方案,一些工程師更喜歡使用分布式文件系統(tǒng),例如AWS S3或Hadoop。雖然分布式文件系統(tǒng)是存儲(chǔ)大量非結(jié)構(gòu)化數(shù)據(jù)的好選擇,但需要額外的工作來組織和管理大型數(shù)據(jù)集。
在Linode Marketplace提供的各種存儲(chǔ)選項(xiàng)中,我們可以看到托管的PostgreSQL和托管的MySQL。這兩個(gè)選項(xiàng)都易于設(shè)置,可與大語言模型數(shù)據(jù)管道連接。
雖然小型大語言模型可能會(huì)使用較少的數(shù)據(jù)進(jìn)行訓(xùn)練,并且可以使用較小的數(shù)據(jù)庫(如單個(gè)PostgreSQL節(jié)點(diǎn)),但更重的用例將需要處理大量數(shù)據(jù)。在這些情況下,我們可能需要類似PostgreSQL Cluster的東西來支持將要處理的數(shù)據(jù)量,并為大語言模型管理數(shù)據(jù)以及可靠地提供數(shù)據(jù)服務(wù)。
在選擇用于管理大語言模型數(shù)據(jù)的數(shù)據(jù)庫時(shí),別忘了考慮數(shù)據(jù)的性質(zhì)和具體要求。我們攝入的數(shù)據(jù)類型將決定哪種數(shù)據(jù)庫最適合自己的需求。當(dāng)然,實(shí)際用例要求(如性能、可用性和可擴(kuò)展性)也是重要的考慮因素。
有效和準(zhǔn)確地?cái)z入數(shù)據(jù)對(duì)大語言模型的成功至關(guān)重要。通過正確使用工具,我們可以為自己的管道構(gòu)建可靠、高效的數(shù)據(jù)攝入過程,處理大量數(shù)據(jù),并確保大語言模型具備學(xué)習(xí)和提供準(zhǔn)確結(jié)果所需的一切。
總結(jié)
大語言模型的迅猛崛起在技術(shù)領(lǐng)域開辟了新的大門。這項(xiàng)技術(shù)對(duì)開發(fā)者來說易于訪問,但如何管理大語言模型的數(shù)據(jù)以及利用數(shù)據(jù)來訓(xùn)練新的大語言模型或調(diào)整現(xiàn)有大語言模型,將決定開發(fā)者能否在長期范圍內(nèi)持續(xù)獲得成功。
相關(guān)資訊
- 大數(shù)據(jù)面臨的六個(gè)挑戰(zhàn)以及如何利
- 什么是數(shù)字孿生技術(shù)?掃盲篇
- 解讀數(shù)字化轉(zhuǎn)型中的沉沒成本謬誤
- 云計(jì)算在商業(yè)運(yùn)營中的潛力
- 全屋智慧家電包括哪些?
- 減少Instagram數(shù)據(jù)使用的5種創(chuàng)新
- 人工智能顯著增加了社交媒體黑客
- 位置科學(xué):使用位置智能的三個(gè)關(guān)鍵
- 物聯(lián)網(wǎng)技術(shù)之PLC:掃盲篇
-
- 精選方案
- 經(jīng)典案例
猜你喜歡
-
沃卡惠定制增強(qiáng)版隨身WiFi
沃卡惠公眾平臺(tái)定制增強(qiáng)版隨身WiFi,150MB/s高速上網(wǎng),支持移動(dòng)聯(lián)通4G/3G電信4G及全球50家
¥99.00產(chǎn)品詳情 -
高性能版CPE無線路由器
全網(wǎng)通4G單頻無線路由器,支持移動(dòng)和聯(lián)通3G/4G網(wǎng)絡(luò),以及電信4G網(wǎng)絡(luò),下載速率最高可達(dá)150M
¥299.00產(chǎn)品詳情 -
標(biāo)準(zhǔn)版移動(dòng)CPE路由器
全網(wǎng)通4G無線路由器,支持移動(dòng)和聯(lián)通3G/4G網(wǎng)絡(luò),以及電信4G網(wǎng)絡(luò),下載速率最高可達(dá)150Mbps,最
¥199.00產(chǎn)品詳情
相關(guān)資訊
- 人工智能在網(wǎng)絡(luò)安全中的作用
- 數(shù)字創(chuàng)新如何改變房地產(chǎn)
- 2022年物聯(lián)網(wǎng)采用的六大趨勢(shì)
- 智慧交通的優(yōu)勢(shì)是什么?
- 我們當(dāng)下如何定義元宇宙會(huì)影響將
- 如何利用物聯(lián)網(wǎng)實(shí)現(xiàn)可持續(xù)發(fā)展目
- 如何在家中使用物聯(lián)網(wǎng)?
- 物聯(lián)網(wǎng)的未來:我們應(yīng)該期待什么?
- 物聯(lián)網(wǎng)如何徹底改變數(shù)字營銷
- 最常用的12種物聯(lián)網(wǎng)協(xié)議和標(biāo)準(zhǔn)
- AI是怎樣重塑研究的?