亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

大模型研發(fā)核心:數(shù)據(jù)工程、自動(dòng)化評(píng)估及與知識(shí)圖譜的結(jié)合

沃卡惠2023-08-18 09:28:214636

一、大模型研發(fā)中的數(shù)據(jù)工程

1、什么是大模型的數(shù)據(jù)工程-以數(shù)據(jù)為中心的AI

圖片

什么是大模型的數(shù)據(jù)工程?現(xiàn)在大家去做GPT模型或者BERT等模型,都會(huì)有兩個(gè)方向。第一個(gè)是以模型為中心,不怎么關(guān)注數(shù)據(jù),不斷地優(yōu)化模型的結(jié)構(gòu);第二個(gè)是以數(shù)據(jù)為中心(Data-Driven),也是目前做算法的一個(gè)共識(shí),算法本質(zhì)上是在做數(shù)據(jù),核心是說模型不變,通過改進(jìn)數(shù)據(jù)質(zhì)量來提升模型效果,不斷提升訓(xùn)練數(shù)據(jù)的質(zhì)量。

以數(shù)據(jù)為中心的 AI 核心在于訓(xùn)練數(shù)據(jù)開發(fā),推理數(shù)據(jù)開發(fā)以及數(shù)據(jù)維護(hù)。

訓(xùn)練數(shù)據(jù)開發(fā)包括很多的pipeline,包括如何收集數(shù)據(jù),如何定數(shù)據(jù)源,如何做高質(zhì)量的數(shù)據(jù)標(biāo)注,如何做數(shù)據(jù)的預(yù)處理或者數(shù)據(jù)的縮減或增強(qiáng)。比如做領(lǐng)域微調(diào)數(shù)據(jù),如果行業(yè)數(shù)據(jù)只有幾萬條,需要增強(qiáng)到幾十萬條或者幾百萬條,才能真正地把領(lǐng)域或行業(yè)的數(shù)據(jù)加進(jìn)去。

推理數(shù)據(jù)開發(fā),就是怎么評(píng)估之前的訓(xùn)練樣本,更好的評(píng)估測試集外的數(shù)據(jù)。

數(shù)據(jù)維護(hù),做數(shù)據(jù)相關(guān)的事情需要實(shí)現(xiàn)成一個(gè)閉環(huán),包括對(duì)數(shù)據(jù)的理解。使用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)如果發(fā)現(xiàn)數(shù)據(jù)有問題,需要可以定位到問題來源于哪個(gè)數(shù)據(jù)集,做定點(diǎn)的追蹤和優(yōu)化。

大模型的數(shù)據(jù)工程主要解決的幾個(gè)關(guān)鍵問題如下:

  • 需要什么數(shù)據(jù)?
  • 數(shù)據(jù)從哪兒來?
  • 數(shù)據(jù)怎么處理?
  • 數(shù)據(jù)怎么評(píng)估?
  • 數(shù)據(jù)怎么管理,版本迭代?

解決上面的問題,就可以比較好的搭一個(gè)相對(duì)完整的pipeline了。

2、回顧:現(xiàn)有大模型基本情況

圖片

回顧一下現(xiàn)有大模型的基本情況,這里基于四張圖進(jìn)行闡述。

左上圖反映了到2023年3月為止,語言模型的模型大小,餅越大,其對(duì)應(yīng)的參數(shù)就越大??梢钥吹?,國外的MT-NLG、PaLM還有OPT的參數(shù)規(guī)模是比較大的;國內(nèi)的GLM-130B的參數(shù)是比較大的,已經(jīng)到了千億級(jí)水平。

右上圖比較形象地揭示了現(xiàn)在不同段位的大模型的玩法:

  • 波音787,大家都可以買票乘坐,包含有 GPT-4、 PaLM 等,提供API調(diào)用。
  • 小型私人飛機(jī),一些中小公司能夠研發(fā)出來私有部署,包含有Flan-T5、Pythia等。
  • 紙飛機(jī),平民玩法,可以做一些領(lǐng)域微調(diào),得到一個(gè)私有部署模型,包含有Alpaka、Koala等。

現(xiàn)在做大模型大家基本是分散在這3個(gè)層級(jí)內(nèi)。

左下圖描述了截止2022年12月DeepMind的模型,DeepMind在不斷地更新一些模型,先后提出了Gopher-280B、Chinchilla-70B、Flamingo-80B 等不同代號(hào)的模型,可以看到,現(xiàn)在做大模型的時(shí)候都喜歡用動(dòng)物來命名,所以現(xiàn)在動(dòng)物園的名稱可能后面也會(huì)卷的不行。

右下圖描述了代碼生成模型的規(guī)模。目前比較大有CodeGen,有16B參數(shù);然后有清華的CodeGeeX,有13B參數(shù)?,F(xiàn)在也有一個(gè)趨勢,就是把文本和代碼就混合去訓(xùn)練,訓(xùn)練后的 COT 能力有一定提升。

3、回顧:現(xiàn)有大模型應(yīng)用場景

圖片

上圖列出了大模型的應(yīng)用場景,大家不斷在探索大模型的邊界,分了幾個(gè)層級(jí):

  • S,比如GPT-3 13B 做的主要是Debuging或者是閱讀理解。
  • M,比如GPT-3 175B,隨著參數(shù)量增大,到了175B的時(shí)候,可以完成語言學(xué)的解題或者情感分析、GRE考試。
  • L,比如PaLM-540B,可以完成一些語音或者推理的任務(wù)。
  • XL,比如GPT-4,可以完成高考題或者其他一些更先進(jìn)的工作。
  • Next...,可能就會(huì)更偏向于落地,解決更長文本的處理等問題。

4、起底:GPT背后的預(yù)訓(xùn)練數(shù)據(jù)

圖片

這些模型背后都用了什么數(shù)據(jù)呢?

我們先來看ChatGPT的變化,2018 年6月的 GPT-1 只用了 5GB 的預(yù)訓(xùn)練數(shù)據(jù),有1.17億參數(shù);半年之后2019年2月的GPT-2,使用了40 GB 的預(yù)訓(xùn)練數(shù)據(jù),有15億參數(shù);2020年5月的 GPT-3,有1750億參數(shù),預(yù)訓(xùn)練數(shù)據(jù)45TB,但是它并不是實(shí)際使用了45TB,而是總量是有45TB,篩選出了750GB數(shù)據(jù)用于預(yù)訓(xùn)練。

右上圖看一下GPT-3具體數(shù)據(jù)上的分布,60%的數(shù)據(jù)是Common Crawl,也就是低質(zhì)量的網(wǎng)頁;占比22%的WebText2是抓取的高質(zhì)量網(wǎng)頁;Books1、Books2是比較高質(zhì)量的書籍,分別占比8%;維基百科Wikipedia占比3%。

可以發(fā)現(xiàn):

  • 第一、數(shù)據(jù)主要還是靠大規(guī)模的隨機(jī)網(wǎng)頁做支撐的,主打的是多樣性,因?yàn)榫W(wǎng)頁里面什么都有,多樣性是很好的。
  • 第二、高質(zhì)量,書籍的質(zhì)量特別高,然后是Wikipedia,Wikipedia有個(gè)很重要的點(diǎn),就是它的多語種能力,有100 多個(gè)版本,大家后面會(huì)發(fā)現(xiàn),即使GPT里邊中文只占比只有 0.1%,但是中文的能力也有的。

5、起底:英文主流大模型預(yù)訓(xùn)練數(shù)據(jù)的構(gòu)成-多語種能力

圖片

從多語種能力上看一下英文主流大模型。比如說BLOOM,有46種語言,最多的還是English,所以現(xiàn)在大家去做領(lǐng)域微調(diào)進(jìn)行技術(shù)選型的時(shí)候, BLOOM是一個(gè)比較好的底座,和LLaMA相比,BLOOM的多語言能力比較強(qiáng)。GPT-3有90種語言,當(dāng)然絕大部分約92.7%還是English,中文的話大約是0.1%。PaLM有122種語言, 74.1%是English,其中還加了一些code。

6、起底:英文主流大模型預(yù)訓(xùn)練數(shù)據(jù)的構(gòu)成

圖片

分析一下主流大模型訓(xùn)練數(shù)據(jù)的構(gòu)成。我們先拉出來一個(gè)維度,基本上包括維基百科、書籍、期刊、Reddit鏈接(WebText)、Common Crawl等。

  • GPT-1 基本上使用書籍訓(xùn)練的。
  • GPT-2 主要用Reddit鏈接。
  • GPT-3 使用維基百科、書籍、期刊、Reddit鏈接(WebText)、Common Crawl。
  • The Pile這個(gè)數(shù)據(jù)解壓之后是1.2T,大家基本上都可以拿到使用。這個(gè)數(shù)據(jù)集的一個(gè)特點(diǎn)就是多樣性特別高,如果沒記錯(cuò)的話有 22 個(gè)不同來源的數(shù)據(jù),還包括Github,Books等。
  • LLaMA 主打的一個(gè)點(diǎn)是在參數(shù)量不遜千億的情況下,訓(xùn)練數(shù)據(jù)盡可能豐富,使用了1.4T的Token,數(shù)據(jù)來源也是比較多的,包括維基百科、書籍、期刊、Common Crawl。

可以看到很多大模型Common Crawl都是占了比較大的比重。

除了文本大模型,還有多模態(tài)大模型。

OpenAI有DALL-E會(huì)有Conceptual Captions等數(shù)據(jù)集,谷歌的多模態(tài)模型也是一樣,但是跟文本大模型相比,數(shù)據(jù)集相對(duì)比較少,而且多模態(tài)的參數(shù)量跟純文本相比還是相差一定量級(jí)的。

圖片

GPT-3有一個(gè)很重要的數(shù)據(jù)集叫Common Crawl,從Common Crawl中通過清洗的方式可以獲取英語語料比如C4,C4中很多數(shù)據(jù)都是專利數(shù)據(jù)(patents.google.com)。我們?cè)倏匆幌翯PT-3 TOP10 的一些Datasets,包括Wikipedia、Google、Libgen等。

圖片

上圖列出了幾個(gè)預(yù)訓(xùn)練數(shù)據(jù)內(nèi)部構(gòu)成:

  • The Pile v1版本包括PubMed Central,所以在生物醫(yī)藥方面Pile是有一定優(yōu)勢的;包括ArXiv(papers)、法律相關(guān)的FreeLaw、數(shù)學(xué)相關(guān)的DM Mathematics、Ubuntu的用戶日志、多語種的EuroParl數(shù)據(jù)集等。如果需要做多語種翻譯,或者增強(qiáng)多語種能力,Pile數(shù)據(jù)集是可以利用的。
  • WebText包括Google、Archive、GitHub等等。
  • C4包括有0.48%專利數(shù)據(jù)(只用了專利的背景),所以 GPT-3進(jìn)行一些專利方向的交互,回答也會(huì)不錯(cuò),對(duì)專利感興趣的同學(xué)可以關(guān)注C4 數(shù)據(jù)集,做一些比較好的遷移。

7、起底:英文主流大模型常用預(yù)訓(xùn)數(shù)據(jù)

圖片

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)-維基百科、書籍。

圖片

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)-論文期刊。ArXiv有2000多萬的文章,都可以下載到。

圖片

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)-WebText、Conmmon Crawl。也是大家可以下載到的。

圖片

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)The Pile及代碼、論壇。左下是Pile數(shù)據(jù)集的內(nèi)部分布。代碼數(shù)據(jù)集公開的比較多,能下載到的有上T級(jí)別的。

8、起底:中文主流大模型預(yù)訓(xùn)數(shù)據(jù)構(gòu)成

圖片

下面介紹一下中文主流大模型預(yù)訓(xùn)數(shù)據(jù)構(gòu)成,目前中文的開源數(shù)據(jù)集和英文相比差距還是比較大的。

比如華為盤古大模型,使用中文文本語料共1.1TB。

  • 開源數(shù)據(jù)集只用了27.9GB,數(shù)據(jù)來源基本上是開源的評(píng)測數(shù)據(jù),如百度QA、DuReader、CAIL2018法律文本(幾百萬的法律文書數(shù)據(jù))、搜狗 CA(搜狗的一個(gè)文本分類的數(shù)據(jù)集)等。
  • 百科數(shù)據(jù)包括百度百科,搜狗百科等,以及之前大家卷知識(shí)圖譜的時(shí)候開放的百科的三元組以及內(nèi)部信息。
  • 電子書也有應(yīng)用,但是國外有zlibary這樣比較大型的書籍集合。
  • Common Crawl,使用了Common Crawl的2018年1月到2020年12月的網(wǎng)絡(luò)數(shù)據(jù)

阿里的M6大模型用到百科全書、社區(qū)QA、論壇討論、Common Crawl等,還有一些和業(yè)務(wù)結(jié)合的電商數(shù)據(jù)。

WeLM的數(shù)據(jù)構(gòu)成更像GPT,包括Common Crawl、書籍、新聞、論壇、學(xué)術(shù)著作等。

InternVideo是多模態(tài)模型,會(huì)用到網(wǎng)絡(luò)視頻,YouTube視頻、電影等。

大家可以看到,在多樣性上和英文相比會(huì)存在比較大的缺陷。

圖片

詳細(xì)看一下預(yù)訓(xùn)練數(shù)據(jù)的構(gòu)成。

左邊是PanGu Alpha ,有47.16%是Common Crawl,有29.65%的Public Datasets(剛才提到的各種公開的測試集),對(duì)于這種高質(zhì)量的評(píng)測數(shù)據(jù),訓(xùn)練時(shí)Epochs數(shù)可以更多,而CommonCrawl的Epochs 數(shù)更少,進(jìn)行降采樣。

右邊是Wudao2.0,Wudao也是大家可以拿到的開放數(shù)據(jù)。悟道里有知乎、百度百科等,當(dāng)然也其他網(wǎng)站,包括騰訊、搜狐的數(shù)據(jù)。從Raw Size維度看,知乎數(shù)據(jù)只有131 GB。

圖片

上圖主要列出了大模型預(yù)訓(xùn)練數(shù)據(jù)構(gòu)成中的中英對(duì)比,右圖可以從顏色看到一個(gè)區(qū)分度,英文不同的來源的區(qū)分是特別細(xì)的,而中文來源的區(qū)分是比較粗的,存在比較明顯的差別。

圖片

如果要復(fù)現(xiàn)GPT-4、GPT-3等模型,通常會(huì)從語料上找中英文數(shù)據(jù)集之間是否存在映射關(guān)系。

可以看到,中文的知乎對(duì)應(yīng)英語的Quora;百度百科對(duì)應(yīng)English Wikipedia,但有個(gè)很大的問題是中文的百科對(duì)比英文的維基百科,訓(xùn)練數(shù)據(jù)的質(zhì)量是沒有那么好的,英文的Wikipedia里面包括各種參考文獻(xiàn),特別豐富的而且權(quán)威性比較高,它都會(huì)注釋來源于哪,而且包含多個(gè)版本,所以在百科這個(gè)方面存在一定差距;搜狐News對(duì)應(yīng)NBC;騰訊QQ對(duì)應(yīng) ICQ;另外還有一些比較垂域的,比如17ok.com(finance discussion)對(duì)應(yīng)Yahoo Finance 等。

9、問題的提出:我們需要怎樣的預(yù)訓(xùn)練數(shù)據(jù)

圖片

討論了中英對(duì)應(yīng)并找到差距之后,繼續(xù)討論一下如果要做好的模型,應(yīng)該準(zhǔn)備怎樣的預(yù)訓(xùn)練數(shù)據(jù)?從源頭上去講,語言模型質(zhì)量要求如下:

  • 相關(guān)性,回答是否和問題相關(guān),不要答非所問,體現(xiàn)了對(duì)問題的理解能力。
  • 準(zhǔn)確性,事實(shí)性要求回答要求完全一致,不要產(chǎn)生錯(cuò)的答案,開放性回答要求語義相近。
  • 完備性,是否涵蓋了所有要點(diǎn)。
  • 連貫性,語言上是否表達(dá)流暢。
  • 安全性,是否符合地方法規(guī)以及人的價(jià)值觀。
  • 專業(yè)性,不口水話,不啰嗦,坦白說ChatGPT比較啰嗦。
  • 敏感性,是否涉及到政治理念、黃反、敏感事件等負(fù)面信息。

拿到質(zhì)量要求后,可以得出大模型需要高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)。

(1)高質(zhì)量

  • 高質(zhì)量數(shù)據(jù)集能夠提高模型精度與可解釋性,并且減少收斂到最優(yōu)解的時(shí)間,減少訓(xùn)練時(shí)長;
  • 高質(zhì)量數(shù)據(jù)的選擇依據(jù)是信源權(quán)威可靠、內(nèi)容價(jià)值觀對(duì)齊、專業(yè)領(lǐng)域知識(shí),不會(huì)選擇不入流的站點(diǎn)數(shù)據(jù)或者大家隨便寫的文章;
  • 高質(zhì)量的數(shù)據(jù)具有規(guī)范性、完整性、準(zhǔn)確性、一致性、時(shí)效性,比如說GPT的時(shí)效只到2021年,那2022年、2023 年的數(shù)據(jù)也要去收集,實(shí)現(xiàn)時(shí)效性上的高質(zhì)量。

(2)大規(guī)模

預(yù)訓(xùn)練的數(shù)據(jù)量越多,大模型的擬合能力就越強(qiáng),效果就會(huì)越來越好。如果數(shù)據(jù)規(guī)模太小的話,模型學(xué)的東西不會(huì)多,記得也不夠深。

(3)多樣性

數(shù)據(jù)豐富性能夠提高大模型的泛化能力,模型預(yù)訓(xùn)練數(shù)據(jù)足夠多,其生產(chǎn)內(nèi)容也能更多樣。在準(zhǔn)備預(yù)訓(xùn)練數(shù)據(jù)的時(shí)候盡可能準(zhǔn)備更多的數(shù)據(jù),數(shù)據(jù)多了,模型的泛化能力就會(huì)更強(qiáng);而且數(shù)據(jù)足夠豐富,在訓(xùn)練時(shí)就不會(huì)偏向某一類,導(dǎo)致過擬合問題的出現(xiàn)。所以需要對(duì)預(yù)訓(xùn)練數(shù)據(jù)做嚴(yán)格的去重,有各種花式的玩法。

10、問題的提出:以數(shù)據(jù)為中心的預(yù)訓(xùn)模型

圖片

找到數(shù)據(jù)之后,需要最多的處理就是去重,比如GPT-1有4.8GB未過濾數(shù)據(jù),GPT-2有40GB人類過濾數(shù)據(jù),GPT-3有570GB過濾數(shù)據(jù)(來自45TB原始數(shù)),過濾數(shù)據(jù)很重要的。

11、解決方案:領(lǐng)域預(yù)訓(xùn)模型的訓(xùn)練鏈路-以CaMA為例

圖片

這里以浙江大學(xué)CaMA模型為例,為大家展示如何從數(shù)據(jù)端去完成一個(gè)領(lǐng)域模型。

浙江大學(xué)在LLaMA的基礎(chǔ)上做了兩個(gè)工作,首先是繼續(xù)預(yù)訓(xùn)練,然后在預(yù)訓(xùn)練之后進(jìn)行微調(diào)(Instruction Dataset)。

為了增強(qiáng)LLaMA的中文能力,做了很多數(shù)據(jù)上的處理,比如怎么去拿數(shù)據(jù)。Code主要收集 GitHub 和Leetcode的數(shù)據(jù);英文主要收集ArXiv,Book,Wikipedia等英文的數(shù)據(jù);中文主要收集百度百科、悟道、中文維基等等。

我們要保證它的多樣性,從語種上有中英文;從類型上有代碼、文本;在領(lǐng)域上有百科、維基等。

拿到數(shù)據(jù)之后做兩個(gè)事情:

  • 第一個(gè)是Clean,Clean包括Duplicate也就是去重;另外還有去毒性,去除敏感信息。
  • 第二個(gè)是Tokenize,對(duì)數(shù)據(jù)進(jìn)行分詞,并設(shè)置樣本的最大長度為1024。

微調(diào)階段如何構(gòu)造高質(zhì)量的微調(diào)數(shù)據(jù)?比方General,用Alpaca用52K 的數(shù)據(jù)做各種翻譯等等;還有去做一些 COT的東西,比如說gsm8K、aqua、Alpaca等COT的數(shù)據(jù)。拿到這些數(shù)據(jù)之后,我們可以去用ChatGPT做泛化。因?yàn)镃aMa是做KG相關(guān)的,所以它會(huì)用很多的任務(wù)數(shù)據(jù)或者說命名實(shí)體識(shí)別的數(shù)據(jù)、關(guān)系抽取的數(shù)據(jù)以及事件抽取的數(shù)據(jù),與泛化后的數(shù)據(jù)一并放進(jìn)去進(jìn)行tuning,得到一個(gè)比較好的效果。

通過上面的描述可知,無論是在pretrain階段還是在SFT階段,數(shù)據(jù)都是很重要的,而且數(shù)據(jù)需要盡可能的多樣、盡可能地清洗,對(duì)模型的提升是有意義的。

12、解決方案:以數(shù)據(jù)為中心的大模型預(yù)訓(xùn)數(shù)據(jù)工程

圖片

上圖展示了以數(shù)據(jù)為中心的的工程框架,包括之前提到的訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)、數(shù)據(jù)維護(hù)等。

圖片

以數(shù)據(jù)為中心的大模型預(yù)訓(xùn)練數(shù)據(jù)工程的工作流可以拆解為很多環(huán)節(jié),包括源數(shù)據(jù)如何標(biāo)記、清洗、特征縮減、基礎(chǔ)操縱等;提示工程如何調(diào)整輸入、評(píng)估等;包括數(shù)據(jù)的維護(hù),數(shù)據(jù)可視化之后,可以真正知道數(shù)據(jù)都目前的情況,數(shù)據(jù)的價(jià)值評(píng)價(jià)指標(biāo),資源分配等。

圖片

需要針對(duì)不同的數(shù)據(jù)制定好的標(biāo)注標(biāo)準(zhǔn),包括文本標(biāo)注、語音標(biāo)注、圖像標(biāo)注等。

如何衡量標(biāo)注數(shù)據(jù)集的質(zhì)量是很重要的?,F(xiàn)在有很多的算法,比如圖像標(biāo)注質(zhì)量評(píng)估的MV 算法、文本質(zhì)量評(píng)估的BLEU算法等,根據(jù)不同的語音文本以及視頻,有不同的衡量算法,幫助大家衡量數(shù)據(jù)標(biāo)注的質(zhì)量。

圖片

上圖展示了具體實(shí)現(xiàn)的時(shí)候處理數(shù)據(jù)的大致流程。

我們的數(shù)據(jù)主要包括網(wǎng)站數(shù)據(jù)、專業(yè)文獻(xiàn)以及各個(gè)行業(yè)數(shù)據(jù):

  • 網(wǎng)站數(shù)據(jù)有搜索數(shù)據(jù)、代碼推理數(shù)據(jù)、通用網(wǎng)頁數(shù)據(jù)等。
  • 專業(yè)文獻(xiàn)有研究報(bào)告、學(xué)術(shù)論文、各種文獻(xiàn)等。
  • 行業(yè)數(shù)據(jù)有金融、法律、房產(chǎn)等各種垂直網(wǎng)頁、特定的多語種數(shù)據(jù)集、任務(wù)評(píng)測集等。

為了實(shí)現(xiàn)數(shù)據(jù)的大規(guī)模、多樣性和高質(zhì)量,大致的流程包括如下幾步:

一、站點(diǎn)過濾,站點(diǎn)過濾的方法也有很多,就包括基于圖的過濾方法、基于單點(diǎn)的過濾方法、基于規(guī)則的過濾方法等。

二、敏感與隱私過濾,語言或者噪聲過濾等。

三、文章去重,做不同粒度的去重。

四、網(wǎng)頁主題建模,要提升多樣性,主題就一定要好,所以會(huì)做大量的主題挖掘的工作,這里搜索有天然的優(yōu)勢。

五、數(shù)據(jù)質(zhì)量評(píng)分,包括數(shù)據(jù)質(zhì)量版本控制等。

圖片

數(shù)據(jù)源的選取依據(jù)有很多,包括:

  • 體系是否完善
  • 站點(diǎn)來源是否權(quán)威
  • 數(shù)據(jù)規(guī)模是否大
  • 數(shù)據(jù)實(shí)時(shí)性是否足夠
  • 下游任務(wù)是否有需求
  • 下游技能有哪些是表現(xiàn)差的等

網(wǎng)站數(shù)據(jù),包括通用的網(wǎng)頁數(shù)據(jù)、搜索數(shù)據(jù)、問答數(shù)據(jù)、知識(shí)圖譜百科、代碼推理數(shù)據(jù)等。

專業(yè)文獻(xiàn),包括研究報(bào)告,學(xué)術(shù)論文、期刊、書籍、文學(xué)著作等。

行業(yè)數(shù)據(jù),包括任務(wù)評(píng)測數(shù)據(jù)集,多語種數(shù)據(jù)集,金融、法律、房地產(chǎn)、體育、醫(yī)藥、影視領(lǐng)域語料等。

圖片

站點(diǎn)過濾和噪聲信息清洗有很多方法。

質(zhì)量分檔模型,使用fasttext分類器分為四檔(0,1,2,3),2、3 為優(yōu)質(zhì)數(shù)據(jù),訓(xùn)練時(shí),正樣本是人工標(biāo)注的一些比較好的樣本,負(fù)樣本采用比較垃圾的文本,特征使用包含title以及CEloss。

邊緣文本剔除模型,需要將廣告位文本、雜七雜八的推廣文本識(shí)別出來。

垂直網(wǎng)頁處理,包括用大量的Pattern做高優(yōu)語料提取以及定制化的邊緣文本剔除。

基于規(guī)則的噪音清洗,包括空格、特殊符號(hào)的處理、語種檢測,敏感信息檢測、隱私數(shù)據(jù)識(shí)別與處理等等。

基于模型的噪聲清洗,包括使用PPL判定模型,剔除不連貫的文本等。

圖片

網(wǎng)頁分類建模的目的是挖掘細(xì)粒度的網(wǎng)頁數(shù)據(jù),以滿足不同類別數(shù)據(jù)的需求。

給網(wǎng)頁標(biāo)注比較好的tag的方法有很多,要么做分類,要么做聚類。如使用LDA主題詞提取、文本關(guān)鍵詞提取、人工審核標(biāo)簽、下游技能迭代反饋標(biāo)簽等。

網(wǎng)頁主題分類,預(yù)設(shè)網(wǎng)頁類別體系,包括體育、歷史、金融、醫(yī)藥等幾十類別的體系,細(xì)分領(lǐng)域標(biāo)簽,然后構(gòu)造語料分類器,基于BERT完成語料標(biāo)簽分類。

圖片

  • 數(shù)據(jù)質(zhì)量控制最好是用人工的方式去保證,因?yàn)橥ㄟ^模型方式做的具體分檔,只能對(duì)數(shù)據(jù)做定性的分析,實(shí)際采樣的時(shí)候,需要有一個(gè)定量評(píng)分標(biāo)準(zhǔn),哪些是90分、80分、70分、60分等,質(zhì)量高的數(shù)據(jù)我們多采樣。因此需要人工制定評(píng)分標(biāo)準(zhǔn),計(jì)算一個(gè)得分。
  • 數(shù)據(jù)版本控制,每個(gè)生產(chǎn)流程都需要做各個(gè)階段的備份管理。一旦任何一個(gè)步驟發(fā)現(xiàn)問題,可以馬上定位出出問題的數(shù)據(jù)源在哪里。
  • 預(yù)訓(xùn)練數(shù)據(jù)索引管理,需要有一個(gè)管理平臺(tái),收集大家對(duì)數(shù)據(jù)問題的反饋以及定位。
  • 數(shù)據(jù)隨機(jī)抽樣,為了防止數(shù)據(jù)有偏,所以在做具體評(píng)估的時(shí)候,需要進(jìn)行大量的shuffle,通過人工質(zhì)量評(píng)分做一個(gè)排序。

圖片

以DoReMi的工作為例,討論一下預(yù)訓(xùn)練數(shù)據(jù)采樣。

先初始化數(shù)據(jù)分布,訓(xùn)練一個(gè)小參數(shù)模型,比如使用The Pile的原始分布,訓(xùn)練一個(gè)小模型;訓(xùn)練小模型之后我們?cè)偈褂萌后w分布穩(wěn)健優(yōu)化(GroupDRO)對(duì)領(lǐng)域進(jìn)行訓(xùn)練,更新領(lǐng)域權(quán)重;最后使用迭代好的領(lǐng)域權(quán)重對(duì)數(shù)據(jù)集重新采樣,訓(xùn)練一個(gè)更大的、全尺寸的模型。

圖片

微調(diào)數(shù)據(jù)生成方式:

(1)基于人工標(biāo)準(zhǔn),使用較多

  • 需要設(shè)定 SFT數(shù)據(jù)標(biāo)簽體系,建立標(biāo)簽體系的大類、子類;
  • 構(gòu)造和撰寫一些prompt并且寫出對(duì)應(yīng)的結(jié)果-forSFT任務(wù);
  • 針對(duì)給定的prompt、模型給出的多個(gè)結(jié)果,標(biāo)注結(jié)果的好壞排序-for Reward Model。

(2)基于大模型進(jìn)行數(shù)據(jù)蒸餾

  • 基于self-instruct生成數(shù)據(jù),為了保證多樣性,只有當(dāng)一條新指令與任何現(xiàn)有指令的ROUGE-L重疊小于0.7時(shí)才會(huì)保留,但是僅僅這樣還是不夠的,包括Alpaca這種數(shù)據(jù),用這種方式在長度上以及主題上還不是特別多樣的
  • 基于chatgpt進(jìn)行結(jié)果好壞標(biāo)注+人工審核

圖片

上面右圖是人大的工作,對(duì)于收集到的開源指令集,先去重,然后做主題上的分布,最后進(jìn)行清洗和多樣性控制。

基于規(guī)則的清晰,可以應(yīng)用如下的規(guī)則:

  • 過濾敏感詞規(guī)則
  • 過濾無效輸入輸出
  • 關(guān)鍵詞替換規(guī)則
  • 特殊邏輯規(guī)則

基于模型的多樣性控制,包括:

  • 基于語義相似度模型的指令去重
  • 基于主題控制的指令多樣化
  • 指令數(shù)據(jù)復(fù)雜化,可以用GPT-4或者其他大模型做改寫,讓指令復(fù)雜化,在指令的長度上,可以做一定的控制

13、開放數(shù)據(jù)問題:預(yù)訓(xùn)數(shù)據(jù)是否會(huì)不夠?

圖片

關(guān)于現(xiàn)在預(yù)訓(xùn)數(shù)據(jù)到底夠不夠的問題,報(bào)告《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》中提出了一個(gè)有趣的觀點(diǎn):語言數(shù)據(jù)將于2030~2040年耗盡,其中能訓(xùn)練出更好性能的高質(zhì)量語言數(shù)據(jù)將于2026年耗盡。此外,視覺數(shù)據(jù)將于2030~2060年耗盡。大家可以仔細(xì)研究一下這個(gè)報(bào)告。

二、大模型研發(fā)中的自動(dòng)化評(píng)估

1、問題的提出:如何進(jìn)行模型性能的自動(dòng)化評(píng)分?

圖片

模型性能的自動(dòng)化評(píng)估基本上有三種方式。

  • 第一、基于人工業(yè)務(wù)評(píng)估,人工根據(jù)特定的業(yè)務(wù)場景找到需要評(píng)估的能力點(diǎn)(如摘要能力,生成能力等)通過列舉相關(guān)測試樣本,建立評(píng)估維度,完成多維度打分;
  • 第二、基于下游任務(wù)評(píng)測,利用下游評(píng)測榜單,任務(wù)數(shù)據(jù)集,進(jìn)行性能評(píng)估??陀^題比較適合用下游任務(wù)去評(píng)測,但主觀題的話不是特別適合,比如評(píng)估生成的好不好等。
  • 第三、基于ChatGPT打分,現(xiàn)在有一個(gè)風(fēng)向,大家用 ChatGPT 打分,利用ChatGPT 的專業(yè)能力,充當(dāng)裁判,完成打分評(píng)估。

2、基于GPT自動(dòng)化評(píng)估

圖片

現(xiàn)在就會(huì)有很多人用ChatGPT打分。我們給出一個(gè)問題,再給出一個(gè)答案,然后告訴ChatGPT,這里有這樣一個(gè)問題和答案,打分區(qū)間是一到零分,請(qǐng)問該答案可以打多少分并給出打分依據(jù)。Vicuna 采取了這種評(píng)估方案。

3、基于眾包投票進(jìn)行評(píng)估

圖片

另外一種方式就是眾包。用眾包的原因是用GPT自動(dòng)評(píng)估的方式主觀性是很強(qiáng)的,而且數(shù)據(jù)集也不夠多,所以需要大家一起來打分,產(chǎn)出一個(gè)瑯琊榜。Arena這個(gè)瑯琊榜,首先給一個(gè)問題,然后各個(gè)模型給出答案,通過大家投票,采用Elo rating system進(jìn)行評(píng)分。

中文其實(shí)也有,中文在英文的基礎(chǔ)上產(chǎn)出了一個(gè)版本叫瑯琊榜。

4、基于下游評(píng)測任務(wù)進(jìn)行評(píng)估

圖片

目前基于下游評(píng)測任務(wù)進(jìn)行評(píng)估出現(xiàn)了一個(gè)風(fēng)向,就是使用專業(yè)的考試題,包括Google BIG-bench、MMLU、C-EVAL、M3KE等評(píng)測數(shù)據(jù),或者去卷專業(yè)考試。

這樣的方式是合理的,如果要做一個(gè)垂域的模型,如何去驗(yàn)證模型在垂域上的能力呢?比如說法律有律師從業(yè)資格考試,或者說專利有對(duì)應(yīng)的資格考試,這也使得模型和業(yè)務(wù)有了很好的融合。

三、大模型與知識(shí)圖譜的結(jié)合

下面與大家討論一下大模型與知識(shí)圖譜的結(jié)合。

1、知識(shí)圖譜認(rèn)識(shí)

圖片

首先看一下知識(shí)圖譜,現(xiàn)在有種論斷,大模型之后知識(shí)圖譜的重要性嚴(yán)重下降了,知識(shí)圖譜的定位也變得不太清晰。

以我的個(gè)人理解來說知識(shí)圖譜最大的優(yōu)勢在上面左邊的兩張圖中。

第一個(gè)圖是知識(shí)圖譜的圖結(jié)構(gòu),知識(shí)圖譜通過知識(shí)以圖的形式做表示,因此可以完成Graph Embedding、路徑搜索等算法,大模型在這方面有一定缺陷。

第二個(gè)圖是知識(shí)圖譜在一些組織上的優(yōu)勢,比如知識(shí)圖譜通過Schema規(guī)范結(jié)構(gòu)化數(shù)據(jù)的表達(dá), 知識(shí)圖譜提出來是為了解決業(yè)務(wù)的在垂域中知識(shí)的組織和管理問題,雖然大模型可以端到端地生產(chǎn)知識(shí),但這些知識(shí)是沒有體系的??梢园洋w系化的知識(shí)圖譜和大模型結(jié)合,大模型生產(chǎn)數(shù)據(jù),知識(shí)圖譜組織數(shù)據(jù),更好的完成目標(biāo)。另外,知識(shí)圖譜擁有垂域的一些數(shù)據(jù),這些數(shù)據(jù)可以用于去檢驗(yàn)大模型事實(shí)上的錯(cuò)誤。

2、知識(shí)圖譜VS大語言模型

圖片

知識(shí)圖譜與大語言模型的共同點(diǎn):

  • 本質(zhì)上都是一種知識(shí)庫。大語言模型也是知識(shí)庫,只是它是參數(shù)化的。
  • 在實(shí)時(shí)性和時(shí)效性上面臨的挑戰(zhàn)一致。知識(shí)圖譜如果你不更新,時(shí)效性也是有問題的,所以讓知識(shí)圖譜解決大模型的時(shí)效性的觀點(diǎn)是要打問號(hào)的。

知識(shí)圖譜與大語言模型的不同點(diǎn):

  • 知識(shí)圖譜是知識(shí)的形式化表示,而大語言模型是知識(shí)的參數(shù)化的表示
  • 知識(shí)圖譜方便Debugging,可解釋性強(qiáng),圖結(jié)構(gòu)表達(dá)能力強(qiáng),而大語言模型是any data, any task, 無所不能,但是不夠簡單。
  • 知識(shí)圖譜在結(jié)構(gòu)化知識(shí)上難構(gòu)建易推理,在非結(jié)構(gòu)化知識(shí)上易構(gòu)建難推理,而大語言模型易構(gòu)建而且易推理,但是沒有體系結(jié)構(gòu)。

3、大模型用于知識(shí)圖譜:從知識(shí)圖譜構(gòu)建到業(yè)務(wù)需求應(yīng)用

圖片

大模型用于知識(shí)圖譜可以重構(gòu)上圖的整個(gè)狀態(tài),比如進(jìn)行數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)融合、擴(kuò)展數(shù)據(jù)模式或者行業(yè)智能問答等工作,大模型可以加速而不是替代知識(shí)圖譜構(gòu)建的環(huán)節(jié),包括應(yīng)用大模型做問答、抽取等。

4、大模型用于知識(shí)圖譜構(gòu)建:schema生成與數(shù)據(jù)標(biāo)注

圖片

大模型可以用于知識(shí)圖譜構(gòu)建中的schema生成與數(shù)據(jù)標(biāo)注部分。

大模型完成Schema的生成。ESHer是中科院軟件所的工作,使用大模型Prompt生成事件的Schema,再從Schema實(shí)現(xiàn)打分函數(shù),通過聚類社區(qū)發(fā)現(xiàn)得到相應(yīng)的事件以及對(duì)應(yīng)的槽。

大模型可以生成排序數(shù)據(jù),進(jìn)行數(shù)據(jù)增強(qiáng)。大模型之前我們通常用 EDA做數(shù)據(jù)增強(qiáng),現(xiàn)在其實(shí)完全可以用 ChatGPT 改寫的方式生成大量的標(biāo)注數(shù)據(jù),降低知識(shí)圖譜標(biāo)注端的成本。

5、大模型用于知識(shí)圖譜構(gòu)建:知識(shí)抽取、推理與知識(shí)問答

圖片

大模型在知識(shí)圖譜構(gòu)建的知識(shí)抽取、推理與知識(shí)問答方向也可以發(fā)揮作用。

如左上圖的三元組抽取,先做NER抽取,再做關(guān)系抽取。

右上圖的工作是InstructUIE,在之前 UIE 的基礎(chǔ)上,統(tǒng)一這個(gè)方式,約定輸入和輸出的格式,讓LLM進(jìn)行三元組抽取。

左下圖是用大模型去做知識(shí)圖譜的補(bǔ)全,通常知識(shí)圖譜補(bǔ)全需要定義 score function,比如360之前用知識(shí)圖譜挑戰(zhàn)OGB的時(shí)候就創(chuàng)新了一個(gè)新的score function,現(xiàn)在可以用大模型直接做排序任務(wù)。

右下圖使用大模型做知識(shí)圖譜問答,有些問題大模型不一定能回答,但是如果加上一些實(shí)體鏈接,到圖譜里把子圖給召回出來,拼接成上下文,構(gòu)成提示語讓大模型去做推斷,能夠起到減輕大模型幻覺的作用。

6、知識(shí)圖譜用于大模型研發(fā)的幾個(gè)階段

圖片

探討一下知識(shí)圖譜能夠用于大模型研發(fā)的三個(gè)階段。

(1)訓(xùn)練前階段

  • 利用大模型于數(shù)據(jù)清洗,構(gòu)造清洗規(guī)則,其作為領(lǐng)域經(jīng)驗(yàn)知識(shí)對(duì)特定語料進(jìn)行錯(cuò)誤檢測或過濾。
  • 利用知識(shí)圖譜直接顯式的進(jìn)行形式化拼接,引入預(yù)訓(xùn)練語料,比如使用行業(yè)三元組拼接成S+P+O、S的P是O、S的P等于O這樣的口語化產(chǎn)出放入預(yù)訓(xùn)練語料,尤其是垂域內(nèi)的很多知識(shí)圖譜是可以直接拿到用于大模型訓(xùn)練。

(2)訓(xùn)練中階段

  • 將知識(shí)圖譜隱式地加入到模型訓(xùn)練中,用embedding的方式完成注入,可以參考KnowBERT的實(shí)現(xiàn)。
  • 構(gòu)建以領(lǐng)域知識(shí)圖譜為中心的下游評(píng)測任務(wù),作為模型訓(xùn)練評(píng)估。

(3)訓(xùn)練后階段

  • 引入涉及實(shí)體的上下文進(jìn)行豐富,將知識(shí)圖譜注入prompt,增強(qiáng)結(jié)果可用性
  • 對(duì)模型生成后的結(jié)果進(jìn)行知識(shí)校驗(yàn),減少模型事實(shí)性錯(cuò)誤
  • 通過query實(shí)體消歧和實(shí)體鏈接,注入搜索實(shí)時(shí)結(jié)果,增強(qiáng)實(shí)時(shí)性
  • 結(jié)合外部知識(shí)庫進(jìn)行生成干預(yù),比如langchain的實(shí)現(xiàn)

7、知識(shí)圖譜用于大模型訓(xùn)練前階段:構(gòu)造預(yù)訓(xùn)練數(shù)據(jù)與微調(diào)數(shù)據(jù)

圖片

在預(yù)訓(xùn)練階段,可以用模板化去生成事實(shí)性的描述文本。

在微調(diào)階段,可以根據(jù)模板來生成問題,用self-instrcut的思路(重點(diǎn)在于多樣性)。比如左下的中心詞,我們可以用模板的方式生成右下方的QA對(duì)。比如Lawyer LLaMA這樣的法律領(lǐng)域的行業(yè)模型,大家會(huì)通過這樣的方式結(jié)合知識(shí)圖譜生成大量的SFT數(shù)據(jù)。

8、知識(shí)圖譜用于大模型訓(xùn)練中階段:融合知識(shí)的預(yù)訓(xùn)練模型

圖片

這里討論下融合知識(shí)的預(yù)訓(xùn)練模型,包括用特征融合、嵌入融合、數(shù)據(jù)結(jié)構(gòu)統(tǒng)一、知識(shí)監(jiān)督或者基于檢索等都是可以實(shí)現(xiàn)的。

核心點(diǎn)有兩個(gè),一個(gè)是內(nèi)嵌融合,把embedding注入進(jìn)去,通過Mask詞和實(shí)體或者增加KE Loss都可以;一個(gè)是外掛融合,通過檢索的方式實(shí)現(xiàn)融合。

9、知識(shí)圖譜用于大模型訓(xùn)練后階段:基于知識(shí)的生成結(jié)果干預(yù)

圖片

左上圖有一個(gè)比較好的例子,畫一個(gè)老婆餅,某AI會(huì)畫出一個(gè)老婆婆和餅,如果AI可以拿到老婆餅的比較好的描述,得到的效果會(huì)得到改善。

右上圖描述了融合自迭代的知識(shí)描述,為了做問答,在Question的基礎(chǔ)上結(jié)合知識(shí)圖譜生成比較好的description,然后再放進(jìn)去,可以比較好地解決一些問題。

左下圖描述了融合外部知識(shí)庫系統(tǒng),ChatGPT在數(shù)學(xué)計(jì)算方面,比如被提問芝加哥到東京到底有多遠(yuǎn)的時(shí)候,回答的可能并不精準(zhǔn),這時(shí)可以外掛一些工具,比如WolframAlpha能夠解決這些問題,兩者結(jié)合起來,可以更好的解決問題。第一種方式是LangChain的方式,直接引入插件干預(yù)它的結(jié)果;另一個(gè)是先讓W(xué)olframAlpha回答一遍,然后追加到ChatGPT的問題中得到結(jié)果,雖然這樣做會(huì)稍微有點(diǎn)繁瑣,需要先請(qǐng)求WolframAlpha再請(qǐng)求ChatGPT,在很多情況下,如果問題中有若干子問題的時(shí)候,可以逐步地去拆解成WolframAlpha,再把結(jié)果通過提示語發(fā)送到ChatGPT,通常會(huì)得到比較好的結(jié)果。

右下圖描述了融合外部搜索引擎,目前大模型普遍時(shí)效性不夠好,為了解決時(shí)效性問題,需要借助比較有實(shí)時(shí)性的工具,比如搜索引擎。搜索引擎可以調(diào)用索引的相關(guān)性,獲取top的結(jié)果,封裝到prompt中。另外,融合搜索引擎可以解決大模型結(jié)果不可信的問題,比如NewBing會(huì)通過"了解詳細(xì)信息"的來源來為大模型輸出的結(jié)果進(jìn)行增信,也便于用戶可以快速的進(jìn)行驗(yàn)證。不過,有的時(shí)候會(huì)發(fā)現(xiàn)NewBing和ChatGPT引用的鏈接很多都是空的、假的,所以后面還需要考慮如何提高生成鏈接的準(zhǔn)確性。

10、知識(shí)圖譜用于大模型訓(xùn)練后階段:外掛專業(yè)知識(shí)庫

圖片

最后介紹一下目前知識(shí)圖譜用在大模型訓(xùn)練后階段的外掛專業(yè)知識(shí)庫,目前在行業(yè)中是用的最多的,其主要流程是:加載文件->讀取文本->文本分割->文本向量化->問句向量化->在文本向量中匹配出與問句向量最相似的top k個(gè)->匹配出的文本作為上下文和問題一起添加到prompt中->提交給LLM生成回答。

目前的難點(diǎn),一個(gè)是在于如何拿到好的文本向量化模型,比如最近比較火的M3E、SimCSE、Text2vec等;另一個(gè)是讀取文本,如何比如說表格數(shù)據(jù)如何組織,例如用Latex的表示方式,各種富文本包括圖片的展示等等。

四、總結(jié)

最后總結(jié)一下大模型的未來發(fā)展方向。

圖片

大模型的未來發(fā)展發(fā)現(xiàn)主要有如下幾點(diǎn):

  • 大模型的應(yīng)用邊界還在不斷被探索,我們都尚處于懂與不懂之間,大家都在不斷地去探索它的機(jī)理。
  • 垂直領(lǐng)域微調(diào)模型是必然趨勢,低成本高效的注入領(lǐng)域知識(shí)很重要。
  • 大模型研發(fā)和落地核心是數(shù)據(jù)+場景+訓(xùn)練方法。數(shù)據(jù)做好了,算法的天花板才能高。
  • 知識(shí)圖譜在當(dāng)前場景下需要找準(zhǔn)自身的位置,融合共生。
  • 數(shù)據(jù)工程是大模型研發(fā)的重中之重,數(shù)據(jù)為王。

五、答疑

Q1:在數(shù)據(jù)收集的過程中,除了文本數(shù)據(jù)還會(huì)有表格數(shù)據(jù)或者圖片數(shù)據(jù),這些數(shù)據(jù)可以怎樣去收集處理?

A1:圖片數(shù)據(jù)涉及到多模態(tài)數(shù)據(jù)的處理,比如沒辦法把圖片數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),除非使用圖文的方式處理。

我更建議的方式,比如說解析一些研報(bào)的時(shí)候,會(huì)遇到一些文本穿插了一些圖片,這時(shí)我們可以用圖片的title替換掉圖片所在的位置,這樣就能一定程度保留圖片所在的信息或者表格所在的信息,也能保證整體語義連貫。另外一種,表格數(shù)據(jù)最重要的是如何拿到表格的數(shù)據(jù),比如用PP-Structure等方式把表格先解析出來,然后用 Latex 重新組織表格數(shù)據(jù)。

最需要考慮的是不同模態(tài)、不同格式的數(shù)據(jù)需要保證原有的格式,不錯(cuò)亂。

Q2:在工業(yè)界關(guān)于解決大模型的幻覺有哪些實(shí)際可操作的業(yè)界經(jīng)驗(yàn)?

A2:幻覺的根本原因是:第一、聽不懂指令;第二、聽得懂指令,但是不會(huì)。我們分別解決這兩個(gè)問題。

怎么讓大模型聽懂指令需要我們做 SFT增強(qiáng),讓大模型可以理解復(fù)雜指令,或者是理解那樣一個(gè)指令,這是在SFT階段,數(shù)據(jù)端要做的事情。

大模型不會(huì)的問題就需要注入,注入的方式有很多種,包括我們前面提到的CaMa的路線,我們可以基于Pretrain實(shí)現(xiàn)知識(shí)注入。還可以在 SFT 階段做Pretrain,雖然有種觀點(diǎn)是 SFT 學(xué)的是范式不是知識(shí),但SFT也是能夠?qū)W到一些知識(shí)的。

如果這上面的增強(qiáng)還不夠,或者是某個(gè)領(lǐng)域的數(shù)據(jù)在Pretrain階段注入不進(jìn)去,可以考慮使用LangChain的外掛知識(shí)庫方式。外掛核心在于怎么構(gòu)造更好訓(xùn)練數(shù)據(jù)以得到更好的向量化方案,優(yōu)化embedding,通過向量檢索得到比較好的相關(guān)性文本后,拼接到Prompt中。這里也可以使用知識(shí)圖譜,用鏈接的方式把子圖召回出來,目前也有很多的開源方案可以參考。