資訊詳情

未來已來：數(shù)據(jù)如何驅(qū)動AI大模型的競爭

沃卡惠2023-06-27 10:20:224636

隨著人工智能的迅猛發(fā)展，高質(zhì)量數(shù)據(jù)的重要性已愈發(fā)明顯。以大型語言模型為例，近年來的飛躍式進(jìn)展在很大程度上依賴于高質(zhì)量和豐富的訓(xùn)練數(shù)據(jù)集。相比于GPT-2，GPT-3在模型架構(gòu)上的改變微乎其微，更大的精力是投入到了收集更大、更高質(zhì)量的數(shù)據(jù)集來進(jìn)行訓(xùn)練。例如，ChatGPT與GPT-3的模型架構(gòu)類似，但使用了RLHF（來自人工反饋過程的強化學(xué)習(xí)）來生成用于微調(diào)的高質(zhì)量標(biāo)注數(shù)據(jù)。

未來已來：數(shù)據(jù)如何驅(qū)動AI大模型的競爭

認(rèn)識到這一現(xiàn)象，人工智能領(lǐng)域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的 AI”運動，這是一種新的理念，它主張在模型架構(gòu)相對固定的前提下，通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個模型的訓(xùn)練效果。這其中包括添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護(hù)數(shù)據(jù)等。因此，未來在大模型開發(fā)中，數(shù)據(jù)成本（包括數(shù)據(jù)采集、清洗、標(biāo)注等成本）所占的比例可能會逐步提高。

AI大模型需要的數(shù)據(jù)集應(yīng)具備以下特性：

（1）高質(zhì)量：高質(zhì)量的數(shù)據(jù)集可以提高模型的精度和可解釋性，同時縮短模型收斂到最優(yōu)解的時間，也就是訓(xùn)練時長。

（2）大規(guī)模：在《Scaling Laws for Neural Language Models》一文中，OpenAI提出了LLM模型的"伸縮法則"，即獨立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?；蜓娱L模型訓(xùn)練時間，預(yù)訓(xùn)練模型的效果會持續(xù)提升。

（3）多樣性：數(shù)據(jù)的多樣性有助于提高模型的泛化能力，過于單一的數(shù)據(jù)可能會導(dǎo)致模型過度擬合訓(xùn)練數(shù)據(jù)。

未來已來：數(shù)據(jù)如何驅(qū)動AI大模型的競爭

數(shù)據(jù)集的生成與處理

數(shù)據(jù)集的建立流程主要包括以下步驟：

數(shù)據(jù)采集：數(shù)據(jù)采集的對象可能包括各種類型和格式的視頻、圖片、音頻和文本等。數(shù)據(jù)采集常用的方式有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法以及ETL。

數(shù)據(jù)清洗：因為采集到的數(shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題，數(shù)據(jù)清洗就顯得尤為重要。數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié)，清洗后的數(shù)據(jù)質(zhì)量在很大程度上決定了AI算法的有效性。

數(shù)據(jù)標(biāo)注：這是流程中最重要的一個環(huán)節(jié)。管理員會根據(jù)不同的標(biāo)注需求，將待標(biāo)注的數(shù)據(jù)劃分為不同的標(biāo)注任務(wù)。每一個標(biāo)注任務(wù)都有不同的規(guī)范和標(biāo)注點要求，一個標(biāo)注任務(wù)將會分配給多個標(biāo)注員完成。

模型訓(xùn)練：模型訓(xùn)練人員會利用標(biāo)注好的數(shù)據(jù)訓(xùn)練出需要的算法模型。

模型測試：測試人員進(jìn)行模型測試并將測試結(jié)果反饋給模型訓(xùn)練人員，模型訓(xùn)練人員通過不斷地調(diào)整參數(shù)，以便獲得性能更好的算法模型。

產(chǎn)品評估：產(chǎn)品評估人員需要反復(fù)驗證模型的標(biāo)注效果，并對模型是否滿足上線目標(biāo)進(jìn)行評估。只有經(jīng)過產(chǎn)品評估環(huán)節(jié)的數(shù)據(jù)才算是真正過關(guān)。

然而，盡管中國的數(shù)據(jù)資源豐富，但由于數(shù)據(jù)挖掘不足，數(shù)據(jù)無法在市場上自由流通等因素，導(dǎo)致優(yōu)質(zhì)的中文數(shù)據(jù)集仍然稀缺。據(jù)統(tǒng)計，ChatGPT的訓(xùn)練數(shù)據(jù)中，中文資料的比重不足千分之一，而英文資料占比超過92.6%。此外，加利福尼亞大學(xué)和Google研究機構(gòu)的研究發(fā)現(xiàn)，目前機器學(xué)習(xí)和自然語言處理模型使用的數(shù)據(jù)集有50%是由12家頂級機構(gòu)提供，其中10家為美國機構(gòu)，1家為德國機構(gòu)，只有1家機構(gòu)來自中國，即香港中文大學(xué)。

我們認(rèn)為，國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的原因主要有以下幾點：

高質(zhì)量數(shù)據(jù)集需要巨大的資金投入，但目前國內(nèi)對數(shù)據(jù)挖掘和數(shù)據(jù)治理的投入不足。

國內(nèi)相關(guān)公司往往缺乏開源意識，導(dǎo)致數(shù)據(jù)無法在市場上自由流通。

國內(nèi)相關(guān)公司成立較晚，數(shù)據(jù)積累相對于國外公司要少。

在學(xué)術(shù)領(lǐng)域，中文數(shù)據(jù)集的重視程度低。

國產(chǎn)數(shù)據(jù)集的市場影響力和普及度相對較低。

目前，國內(nèi)科技互聯(lián)網(wǎng)頭部企業(yè)主要通過公開數(shù)據(jù)和自身特有數(shù)據(jù)來訓(xùn)練大模型。例如，百度的“文心”大模型使用的特有數(shù)據(jù)主要包括萬億級的網(wǎng)頁數(shù)據(jù)，數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)等。阿里的“通義”大模型的訓(xùn)練數(shù)據(jù)主要來自阿里達(dá)摩院。騰訊的“混元”大模型的特有訓(xùn)練數(shù)據(jù)主要來自微信公眾號、微信搜索等優(yōu)質(zhì)數(shù)據(jù)。華為的“盤古”大模型的訓(xùn)練數(shù)據(jù)，除了公開數(shù)據(jù)，還有B端行業(yè)數(shù)據(jù)加持，包括氣象、礦山、鐵路等行業(yè)數(shù)據(jù)。商湯的“日日新”模型的訓(xùn)練數(shù)據(jù)中，包括了自行生成的Omni Objects 3D多模態(tài)數(shù)據(jù)集。

中國的數(shù)據(jù)環(huán)境和未來

盡管現(xiàn)狀尚有不足，但中國的數(shù)據(jù)環(huán)境仍有巨大的潛力。首先，中國是全球最大的互聯(lián)網(wǎng)用戶群體，日產(chǎn)數(shù)據(jù)量巨大，為構(gòu)建大規(guī)模高質(zhì)量數(shù)據(jù)集提供了基礎(chǔ)。其次，中國政府對于AI和數(shù)據(jù)治理的重視，無論是政策支持還是資金投入，都為數(shù)據(jù)環(huán)境的改善和發(fā)展提供了有利條件。

未來，中國需要在以下幾個方面進(jìn)行努力：

建立數(shù)據(jù)采集和清洗系統(tǒng)：建立一套完整的數(shù)據(jù)采集和清洗系統(tǒng)，確保數(shù)據(jù)的質(zhì)量和有效性，為后續(xù)的模型訓(xùn)練提供可靠的數(shù)據(jù)基礎(chǔ)。

提高公開數(shù)據(jù)的可獲取性和使用性：鼓勵公司、研究機構(gòu)等公開數(shù)據(jù)，讓數(shù)據(jù)在市場中自由流通，從而提高數(shù)據(jù)的可獲取性和使用性。

加大數(shù)據(jù)標(biāo)注投入：通過提高標(biāo)注效率和質(zhì)量，降低標(biāo)注成本，從而獲取更多、更高質(zhì)量的標(biāo)注數(shù)據(jù)。

培養(yǎng)更多的數(shù)據(jù)科學(xué)家和AI工程師：通過教育和培訓(xùn)，增加數(shù)據(jù)科學(xué)家和AI工程師的數(shù)量和素質(zhì)，以推動中國的AI研究和應(yīng)用。

加強國內(nèi)外的數(shù)據(jù)合作：通過數(shù)據(jù)合作，借鑒國外的成功經(jīng)驗，改進(jìn)數(shù)據(jù)的采集、處理、使用等方面的技術(shù)和方法，以提升中國數(shù)據(jù)的質(zhì)量和價值。

數(shù)據(jù)是AI模型的"燃料"，未來AI大模型的競爭，無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此，對數(shù)據(jù)的投入和利用，將決定中國在全球AI競賽中的地位和成績。

亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

資訊詳情

未來已來：數(shù)據(jù)如何驅(qū)動AI大模型的競爭

數(shù)據(jù)指標(biāo)VS標(biāo)簽體系，到底有啥區(qū)別？

用戶分析，這么做才能有深度

相關(guān)資訊

亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

資訊詳情

未來已來：數(shù)據(jù)如何驅(qū)動AI大模型的競爭

數(shù)據(jù)指標(biāo)VS標(biāo)簽體系，到底有啥區(qū)別？

用戶分析，這么做才能有深度

相關(guān)資訊

數(shù)據(jù)指標(biāo)VS標(biāo)簽體系，到底有啥區(qū)別？

用戶分析，這么做才能有深度