十大抱抱臉(Hugging Face)數(shù)據(jù)集
任何機(jī)器學(xué)習(xí)模型中最重要的任務(wù)是找到或構(gòu)建一個(gè)完美適應(yīng)您的算法的數(shù)據(jù)集。如果沒有正確的基礎(chǔ),您的機(jī)器學(xué)習(xí)模型可能無法按預(yù)期方式執(zhí)行。
雖然Kaggle等知名網(wǎng)站允許您下載和使用數(shù)以千計(jì)的數(shù)據(jù)集,但其他一些數(shù)據(jù)集提供商的受歡迎程度正在增加。在本文中,我們將介紹一種稱為抱抱臉的方法。
Hugging Face是一個(gè)開源數(shù)據(jù)集提供商,主要用于其自然語言處理(NLP)數(shù)據(jù)集。什么是NLP數(shù)據(jù)集?它有哪些用途?
NLP是人工智能的一個(gè)分支,負(fù)責(zé)使用自然語言進(jìn)行計(jì)算機(jī)和人類交互。它專注于處理大量人類可以理解的語言(通常是文本格式)以提取隱藏的模式和見解。
NLP有許多好處和現(xiàn)實(shí)生活中的應(yīng)用,例如:對(duì)項(xiàng)目(文本)進(jìn)行分類、檢測(cè)仇恨言論以及過濾掉垃圾郵件和消息。
下面我們將深入探討Hugging Face提供的NLP數(shù)據(jù)集,它們包含哪些數(shù)據(jù),如何組織,以及它們可以用于什么。
十大擁抱人臉數(shù)據(jù)集列表
1.IMDB數(shù)據(jù)集
IMDB數(shù)據(jù)集為用戶提供了超過50,000條高度極性的電影評(píng)論,這些評(píng)論根據(jù)書面評(píng)論被標(biāo)記為“正面”或“負(fù)面”。
數(shù)據(jù)被分成兩等份,一份用于訓(xùn)練數(shù)據(jù)集,另一份用于測(cè)試數(shù)據(jù)集,如果用戶需要,則帶有額外的未標(biāo)記數(shù)據(jù)。該數(shù)據(jù)集可以檢測(cè)不同短信中的正面和負(fù)面電影反饋。此外,它可以幫助識(shí)別電影特別喜歡或不喜歡的特征。
2.亞馬遜極性數(shù)據(jù)集
該數(shù)據(jù)集包含來自亞馬遜的超過3500萬條產(chǎn)品評(píng)論。每個(gè)數(shù)據(jù)點(diǎn)都包括客戶的評(píng)論和給定產(chǎn)品的評(píng)級(jí)。每個(gè)數(shù)據(jù)點(diǎn)都被分類為正面評(píng)論或負(fù)面評(píng)論,具體取決于客戶是喜歡還是不喜歡該產(chǎn)品。
這種類型的標(biāo)記數(shù)據(jù)集在NLP和機(jī)器學(xué)習(xí)中很有用。通過使用亞馬遜極性數(shù)據(jù)集,公司可以提高他們的廣告和營銷能力。與營銷的情況一樣,使用NLP技術(shù)可以讓營銷人員看到客戶喜歡哪些產(chǎn)品,并知道哪些功能使客戶決定購買產(chǎn)品。
類似的數(shù)據(jù)集包括Yelp評(píng)論完整數(shù)據(jù)集,其中包含大量按給定評(píng)分(從1到5)標(biāo)記的評(píng)論。與前面提到的亞馬遜數(shù)據(jù)集類似,在NLP中使用這樣的數(shù)據(jù)集可以使餐廳或服務(wù)公司的營銷工作受益。
此外,Amazon Polarity Datasets或Yelp評(píng)論數(shù)據(jù)集可用于推薦系統(tǒng),以將產(chǎn)品或企業(yè)分類為不同的類別。分類有助于應(yīng)用程序或網(wǎng)站過濾客戶偏好并增加組織。
3.情緒數(shù)據(jù)集
情緒數(shù)據(jù)集將英文Twitter消息分為六類:
悲傷
喜悅
愛
憤怒
恐懼
驚喜
這種類型的數(shù)據(jù)集可用于訓(xùn)練和測(cè)試NLP模型,該模型專注于通過讀取用戶的文本段落來捕捉用戶的情緒。其他用途包括通過利用憤怒和悲傷數(shù)據(jù)點(diǎn)類別來檢測(cè)和消除令人沮喪的消息(仇恨言論)。
類似的數(shù)據(jù)集是基于Twitter的數(shù)據(jù)集。該數(shù)據(jù)集將用戶的推文分類為不同的表情符號(hào),包括笑聲、愛情、幸福等等。與之前的數(shù)據(jù)集一樣,推文評(píng)估數(shù)據(jù)集也可用于NLP,它專注于以表情符號(hào)表示的不同情緒。
4.通用語音數(shù)據(jù)集
該數(shù)據(jù)集包含記錄和文本數(shù)據(jù)點(diǎn)的混合。Common Voice數(shù)據(jù)集包含超過9000小時(shí)的記錄消息及其書面記錄副本。還可以使用其他數(shù)據(jù)點(diǎn),例如說話者的年齡、性別和口音,以幫助提高模型的語音檢測(cè)性能。
該數(shù)據(jù)集可用于創(chuàng)建語音檢測(cè)模型并提高其準(zhǔn)確性,該模型能夠理解來自世界各地的60多種語言。利用語音檢測(cè)模型的程序在Google Home、Alexa和Siri等主流技術(shù)中變得越來越根深蒂固,所有這些都需要了解多個(gè)用戶的語音輸入。
5.硅膠數(shù)據(jù)集
該數(shù)據(jù)集將句子分類為承諾性、指示性、信息性或只是一個(gè)普通問題。Silicone數(shù)據(jù)集涵蓋各種不同的領(lǐng)域,包括電話對(duì)話、電視對(duì)話等。所有給定的日期點(diǎn)都是用英文寫的。
該數(shù)據(jù)集可用于訓(xùn)練和評(píng)估自然語言模型以及理解專為口語設(shè)計(jì)的系統(tǒng)。
6.雅虎問答主題數(shù)據(jù)集
雅虎答案數(shù)據(jù)集包含大量問題及其各自的答案,將每個(gè)數(shù)據(jù)點(diǎn)(問題和答案)分類為給定類別。此類類型包括體育、商業(yè)與金融、社會(huì)與文化、科學(xué)與數(shù)學(xué)、家庭與人際關(guān)系、計(jì)算機(jī)與互聯(lián)網(wǎng)等。
該數(shù)據(jù)集可用于訓(xùn)練模型以將某些問題和答案分類為這些類別之一。
7.仇恨言論數(shù)據(jù)集
內(nèi)容警告:請(qǐng)注意,此數(shù)據(jù)集包含攻擊性文本。仇恨言論數(shù)據(jù)集包含從Stormfront論壇獲得的文本消息樣本。每個(gè)數(shù)據(jù)點(diǎn)根據(jù)其內(nèi)容被標(biāo)記為仇恨或非仇恨消息。顧名思義,這種類型的數(shù)據(jù)集可用于訓(xùn)練模型以通過不同的在線論壇檢測(cè)仇恨言論。
類似的數(shù)據(jù)集是包含此類內(nèi)容的仇恨言論攻擊性數(shù)據(jù)集。該數(shù)據(jù)集可用于訓(xùn)練模型以過濾和禁止某些詞在論壇、視頻游戲(有兒童人口統(tǒng)計(jì))和搜索欄查詢中出現(xiàn)。
8.掃描數(shù)據(jù)集
掃描數(shù)據(jù)集是一個(gè)簡(jiǎn)單的語言驅(qū)動(dòng)任務(wù),用于研究組合學(xué)習(xí)和零樣本泛化。
您可能在掃描的數(shù)據(jù)集中找到的數(shù)據(jù)點(diǎn)示例將被拆分為命令,例如向左走兩次,因此預(yù)期的實(shí)際動(dòng)作應(yīng)該是向右走兩次。
9.SMS垃圾郵件數(shù)據(jù)集
SMS垃圾郵件數(shù)據(jù)集包含超過5,000條英文SMS消息,它們被歸類為垃圾郵件或非垃圾郵件(非垃圾郵件)。
過濾掉垃圾郵件是使用NLP的主要用途之一。您還可以使用標(biāo)記的垃圾郵件數(shù)據(jù)集或任何需要垃圾郵件過濾的系統(tǒng)來訓(xùn)練電子郵件過濾系統(tǒng)。
10.銀行77數(shù)據(jù)集
Banking77數(shù)據(jù)集更為復(fù)雜,包含發(fā)送給銀行的超過13,000條客戶信息(投訴和問題)。
每個(gè)數(shù)據(jù)點(diǎn)都被歸類為七十七種不同的意圖之一。意圖包括客戶詢問卡到達(dá)、卡不工作問題、卡上的額外費(fèi)用以及被拒絕的轉(zhuǎn)賬問題。
使用這種類型的數(shù)據(jù)集將使銀行能夠快速響應(yīng)并將不同的客戶問題分類為更有條理的結(jié)構(gòu)以供以后使用。可以為每天接收大量客戶請(qǐng)求的任何企業(yè)構(gòu)建類似的模型。但首先需要提供一個(gè)良好的過濾和處理數(shù)據(jù)集來運(yùn)行模型。
其他有趣的抱抱臉數(shù)據(jù)集
以下是Hugging Face的另外三個(gè)有趣的數(shù)據(jù)集可供探索。
1.巢穴數(shù)據(jù)集
Lair數(shù)據(jù)集包含來自世界各地的政治家的12,000多條帶標(biāo)簽的聲明。
每個(gè)陳述被分類為錯(cuò)誤的、半正確的、大部分正確的和正確的。
使用Lair數(shù)據(jù)集,機(jī)器學(xué)習(xí)模型可能能夠檢測(cè)類似未來陳述的可信度。
2.谷歌格式良好的查詢數(shù)據(jù)集
這個(gè)Google查詢數(shù)據(jù)集通過眾包來自Parallax語料庫的25,100個(gè)查詢的“格式良好”注釋創(chuàng)建,根據(jù)查詢的信息量來標(biāo)記每個(gè)數(shù)據(jù)點(diǎn)。
五個(gè)用戶將每個(gè)查詢注釋為消息靈通或不靈通。
通過使用這個(gè)數(shù)據(jù)集,機(jī)器學(xué)習(xí)模型可以進(jìn)一步預(yù)測(cè)給定查詢的消息靈通程度。
3.Jfleg數(shù)據(jù)集
Jfleg數(shù)據(jù)集被認(rèn)為是黃金標(biāo)準(zhǔn)基準(zhǔn),是一個(gè)英語語法糾錯(cuò)數(shù)據(jù)集。每個(gè)數(shù)據(jù)點(diǎn)都包含一個(gè)書面句子(有多個(gè)語法和拼寫錯(cuò)誤)和另外四個(gè)由四個(gè)不同的人編寫的語法和拼寫正確的句子。
使用這種類型的數(shù)據(jù)集進(jìn)行訓(xùn)練將使我們的模型能夠檢測(cè)和糾正它發(fā)現(xiàn)的語法錯(cuò)誤。請(qǐng)注意,與大多數(shù)機(jī)器學(xué)習(xí)模型類似,此模型可能無法保證在所有情況下都能進(jìn)行完美的語法和拼寫更正。另一個(gè)注意事項(xiàng):根據(jù)任務(wù)的預(yù)期結(jié)果(垃圾郵件過濾器、仇恨言論檢測(cè)器、評(píng)論),選擇正確的數(shù)據(jù)集將顯著影響模型性能。
嘗試在上述幾個(gè)數(shù)據(jù)集上運(yùn)行您的模型,然后檢查實(shí)現(xiàn)的性能。您還可以搜索自己的數(shù)據(jù)集并將它們與此處介紹的數(shù)據(jù)集進(jìn)行比較。
使用擁抱人臉數(shù)據(jù)集
有如此多的潛在用途,例如將項(xiàng)目(文本)組織成不同的類別(用于進(jìn)一步的推薦系統(tǒng)處理)、檢測(cè)仇恨言論和過濾垃圾郵件,使用NLP是一項(xiàng)值得學(xué)習(xí)的技能。
在本文中,我們探索了Hugging Face,這是一個(gè)包含大量NLP數(shù)據(jù)集(主要致力于NLP機(jī)器學(xué)習(xí)模型)的開源網(wǎng)站,并涵蓋了10個(gè)數(shù)據(jù)集,以幫助您開始改善您的機(jī)器學(xué)習(xí)事業(yè)。
我們建議嘗試上面的一些示例,并學(xué)習(xí)如何將這些數(shù)據(jù)集與您的機(jī)器學(xué)習(xí)模型一起使用。您可以隨時(shí)在Hugging Face或其他網(wǎng)站上查看其他數(shù)據(jù)集,以滿足您模型的要求。
- 上一篇
了解元宇宙的潛在商機(jī)
雖然被統(tǒng)稱為元宇宙的虛擬世界中的機(jī)會(huì)在每個(gè)企業(yè)中看起來都不同,但組織已經(jīng)開始利用的主要價(jià)值是能夠以不同于其他在線渠道的方式與消費(fèi)者互動(dòng)。根據(jù)麥肯錫6月份的一份報(bào)告,
- 下一篇
為什么世界要適應(yīng)區(qū)塊鏈技術(shù)?
區(qū)塊鏈網(wǎng)絡(luò)影響的不僅僅是比特幣。全球無數(shù)行業(yè)都在投資,因此到 2029年,區(qū)塊鏈的市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到1630億美元。如今,幾乎所有人都可以使用手機(jī)、筆記本電腦和互聯(lián)網(wǎng)。我們的
相關(guān)資訊
- 如何創(chuàng)造獨(dú)特的AI應(yīng)用生態(tài)?
- 市場(chǎng)上飛速發(fā)展的七大物聯(lián)網(wǎng)趨勢(shì)
- 如何預(yù)防人工智能項(xiàng)目中常見的法
- 數(shù)字化轉(zhuǎn)型如何幫助制造商提供更
- 從數(shù)據(jù)池或大數(shù)據(jù)倉庫到數(shù)據(jù)湖
- 關(guān)于數(shù)字化轉(zhuǎn)型的五個(gè)誤解
- 為什么內(nèi)存分配彈性對(duì)物聯(lián)網(wǎng)至關(guān)
- 如何實(shí)時(shí)優(yōu)化物理空間和資產(chǎn)
- 云計(jì)算如何改變醫(yī)療保健行業(yè)
- wifi會(huì)中病毒嗎?