資訊詳情

十大抱抱臉(Hugging Face)數(shù)據(jù)集

2022-08-24 10:24:314636

任何機(jī)器學(xué)習(xí)模型中最重要的任務(wù)是找到或構(gòu)建一個(gè)完美適應(yīng)您的算法的數(shù)據(jù)集。如果沒有正確的基礎(chǔ)，您的機(jī)器學(xué)習(xí)模型可能無法按預(yù)期方式執(zhí)行。

雖然Kaggle等知名網(wǎng)站允許您下載和使用數(shù)以千計(jì)的數(shù)據(jù)集，但其他一些數(shù)據(jù)集提供商的受歡迎程度正在增加。在本文中，我們將介紹一種稱為抱抱臉的方法。

Hugging Face是一個(gè)開源數(shù)據(jù)集提供商，主要用于其自然語言處理(NLP)數(shù)據(jù)集。什么是NLP數(shù)據(jù)集？它有哪些用途？

NLP是人工智能的一個(gè)分支，負(fù)責(zé)使用自然語言進(jìn)行計(jì)算機(jī)和人類交互。它專注于處理大量人類可以理解的語言（通常是文本格式）以提取隱藏的模式和見解。

NLP有許多好處和現(xiàn)實(shí)生活中的應(yīng)用，例如：對(duì)項(xiàng)目（文本）進(jìn)行分類、檢測(cè)仇恨言論以及過濾掉垃圾郵件和消息。

下面我們將深入探討Hugging Face提供的NLP數(shù)據(jù)集，它們包含哪些數(shù)據(jù)，如何組織，以及它們可以用于什么。

十大擁抱人臉數(shù)據(jù)集列表

1.IMDB數(shù)據(jù)集

IMDB數(shù)據(jù)集為用戶提供了超過50,000條高度極性的電影評(píng)論，這些評(píng)論根據(jù)書面評(píng)論被標(biāo)記為“正面”或“負(fù)面”。

數(shù)據(jù)被分成兩等份，一份用于訓(xùn)練數(shù)據(jù)集，另一份用于測(cè)試數(shù)據(jù)集，如果用戶需要，則帶有額外的未標(biāo)記數(shù)據(jù)。該數(shù)據(jù)集可以檢測(cè)不同短信中的正面和負(fù)面電影反饋。此外，它可以幫助識(shí)別電影特別喜歡或不喜歡的特征。

2.亞馬遜極性數(shù)據(jù)集

該數(shù)據(jù)集包含來自亞馬遜的超過3500萬條產(chǎn)品評(píng)論。每個(gè)數(shù)據(jù)點(diǎn)都包括客戶的評(píng)論和給定產(chǎn)品的評(píng)級(jí)。每個(gè)數(shù)據(jù)點(diǎn)都被分類為正面評(píng)論或負(fù)面評(píng)論，具體取決于客戶是喜歡還是不喜歡該產(chǎn)品。

這種類型的標(biāo)記數(shù)據(jù)集在NLP和機(jī)器學(xué)習(xí)中很有用。通過使用亞馬遜極性數(shù)據(jù)集，公司可以提高他們的廣告和營銷能力。與營銷的情況一樣，使用NLP技術(shù)可以讓營銷人員看到客戶喜歡哪些產(chǎn)品，并知道哪些功能使客戶決定購買產(chǎn)品。

類似的數(shù)據(jù)集包括Yelp評(píng)論完整數(shù)據(jù)集，其中包含大量按給定評(píng)分（從1到5）標(biāo)記的評(píng)論。與前面提到的亞馬遜數(shù)據(jù)集類似，在NLP中使用這樣的數(shù)據(jù)集可以使餐廳或服務(wù)公司的營銷工作受益。

此外，Amazon Polarity Datasets或Yelp評(píng)論數(shù)據(jù)集可用于推薦系統(tǒng)，以將產(chǎn)品或企業(yè)分類為不同的類別。分類有助于應(yīng)用程序或網(wǎng)站過濾客戶偏好并增加組織。

3.情緒數(shù)據(jù)集

情緒數(shù)據(jù)集將英文Twitter消息分為六類：

悲傷

喜悅

愛

憤怒

恐懼

驚喜

這種類型的數(shù)據(jù)集可用于訓(xùn)練和測(cè)試NLP模型，該模型專注于通過讀取用戶的文本段落來捕捉用戶的情緒。其他用途包括通過利用憤怒和悲傷數(shù)據(jù)點(diǎn)類別來檢測(cè)和消除令人沮喪的消息（仇恨言論）。

類似的數(shù)據(jù)集是基于Twitter的數(shù)據(jù)集。該數(shù)據(jù)集將用戶的推文分類為不同的表情符號(hào)，包括笑聲、愛情、幸福等等。與之前的數(shù)據(jù)集一樣，推文評(píng)估數(shù)據(jù)集也可用于NLP，它專注于以表情符號(hào)表示的不同情緒。

4.通用語音數(shù)據(jù)集

該數(shù)據(jù)集包含記錄和文本數(shù)據(jù)點(diǎn)的混合。Common Voice數(shù)據(jù)集包含超過9000小時(shí)的記錄消息及其書面記錄副本。還可以使用其他數(shù)據(jù)點(diǎn)，例如說話者的年齡、性別和口音，以幫助提高模型的語音檢測(cè)性能。

該數(shù)據(jù)集可用于創(chuàng)建語音檢測(cè)模型并提高其準(zhǔn)確性，該模型能夠理解來自世界各地的60多種語言。利用語音檢測(cè)模型的程序在Google Home、Alexa和Siri等主流技術(shù)中變得越來越根深蒂固，所有這些都需要了解多個(gè)用戶的語音輸入。

5.硅膠數(shù)據(jù)集

該數(shù)據(jù)集將句子分類為承諾性、指示性、信息性或只是一個(gè)普通問題。Silicone數(shù)據(jù)集涵蓋各種不同的領(lǐng)域，包括電話對(duì)話、電視對(duì)話等。所有給定的日期點(diǎn)都是用英文寫的。

該數(shù)據(jù)集可用于訓(xùn)練和評(píng)估自然語言模型以及理解專為口語設(shè)計(jì)的系統(tǒng)。

6.雅虎問答主題數(shù)據(jù)集

雅虎答案數(shù)據(jù)集包含大量問題及其各自的答案，將每個(gè)數(shù)據(jù)點(diǎn)（問題和答案）分類為給定類別。此類類型包括體育、商業(yè)與金融、社會(huì)與文化、科學(xué)與數(shù)學(xué)、家庭與人際關(guān)系、計(jì)算機(jī)與互聯(lián)網(wǎng)等。

該數(shù)據(jù)集可用于訓(xùn)練模型以將某些問題和答案分類為這些類別之一。

7.仇恨言論數(shù)據(jù)集

內(nèi)容警告：請(qǐng)注意，此數(shù)據(jù)集包含攻擊性文本。仇恨言論數(shù)據(jù)集包含從Stormfront論壇獲得的文本消息樣本。每個(gè)數(shù)據(jù)點(diǎn)根據(jù)其內(nèi)容被標(biāo)記為仇恨或非仇恨消息。顧名思義，這種類型的數(shù)據(jù)集可用于訓(xùn)練模型以通過不同的在線論壇檢測(cè)仇恨言論。

類似的數(shù)據(jù)集是包含此類內(nèi)容的仇恨言論攻擊性數(shù)據(jù)集。該數(shù)據(jù)集可用于訓(xùn)練模型以過濾和禁止某些詞在論壇、視頻游戲（有兒童人口統(tǒng)計(jì)）和搜索欄查詢中出現(xiàn)。

8.掃描數(shù)據(jù)集

掃描數(shù)據(jù)集是一個(gè)簡(jiǎn)單的語言驅(qū)動(dòng)任務(wù)，用于研究組合學(xué)習(xí)和零樣本泛化。

您可能在掃描的數(shù)據(jù)集中找到的數(shù)據(jù)點(diǎn)示例將被拆分為命令，例如向左走兩次，因此預(yù)期的實(shí)際動(dòng)作應(yīng)該是向右走兩次。

9.SMS垃圾郵件數(shù)據(jù)集

SMS垃圾郵件數(shù)據(jù)集包含超過5,000條英文SMS消息，它們被歸類為垃圾郵件或非垃圾郵件（非垃圾郵件）。

過濾掉垃圾郵件是使用NLP的主要用途之一。您還可以使用標(biāo)記的垃圾郵件數(shù)據(jù)集或任何需要垃圾郵件過濾的系統(tǒng)來訓(xùn)練電子郵件過濾系統(tǒng)。

10.銀行77數(shù)據(jù)集

Banking77數(shù)據(jù)集更為復(fù)雜，包含發(fā)送給銀行的超過13,000條客戶信息（投訴和問題）。

每個(gè)數(shù)據(jù)點(diǎn)都被歸類為七十七種不同的意圖之一。意圖包括客戶詢問卡到達(dá)、卡不工作問題、卡上的額外費(fèi)用以及被拒絕的轉(zhuǎn)賬問題。

使用這種類型的數(shù)據(jù)集將使銀行能夠快速響應(yīng)并將不同的客戶問題分類為更有條理的結(jié)構(gòu)以供以后使用。可以為每天接收大量客戶請(qǐng)求的任何企業(yè)構(gòu)建類似的模型。但首先需要提供一個(gè)良好的過濾和處理數(shù)據(jù)集來運(yùn)行模型。

其他有趣的抱抱臉數(shù)據(jù)集

以下是Hugging Face的另外三個(gè)有趣的數(shù)據(jù)集可供探索。

1.巢穴數(shù)據(jù)集

Lair數(shù)據(jù)集包含來自世界各地的政治家的12,000多條帶標(biāo)簽的聲明。

每個(gè)陳述被分類為錯(cuò)誤的、半正確的、大部分正確的和正確的。

使用Lair數(shù)據(jù)集，機(jī)器學(xué)習(xí)模型可能能夠檢測(cè)類似未來陳述的可信度。

2.谷歌格式良好的查詢數(shù)據(jù)集

這個(gè)Google查詢數(shù)據(jù)集通過眾包來自Parallax語料庫的25,100個(gè)查詢的“格式良好”注釋創(chuàng)建，根據(jù)查詢的信息量來標(biāo)記每個(gè)數(shù)據(jù)點(diǎn)。

五個(gè)用戶將每個(gè)查詢注釋為消息靈通或不靈通。

通過使用這個(gè)數(shù)據(jù)集，機(jī)器學(xué)習(xí)模型可以進(jìn)一步預(yù)測(cè)給定查詢的消息靈通程度。

3.Jfleg數(shù)據(jù)集

Jfleg數(shù)據(jù)集被認(rèn)為是黃金標(biāo)準(zhǔn)基準(zhǔn)，是一個(gè)英語語法糾錯(cuò)數(shù)據(jù)集。每個(gè)數(shù)據(jù)點(diǎn)都包含一個(gè)書面句子（有多個(gè)語法和拼寫錯(cuò)誤）和另外四個(gè)由四個(gè)不同的人編寫的語法和拼寫正確的句子。

使用這種類型的數(shù)據(jù)集進(jìn)行訓(xùn)練將使我們的模型能夠檢測(cè)和糾正它發(fā)現(xiàn)的語法錯(cuò)誤。請(qǐng)注意，與大多數(shù)機(jī)器學(xué)習(xí)模型類似，此模型可能無法保證在所有情況下都能進(jìn)行完美的語法和拼寫更正。另一個(gè)注意事項(xiàng)：根據(jù)任務(wù)的預(yù)期結(jié)果（垃圾郵件過濾器、仇恨言論檢測(cè)器、評(píng)論），選擇正確的數(shù)據(jù)集將顯著影響模型性能。

嘗試在上述幾個(gè)數(shù)據(jù)集上運(yùn)行您的模型，然后檢查實(shí)現(xiàn)的性能。您還可以搜索自己的數(shù)據(jù)集并將它們與此處介紹的數(shù)據(jù)集進(jìn)行比較。

使用擁抱人臉數(shù)據(jù)集

有如此多的潛在用途，例如將項(xiàng)目（文本）組織成不同的類別（用于進(jìn)一步的推薦系統(tǒng)處理）、檢測(cè)仇恨言論和過濾垃圾郵件，使用NLP是一項(xiàng)值得學(xué)習(xí)的技能。

在本文中，我們探索了Hugging Face，這是一個(gè)包含大量NLP數(shù)據(jù)集（主要致力于NLP機(jī)器學(xué)習(xí)模型）的開源網(wǎng)站，并涵蓋了10個(gè)數(shù)據(jù)集，以幫助您開始改善您的機(jī)器學(xué)習(xí)事業(yè)。

我們建議嘗試上面的一些示例，并學(xué)習(xí)如何將這些數(shù)據(jù)集與您的機(jī)器學(xué)習(xí)模型一起使用。您可以隨時(shí)在Hugging Face或其他網(wǎng)站上查看其他數(shù)據(jù)集，以滿足您模型的要求。

亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

資訊詳情

十大抱抱臉(Hugging Face)數(shù)據(jù)集