資訊詳情

數(shù)據(jù)質量在人工智能實施中的重要性

2022-09-08 08:32:404636

人工智能和機器學習技術可以顯著造福各種規(guī)模的行業(yè)。根據(jù)麥肯錫的一份報告，到2030年，采用人工智能技術的企業(yè)的現(xiàn)金流將翻一番。相反，不部署人工智能的企業(yè)的現(xiàn)金流將減少20%。然而，這些好處超越了財務。人工智能可以幫助企業(yè)應對勞動力短缺。人工智能還顯著改善了客戶體驗和業(yè)務成果，使業(yè)務更加可靠。

既然人工智能有這么多優(yōu)勢，為什么不是每個人都采用人工智能呢？2019年，普華永道的一項調查顯示，76%的公司計劃使用AI來提高其業(yè)務價值。然而，只有微薄的15%可以訪問高質量的數(shù)據(jù)來實現(xiàn)他們的業(yè)務目標。Refinitiv的另一項研究表明，66%的受訪者表示低質量數(shù)據(jù)會損害他們有效部署和采用AI的能力。

調查發(fā)現(xiàn)，使用機器學習和人工智能技術的三大挑戰(zhàn)圍繞著——“關于數(shù)據(jù)的覆蓋范圍、歷史和數(shù)量的準確信息”、“識別不完整或損壞的記錄”以及“清理和規(guī)范化數(shù)據(jù)”。數(shù)據(jù)。”這表明質量差的數(shù)據(jù)是企業(yè)獲得高質量人工智能分析的主要障礙。

為什么數(shù)據(jù)如此重要？

數(shù)據(jù)質量在人工智能實施中至關重要的原因有很多。以下是一些最重要的：

1.垃圾進出

很容易理解輸出在很大程度上取決于輸入。在這種情況下，如果數(shù)據(jù)集充滿錯誤或有偏差，結果也會讓你走錯路。大多數(shù)與數(shù)據(jù)相關的問題不一定與數(shù)據(jù)量有關，而是與您輸入AI模型的數(shù)據(jù)質量有關。如果您擁有低質量的數(shù)據(jù)，那么您的AI模型將無法正常工作，無論它們有多好。

2.并非所有人工智能系統(tǒng)都是平等的

當我們想到數(shù)據(jù)集時，我們通常會從定量數(shù)據(jù)的角度來思考。但也有視頻、個人訪談、觀點、圖片等形式的定性數(shù)據(jù)。在人工智能系統(tǒng)中，定量數(shù)據(jù)集是結構化的，而定性數(shù)據(jù)集是非結構化的。并非所有AI模型都可以處理這兩種數(shù)據(jù)集。因此，為合適的模型選擇正確的數(shù)據(jù)類型對于獲得預期的輸出至關重要。

3.質量與數(shù)量

人們認為，人工智能系統(tǒng)需要攝取大量數(shù)據(jù)才能從中學習。在關于質量與數(shù)量的辯論中，公司通常更喜歡后者。但是，如果數(shù)據(jù)集是高質量但本質上更短的，它將為您提供一些保證，即輸出是相關且穩(wěn)健的。

4.好數(shù)據(jù)集的特征

一個好的數(shù)據(jù)集的特征可能是主觀的，主要取決于人工智能所服務的應用程序。但是，在分析數(shù)據(jù)集時必須尋找一些一般特征。

完整性：數(shù)據(jù)集必須完整，數(shù)據(jù)集中沒有空網(wǎng)格或空點。每個單元格中都應該有一個數(shù)據(jù)片段。
全面性：數(shù)據(jù)集應該盡可能全面。例如，如果您正在尋找網(wǎng)絡威脅向量，那么您必須擁有所有簽名配置文件和所有必要信息。
一致性：數(shù)據(jù)集必須適合分配給它們的明確變量。例如，如果您正在對包裝盒進行建模，則您選擇的變量（塑料、紙張、紙板等）必須具有適當?shù)亩▋r數(shù)據(jù)才能屬于這些明確的類別。
準確性：準確性是良好數(shù)據(jù)集的關鍵。您提供給AI模型的所有信息都必須可靠且完全準確。如果您的數(shù)據(jù)集的大部分不正確，您的輸出也將不準確。
唯一性：這點類似于一致性。每個數(shù)據(jù)點對于它所服務的變量必須是唯一的。例如，您不希望將塑料包裝的價格歸入任何其他包裝類別。

確保數(shù)據(jù)質量

確保數(shù)據(jù)質量高的方法有很多，例如確保數(shù)據(jù)源可信。以下是一些確保您為AI模型獲得最佳質量數(shù)據(jù)的最佳技術：

1.數(shù)據(jù)分析

數(shù)據(jù)分析對于在使用數(shù)據(jù)之前理解數(shù)據(jù)至關重要。數(shù)據(jù)剖析提供對值分布、最大值、最小值、平均值和異常值的洞察。此外，它有助于格式化數(shù)據(jù)中的不一致。數(shù)據(jù)分析有助于了解數(shù)據(jù)集是否可用。

2.評估數(shù)據(jù)質量

使用預建數(shù)據(jù)質量規(guī)則的中央庫，您可以使用中央庫驗證任何數(shù)據(jù)集。如果您有一個帶有內置數(shù)據(jù)工具的數(shù)據(jù)目錄，您可以簡單地重復使用這些規(guī)則來驗證客戶姓名、電子郵件和產品代碼。此外，您還可以豐富和標準化一些數(shù)據(jù)。

3.監(jiān)測和評估數(shù)據(jù)質量

科學家為他們想要使用的大多數(shù)數(shù)據(jù)集預先計算了數(shù)據(jù)質量。他們可以縮小范圍以查看屬性具有哪些特定問題，然后決定是否使用該屬性。

4.數(shù)據(jù)準備

研究人員和科學家通常需要稍微調整數(shù)據(jù)，以便為AI建模做好準備。這些研究人員需要易于使用的工具來解析屬性、轉置列并從數(shù)據(jù)中計算值。

人工智能的世界在不斷變化。雖然每家公司都以不同的方式使用數(shù)據(jù)，但數(shù)據(jù)質量對于任何AI實施項目來說仍然是必不可少的。如果您擁有可靠、優(yōu)質的數(shù)據(jù)，您就無需大量數(shù)據(jù)集并增加成功的機會。與所有其他組織一樣，如果您的組織正在轉向AI實施，請檢查您是否擁有高質量的數(shù)據(jù)。確保您的來源值得信賴并進行盡職調查，以檢查它們是否符合您的數(shù)據(jù)要求。