數(shù)據(jù)質量在人工智能實施中的重要性
人工智能和機器學習技術可以顯著造福各種規(guī)模的行業(yè)。根據(jù)麥肯錫的一份報告,到2030年,采用人工智能技術的企業(yè)的現(xiàn)金流將翻一番。相反,不部署人工智能的企業(yè)的現(xiàn)金流將減少20%。然而,這些好處超越了財務。人工智能可以幫助企業(yè)應對勞動力短缺。人工智能還顯著改善了客戶體驗和業(yè)務成果,使業(yè)務更加可靠。
既然人工智能有這么多優(yōu)勢,為什么不是每個人都采用人工智能呢?2019年,普華永道的一項調查顯示,76%的公司計劃使用AI來提高其業(yè)務價值。然而,只有微薄的15%可以訪問高質量的數(shù)據(jù)來實現(xiàn)他們的業(yè)務目標。Refinitiv的另一項研究表明,66%的受訪者表示低質量數(shù)據(jù)會損害他們有效部署和采用AI的能力。
調查發(fā)現(xiàn),使用機器學習和人工智能技術的三大挑戰(zhàn)圍繞著——“關于數(shù)據(jù)的覆蓋范圍、歷史和數(shù)量的準確信息”、“識別不完整或損壞的記錄”以及“清理和規(guī)范化數(shù)據(jù)”。數(shù)據(jù)。”這表明質量差的數(shù)據(jù)是企業(yè)獲得高質量人工智能分析的主要障礙。
為什么數(shù)據(jù)如此重要?
數(shù)據(jù)質量在人工智能實施中至關重要的原因有很多。以下是一些最重要的:
1.垃圾進出
很容易理解輸出在很大程度上取決于輸入。在這種情況下,如果數(shù)據(jù)集充滿錯誤或有偏差,結果也會讓你走錯路。大多數(shù)與數(shù)據(jù)相關的問題不一定與數(shù)據(jù)量有關,而是與您輸入AI模型的數(shù)據(jù)質量有關。如果您擁有低質量的數(shù)據(jù),那么您的AI模型將無法正常工作,無論它們有多好。
2.并非所有人工智能系統(tǒng)都是平等的
當我們想到數(shù)據(jù)集時,我們通常會從定量數(shù)據(jù)的角度來思考。但也有視頻、個人訪談、觀點、圖片等形式的定性數(shù)據(jù)。在人工智能系統(tǒng)中,定量數(shù)據(jù)集是結構化的,而定性數(shù)據(jù)集是非結構化的。并非所有AI模型都可以處理這兩種數(shù)據(jù)集。因此,為合適的模型選擇正確的數(shù)據(jù)類型對于獲得預期的輸出至關重要。
3.質量與數(shù)量
人們認為,人工智能系統(tǒng)需要攝取大量數(shù)據(jù)才能從中學習。在關于質量與數(shù)量的辯論中,公司通常更喜歡后者。但是,如果數(shù)據(jù)集是高質量但本質上更短的,它將為您提供一些保證,即輸出是相關且穩(wěn)健的。
4.好數(shù)據(jù)集的特征
一個好的數(shù)據(jù)集的特征可能是主觀的,主要取決于人工智能所服務的應用程序。但是,在分析數(shù)據(jù)集時必須尋找一些一般特征。
- 完整性:數(shù)據(jù)集必須完整,數(shù)據(jù)集中沒有空網(wǎng)格或空點。每個單元格中都應該有一個數(shù)據(jù)片段。
- 全面性:數(shù)據(jù)集應該盡可能全面。例如,如果您正在尋找網(wǎng)絡威脅向量,那么您必須擁有所有簽名配置文件和所有必要信息。
- 一致性:數(shù)據(jù)集必須適合分配給它們的明確變量。例如,如果您正在對包裝盒進行建模,則您選擇的變量(塑料、紙張、紙板等)必須具有適當?shù)亩▋r數(shù)據(jù)才能屬于這些明確的類別。
- 準確性:準確性是良好數(shù)據(jù)集的關鍵。您提供給AI模型的所有信息都必須可靠且完全準確。如果您的數(shù)據(jù)集的大部分不正確,您的輸出也將不準確。
- 唯一性:這點類似于一致性。每個數(shù)據(jù)點對于它所服務的變量必須是唯一的。例如,您不希望將塑料包裝的價格歸入任何其他包裝類別。
確保數(shù)據(jù)質量
確保數(shù)據(jù)質量高的方法有很多,例如確保數(shù)據(jù)源可信。以下是一些確保您為AI模型獲得最佳質量數(shù)據(jù)的最佳技術:
1.數(shù)據(jù)分析
數(shù)據(jù)分析對于在使用數(shù)據(jù)之前理解數(shù)據(jù)至關重要。數(shù)據(jù)剖析提供對值分布、最大值、最小值、平均值和異常值的洞察。此外,它有助于格式化數(shù)據(jù)中的不一致。數(shù)據(jù)分析有助于了解數(shù)據(jù)集是否可用。
2.評估數(shù)據(jù)質量
使用預建數(shù)據(jù)質量規(guī)則的中央庫,您可以使用中央庫驗證任何數(shù)據(jù)集。如果您有一個帶有內置數(shù)據(jù)工具的數(shù)據(jù)目錄,您可以簡單地重復使用這些規(guī)則來驗證客戶姓名、電子郵件和產品代碼。此外,您還可以豐富和標準化一些數(shù)據(jù)。
3.監(jiān)測和評估數(shù)據(jù)質量
科學家為他們想要使用的大多數(shù)數(shù)據(jù)集預先計算了數(shù)據(jù)質量。他們可以縮小范圍以查看屬性具有哪些特定問題,然后決定是否使用該屬性。
4.數(shù)據(jù)準備
研究人員和科學家通常需要稍微調整數(shù)據(jù),以便為AI建模做好準備。這些研究人員需要易于使用的工具來解析屬性、轉置列并從數(shù)據(jù)中計算值。
人工智能的世界在不斷變化。雖然每家公司都以不同的方式使用數(shù)據(jù),但數(shù)據(jù)質量對于任何AI實施項目來說仍然是必不可少的。如果您擁有可靠、優(yōu)質的數(shù)據(jù),您就無需大量數(shù)據(jù)集并增加成功的機會。與所有其他組織一樣,如果您的組織正在轉向AI實施,請檢查您是否擁有高質量的數(shù)據(jù)。確保您的來源值得信賴并進行盡職調查,以檢查它們是否符合您的數(shù)據(jù)要求。