資訊詳情

您的數(shù)據(jù)能滿足您的ML/AI計劃嗎？

2022-08-26 10:09:384636

數(shù)據(jù)對 AI 來說足夠好了嗎？

人工智能的發(fā)展是全球企業(yè)和政府的重中之重。然而，人工智能的一個基本方面仍然被忽視：數(shù)據(jù)質量差。

人工智能算法依靠可靠的數(shù)據(jù)來產(chǎn)生最佳結果——如果數(shù)據(jù)有偏差、不完整、不充分和不準確，就會導致毀滅性的后果。

識別患者疾病的人工智能系統(tǒng)是一個很好的例子，說明糟糕的數(shù)據(jù)質量如何導致不良后果。當數(shù)據(jù)不足時，這些系統(tǒng)會產(chǎn)生錯誤的診斷和不準確的預測，從而導致誤診和延誤治療。例如，劍橋大學對用于診斷Covid-19的400多種工具進行的一項研究發(fā)現(xiàn)，由有缺陷的數(shù)據(jù)集導致由AI生成的報告完全無法使用。

換句話說，如果您的數(shù)據(jù)不夠好，您的AI計劃將對現(xiàn)實世界產(chǎn)生毀滅性的后果。

“足夠好”的數(shù)據(jù)是什么意思？

關于“足夠好”的數(shù)據(jù)意味著什么存在相當大的爭論。有人說不存在足夠好的數(shù)據(jù)。其他人則表示，對良好數(shù)據(jù)的需求會導致分析癱瘓——而HBR則直截了當?shù)刂赋?，如果您的信息很糟糕，您的機器學習工具將毫無用處。

在WinPure，我們將足夠好的數(shù)據(jù)定義為“完整、準確、有效的數(shù)據(jù)，可以放心地用于具有可接受風險的業(yè)務流程，其水平取決于個人目標和業(yè)務環(huán)境。”

大多數(shù)公司在數(shù)據(jù)質量和治理方面的掙扎比他們承認的要多。增加緊張感；他們不堪重負，承受著部署人工智能計劃以保持競爭力的巨大壓力。可悲的是，這意味著像臟數(shù)據(jù)這樣的問題甚至不會成為董事會討論的一部分，直到它導致項目失敗。

糟糕的數(shù)據(jù)如何影響人工智能系統(tǒng)？

當算法以訓練數(shù)據(jù)為基礎來學習模式時，數(shù)據(jù)質量問題出現(xiàn)在流程的開始。例如，如果向AI算法提供未經(jīng)過濾的社交媒體數(shù)據(jù)，它會拾取濫用、種族主義評論和厭惡女性的言論，如Microsoft的AI機器人所示。最近，人工智能無法檢測到深色皮膚的人也被認為是由于部分數(shù)據(jù)所致。

這與數(shù)據(jù)質量有何關系？

缺乏數(shù)據(jù)治理、缺乏數(shù)據(jù)質量意識和孤立的數(shù)據(jù)視圖（可能已經(jīng)注意到這種性別差異）導致結果不佳。

該怎么辦？

當企業(yè)意識到他們遇到了數(shù)據(jù)質量問題時，他們會對招聘感到恐慌。盲目聘請顧問、工程師和分析師來診斷、清理數(shù)據(jù)并盡快解決問題。不幸的是，在取得任何進展之前幾個月過去了，盡管在勞動力上花費了數(shù)百萬美元，但問題似乎并沒有消失。對數(shù)據(jù)質量問題采取下意識的方法幾乎沒有幫助。

真正的改變從基層開始。

如果您希望您的AI/ML項目朝著正確的方向發(fā)展，請采取以下三個關鍵步驟。

建立意識并承認數(shù)據(jù)質量問題

首先，通過建立數(shù)據(jù)素養(yǎng)文化來評估數(shù)據(jù)質量。Bill Schmarzo是該行業(yè)的有力代言人，他建議使用設計思維來創(chuàng)建一種文化，讓每個人都能理解并為組織的數(shù)據(jù)目標和挑戰(zhàn)做出貢獻。

在當今的業(yè)務環(huán)境中，數(shù)據(jù)和數(shù)據(jù)質量不再是IT或數(shù)據(jù)團隊的唯一責任。業(yè)務用戶必須意識到臟數(shù)據(jù)問題以及不一致和重復的數(shù)據(jù)等問題。

因此，首先要做的關鍵事情是讓數(shù)據(jù)質量培訓成為一項組織工作，并使團隊能夠識別不良數(shù)據(jù)屬性。

這是一個清單，您可以使用它來開始討論您的數(shù)據(jù)質量。

數(shù)據(jù)健康檢查表

數(shù)據(jù)健康檢查表。資料來源：WinPure公司

制定滿足質量指標的計劃

企業(yè)經(jīng)常犯破壞數(shù)據(jù)質量問題的錯誤。他們聘請數(shù)據(jù)分析師來完成日常的數(shù)據(jù)清理任務，而不是專注于計劃和戰(zhàn)略工作。一些企業(yè)在沒有計劃的情況下使用數(shù)據(jù)管理工具來清理、重復數(shù)據(jù)刪除、合并和清除數(shù)據(jù)。不幸的是，工具和人才不能孤立地解決問題。如果您有滿足數(shù)據(jù)質量維度的策略，那將會有所幫助。

數(shù)據(jù)質量指標計劃

該策略必須解決數(shù)據(jù)收集、標記、處理以及數(shù)據(jù)是否適合AI/ML項目的問題。例如，如果人工智能招聘計劃只選擇男性候選人擔任技術職位，那么該項目的培訓數(shù)據(jù)顯然是有偏見的、不完整的（因為它沒有收集到足夠的女性候選人數(shù)據(jù)）和不準確的。因此，這些數(shù)據(jù)不符合人工智能項目的真正目的。

數(shù)據(jù)質量超出了清理和修復的日常任務。在開始項目之前設置數(shù)據(jù)完整性和治理標準是最好的。它使項目免于以后失敗！

提出正確的問題并設置問責制

對于“足夠好的數(shù)據(jù)或數(shù)據(jù)質量水平”沒有通用標準。相反，這一切都取決于您的企業(yè)的信息管理系統(tǒng)、數(shù)據(jù)治理指南（或沒有這些指南），以及您的團隊和業(yè)務目標的知識，以及許多其他因素。

在啟動項目之前，有幾個問題要問您的團隊：

我們信息的來源是什么，數(shù)據(jù)收集的方法是什么？
哪些問題會影響數(shù)據(jù)收集過程并威脅積極成果？
數(shù)據(jù)傳遞什么信息？它是否符合數(shù)據(jù)質量標準（即信息準確、完全可靠和恒定）？
指定人員是否意識到數(shù)據(jù)質量和低質量的重要性？
是否定義了角色和職責？例如，誰需要維護定期數(shù)據(jù)清理計劃？誰負責創(chuàng)建主記錄？
數(shù)據(jù)是否符合目的？

提出正確的問題、分配正確的角色、實施數(shù)據(jù)質量標準并幫助您的團隊在問題出現(xiàn)之前應對挑戰(zhàn)！

總結

數(shù)據(jù)質量不僅僅是修復錯別字或錯誤。它確保人工智能系統(tǒng)沒有歧視性、誤導性或不準確。在啟動AI項目之前，有必要解決數(shù)據(jù)中的缺陷并應對數(shù)據(jù)質量挑戰(zhàn)。此外，啟動組織范圍內(nèi)的數(shù)據(jù)素養(yǎng)計劃，將每個團隊與總體目標聯(lián)系起來。

處理、處理和標記數(shù)據(jù)的一線員工需要進行數(shù)據(jù)質量培訓，以便及時發(fā)現(xiàn)偏差和錯誤。