您的數(shù)據(jù)能滿足您的ML/AI計劃嗎?
人工智能的發(fā)展是全球企業(yè)和政府的重中之重。然而,人工智能的一個基本方面仍然被忽視:數(shù)據(jù)質量差。
人工智能算法依靠可靠的數(shù)據(jù)來產(chǎn)生最佳結果——如果數(shù)據(jù)有偏差、不完整、不充分和不準確,就會導致毀滅性的后果。
識別患者疾病的人工智能系統(tǒng)是一個很好的例子,說明糟糕的數(shù)據(jù)質量如何導致不良后果。當數(shù)據(jù)不足時,這些系統(tǒng)會產(chǎn)生錯誤的診斷和不準確的預測,從而導致誤診和延誤治療。例如,劍橋大學對用于診斷Covid-19的400多種工具進行的一項研究發(fā)現(xiàn),由有缺陷的數(shù)據(jù)集導致由AI生成的報告完全無法使用。
換句話說,如果您的數(shù)據(jù)不夠好,您的AI計劃將對現(xiàn)實世界產(chǎn)生毀滅性的后果。
“足夠好”的數(shù)據(jù)是什么意思?
關于“足夠好”的數(shù)據(jù)意味著什么存在相當大的爭論。有人說不存在足夠好的數(shù)據(jù)。其他人則表示,對良好數(shù)據(jù)的需求會導致分析癱瘓——而HBR則直截了當?shù)刂赋?,如果您的信息很糟糕,您的機器學習工具將毫無用處。
在WinPure,我們將足夠好的數(shù)據(jù)定義為“完整、準確、有效的數(shù)據(jù),可以放心地用于具有可接受風險的業(yè)務流程,其水平取決于個人目標和業(yè)務環(huán)境。”
大多數(shù)公司在數(shù)據(jù)質量和治理方面的掙扎比他們承認的要多。增加緊張感;他們不堪重負,承受著部署人工智能計劃以保持競爭力的巨大壓力。可悲的是,這意味著像臟數(shù)據(jù)這樣的問題甚至不會成為董事會討論的一部分,直到它導致項目失敗。
糟糕的數(shù)據(jù)如何影響人工智能系統(tǒng)?
當算法以訓練數(shù)據(jù)為基礎來學習模式時,數(shù)據(jù)質量問題出現(xiàn)在流程的開始。例如,如果向AI算法提供未經(jīng)過濾的社交媒體數(shù)據(jù),它會拾取濫用、種族主義評論和厭惡女性的言論,如Microsoft的AI機器人所示。最近,人工智能無法檢測到深色皮膚的人也被認為是由于部分數(shù)據(jù)所致。
這與數(shù)據(jù)質量有何關系?
缺乏數(shù)據(jù)治理、缺乏數(shù)據(jù)質量意識和孤立的數(shù)據(jù)視圖(可能已經(jīng)注意到這種性別差異)導致結果不佳。
該怎么辦?
當企業(yè)意識到他們遇到了數(shù)據(jù)質量問題時,他們會對招聘感到恐慌。盲目聘請顧問、工程師和分析師來診斷、清理數(shù)據(jù)并盡快解決問題。不幸的是,在取得任何進展之前幾個月過去了,盡管在勞動力上花費了數(shù)百萬美元,但問題似乎并沒有消失。對數(shù)據(jù)質量問題采取下意識的方法幾乎沒有幫助。
真正的改變從基層開始。
如果您希望您的AI/ML項目朝著正確的方向發(fā)展,請采取以下三個關鍵步驟。
建立意識并承認數(shù)據(jù)質量問題
首先,通過建立數(shù)據(jù)素養(yǎng)文化來評估數(shù)據(jù)質量。Bill Schmarzo是該行業(yè)的有力代言人,他建議使用設計思維來創(chuàng)建一種文化,讓每個人都能理解并為組織的數(shù)據(jù)目標和挑戰(zhàn)做出貢獻。
在當今的業(yè)務環(huán)境中,數(shù)據(jù)和數(shù)據(jù)質量不再是IT或數(shù)據(jù)團隊的唯一責任。業(yè)務用戶必須意識到臟數(shù)據(jù)問題以及不一致和重復的數(shù)據(jù)等問題。
因此,首先要做的關鍵事情是讓數(shù)據(jù)質量培訓成為一項組織工作,并使團隊能夠識別不良數(shù)據(jù)屬性。
這是一個清單,您可以使用它來開始討論您的數(shù)據(jù)質量。
數(shù)據(jù)健康檢查表。資料來源:WinPure公司
制定滿足質量指標的計劃
企業(yè)經(jīng)常犯破壞數(shù)據(jù)質量問題的錯誤。他們聘請數(shù)據(jù)分析師來完成日常的數(shù)據(jù)清理任務,而不是專注于計劃和戰(zhàn)略工作。一些企業(yè)在沒有計劃的情況下使用數(shù)據(jù)管理工具來清理、重復數(shù)據(jù)刪除、合并和清除數(shù)據(jù)。不幸的是,工具和人才不能孤立地解決問題。如果您有滿足數(shù)據(jù)質量維度的策略,那將會有所幫助。
該策略必須解決數(shù)據(jù)收集、標記、處理以及數(shù)據(jù)是否適合AI/ML項目的問題。例如,如果人工智能招聘計劃只選擇男性候選人擔任技術職位,那么該項目的培訓數(shù)據(jù)顯然是有偏見的、不完整的(因為它沒有收集到足夠的女性候選人數(shù)據(jù))和不準確的。因此,這些數(shù)據(jù)不符合人工智能項目的真正目的。
數(shù)據(jù)質量超出了清理和修復的日常任務。在開始項目之前設置數(shù)據(jù)完整性和治理標準是最好的。它使項目免于以后失敗!
提出正確的問題并設置問責制
對于“足夠好的數(shù)據(jù)或數(shù)據(jù)質量水平”沒有通用標準。相反,這一切都取決于您的企業(yè)的信息管理系統(tǒng)、數(shù)據(jù)治理指南(或沒有這些指南),以及您的團隊和業(yè)務目標的知識,以及許多其他因素。
在啟動項目之前,有幾個問題要問您的團隊:
- 我們信息的來源是什么,數(shù)據(jù)收集的方法是什么?
- 哪些問題會影響數(shù)據(jù)收集過程并威脅積極成果?
- 數(shù)據(jù)傳遞什么信息?它是否符合數(shù)據(jù)質量標準(即信息準確、完全可靠和恒定)?
- 指定人員是否意識到數(shù)據(jù)質量和低質量的重要性?
- 是否定義了角色和職責?例如,誰需要維護定期數(shù)據(jù)清理計劃?誰負責創(chuàng)建主記錄?
- 數(shù)據(jù)是否符合目的?
提出正確的問題、分配正確的角色、實施數(shù)據(jù)質量標準并幫助您的團隊在問題出現(xiàn)之前應對挑戰(zhàn)!
總結
數(shù)據(jù)質量不僅僅是修復錯別字或錯誤。它確保人工智能系統(tǒng)沒有歧視性、誤導性或不準確。在啟動AI項目之前,有必要解決數(shù)據(jù)中的缺陷并應對數(shù)據(jù)質量挑戰(zhàn)。此外,啟動組織范圍內(nèi)的數(shù)據(jù)素養(yǎng)計劃,將每個團隊與總體目標聯(lián)系起來。
處理、處理和標記數(shù)據(jù)的一線員工需要進行數(shù)據(jù)質量培訓,以便及時發(fā)現(xiàn)偏差和錯誤。
- 上一篇
什么是物聯(lián)網(wǎng),它如何改變世界?
近年來,物聯(lián)網(wǎng)(IoT)呈上升趨勢,在消費者、企業(yè)和政府等機構中變得越來越普遍。物聯(lián)網(wǎng)是指可以通過互聯(lián)網(wǎng)發(fā)送或接收數(shù)據(jù)的任何連接的物理設備,包括智能手機、計算機、揚聲器、
- 下一篇
Kubernetes在物聯(lián)網(wǎng)應用中的重要性
Kubernetes是一種用于部署云原生應用程序的服務。由于云應用程序與我們的物聯(lián)網(wǎng)設備和產(chǎn)品相關聯(lián),這就是我們需要使用Kubernetes構建物聯(lián)網(wǎng)應用程序的地方。由于安全性、延遲