亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動端logo

您的數(shù)據(jù)能滿足您的ML/AI計劃嗎?

2022-08-26 10:09:384636

數(shù)據(jù)對 AI 來說足夠好了嗎?

人工智能的發(fā)展是全球企業(yè)和政府的重中之重。然而,人工智能的一個基本方面仍然被忽視:數(shù)據(jù)質量差。

人工智能算法依靠可靠的數(shù)據(jù)來產(chǎn)生最佳結果——如果數(shù)據(jù)有偏差、不完整、不充分和不準確,就會導致毀滅性的后果。

識別患者疾病的人工智能系統(tǒng)是一個很好的例子,說明糟糕的數(shù)據(jù)質量如何導致不良后果。當數(shù)據(jù)不足時,這些系統(tǒng)會產(chǎn)生錯誤的診斷和不準確的預測,從而導致誤診和延誤治療。例如,劍橋大學對用于診斷Covid-19的400多種工具進行的一項研究發(fā)現(xiàn),由有缺陷的數(shù)據(jù)集導致由AI生成的報告完全無法使用。

換句話說,如果您的數(shù)據(jù)不夠好,您的AI計劃將對現(xiàn)實世界產(chǎn)生毀滅性的后果。

“足夠好”的數(shù)據(jù)是什么意思?

關于“足夠好”的數(shù)據(jù)意味著什么存在相當大的爭論。有人說不存在足夠好的數(shù)據(jù)。其他人則表示,對良好數(shù)據(jù)的需求會導致分析癱瘓——而HBR則直截了當?shù)刂赋?,如果您的信息很糟糕,您的機器學習工具將毫無用處。

在WinPure,我們將足夠好的數(shù)據(jù)定義為“完整、準確、有效的數(shù)據(jù),可以放心地用于具有可接受風險的業(yè)務流程,其水平取決于個人目標和業(yè)務環(huán)境。”

大多數(shù)公司在數(shù)據(jù)質量和治理方面的掙扎比他們承認的要多。增加緊張感;他們不堪重負,承受著部署人工智能計劃以保持競爭力的巨大壓力。可悲的是,這意味著像臟數(shù)據(jù)這樣的問題甚至不會成為董事會討論的一部分,直到它導致項目失敗。

糟糕的數(shù)據(jù)如何影響人工智能系統(tǒng)?

當算法以訓練數(shù)據(jù)為基礎來學習模式時,數(shù)據(jù)質量問題出現(xiàn)在流程的開始。例如,如果向AI算法提供未經(jīng)過濾的社交媒體數(shù)據(jù),它會拾取濫用、種族主義評論和厭惡女性的言論,如Microsoft的AI機器人所示。最近,人工智能無法檢測到深色皮膚的人也被認為是由于部分數(shù)據(jù)所致。

這與數(shù)據(jù)質量有何關系?

缺乏數(shù)據(jù)治理、缺乏數(shù)據(jù)質量意識和孤立的數(shù)據(jù)視圖(可能已經(jīng)注意到這種性別差異)導致結果不佳。

該怎么辦?

當企業(yè)意識到他們遇到了數(shù)據(jù)質量問題時,他們會對招聘感到恐慌。盲目聘請顧問、工程師和分析師來診斷、清理數(shù)據(jù)并盡快解決問題。不幸的是,在取得任何進展之前幾個月過去了,盡管在勞動力上花費了數(shù)百萬美元,但問題似乎并沒有消失。對數(shù)據(jù)質量問題采取下意識的方法幾乎沒有幫助。

真正的改變從基層開始。

如果您希望您的AI/ML項目朝著正確的方向發(fā)展,請采取以下三個關鍵步驟。

建立意識并承認數(shù)據(jù)質量問題

首先,通過建立數(shù)據(jù)素養(yǎng)文化來評估數(shù)據(jù)質量。Bill Schmarzo是該行業(yè)的有力代言人,他建議使用設計思維來創(chuàng)建一種文化,讓每個人都能理解并為組織的數(shù)據(jù)目標和挑戰(zhàn)做出貢獻。

在當今的業(yè)務環(huán)境中,數(shù)據(jù)和數(shù)據(jù)質量不再是IT或數(shù)據(jù)團隊的唯一責任。業(yè)務用戶必須意識到臟數(shù)據(jù)問題以及不一致和重復的數(shù)據(jù)等問題。

因此,首先要做的關鍵事情是讓數(shù)據(jù)質量培訓成為一項組織工作,并使團隊能夠識別不良數(shù)據(jù)屬性。

這是一個清單,您可以使用它來開始討論您的數(shù)據(jù)質量。

數(shù)據(jù)健康檢查表

數(shù)據(jù)健康檢查表。資料來源:WinPure公司

制定滿足質量指標的計劃

企業(yè)經(jīng)常犯破壞數(shù)據(jù)質量問題的錯誤。他們聘請數(shù)據(jù)分析師來完成日常的數(shù)據(jù)清理任務,而不是專注于計劃和戰(zhàn)略工作。一些企業(yè)在沒有計劃的情況下使用數(shù)據(jù)管理工具來清理、重復數(shù)據(jù)刪除、合并和清除數(shù)據(jù)。不幸的是,工具和人才不能孤立地解決問題。如果您有滿足數(shù)據(jù)質量維度的策略,那將會有所幫助。

數(shù)據(jù)質量指標計劃

該策略必須解決數(shù)據(jù)收集、標記、處理以及數(shù)據(jù)是否適合AI/ML項目的問題。例如,如果人工智能招聘計劃只選擇男性候選人擔任技術職位,那么該項目的培訓數(shù)據(jù)顯然是有偏見的、不完整的(因為它沒有收集到足夠的女性候選人數(shù)據(jù))和不準確的。因此,這些數(shù)據(jù)不符合人工智能項目的真正目的。

數(shù)據(jù)質量超出了清理和修復的日常任務。在開始項目之前設置數(shù)據(jù)完整性和治理標準是最好的。它使項目免于以后失敗!

提出正確的問題并設置問責制

對于“足夠好的數(shù)據(jù)或數(shù)據(jù)質量水平”沒有通用標準。相反,這一切都取決于您的企業(yè)的信息管理系統(tǒng)、數(shù)據(jù)治理指南(或沒有這些指南),以及您的團隊和業(yè)務目標的知識,以及許多其他因素。

在啟動項目之前,有幾個問題要問您的團隊:

  • 我們信息的來源是什么,數(shù)據(jù)收集的方法是什么?
  • 哪些問題會影響數(shù)據(jù)收集過程并威脅積極成果?
  • 數(shù)據(jù)傳遞什么信息?它是否符合數(shù)據(jù)質量標準(即信息準確、完全可靠和恒定)?
  • 指定人員是否意識到數(shù)據(jù)質量和低質量的重要性?
  • 是否定義了角色和職責?例如,誰需要維護定期數(shù)據(jù)清理計劃?誰負責創(chuàng)建主記錄?
  • 數(shù)據(jù)是否符合目的?

提出正確的問題、分配正確的角色、實施數(shù)據(jù)質量標準并幫助您的團隊在問題出現(xiàn)之前應對挑戰(zhàn)!

總結

數(shù)據(jù)質量不僅僅是修復錯別字或錯誤。它確保人工智能系統(tǒng)沒有歧視性、誤導性或不準確。在啟動AI項目之前,有必要解決數(shù)據(jù)中的缺陷并應對數(shù)據(jù)質量挑戰(zhàn)。此外,啟動組織范圍內(nèi)的數(shù)據(jù)素養(yǎng)計劃,將每個團隊與總體目標聯(lián)系起來。

處理、處理和標記數(shù)據(jù)的一線員工需要進行數(shù)據(jù)質量培訓,以便及時發(fā)現(xiàn)偏差和錯誤。