如何將數(shù)據(jù)治理應(yīng)用于AI/ML系統(tǒng)
數(shù)據(jù)治理在確保數(shù)據(jù)可用、一致、可信和安全方面發(fā)揮著關(guān)鍵作用。維護(hù)數(shù)據(jù)治理面臨許多挑戰(zhàn),企業(yè)對AI和ML等系統(tǒng)的投資也加大了。
AI/ML系統(tǒng)的功能與傳統(tǒng)的固定記錄系統(tǒng)不同,目標(biāo)不是返回單個事務(wù)的值或狀態(tài),相反,AI/ML系統(tǒng)篩選數(shù)PB的數(shù)據(jù),尋找可能是巨大和多方面的查詢的答案。
此外,數(shù)據(jù)可以來自許多不同的內(nèi)部和外部來源,每個來源都有自己的收集、管理和存儲數(shù)據(jù)的方式,這可能符合也可能不符合你的企業(yè)的治理標(biāo)準(zhǔn),然后,還有一個問題是確保AI/ML系統(tǒng)在可信數(shù)據(jù)上進(jìn)行訓(xùn)練,以確保準(zhǔn)確性。
這些只是公司及其審計(jì)師在專注于AI/ML的數(shù)據(jù)治理并尋找可以幫助他們的工具時面臨的部分擔(dān)憂。
為什么AI/ML系統(tǒng)需要數(shù)據(jù)治理?
根據(jù)IBM全球AI采用指數(shù)2022,全球AI采用率為35%,在全球一些行業(yè)和國家普遍存在。這種快速采用AI和ML系統(tǒng)來推動創(chuàng)新和決策的做法,使得底層數(shù)據(jù)的完整性和管理變得至關(guān)重要。
與傳統(tǒng)計(jì)算系統(tǒng)相比,AI和ML系統(tǒng)更加細(xì)致入微,突顯了數(shù)據(jù)治理的重要性。AI/ML系統(tǒng)需要健壯的數(shù)據(jù)治理框架的主要原因有兩個:
動態(tài)結(jié)構(gòu):與傳統(tǒng)數(shù)據(jù)系統(tǒng)相比,AI/ML系統(tǒng)是動態(tài)的——不斷發(fā)展,并從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)。
數(shù)據(jù)量和多樣性:AI/ML系統(tǒng)的效能與它訓(xùn)練和學(xué)習(xí)的數(shù)據(jù)集的數(shù)量和多樣性成正比。
由于這些因素,如果沒有嚴(yán)格的治理,AI/ML系統(tǒng)可能會產(chǎn)生不一致、不準(zhǔn)確甚至有偏見的輸出。
數(shù)據(jù)治理如何與AI/ML系統(tǒng)一起工作?
AI/ML系統(tǒng)旨在同時和異步處理海量數(shù)據(jù),這意味著同時將多個數(shù)據(jù)線程送入處理器,從而實(shí)現(xiàn)更快、更高效的數(shù)據(jù)處理。
然而,這也帶來了復(fù)雜性,AI/ML系統(tǒng)的主要目標(biāo)是在海量數(shù)據(jù)集中搜索以找到答案,范圍從基于歷史數(shù)據(jù)預(yù)測未來趨勢到識別電子商務(wù)數(shù)據(jù)中的模式。如果來自一個來源的數(shù)據(jù)被破壞或有偏差,它可能會影響整體輸出,使結(jié)果不可靠。
因此,將嚴(yán)格的數(shù)據(jù)治理整合到流程中至關(guān)重要,以確保每個數(shù)據(jù)線索都是準(zhǔn)確的、相關(guān)的和沒有偏見的。
IT在加快數(shù)據(jù)處理方面的作用
IT部門在AI/ML數(shù)據(jù)治理流程中發(fā)揮著關(guān)鍵作用,通過預(yù)處理和剔除不相關(guān)或冗余的數(shù)據(jù),它們可以顯著加快AI/ML系統(tǒng)的數(shù)據(jù)處理時間,這確保AI/ML模型高效運(yùn)行,并與最相關(guān)和高質(zhì)量的數(shù)據(jù)一起工作。
此外,IT團(tuán)隊(duì)可以實(shí)施工具和協(xié)議來自動化許多治理任務(wù),例如數(shù)據(jù)驗(yàn)證、確保跨數(shù)據(jù)源的一致性以及監(jiān)控潛在的安全漏洞。
實(shí)施AI/ML系統(tǒng)的數(shù)據(jù)治理面臨的挑戰(zhàn)
AI/ML系統(tǒng)的數(shù)據(jù)集成和管理帶來了企業(yè)需要應(yīng)對的幾個數(shù)據(jù)治理挑戰(zhàn)。
集成來自多個源的數(shù)據(jù)
當(dāng)企業(yè)從多個來源收集數(shù)據(jù)時,每個來源都有自己的治理標(biāo)準(zhǔn),確保一致性成為一個重大障礙。這種多樣性可能導(dǎo)致數(shù)據(jù)不匹配、冗余和不準(zhǔn)確。
數(shù)據(jù)必須協(xié)調(diào)一致,以提供對目標(biāo)至關(guān)重要的全面觀點(diǎn),將數(shù)據(jù)整合成統(tǒng)一的格式是一個復(fù)雜的過程,涉及清理、轉(zhuǎn)換和標(biāo)準(zhǔn)化。
為了避免有缺陷的模型,確保AI/ML系統(tǒng)使用的海量數(shù)據(jù)集準(zhǔn)確和相關(guān)是至關(guān)重要的。
信任建議
一些AI/ML模型的訓(xùn)練數(shù)據(jù)是保密的,使得企業(yè)很難完全信任和理解這些系統(tǒng)提供的建議。如果不了解決策是如何做出的,就存在誤解或誤用的風(fēng)險。
例如,AI/ML模型有時會反映或放大數(shù)據(jù)中的偏差。根據(jù)Obermeyer等人的一項(xiàng)研究,一種使用醫(yī)療成本作為健康需求代理的算法,將比其他白人患者病情更重的黑人患者分配給相同水平的健康風(fēng)險。
了解模型使用了哪些訓(xùn)練數(shù)據(jù),并實(shí)施了嚴(yán)格的數(shù)據(jù)治理,有助于識別和糾正這些偏差,確保模型結(jié)果的公平性。
維護(hù)數(shù)據(jù)質(zhì)量
由于AI/ML系統(tǒng)嚴(yán)重依賴高質(zhì)量的數(shù)據(jù),因此確保數(shù)據(jù)干凈、準(zhǔn)確和最新至關(guān)重要,糟糕的數(shù)據(jù)質(zhì)量可能導(dǎo)致錯誤的模型預(yù)測和洞察。
例如,糟糕的數(shù)據(jù)質(zhì)量可能會導(dǎo)致預(yù)測中的偏差。亞馬遜停產(chǎn)的招聘模式是另一個很好的例子,2014年,機(jī)器學(xué)習(xí)系統(tǒng)經(jīng)過訓(xùn)練,對女性求職者產(chǎn)生了偏見。
對AI/ML系統(tǒng)實(shí)施數(shù)據(jù)治理可確保使用的數(shù)據(jù)始終具有最高質(zhì)量,這有助于消除任何偏見或不準(zhǔn)確。
數(shù)據(jù)安全和隱私
處理大量已處理的數(shù)據(jù)需要在保護(hù)敏感信息和遵守法規(guī)方面保持警惕,更大的數(shù)據(jù)量伴隨著更高的安全和合規(guī)風(fēng)險,這要求遵守許多跨境的不同數(shù)據(jù)隱私和保護(hù)法律。
數(shù)據(jù)安全方面的疏忽可能會產(chǎn)生可怕的后果,例如未經(jīng)授權(quán)的訪問、數(shù)據(jù)篡改和入侵,它還可能破壞人們對AI系統(tǒng)的信任,并導(dǎo)致法律后果,損害公司的聲譽(yù),并通過銷售額下降或監(jiān)管罰款導(dǎo)致財(cái)務(wù)損失。
數(shù)據(jù)治理政策主動確保數(shù)據(jù)安全符合數(shù)據(jù)保護(hù)法規(guī),采用加密方法,并通過審計(jì)定期監(jiān)控?cái)?shù)據(jù)訪問。
如何將數(shù)據(jù)治理應(yīng)用于AI/ML系統(tǒng)
AI/ML中的數(shù)據(jù)治理的未來不僅是管理數(shù)據(jù),而且還確保負(fù)責(zé)任和有效地利用數(shù)據(jù)。隨著AI/ML的發(fā)展,穩(wěn)健的數(shù)據(jù)治理的重要性也在不斷發(fā)展,企業(yè)必須具有主動性、適應(yīng)性,并配備正確的工具來駕馭這一領(lǐng)域。
確保數(shù)據(jù)的一致性和準(zhǔn)確性
在集成來自內(nèi)部和外部事務(wù)系統(tǒng)的數(shù)據(jù)時,數(shù)據(jù)應(yīng)該標(biāo)準(zhǔn)化,以便它可以與來自其他來源的數(shù)據(jù)進(jìn)行通信和混合。許多系統(tǒng)中預(yù)置的應(yīng)用程序編程接口有助于實(shí)現(xiàn)這一點(diǎn),因此它們可以與其他系統(tǒng)交換數(shù)據(jù)。如果沒有可用的API,企業(yè)可以使用ETL工具,這些工具可以將數(shù)據(jù)從一個系統(tǒng)傳輸?shù)搅硪粋€系統(tǒng)可以讀取的格式。
在添加非結(jié)構(gòu)化數(shù)據(jù)(如照片、視頻和聲音對象)時,可以使用對象鏈接工具將這些對象彼此鏈接和關(guān)聯(lián)。對象鏈接器的一個很好的例子是地理信息系統(tǒng),它將照片、示意圖和其他類型的數(shù)據(jù)結(jié)合在一起,為特定環(huán)境提供完整的地理環(huán)境。
確認(rèn)數(shù)據(jù)可用
我們通常認(rèn)為可用的數(shù)據(jù)是用戶可以訪問的數(shù)據(jù),但它不止于此。如果數(shù)據(jù)因?yàn)檫^時而失去了價值,那么它應(yīng)該被清除,也就是說,IT和企業(yè)用戶必須就何時應(yīng)該清除數(shù)據(jù)達(dá)成一致,這將以數(shù)據(jù)保留政策的形式出現(xiàn)。
還有其他應(yīng)該清除AI/ML數(shù)據(jù)的情況,當(dāng)AI的數(shù)據(jù)模型發(fā)生更改,并且數(shù)據(jù)不再適合該模型時,就會發(fā)生這種情況。
在AI/ML治理審計(jì)中,審查員將期望看到這兩種類型的數(shù)據(jù)清除的書面政策和程序,他們還將檢查數(shù)據(jù)清除做法是否符合行業(yè)標(biāo)準(zhǔn)。為了跟上這些標(biāo)準(zhǔn)和做法,企業(yè)應(yīng)該考慮投資于數(shù)據(jù)清除工具和實(shí)用程序。
確保數(shù)據(jù)可信
情況會變的,曾經(jīng)非常有效的AI/ML系統(tǒng)可能會開始失去效力,這就是所謂的模型漂移,這可以通過定期檢查AI/ML結(jié)果與過去的表現(xiàn)和世界上正在發(fā)生的事情來確認(rèn)。如果AI/ML系統(tǒng)的準(zhǔn)確性偏離當(dāng)前數(shù)據(jù),那么修復(fù)它是必不可少的。
數(shù)據(jù)科學(xué)家可以使用AI/ML工具來衡量模型漂移,但商業(yè)專業(yè)人士檢查漂移的最直接方法是將AI/ML系統(tǒng)性能與歷史性能進(jìn)行交叉比較。
用于AL/ML系統(tǒng)的數(shù)據(jù)治理工具
為了應(yīng)對在AI/ML系統(tǒng)中實(shí)施數(shù)據(jù)治理的挑戰(zhàn),企業(yè)可以投資于數(shù)據(jù)治理工具,以下是一些頂級工具:
ColLibra:適用于全面數(shù)據(jù)管理和治理的整體數(shù)據(jù)治理平臺。
Informatica:以數(shù)據(jù)集成而聞名,它是集成來自多個來源的數(shù)據(jù)的理想選擇。
Alation:使用ML自動化數(shù)據(jù)發(fā)現(xiàn)和編目。
ERWIN:提供數(shù)據(jù)建模功能,幫助企業(yè)了解其數(shù)據(jù)環(huán)境。
OneTrust:強(qiáng)調(diào)數(shù)據(jù)合規(guī)性,幫助企業(yè)遵守法規(guī)。
SAP主數(shù)據(jù)治理:為企業(yè)提供強(qiáng)大的數(shù)據(jù)處理和治理。
- 上一篇
大數(shù)據(jù)管理面臨的挑戰(zhàn)及其解決方案
大數(shù)據(jù)管理面臨的主要障礙與組織、技術(shù)和運(yùn)營限制有關(guān),例如缺乏基礎(chǔ)設(shè)施或熟練人員。讓我們將這些障礙解構(gòu)為可管理、易于理解的問題,并提供具體的解決方案。
- 下一篇
云和生成式人工智能未來趨勢
云技術(shù)和生成式人工智能在當(dāng)前動態(tài)商業(yè)環(huán)境中起到關(guān)鍵作用,尤其是云遷移,提供了廣泛的好處,其中數(shù)據(jù)安全是這一變革之旅的關(guān)鍵優(yōu)勢??贫鲝?qiáng)調(diào),在當(dāng)今不斷發(fā)展的商業(yè)環(huán)境中,云技術(shù)和生成式人工智能是推動業(yè)務(wù)成功和差異化不可或缺的支柱。