資訊詳情

如何將數(shù)據(jù)治理應(yīng)用于AI/ML系統(tǒng)

2023-11-04 10:51:594636

數(shù)據(jù)治理在確保數(shù)據(jù)可用、一致、可信和安全方面發(fā)揮著關(guān)鍵作用。維護(hù)數(shù)據(jù)治理面臨許多挑戰(zhàn)，企業(yè)對AI和ML等系統(tǒng)的投資也加大了。

AI/ML系統(tǒng)的功能與傳統(tǒng)的固定記錄系統(tǒng)不同，目標(biāo)不是返回單個事務(wù)的值或狀態(tài)，相反，AI/ML系統(tǒng)篩選數(shù)PB的數(shù)據(jù)，尋找可能是巨大和多方面的查詢的答案。

此外，數(shù)據(jù)可以來自許多不同的內(nèi)部和外部來源，每個來源都有自己的收集、管理和存儲數(shù)據(jù)的方式，這可能符合也可能不符合你的企業(yè)的治理標(biāo)準(zhǔn)，然后，還有一個問題是確保AI/ML系統(tǒng)在可信數(shù)據(jù)上進(jìn)行訓(xùn)練，以確保準(zhǔn)確性。

這些只是公司及其審計(jì)師在專注于AI/ML的數(shù)據(jù)治理并尋找可以幫助他們的工具時面臨的部分擔(dān)憂。

為什么AI/ML系統(tǒng)需要數(shù)據(jù)治理？

根據(jù)IBM全球AI采用指數(shù)2022，全球AI采用率為35%，在全球一些行業(yè)和國家普遍存在。這種快速采用AI和ML系統(tǒng)來推動創(chuàng)新和決策的做法，使得底層數(shù)據(jù)的完整性和管理變得至關(guān)重要。

與傳統(tǒng)計(jì)算系統(tǒng)相比，AI和ML系統(tǒng)更加細(xì)致入微，突顯了數(shù)據(jù)治理的重要性。AI/ML系統(tǒng)需要健壯的數(shù)據(jù)治理框架的主要原因有兩個：

動態(tài)結(jié)構(gòu)：與傳統(tǒng)數(shù)據(jù)系統(tǒng)相比，AI/ML系統(tǒng)是動態(tài)的——不斷發(fā)展，并從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)。

數(shù)據(jù)量和多樣性：AI/ML系統(tǒng)的效能與它訓(xùn)練和學(xué)習(xí)的數(shù)據(jù)集的數(shù)量和多樣性成正比。

由于這些因素，如果沒有嚴(yán)格的治理，AI/ML系統(tǒng)可能會產(chǎn)生不一致、不準(zhǔn)確甚至有偏見的輸出。

數(shù)據(jù)治理如何與AI/ML系統(tǒng)一起工作?

AI/ML系統(tǒng)旨在同時和異步處理海量數(shù)據(jù)，這意味著同時將多個數(shù)據(jù)線程送入處理器，從而實(shí)現(xiàn)更快、更高效的數(shù)據(jù)處理。

然而，這也帶來了復(fù)雜性，AI/ML系統(tǒng)的主要目標(biāo)是在海量數(shù)據(jù)集中搜索以找到答案，范圍從基于歷史數(shù)據(jù)預(yù)測未來趨勢到識別電子商務(wù)數(shù)據(jù)中的模式。如果來自一個來源的數(shù)據(jù)被破壞或有偏差，它可能會影響整體輸出，使結(jié)果不可靠。

因此，將嚴(yán)格的數(shù)據(jù)治理整合到流程中至關(guān)重要，以確保每個數(shù)據(jù)線索都是準(zhǔn)確的、相關(guān)的和沒有偏見的。

IT在加快數(shù)據(jù)處理方面的作用

IT部門在AI/ML數(shù)據(jù)治理流程中發(fā)揮著關(guān)鍵作用，通過預(yù)處理和剔除不相關(guān)或冗余的數(shù)據(jù)，它們可以顯著加快AI/ML系統(tǒng)的數(shù)據(jù)處理時間，這確保AI/ML模型高效運(yùn)行，并與最相關(guān)和高質(zhì)量的數(shù)據(jù)一起工作。

此外，IT團(tuán)隊(duì)可以實(shí)施工具和協(xié)議來自動化許多治理任務(wù)，例如數(shù)據(jù)驗(yàn)證、確保跨數(shù)據(jù)源的一致性以及監(jiān)控潛在的安全漏洞。

實(shí)施AI/ML系統(tǒng)的數(shù)據(jù)治理面臨的挑戰(zhàn)

AI/ML系統(tǒng)的數(shù)據(jù)集成和管理帶來了企業(yè)需要應(yīng)對的幾個數(shù)據(jù)治理挑戰(zhàn)。

集成來自多個源的數(shù)據(jù)

當(dāng)企業(yè)從多個來源收集數(shù)據(jù)時，每個來源都有自己的治理標(biāo)準(zhǔn)，確保一致性成為一個重大障礙。這種多樣性可能導(dǎo)致數(shù)據(jù)不匹配、冗余和不準(zhǔn)確。

數(shù)據(jù)必須協(xié)調(diào)一致，以提供對目標(biāo)至關(guān)重要的全面觀點(diǎn)，將數(shù)據(jù)整合成統(tǒng)一的格式是一個復(fù)雜的過程，涉及清理、轉(zhuǎn)換和標(biāo)準(zhǔn)化。

為了避免有缺陷的模型，確保AI/ML系統(tǒng)使用的海量數(shù)據(jù)集準(zhǔn)確和相關(guān)是至關(guān)重要的。

信任建議

一些AI/ML模型的訓(xùn)練數(shù)據(jù)是保密的，使得企業(yè)很難完全信任和理解這些系統(tǒng)提供的建議。如果不了解決策是如何做出的，就存在誤解或誤用的風(fēng)險。

例如，AI/ML模型有時會反映或放大數(shù)據(jù)中的偏差。根據(jù)Obermeyer等人的一項(xiàng)研究，一種使用醫(yī)療成本作為健康需求代理的算法，將比其他白人患者病情更重的黑人患者分配給相同水平的健康風(fēng)險。

了解模型使用了哪些訓(xùn)練數(shù)據(jù)，并實(shí)施了嚴(yán)格的數(shù)據(jù)治理，有助于識別和糾正這些偏差，確保模型結(jié)果的公平性。

維護(hù)數(shù)據(jù)質(zhì)量

由于AI/ML系統(tǒng)嚴(yán)重依賴高質(zhì)量的數(shù)據(jù)，因此確保數(shù)據(jù)干凈、準(zhǔn)確和最新至關(guān)重要，糟糕的數(shù)據(jù)質(zhì)量可能導(dǎo)致錯誤的模型預(yù)測和洞察。

例如，糟糕的數(shù)據(jù)質(zhì)量可能會導(dǎo)致預(yù)測中的偏差。亞馬遜停產(chǎn)的招聘模式是另一個很好的例子，2014年，機(jī)器學(xué)習(xí)系統(tǒng)經(jīng)過訓(xùn)練，對女性求職者產(chǎn)生了偏見。

對AI/ML系統(tǒng)實(shí)施數(shù)據(jù)治理可確保使用的數(shù)據(jù)始終具有最高質(zhì)量，這有助于消除任何偏見或不準(zhǔn)確。

數(shù)據(jù)安全和隱私

處理大量已處理的數(shù)據(jù)需要在保護(hù)敏感信息和遵守法規(guī)方面保持警惕，更大的數(shù)據(jù)量伴隨著更高的安全和合規(guī)風(fēng)險，這要求遵守許多跨境的不同數(shù)據(jù)隱私和保護(hù)法律。

數(shù)據(jù)安全方面的疏忽可能會產(chǎn)生可怕的后果，例如未經(jīng)授權(quán)的訪問、數(shù)據(jù)篡改和入侵，它還可能破壞人們對AI系統(tǒng)的信任，并導(dǎo)致法律后果，損害公司的聲譽(yù)，并通過銷售額下降或監(jiān)管罰款導(dǎo)致財(cái)務(wù)損失。

數(shù)據(jù)治理政策主動確保數(shù)據(jù)安全符合數(shù)據(jù)保護(hù)法規(guī)，采用加密方法，并通過審計(jì)定期監(jiān)控?cái)?shù)據(jù)訪問。

如何將數(shù)據(jù)治理應(yīng)用于AI/ML系統(tǒng)

AI/ML中的數(shù)據(jù)治理的未來不僅是管理數(shù)據(jù)，而且還確保負(fù)責(zé)任和有效地利用數(shù)據(jù)。隨著AI/ML的發(fā)展，穩(wěn)健的數(shù)據(jù)治理的重要性也在不斷發(fā)展，企業(yè)必須具有主動性、適應(yīng)性，并配備正確的工具來駕馭這一領(lǐng)域。

確保數(shù)據(jù)的一致性和準(zhǔn)確性

在集成來自內(nèi)部和外部事務(wù)系統(tǒng)的數(shù)據(jù)時，數(shù)據(jù)應(yīng)該標(biāo)準(zhǔn)化，以便它可以與來自其他來源的數(shù)據(jù)進(jìn)行通信和混合。許多系統(tǒng)中預(yù)置的應(yīng)用程序編程接口有助于實(shí)現(xiàn)這一點(diǎn)，因此它們可以與其他系統(tǒng)交換數(shù)據(jù)。如果沒有可用的API，企業(yè)可以使用ETL工具，這些工具可以將數(shù)據(jù)從一個系統(tǒng)傳輸?shù)搅硪粋€系統(tǒng)可以讀取的格式。

在添加非結(jié)構(gòu)化數(shù)據(jù)(如照片、視頻和聲音對象)時，可以使用對象鏈接工具將這些對象彼此鏈接和關(guān)聯(lián)。對象鏈接器的一個很好的例子是地理信息系統(tǒng)，它將照片、示意圖和其他類型的數(shù)據(jù)結(jié)合在一起，為特定環(huán)境提供完整的地理環(huán)境。

確認(rèn)數(shù)據(jù)可用

我們通常認(rèn)為可用的數(shù)據(jù)是用戶可以訪問的數(shù)據(jù)，但它不止于此。如果數(shù)據(jù)因?yàn)檫^時而失去了價值，那么它應(yīng)該被清除，也就是說，IT和企業(yè)用戶必須就何時應(yīng)該清除數(shù)據(jù)達(dá)成一致，這將以數(shù)據(jù)保留政策的形式出現(xiàn)。

還有其他應(yīng)該清除AI/ML數(shù)據(jù)的情況，當(dāng)AI的數(shù)據(jù)模型發(fā)生更改，并且數(shù)據(jù)不再適合該模型時，就會發(fā)生這種情況。

在AI/ML治理審計(jì)中，審查員將期望看到這兩種類型的數(shù)據(jù)清除的書面政策和程序，他們還將檢查數(shù)據(jù)清除做法是否符合行業(yè)標(biāo)準(zhǔn)。為了跟上這些標(biāo)準(zhǔn)和做法，企業(yè)應(yīng)該考慮投資于數(shù)據(jù)清除工具和實(shí)用程序。

確保數(shù)據(jù)可信

情況會變的，曾經(jīng)非常有效的AI/ML系統(tǒng)可能會開始失去效力，這就是所謂的模型漂移，這可以通過定期檢查AI/ML結(jié)果與過去的表現(xiàn)和世界上正在發(fā)生的事情來確認(rèn)。如果AI/ML系統(tǒng)的準(zhǔn)確性偏離當(dāng)前數(shù)據(jù)，那么修復(fù)它是必不可少的。

數(shù)據(jù)科學(xué)家可以使用AI/ML工具來衡量模型漂移，但商業(yè)專業(yè)人士檢查漂移的最直接方法是將AI/ML系統(tǒng)性能與歷史性能進(jìn)行交叉比較。

用于AL/ML系統(tǒng)的數(shù)據(jù)治理工具

為了應(yīng)對在AI/ML系統(tǒng)中實(shí)施數(shù)據(jù)治理的挑戰(zhàn)，企業(yè)可以投資于數(shù)據(jù)治理工具，以下是一些頂級工具：

ColLibra：適用于全面數(shù)據(jù)管理和治理的整體數(shù)據(jù)治理平臺。

Informatica：以數(shù)據(jù)集成而聞名，它是集成來自多個來源的數(shù)據(jù)的理想選擇。

Alation：使用ML自動化數(shù)據(jù)發(fā)現(xiàn)和編目。

ERWIN：提供數(shù)據(jù)建模功能，幫助企業(yè)了解其數(shù)據(jù)環(huán)境。

OneTrust：強(qiáng)調(diào)數(shù)據(jù)合規(guī)性，幫助企業(yè)遵守法規(guī)。

SAP主數(shù)據(jù)治理：為企業(yè)提供強(qiáng)大的數(shù)據(jù)處理和治理。