資訊詳情

數(shù)據(jù)管理是生成式人工智能健康發(fā)展的關(guān)鍵

沃卡惠2023-06-02 09:45:504636

2023年成為人工智能時代的正式開端，幾乎每個人都在談?wù)揅hatGPT。

像ChatGPT這樣的生成式人工智能語言模型吸引了我們的目光和興趣，因?yàn)槲覀兊谝淮文軌蚩吹饺斯ぶ悄芟裾嫒艘粯优c我們進(jìn)行對話，并生成我們認(rèn)為有創(chuàng)意的文章、詩歌和其他新內(nèi)容。生成型人工智能解決方案似乎充滿了更快、更好的創(chuàng)新、生產(chǎn)力和價值實(shí)現(xiàn)的突破性潛力。然而，它們的局限性尚未得到廣泛關(guān)注，它們的數(shù)據(jù)隱私和數(shù)據(jù)管理最佳實(shí)踐也未得到廣泛理解。

最近，由于對人工智能技術(shù)的使用缺乏了解和足夠的監(jiān)管，科技和安全界的許多人發(fā)出了警告。我們已經(jīng)看到了對人工智能工具輸出的可靠性、IP（知識產(chǎn)權(quán)）和敏感數(shù)據(jù)泄露以及侵犯隱私和安全的擔(dān)憂。

三星與ChatGPT的事件成為頭條新聞，此前這家科技巨頭無意中將自己的秘密泄露給了人工智能。并非只有三星：Cyberhaven的一項(xiàng)研究發(fā)現(xiàn)，4%的員工將敏感的企業(yè)數(shù)據(jù)放入了大型語言模型中。許多人不知道，當(dāng)他們用公司數(shù)據(jù)訓(xùn)練模型時，人工智能公司可能能夠在其他地方重用這些數(shù)據(jù)。

網(wǎng)絡(luò)安全情報公司Recorded Future透露：“在ChatGPT發(fā)布的幾天內(nèi)，我們在暗網(wǎng)和特殊訪問論壇上發(fā)現(xiàn)了許多威脅參與者，他們共享有缺陷但功能強(qiáng)大的惡意軟件、社會工程教程、賺錢計劃等，所有這些都是通過使用ChatGPT實(shí)現(xiàn)的。”

在隱私方面，當(dāng)個人注冊像ChatGPT這樣的工具時，它可以像今天的搜索引擎一樣訪問IP地址、瀏覽器設(shè)置和瀏覽行為。但風(fēng)險更高，因?yàn)?ldquo;未經(jīng)個人同意，它可能會披露政治信仰或性取向，并可能意味著尷尬甚至毀掉職業(yè)生涯的信息被發(fā)布。”私人互聯(lián)網(wǎng)接入公司的工程總監(jiān)Jose Blaya說。

顯然，我們需要更好的法規(guī)和標(biāo)準(zhǔn)來實(shí)施這些新的人工智能技術(shù)。但是，關(guān)于數(shù)據(jù)治理和數(shù)據(jù)管理的重要作用，卻缺乏討論——但這在企業(yè)采用和安全使用人工智能方面發(fā)揮著關(guān)鍵作用。

一切都與數(shù)據(jù)有關(guān)

以下是我們應(yīng)該關(guān)注的三個領(lǐng)域：

數(shù)據(jù)治理和訓(xùn)練數(shù)據(jù)的透明度：一個核心問題圍繞著專有的預(yù)訓(xùn)練人工智能模型或大型語言模型（LLM）。使用LLM的機(jī)器學(xué)習(xí)程序包含了來自許多不同來源的大量數(shù)據(jù)集。問題是，LLM是一個黑匣子，它對源數(shù)據(jù)幾乎沒有透明度。我們不知道這些來源包含欺詐數(shù)據(jù)，是否包含PII（個人身份信息），是否可信、無偏見、準(zhǔn)確或合法。LLM研發(fā)公司并不共享其源數(shù)據(jù)。

《華盛頓郵報》分析了谷歌橫跨1500萬個網(wǎng)站的C4數(shù)據(jù)集，發(fā)現(xiàn)了數(shù)十個令人不快的網(wǎng)站，其中包含煽動性和PII數(shù)據(jù)以及其他可疑內(nèi)容。我們需要數(shù)據(jù)治理，這需要所使用的數(shù)據(jù)源的透明度以及這些來源所含知識的有效性/可信度。例如，你的人工智能機(jī)器人可能正在對未經(jīng)核實(shí)的來源或假新聞網(wǎng)站的數(shù)據(jù)進(jìn)行培訓(xùn)，從而對其知識產(chǎn)生偏見，而這些知識現(xiàn)在已成為你公司新政策或研發(fā)計劃的一部分。

數(shù)據(jù)隔離和數(shù)據(jù)域：目前，不同的人工智能供應(yīng)商在如何處理你提供的數(shù)據(jù)有不同的隱私政策。無意中，員工可能會在他們的提示中向LLM提供數(shù)據(jù)，而不知道該模型可能會將數(shù)據(jù)納入其知識庫。公司可能會在不知情的情況下將商業(yè)秘密、軟件代碼和個人數(shù)據(jù)暴露給世界。

一些人工智能解決方案提供了變通方法，如采用API，通過將您的數(shù)據(jù)排除在預(yù)先訓(xùn)練的模型之外來保護(hù)數(shù)據(jù)隱私，但這同時限制了人工智能的功能價值。因?yàn)槔硐氲挠美窃诒３謹(jǐn)?shù)據(jù)隱私的同時，用你特定情況數(shù)據(jù)增強(qiáng)預(yù)先訓(xùn)練的模型。

一個解決方案是讓經(jīng)過預(yù)訓(xùn)練的人工智能工具理解數(shù)據(jù)“域”的概念。培訓(xùn)數(shù)據(jù)的“通用”域用于預(yù)培訓(xùn)，并在通用應(yīng)用之間共享，而基于“專有數(shù)據(jù)”的培訓(xùn)模型則安全地限制在組織的邊界內(nèi)。數(shù)據(jù)管理可以確保創(chuàng)建和保留這些邊界。

人工智能的衍生作品：數(shù)據(jù)管理的第三個領(lǐng)域涉及人工智能過程及其最終所有者產(chǎn)生的數(shù)據(jù)。比方說，使用人工智能機(jī)器人來解決編碼問題。如果某件事做得不正確，導(dǎo)致出現(xiàn)錯誤或錯誤，通常我們會知道誰做了什么來調(diào)查和修復(fù)。但有了人工智能，組織很難界定人工智能執(zhí)行的任務(wù)所產(chǎn)生的任何錯誤或不良結(jié)果由誰負(fù)責(zé)——你不能責(zé)怪機(jī)器：在某種程度上，是人為造成了錯誤或糟糕的結(jié)果。

更復(fù)雜的問題是IP，你擁有用生成人工智能工具創(chuàng)作的作品的IP嗎？你會在法庭上如何辯護(hù)？據(jù)《哈佛商業(yè)評論》報道，藝術(shù)界已經(jīng)開始對某些人工智能應(yīng)用提起索賠訴訟。

現(xiàn)在要考慮數(shù)據(jù)管理策略

在早期，我們不知道人工智能在壞數(shù)據(jù)、隱私和安全、知識產(chǎn)權(quán)和其他敏感數(shù)據(jù)集的風(fēng)險方面有什么不知道的。人工智能也是一個廣泛的領(lǐng)域，有多種方法，如LLM、基于業(yè)務(wù)流程邏輯的自動化，這些只是通過數(shù)據(jù)治理政策和數(shù)據(jù)管理實(shí)踐的結(jié)合來探索的一些主題：

暫停對生成人工智能的實(shí)驗(yàn)，直到你有了一個監(jiān)督戰(zhàn)略、政策、以及降低風(fēng)險和驗(yàn)證結(jié)果的程序。

納入數(shù)據(jù)管理指導(dǎo)原則，首先要對自己的數(shù)據(jù)有一個堅實(shí)的了解，無論數(shù)據(jù)駐留在哪里。您的敏感PII和客戶數(shù)據(jù)在哪里？你有多少IP數(shù)據(jù)，這些文件位于哪里？你能監(jiān)控使用情況，以確保這些數(shù)據(jù)類型不會被無意中輸入人工智能工具，并防止安全或隱私泄露嗎？

不要向人工智能應(yīng)用程序提供超出所需的數(shù)據(jù)，也不要共享任何敏感的專有數(shù)據(jù)。鎖定/加密IP和客戶數(shù)據(jù)以防止其被共享。

了解人工智能工具如何以及是否可以對數(shù)據(jù)源透明。

供應(yīng)商能否保護(hù)您的數(shù)據(jù)？谷歌在其博客中分享了這一聲明，但“如何”尚不清楚：“無論一家公司是在Vertex AI中培訓(xùn)模型，還是在Generative AI App Builder上建立客戶服務(wù)體驗(yàn)，私人數(shù)據(jù)都是保密的，不會在更廣泛的基礎(chǔ)模型培訓(xùn)語料庫中使用。”閱讀每個人工智能工具的合同語言，了解你提供給它的任何數(shù)據(jù)是否可以保密。

標(biāo)記業(yè)主、委托項(xiàng)目的個人或部門衍生作品的數(shù)據(jù)。這很有幫助，因?yàn)槟憧赡茏罱K要對你公司制作的任何作品負(fù)責(zé)，你想知道人工智能是如何融入這個過程的，是由誰參與的。

確保域之間數(shù)據(jù)的可移植性。例如，一個團(tuán)隊可能想要剝離其IP和識別特征的數(shù)據(jù)，并將其輸入到通用訓(xùn)練數(shù)據(jù)集中以供將來使用。這一過程的自動化和跟蹤至關(guān)重要。

隨時了解正在制定的任何行業(yè)法規(guī)和指導(dǎo)方針，并與其他組織的同行交談，了解他們?nèi)绾螒?yīng)對風(fēng)險緩解和數(shù)據(jù)管理。

在開始任何生成式人工智能項(xiàng)目之前，請咨詢法律專家，以了解數(shù)據(jù)泄露、隱私和IP侵犯、惡意行為者或虛假/錯誤結(jié)果時的風(fēng)險和流程。

企業(yè)中人工智能的實(shí)用方法

人工智能發(fā)展迅速，前景廣闊，有可能以前所未有的速度加速創(chuàng)新、削減成本和改善用戶體驗(yàn)。但與大多數(shù)強(qiáng)大的工具一樣，人工智能需要在正確的背景下謹(jǐn)慎使用，并設(shè)置適當(dāng)?shù)臄?shù)據(jù)治理和數(shù)據(jù)管理護(hù)欄。人工智能的數(shù)據(jù)管理尚未出現(xiàn)明確的標(biāo)準(zhǔn)，這是一個需要進(jìn)一步探索的領(lǐng)域。同時，企業(yè)在使用人工智能應(yīng)用程序之前，應(yīng)謹(jǐn)慎行事，確保清楚了解數(shù)據(jù)暴露、數(shù)據(jù)泄露和潛在的數(shù)據(jù)安全風(fēng)險。

亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

資訊詳情

數(shù)據(jù)管理是生成式人工智能健康發(fā)展的關(guān)鍵

制造業(yè)中的邊緣計算：簡化運(yùn)營并提高效率

AI提升編程效率，但過快過多生成代碼并不是好事

相關(guān)資訊