數(shù)據(jù)管理是生成式人工智能健康發(fā)展的關(guān)鍵
2023年成為人工智能時代的正式開端,幾乎每個人都在談?wù)揅hatGPT。
像ChatGPT這樣的生成式人工智能語言模型吸引了我們的目光和興趣,因?yàn)槲覀兊谝淮文軌蚩吹饺斯ぶ悄芟裾嫒艘粯优c我們進(jìn)行對話,并生成我們認(rèn)為有創(chuàng)意的文章、詩歌和其他新內(nèi)容。生成型人工智能解決方案似乎充滿了更快、更好的創(chuàng)新、生產(chǎn)力和價值實(shí)現(xiàn)的突破性潛力。然而,它們的局限性尚未得到廣泛關(guān)注,它們的數(shù)據(jù)隱私和數(shù)據(jù)管理最佳實(shí)踐也未得到廣泛理解。
最近,由于對人工智能技術(shù)的使用缺乏了解和足夠的監(jiān)管,科技和安全界的許多人發(fā)出了警告。我們已經(jīng)看到了對人工智能工具輸出的可靠性、IP(知識產(chǎn)權(quán))和敏感數(shù)據(jù)泄露以及侵犯隱私和安全的擔(dān)憂。
三星與ChatGPT的事件成為頭條新聞,此前這家科技巨頭無意中將自己的秘密泄露給了人工智能。并非只有三星:Cyberhaven的一項(xiàng)研究發(fā)現(xiàn),4%的員工將敏感的企業(yè)數(shù)據(jù)放入了大型語言模型中。許多人不知道,當(dāng)他們用公司數(shù)據(jù)訓(xùn)練模型時,人工智能公司可能能夠在其他地方重用這些數(shù)據(jù)。
網(wǎng)絡(luò)安全情報公司Recorded Future透露:“在ChatGPT發(fā)布的幾天內(nèi),我們在暗網(wǎng)和特殊訪問論壇上發(fā)現(xiàn)了許多威脅參與者,他們共享有缺陷但功能強(qiáng)大的惡意軟件、社會工程教程、賺錢計劃等,所有這些都是通過使用ChatGPT實(shí)現(xiàn)的。”
在隱私方面,當(dāng)個人注冊像ChatGPT這樣的工具時,它可以像今天的搜索引擎一樣訪問IP地址、瀏覽器設(shè)置和瀏覽行為。但風(fēng)險更高,因?yàn)?ldquo;未經(jīng)個人同意,它可能會披露政治信仰或性取向,并可能意味著尷尬甚至毀掉職業(yè)生涯的信息被發(fā)布。”私人互聯(lián)網(wǎng)接入公司的工程總監(jiān)Jose Blaya說。
顯然,我們需要更好的法規(guī)和標(biāo)準(zhǔn)來實(shí)施這些新的人工智能技術(shù)。但是,關(guān)于數(shù)據(jù)治理和數(shù)據(jù)管理的重要作用,卻缺乏討論——但這在企業(yè)采用和安全使用人工智能方面發(fā)揮著關(guān)鍵作用。
一切都與數(shù)據(jù)有關(guān)
以下是我們應(yīng)該關(guān)注的三個領(lǐng)域:
數(shù)據(jù)治理和訓(xùn)練數(shù)據(jù)的透明度:一個核心問題圍繞著專有的預(yù)訓(xùn)練人工智能模型或大型語言模型(LLM)。使用LLM的機(jī)器學(xué)習(xí)程序包含了來自許多不同來源的大量數(shù)據(jù)集。問題是,LLM是一個黑匣子,它對源數(shù)據(jù)幾乎沒有透明度。我們不知道這些來源包含欺詐數(shù)據(jù),是否包含PII(個人身份信息),是否可信、無偏見、準(zhǔn)確或合法。LLM研發(fā)公司并不共享其源數(shù)據(jù)。
《華盛頓郵報》分析了谷歌橫跨1500萬個網(wǎng)站的C4數(shù)據(jù)集,發(fā)現(xiàn)了數(shù)十個令人不快的網(wǎng)站,其中包含煽動性和PII數(shù)據(jù)以及其他可疑內(nèi)容。我們需要數(shù)據(jù)治理,這需要所使用的數(shù)據(jù)源的透明度以及這些來源所含知識的有效性/可信度。例如,你的人工智能機(jī)器人可能正在對未經(jīng)核實(shí)的來源或假新聞網(wǎng)站的數(shù)據(jù)進(jìn)行培訓(xùn),從而對其知識產(chǎn)生偏見,而這些知識現(xiàn)在已成為你公司新政策或研發(fā)計劃的一部分。
數(shù)據(jù)隔離和數(shù)據(jù)域:目前,不同的人工智能供應(yīng)商在如何處理你提供的數(shù)據(jù)有不同的隱私政策。無意中,員工可能會在他們的提示中向LLM提供數(shù)據(jù),而不知道該模型可能會將數(shù)據(jù)納入其知識庫。公司可能會在不知情的情況下將商業(yè)秘密、軟件代碼和個人數(shù)據(jù)暴露給世界。
一些人工智能解決方案提供了變通方法,如采用API,通過將您的數(shù)據(jù)排除在預(yù)先訓(xùn)練的模型之外來保護(hù)數(shù)據(jù)隱私,但這同時限制了人工智能的功能價值。因?yàn)槔硐氲挠美窃诒3謹(jǐn)?shù)據(jù)隱私的同時,用你特定情況數(shù)據(jù)增強(qiáng)預(yù)先訓(xùn)練的模型。
一個解決方案是讓經(jīng)過預(yù)訓(xùn)練的人工智能工具理解數(shù)據(jù)“域”的概念。培訓(xùn)數(shù)據(jù)的“通用”域用于預(yù)培訓(xùn),并在通用應(yīng)用之間共享,而基于“專有數(shù)據(jù)”的培訓(xùn)模型則安全地限制在組織的邊界內(nèi)。數(shù)據(jù)管理可以確保創(chuàng)建和保留這些邊界。
人工智能的衍生作品:數(shù)據(jù)管理的第三個領(lǐng)域涉及人工智能過程及其最終所有者產(chǎn)生的數(shù)據(jù)。比方說,使用人工智能機(jī)器人來解決編碼問題。如果某件事做得不正確,導(dǎo)致出現(xiàn)錯誤或錯誤,通常我們會知道誰做了什么來調(diào)查和修復(fù)。但有了人工智能,組織很難界定人工智能執(zhí)行的任務(wù)所產(chǎn)生的任何錯誤或不良結(jié)果由誰負(fù)責(zé)——你不能責(zé)怪機(jī)器:在某種程度上,是人為造成了錯誤或糟糕的結(jié)果。
更復(fù)雜的問題是IP,你擁有用生成人工智能工具創(chuàng)作的作品的IP嗎?你會在法庭上如何辯護(hù)?據(jù)《哈佛商業(yè)評論》報道,藝術(shù)界已經(jīng)開始對某些人工智能應(yīng)用提起索賠訴訟。
現(xiàn)在要考慮數(shù)據(jù)管理策略
在早期,我們不知道人工智能在壞數(shù)據(jù)、隱私和安全、知識產(chǎn)權(quán)和其他敏感數(shù)據(jù)集的風(fēng)險方面有什么不知道的。人工智能也是一個廣泛的領(lǐng)域,有多種方法,如LLM、基于業(yè)務(wù)流程邏輯的自動化,這些只是通過數(shù)據(jù)治理政策和數(shù)據(jù)管理實(shí)踐的結(jié)合來探索的一些主題:
暫停對生成人工智能的實(shí)驗(yàn),直到你有了一個監(jiān)督戰(zhàn)略、政策、以及降低風(fēng)險和驗(yàn)證結(jié)果的程序。
納入數(shù)據(jù)管理指導(dǎo)原則,首先要對自己的數(shù)據(jù)有一個堅實(shí)的了解,無論數(shù)據(jù)駐留在哪里。您的敏感PII和客戶數(shù)據(jù)在哪里?你有多少IP數(shù)據(jù),這些文件位于哪里?你能監(jiān)控使用情況,以確保這些數(shù)據(jù)類型不會被無意中輸入人工智能工具,并防止安全或隱私泄露嗎?
不要向人工智能應(yīng)用程序提供超出所需的數(shù)據(jù),也不要共享任何敏感的專有數(shù)據(jù)。鎖定/加密IP和客戶數(shù)據(jù)以防止其被共享。
了解人工智能工具如何以及是否可以對數(shù)據(jù)源透明。
供應(yīng)商能否保護(hù)您的數(shù)據(jù)?谷歌在其博客中分享了這一聲明,但“如何”尚不清楚:“無論一家公司是在Vertex AI中培訓(xùn)模型,還是在Generative AI App Builder上建立客戶服務(wù)體驗(yàn),私人數(shù)據(jù)都是保密的,不會在更廣泛的基礎(chǔ)模型培訓(xùn)語料庫中使用。”閱讀每個人工智能工具的合同語言,了解你提供給它的任何數(shù)據(jù)是否可以保密。
標(biāo)記業(yè)主、委托項(xiàng)目的個人或部門衍生作品的數(shù)據(jù)。這很有幫助,因?yàn)槟憧赡茏罱K要對你公司制作的任何作品負(fù)責(zé),你想知道人工智能是如何融入這個過程的,是由誰參與的。
確保域之間數(shù)據(jù)的可移植性。例如,一個團(tuán)隊可能想要剝離其IP和識別特征的數(shù)據(jù),并將其輸入到通用訓(xùn)練數(shù)據(jù)集中以供將來使用。這一過程的自動化和跟蹤至關(guān)重要。
隨時了解正在制定的任何行業(yè)法規(guī)和指導(dǎo)方針,并與其他組織的同行交談,了解他們?nèi)绾螒?yīng)對風(fēng)險緩解和數(shù)據(jù)管理。
在開始任何生成式人工智能項(xiàng)目之前,請咨詢法律專家,以了解數(shù)據(jù)泄露、隱私和IP侵犯、惡意行為者或虛假/錯誤結(jié)果時的風(fēng)險和流程。
企業(yè)中人工智能的實(shí)用方法
人工智能發(fā)展迅速,前景廣闊,有可能以前所未有的速度加速創(chuàng)新、削減成本和改善用戶體驗(yàn)。但與大多數(shù)強(qiáng)大的工具一樣,人工智能需要在正確的背景下謹(jǐn)慎使用,并設(shè)置適當(dāng)?shù)臄?shù)據(jù)治理和數(shù)據(jù)管理護(hù)欄。人工智能的數(shù)據(jù)管理尚未出現(xiàn)明確的標(biāo)準(zhǔn),這是一個需要進(jìn)一步探索的領(lǐng)域。同時,企業(yè)在使用人工智能應(yīng)用程序之前,應(yīng)謹(jǐn)慎行事,確保清楚了解數(shù)據(jù)暴露、數(shù)據(jù)泄露和潛在的數(shù)據(jù)安全風(fēng)險。