最優(yōu)傳輸及其在公平性中的應(yīng)用
源于經(jīng)濟(jì)學(xué)的最佳運(yùn)輸被開(kāi)發(fā)為如何最好地分配資源的工具。最佳運(yùn)輸理論本身的起源可以追溯到1781年,當(dāng)時(shí)加斯帕德·蒙格研究了最有效的移動(dòng)地球方法,為拿破侖的軍隊(duì)建造防御工事??傮w而言,最優(yōu)運(yùn)輸是一個(gè)問(wèn)題,即如何將所有資源(例如鐵)從一組起點(diǎn)(鐵礦)移動(dòng)到一組終點(diǎn)(鐵工廠),同時(shí)最小化資源的總距離必須旅行。在數(shù)學(xué)上,我們希望找到一個(gè)函數(shù),該函數(shù)將每個(gè)起點(diǎn)映射到一個(gè)目的地,同時(shí)最小化起點(diǎn)與其對(duì)應(yīng)目的地之間的總距離。盡管它的描述無(wú)傷大雅,但在這個(gè)問(wèn)題的原始表述上取得了進(jìn)展,
解決方案的第一次真正飛躍發(fā)生在1940年代,當(dāng)時(shí)一位名叫Leonid Kantorovich的蘇聯(lián)數(shù)學(xué)家將問(wèn)題的公式調(diào)整為現(xiàn)代版本,即現(xiàn)在稱(chēng)為Monge-Kantorovich公式。這里的新奇之處在于允許來(lái)自同一礦山的一些鐵進(jìn)入不同的工廠。例如,一個(gè)礦山的60%的鐵可以運(yùn)往一家工廠,而該礦山剩余的40%的鐵可以運(yùn)往另一家工廠。從數(shù)學(xué)上講,這不再是一個(gè)函數(shù),因?yàn)橥粋€(gè)原點(diǎn)現(xiàn)在映射到可能的許多目的地。相反,這稱(chēng)為耦合始發(fā)地分布和目的地分布之間的關(guān)系,如下圖所示;從藍(lán)色分布(產(chǎn)地)中挑選一個(gè)礦并沿著該圖垂直移動(dòng)顯示了該鐵被發(fā)送到的工廠(目的地)的分布。
作為這一新發(fā)展的一部分,Kantorivich引入了一個(gè)重要的概念,稱(chēng)為Wasserstein距離。與地圖上兩點(diǎn)之間的距離類(lèi)似,Wasserstein距離(也稱(chēng)為推土機(jī)距離,受其原始上下文啟發(fā))測(cè)量?jī)蓚€(gè)分布之間的距離,例如本例中的藍(lán)色和洋紅色分布。例如,如果所有的鐵礦都離所有的鐵廠都很遠(yuǎn),那么礦場(chǎng)分布(位置)和工廠分布之間的Wasserstein距離就會(huì)很大。即使有了這些新的改進(jìn),仍然不清楚是否真的存在運(yùn)輸資源的最佳方式,更不用說(shuō)那種方式了。最后,在1990年代,由于數(shù)學(xué)分析和優(yōu)化的改進(jìn)導(dǎo)致問(wèn)題的部分解決方案,該理論開(kāi)始迅速發(fā)展。也是在這個(gè)時(shí)候和進(jìn)入21世紀(jì),最優(yōu)傳輸開(kāi)始蔓延到其他領(lǐng)域,如粒子物理學(xué)、流體動(dòng)力學(xué),甚至統(tǒng)計(jì)和機(jī)器學(xué)習(xí)。
現(xiàn)代最優(yōu)運(yùn)輸
隨著新發(fā)展理論的爆炸式增長(zhǎng),優(yōu)化運(yùn)輸已成為許多新的統(tǒng)計(jì)和人工智能算法的中心近兩年出現(xiàn)。在幾乎每一種統(tǒng)計(jì)算法中,數(shù)據(jù)都被顯式或隱式地建模為具有一些潛在的概率分布。例如,如果您正在收集不同國(guó)家/地區(qū)的個(gè)人收入數(shù)據(jù),則該人口收入的每個(gè)國(guó)家/地區(qū)都有一個(gè)概率分布。如果我們想根據(jù)人口的收入分布來(lái)比較兩個(gè)國(guó)家,那么我們需要一種方法來(lái)衡量這兩個(gè)分布之間的差距。這正是優(yōu)化傳輸(尤其是Wasserstein距離)在數(shù)據(jù)科學(xué)中變得如此有用的原因。然而,Wasserstein距離并不是衡量?jī)蓚€(gè)概率分布相距多遠(yuǎn)的唯一指標(biāo)。實(shí)際上,兩種選擇——L-2距離和Kullback-Leibler(KL)散度——由于它們與物理學(xué)和信息論的聯(lián)系,在歷史上更為常見(jiàn)。Wasserstein距離相對(duì)于這些替代方案的主要優(yōu)勢(shì)在于它同時(shí)需要計(jì)算距離時(shí)會(huì)考慮值及其概率,而L-2距離和KL散度只考慮概率。下圖顯示了一個(gè)關(guān)于三個(gè)虛構(gòu)國(guó)家收入的人工數(shù)據(jù)集的示例。?
在這種情況下,由于分布不重疊,藍(lán)色和品紅色分布之間的L-2距離(或KL散度)將與藍(lán)色和綠色分布之間的L-2距離大致相同。另一方面,藍(lán)色和品紅色分布之間的Wasserstein距離將遠(yuǎn)小于藍(lán)色和綠色分布之間的Wasserstein距離,因?yàn)橹荡嬖陲@著差異(水平分離)。Wasserstein距離的這一特性使其非常適合量化分布之間的差異,特別是數(shù)據(jù)集之間的差異。
以最優(yōu)傳輸強(qiáng)制公平
隨著每天收集大量數(shù)據(jù)以及機(jī)器學(xué)習(xí)在許多行業(yè)中變得越來(lái)越普遍,數(shù)據(jù)科學(xué)家必須越來(lái)越小心,不要讓他們的分析和算法使數(shù)據(jù)中現(xiàn)有的偏見(jiàn)和偏見(jiàn)永久化。例如,如果住房抵押貸款批準(zhǔn)的數(shù)據(jù)集包含有關(guān)申請(qǐng)人種族的信息,但由于使用的方法或無(wú)意識(shí)的偏見(jiàn),少數(shù)族裔在收集過(guò)程中受到歧視,那么基于該數(shù)據(jù)訓(xùn)練的模型將在一定程度上反映潛在的偏見(jiàn)??梢岳米罴褌鬏攣?lái)幫助 減輕這種偏見(jiàn)并 提高公平性有兩種方式。第一種也是最簡(jiǎn)單的方法是使用Wasserstein距離來(lái)確定數(shù)據(jù)集中是否存在潛在偏差。例如,我們可以估計(jì)批準(zhǔn)給女性的貸款額分布和批準(zhǔn)給男性的貸款額分布之間的Wasserstein距離,如果Wasserstein距離非常大,即具有統(tǒng)計(jì)顯著性,那么我們可能會(huì)懷疑存在潛在偏差。這種檢驗(yàn)兩組之間是否存在差異的想法在統(tǒng)計(jì)學(xué)中稱(chēng)為雙樣本假設(shè)檢驗(yàn)。
或者,當(dāng)?shù)讓訑?shù)據(jù)集本身存在偏差時(shí),甚至可以使用最優(yōu)傳輸來(lái)強(qiáng)制模型中的公平性。從實(shí)際的角度來(lái)看,這非常有用,因?yàn)樵S多真實(shí)的數(shù)據(jù)集會(huì)表現(xiàn)出一定程度的偏差,并且收集無(wú)偏差的數(shù)據(jù)可能非常昂貴、耗時(shí)或不可行。因此,使用我們現(xiàn)有的數(shù)據(jù)更為實(shí)際,無(wú)論它可能多么不完美,并嘗試確保我們的模型減輕這種偏差。這是通過(guò)強(qiáng)制執(zhí)行稱(chēng)為強(qiáng)人口統(tǒng)計(jì)奇偶性的約束來(lái)實(shí)現(xiàn)的在我們的模型中,這迫使模型預(yù)測(cè)在統(tǒng)計(jì)上獨(dú)立于任何敏感屬性。一種方法是將模型預(yù)測(cè)的分布映射到不依賴(lài)于敏感屬性的調(diào)整預(yù)測(cè)的分布。但是,調(diào)整預(yù)測(cè)也會(huì)改變模型的性能和準(zhǔn)確性,因此在模型性能和模型對(duì)敏感屬性的依賴(lài)程度(即公平程度)之間存在權(quán)衡。?
通過(guò)盡可能少地更改預(yù)測(cè)以確保最佳模型性能,同時(shí)仍保證新預(yù)測(cè)獨(dú)立于敏感屬性,最佳傳輸開(kāi)始發(fā)揮作用。這種調(diào)整后的模型預(yù)測(cè)的新分布被稱(chēng)為Wasserstein重心,在過(guò)去十年中一直是許多研究的主題。Wasserstein重心類(lèi)似于概率分布的平均值,因?yàn)樗钚』藦淖陨淼剿衅渌植嫉目偩嚯x。下圖顯示了三個(gè)分布(綠色、藍(lán)色和洋紅色)以及它們的Wasserstein重心(紅色)。?
在上面的示例中,假設(shè)我們基于包含單個(gè)敏感屬性(例如婚姻狀況)的數(shù)據(jù)集構(gòu)建了一個(gè)模型來(lái)預(yù)測(cè)一個(gè)人的年齡和收入,該屬性可以取三個(gè)可能的值:?jiǎn)紊恚ㄋ{(lán)色)、已婚(綠色)和喪偶/離婚(洋紅色)。散點(diǎn)圖顯示了每個(gè)不同值的模型預(yù)測(cè)分布。但是,我們想要調(diào)整這些,以便新模型的預(yù)測(cè)對(duì)一個(gè)人的婚姻狀況是盲目的。我們可以使用最佳傳輸將這些分布中的每一個(gè)映射到紅色的重心。因?yàn)樗兄刀加成涞较嗤姆植?,我們不能再根?jù)收入和年齡來(lái)判斷一個(gè)人的婚姻狀況,反之亦然。重心盡可能地保持模型的保真度。
數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的日益普及在企業(yè)和政府決策中使用,導(dǎo)致了新的社會(huì)和道德問(wèn)題,以確保其公平應(yīng)用。由于收集方式的性質(zhì),許多數(shù)據(jù)集包含某種偏差,因此在它們上訓(xùn)練的模型不會(huì)加劇這種偏差或任何歷史歧視,這一點(diǎn)很重要。優(yōu)化運(yùn)輸只是解決近年來(lái)勢(shì)頭強(qiáng)勁的這一問(wèn)題的一種方法。如今,有快速有效的方法來(lái)計(jì)算最佳運(yùn)輸?shù)貓D和距離,使這種方法適用于現(xiàn)代大型數(shù)據(jù)集。隨著我們?cè)絹?lái)越依賴(lài)基于數(shù)據(jù)的模型和洞察力,公平已經(jīng)并將繼續(xù)成為數(shù)據(jù)科學(xué)的核心問(wèn)題,而最佳傳輸將在實(shí)現(xiàn)這一目標(biāo)中發(fā)揮關(guān)鍵作用。
- 上一篇
人工智能如何檢測(cè)在線(xiàn)欺詐
幾乎商業(yè)環(huán)境中的每個(gè)行業(yè)都在投資或至少考慮投資人工智能(AI),包括機(jī)器學(xué)習(xí)(ML),這是人工智能最知名的子集之一。先進(jìn)的AI和ML解決方案已經(jīng)并將繼續(xù)改變制造、消費(fèi)電子、營(yíng)銷(xiāo)
- 下一篇
人工智能可以幫助進(jìn)行安全的質(zhì)量保證測(cè)試
人工智能的優(yōu)缺點(diǎn)是什么?人工智能技術(shù)已成為研究和開(kāi)發(fā)過(guò)程的工具。今年5月,白宮實(shí)際上公布了一項(xiàng)增加人工智能項(xiàng)目研發(fā)投資的提案。人工智能可以通過(guò)多種方式幫助開(kāi)發(fā)和發(fā)布
相關(guān)資訊
- 人工智能如何幫助電子商務(wù)行業(yè)?
- 基于AI的員工調(diào)度工具為企業(yè)提供
- 人工智能審查是否推動(dòng)了全球?qū)P
- 工業(yè)4.0環(huán)境下的物聯(lián)網(wǎng)趨勢(shì)
- 網(wǎng)紅王媽背刺打工人!別再打工,去創(chuàng)
- 機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)的主要區(qū)別
- “開(kāi)放域”聊天機(jī)器人有多開(kāi)放,我
- 大數(shù)據(jù)對(duì)銀行戰(zhàn)略的影響
- 垃圾進(jìn)、垃圾出:數(shù)據(jù)質(zhì)量在人工智
- 廚房智能垃圾桶怎么選購(gòu)?