核心機(jī)器學(xué)習(xí)指標(biāo)
在使用機(jī)器學(xué)習(xí)時(shí),正確評(píng)估模型性能是一項(xiàng)至關(guān)重要的任務(wù)。我們可以使用很多指標(biāo)來(lái)做到這一點(diǎn)。對(duì)于剛開(kāi)始涉足這一領(lǐng)域的人來(lái)說(shuō),這可能是個(gè)問(wèn)題——至少對(duì)我來(lái)說(shuō)是這樣。
我將從描述真/假陰性/陽(yáng)性等概念開(kāi)始,因?yàn)樗鼈兪歉鼜?fù)雜指標(biāo)的基礎(chǔ)。然后我會(huì)提到并解釋準(zhǔn)確度、精確度、召回率或校準(zhǔn)誤差等指標(biāo)。我還將解釋混淆矩陣背后的基礎(chǔ)知識(shí)以及有關(guān)如何構(gòu)建混淆矩陣的簡(jiǎn)短代碼片段。
為什么?
在線查找資源并閱讀它們很簡(jiǎn)單。每個(gè)人都可以做到,我也做到了,但我錯(cuò)過(guò)了所有內(nèi)容的綜合詞匯表。這是我寫(xiě)這篇文章的主要?jiǎng)訖C(jī)。首先,我將描述我在之前的項(xiàng)目中接觸到的所有指標(biāo)。
我認(rèn)為這樣的指標(biāo)詞匯表對(duì)所有剛接觸機(jī)器學(xué)習(xí)模型的人都有用。
指標(biāo)
讓我們從真陽(yáng)性和其他陽(yáng)性/陰性組合開(kāi)始。為了便于閱讀,我將其制成表格形式。
真/假陽(yáng)性/陰性
混淆矩陣
不太常見(jiàn)的是誤差矩陣,它是我們模型性能的基本視覺(jué)表示。這個(gè)概念之所以得名,是因?yàn)樗梢院苋菀椎乜闯鱿到y(tǒng)是否混淆了兩個(gè)或多個(gè)類。此外,在多類的情況下,我們可以很容易地確定一對(duì)類是模型最難區(qū)分的。
在大多數(shù)情況下,它在行中表示實(shí)際類的實(shí)例,而在列中表示預(yù)測(cè)類的實(shí)例。然而,當(dāng)列是標(biāo)簽而行是預(yù)測(cè)時(shí),也可以有反向表示,但這種情況不太常見(jiàn)。
準(zhǔn)確性
它是模型性能的基本指標(biāo)。它描述了我們的模型做出正確預(yù)測(cè)的頻率——通常,測(cè)量值以百分比表示。
準(zhǔn)確性的問(wèn)題在于它是一個(gè)非常差的指標(biāo)并且很容易玩弄。最值得注意的是,我們可以相當(dāng)輕松地在相當(dāng)復(fù)雜的任務(wù)中實(shí)現(xiàn)高精度。
例如在反洗錢(qián)的情況下,你總是可以只返回零——這意味著這個(gè)人沒(méi)有洗錢(qián)——你肯定會(huì)達(dá)到95%以上的準(zhǔn)確率。因?yàn)榇蠖鄶?shù)人實(shí)際上并沒(méi)有試圖做任何洗錢(qián)的事情。問(wèn)題是:如此高的準(zhǔn)確性是否意味著您的模型很好,或者您將需要一些其他指標(biāo)來(lái)驗(yàn)證您的模型性能?我留給你的答案。
此外,當(dāng)僅基于準(zhǔn)確性時(shí),很容易過(guò)度擬合模型。我們可能會(huì)在我們的代碼中做出太多僅適用于我們的測(cè)試集并且可能根本無(wú)法概括的假設(shè)。
另一個(gè)問(wèn)題是當(dāng)我們錯(cuò)誤地準(zhǔn)備測(cè)試集時(shí)。會(huì)和train set過(guò)于相似,或者train set中會(huì)包含部分test set。我們可以再次以相當(dāng)高的準(zhǔn)確性結(jié)束,但泛化模型很差。
至于準(zhǔn)確性的方程式——我們可以用真陽(yáng)性和真陰性來(lái)表達(dá)它們。因此,它可以被視為與整個(gè)人口相比正確預(yù)測(cè)的比率。
TP + TN - 正確的預(yù)測(cè)
P + N - 總?cè)丝?/strong>
精確
檢查實(shí)際上正確識(shí)別了多少陽(yáng)性。表示正確預(yù)測(cè)的正類與所有預(yù)測(cè)為正的項(xiàng)目的比率。
這可以看作是TP與TP和FP之和的比率。高精度意味著我們可以輕松識(shí)別陽(yáng)性。此外,精度有助于我們形象化機(jī)器學(xué)習(xí)模型在分類正類時(shí)的可靠性。
TP+FP-分類陽(yáng)性總數(shù)
記起
不太常見(jiàn)的是敏感性。它試圖回答正確識(shí)別了多少實(shí)際陽(yáng)性的問(wèn)題。表示正確預(yù)測(cè)的正類與所有實(shí)際為正的項(xiàng)目的比率。
因此,它可以表示為T(mén)P與TP和FN之和的比值。高召回率意味著我們能夠正確識(shí)別大部分陽(yáng)性。而低召回率意味著該模型錯(cuò)誤地識(shí)別了正值。
TP+FN-所有正樣本
準(zhǔn)確率和召回率問(wèn)題
為了全面評(píng)估模型性能,我們需要知道這兩個(gè)指標(biāo)。然而,它們之間的關(guān)系卻相當(dāng)復(fù)雜。通常,提高準(zhǔn)確率的行為會(huì)降低召回率,反之亦然;增加召回率的行動(dòng)會(huì)導(dǎo)致精確率下降。因此,您必須仔細(xì)權(quán)衡并選擇哪個(gè)指標(biāo)對(duì)您的模型用例最重要。
信心分?jǐn)?shù)
一個(gè)從0到1的數(shù)字(如果使用百分比表示法,則為0到100)用于表示我們的模型對(duì)其預(yù)測(cè)的確定程度。一般來(lái)說(shuō),置信度得分越高越好。低于0.5(50)的置信度分?jǐn)?shù)可能表示隨機(jī)或半隨機(jī)預(yù)測(cè)。
在評(píng)估模型的準(zhǔn)確性結(jié)果時(shí),您還應(yīng)該考慮置信度得分。您沒(méi)有理由需要一個(gè)精度高但置信度低的模型。實(shí)際上是一個(gè)完全不確定其預(yù)測(cè)的模型。我們的目標(biāo)應(yīng)該是在一定的置信度分?jǐn)?shù)內(nèi)表達(dá)我們模型的準(zhǔn)確性。
ROC和AUC分?jǐn)?shù)
ROC是Receiver Operating Characteristic Curve的縮寫(xiě)。它是二進(jìn)制分類預(yù)測(cè)能力的圖形表示。描述在各種閾值設(shè)置下召回率(或真陽(yáng)性率)和假陽(yáng)性率(FPR)之間的關(guān)系。
AUC是曲線下面積的縮寫(xiě)。而AUROC是Area Under Receiver Operating Characteristic Curve的縮寫(xiě)。它是一個(gè)從零到一的數(shù)字,描述了位于ROC曲線下方的繪圖部分。它可以用來(lái)描述我們的模型能多好地區(qū)分正樣本和負(fù)樣本。根據(jù)AUC的值,您的模型會(huì)有不同的行為。
對(duì)于AUC值等于:
- 1—模型將正確預(yù)測(cè)所有標(biāo)簽。
- 從0.5到1,AUC越高,我們的模型正確預(yù)測(cè)結(jié)果的機(jī)會(huì)就越大。
- 0.5—模型無(wú)法區(qū)分陽(yáng)性和陰性。
- 0—模型將錯(cuò)誤地預(yù)測(cè)所有標(biāo)簽(它將所有正類分類為負(fù)類,反之亦然)。
IUO
較長(zhǎng)形式的并集或Jaccard指數(shù)的交集。它是描述兩個(gè)數(shù)據(jù)集之間相似性的度量,范圍從0到1(或0到100或用百分比表示)。值越高,兩個(gè)群體越相似。
對(duì)于IOU等于:
- 1—共享所有成員的集。
- 0.5—集合共享一半的成員。
- 0—集不共享任何成員。
該指標(biāo)大量用于對(duì)象檢測(cè)和分割,以計(jì)算段之間的重疊程度。
雖然它很容易解釋,但它對(duì)小樣本非常敏感,可能會(huì)給出錯(cuò)誤的結(jié)果,尤其是對(duì)于非常小的樣本或缺少觀察值的數(shù)據(jù)集。
它可以通過(guò)以下等式表示:
杰卡德指數(shù)=(兩組中的數(shù)字)/(任一組中的數(shù)字)*100
在更多的數(shù)學(xué)符號(hào)中:
在這里您還可以看到為什么將其稱為并集的交集,因?yàn)榈谝粋€(gè)操作稱為交集,而第二個(gè)操作稱為并集。
校準(zhǔn)錯(cuò)誤
它描述了模型的預(yù)測(cè)輸出概率與地面實(shí)況分布的實(shí)際概率的匹配程度。校準(zhǔn)誤差可用于可視化給定模型結(jié)果與實(shí)際結(jié)果的差距。
F1分?jǐn)?shù)
以調(diào)和平均值的形式將精度和召回率混合到一個(gè)指標(biāo)中,它旨在更好地處理不平衡的數(shù)據(jù)集。當(dāng)只需要一個(gè)指標(biāo)來(lái)顯示某些結(jié)果時(shí),它也是默認(rèn)使用的指標(biāo)。準(zhǔn)確率和召回率都被賦予同等的權(quán)重,因此沒(méi)有一個(gè)比另一個(gè)具有更大的影響。
我們可以預(yù)期,如果兩者都很高,那么F1也會(huì)很高,類似于精度和召回率的低值。然而,重要的是,如果一個(gè)高而另一個(gè)低,F(xiàn)1值將介于兩者之間。和往常一樣,度量值越高,我們的模型性能越好。
選擇哪個(gè)指標(biāo)?
遲早會(huì)出現(xiàn)一個(gè)問(wèn)題,即向利益相關(guān)者展示哪個(gè)指標(biāo),或者我們應(yīng)該關(guān)注哪個(gè)指標(biāo)以使我們的模型更好。這里的答案很簡(jiǎn)單——視情況而定。
可以肯定的是,您不應(yīng)該僅根據(jù)準(zhǔn)確性來(lái)評(píng)估模型性能,而應(yīng)考慮更多指標(biāo)。但是,另一方面,如果您必須僅使用一個(gè)指標(biāo)來(lái)呈現(xiàn)某些結(jié)果,則F1分?jǐn)?shù)或AUC是非常好的選擇。
至于其他指標(biāo),它們的重要性在很大程度上取決于模型的目的和缺點(diǎn):
- 如果您評(píng)估由FN引起的錯(cuò)誤更不可取,那么您應(yīng)該關(guān)注Recall。
- 如果您評(píng)估這兩種類型的錯(cuò)誤都是不可取的,那么請(qǐng)關(guān)注F1。
- 如果你想讓你的模型更確定它的預(yù)測(cè),那么你應(yīng)該專注于增加置信度分?jǐn)?shù)和減少校準(zhǔn)誤差。
此外,如果您想顯示或查看模型的缺點(diǎn),則可以使用混淆矩陣輕松可視化哪些類可能有問(wèn)題。
結(jié)論
有許多指標(biāo)可用于驗(yàn)證機(jī)器學(xué)習(xí)模型的性能,它們的使用在很大程度上取決于您的模型用例。
但是,請(qǐng)記住,您永遠(yuǎn)不應(yīng)僅基于準(zhǔn)確性,而應(yīng)使用其他指標(biāo)來(lái)驗(yàn)證模型是否按預(yù)期執(zhí)行。如果您需要向利益相關(guān)者展示單一指標(biāo),F1分?jǐn)?shù)可能是一個(gè)不錯(cuò)的選擇。感謝您的時(shí)間。
- 上一篇
對(duì)抗性機(jī)器學(xué)習(xí)的權(quán)威指南
機(jī)器學(xué)習(xí)正在成為我們每天使用的許多應(yīng)用程序的重要組成部分。ML模型通過(guò)面部和語(yǔ)音識(shí)別、標(biāo)記圖像、交友和購(gòu)物建議、在互聯(lián)網(wǎng)上搜索內(nèi)容、編寫(xiě)代碼、撰寫(xiě)電子郵件,甚至駕駛
- 下一篇
“智能”手杖幫助視障人士開(kāi)雜貨店
圖片:協(xié)同人工智能和機(jī)器人實(shí)驗(yàn)室科羅拉多大學(xué)博爾德分校的一組工程師正在使用人工智能 (AI) 為盲人或視障人士開(kāi)發(fā)“智能”手杖。該研究發(fā)表在IEEE上。據(jù)該團(tuán)隊(duì)稱
相關(guān)資訊
- 如何通過(guò)低延遲分析提升大數(shù)據(jù)性
- 邊緣計(jì)算:工業(yè)一線工人的強(qiáng)大推動(dòng)
- 機(jī)器人與人工智能有何不同?
- 人工智能的出現(xiàn)推動(dòng)了與收入相關(guān)
- 如何應(yīng)對(duì)不斷上升的云成本
- 數(shù)字化轉(zhuǎn)型企業(yè)需要什么樣的知識(shí)
- 如何利用數(shù)字孿生技術(shù)更好地了解
- 數(shù)實(shí)融合,區(qū)塊鏈回歸商業(yè)的真實(shí)寫(xiě)
- 揭秘物聯(lián)網(wǎng)中的數(shù)據(jù)科學(xué)和機(jī)器學(xué)
- 用人工智能引入新的透明度——思