資訊詳情

為什么數(shù)據(jù)清理會讓您的ML模型失敗

2022-12-26 09:07:494636

不幸的是，無論我們多么努力地清理，糟糕的數(shù)據(jù)質(zhì)量往往太普遍，太具有侵略性，以至于無法快速淋浴。

我們對150多家組織的數(shù)據(jù)堆棧進(jìn)行的研究顯示，在一個環(huán)境中，每1，000個表平均每年會發(fā)生70起有影響的數(shù)據(jù)事件。這些事件侵入探索性數(shù)據(jù)分析;他們侵入模型訓(xùn)練和驗證;并在部署后入侵模型的推理數(shù)據(jù)，產(chǎn)生漂移。

模型的準(zhǔn)確性不會隨著筆記本中的數(shù)據(jù)清理而開始或結(jié)束，您只需使用幾個表來通知、訓(xùn)練和驗證您的模型。它從ETL管道和您選擇度量什么來解決問題的那一刻開始。

讓我們看一個半假設(shè)的場景，其中包含我們在野外看到的真實例子，以強(qiáng)調(diào)一些常見的故障點。然后，我們將討論如何通過組織對高質(zhì)量數(shù)據(jù)的承諾來避免這些問題。

想象一下

你是一名數(shù)據(jù)科學(xué)家，大搖大擺地研究預(yù)測模型，以優(yōu)化一家快速發(fā)展的公司的數(shù)字營銷支出。在勤奮的數(shù)據(jù)探索之后，您將一些數(shù)據(jù)集導(dǎo)入到您的Python筆記本中。

探索性數(shù)據(jù)分析

因為您的公司熱衷于儀表板，而且數(shù)據(jù)工程團(tuán)隊比以往任何時候都更容易通過管道傳輸數(shù)據(jù)來滿足臨時請求，所以這一發(fā)現(xiàn)極具挑戰(zhàn)性。數(shù)據(jù)倉庫一片混亂，缺乏語義。

沒有清除數(shù)據(jù)譜系，您浪費時間合并和清理數(shù)據(jù)，而沒有注意到下游的表已經(jīng)合并了更多的數(shù)據(jù)源。這幾乎和你注意到你差點遺漏了一個關(guān)鍵數(shù)據(jù)集時一樣刺痛，但是你安慰自己即使是最偉大的人不時地犯那些錯誤.

模型設(shè)計

您看到LinkedIn廣告點擊數(shù)據(jù)有0.1%為空，因此您將該值估算到特征列的中值。這在你的筆記本中是整潔的，但是在模型部署之后，LinkedIn和營銷自動化平臺之間的集成沒有被重新授權(quán)。生產(chǎn)數(shù)據(jù)集中的空值現(xiàn)已躍升至90%，導(dǎo)致這種插補(bǔ)更加頻繁，并且基于更小、更不準(zhǔn)確的樣本。

你的模型還使用了由一位前同事建立的另一個用于廣告支出優(yōu)化的機(jī)器學(xué)習(xí)模型推斷的數(shù)據(jù)。不幸的是，在離開公司之前，他們在數(shù)千個臨時桌子上建立了這個模型。它壞了，自動駕駛，讓公司損失了幾百萬，但你不知道。

模型訓(xùn)練和驗證

您小心地分離出維持集，以避免污染，并確保用于驗證模型的數(shù)據(jù)不會與定型數(shù)據(jù)重疊。您不知道的是，訓(xùn)練數(shù)據(jù)包含一個聚集訪問者網(wǎng)站數(shù)據(jù)的表，其中的列一個月沒有更新。

原來，營銷運(yùn)營團(tuán)隊升級到Google Analytics 4是為了趕在2023年7月的最后期限之前，這改變了數(shù)據(jù)模式。這導(dǎo)致自動化ETL管道旋轉(zhuǎn)出一個全新的表，打破了聚集表的依賴性。因此，您的訓(xùn)練集不包含上個月的數(shù)據(jù)，這些數(shù)據(jù)包括由于不斷變化的宏觀經(jīng)濟(jì)環(huán)境而導(dǎo)致的瀏覽行為和購買模式的統(tǒng)計顯著變化。

模型部署

您的模型已經(jīng)部署好了，并且默默承受著重大的偏差。臉書改變了他們發(fā)送數(shù)據(jù)的方式，從每24小時改為每12小時。您團(tuán)隊的ETL被設(shè)置為每天只獲取一次數(shù)據(jù)，因此這意味著突然有一半正在發(fā)送的活動數(shù)據(jù)沒有被處理或傳遞到下游，從而使他們的新用戶指標(biāo)偏離“付費”而趨向“有機(jī)”

模型評論

所有這些問題意味著你的預(yù)測模型對數(shù)字廣告的表現(xiàn)沒有影響。你現(xiàn)在已經(jīng)失去了營銷團(tuán)隊和高管的信任。畢竟，他們一開始就持懷疑態(tài)度。當(dāng)他們在每周報告中看到錯誤，儀表板每月崩潰兩次時，他們怎么能相信一個預(yù)測黑匣子呢?

證明你的團(tuán)隊增加人員和投資的合理性現(xiàn)在變得更加困難了，盡管模型的失敗不是你的錯。

這個故事里有什么聽起來耳熟的嗎?雖然這個特定的故事可能是虛構(gòu)的，但像您剛剛讀到的故事在現(xiàn)代數(shù)據(jù)團(tuán)隊中太常見了。那么，怎樣才能避免這樣的結(jié)果呢?讓我們看看對數(shù)據(jù)質(zhì)量的承諾如何幫助我們的數(shù)據(jù)科學(xué)家獲得更好的結(jié)果。

現(xiàn)代數(shù)據(jù)堆棧的數(shù)據(jù)清理

數(shù)據(jù)科學(xué)家不能也不應(yīng)該負(fù)責(zé)持續(xù)清理數(shù)據(jù)倉庫中的每個表。然而，我們確實需要與我們的數(shù)據(jù)工程同事合作，創(chuàng)建一個適合數(shù)據(jù)科學(xué)的環(huán)境。

就像廚師了解她的原料供應(yīng)鏈一樣，我們也應(yīng)該了解我們數(shù)據(jù)的供應(yīng)鏈。每個組織都有不同的數(shù)據(jù)源組合，并且每個組織運(yùn)行管道的方式都略有不同。

有些將所有數(shù)據(jù)都放入一個中央數(shù)據(jù)倉庫或數(shù)據(jù)湖中，而有些則為原始數(shù)據(jù)和準(zhǔn)備好的數(shù)據(jù)運(yùn)行單獨的環(huán)境，中間有一層分析工程師。大多數(shù)可能更擅長清除遺留數(shù)據(jù)集。

數(shù)據(jù)的目的地及其組織很重要，因為它會影響您的探索性數(shù)據(jù)分析。然而，數(shù)據(jù)的旅程很重要，因為每條路徑都會給模型帶來不同的風(fēng)險。

除了在數(shù)據(jù)集層面用傳統(tǒng)的數(shù)據(jù)質(zhì)量的6個維度(準(zhǔn)確性、完整性、一致性、及時性、有效性和唯一性)，是時候開始圍繞數(shù)據(jù)新鮮度、數(shù)量、模式和分布異常在管道級別進(jìn)行思考了。

您可以通過構(gòu)建自己的異常檢測器(這是一個由三部分組成的系列，展示了如何做到這一點)或利用商業(yè)數(shù)據(jù)可觀察性解決方案。

監(jiān)控管道接收的數(shù)據(jù)量中的異?？纱_保您的模型始終接收高精度預(yù)測結(jié)果所需的最小數(shù)量的樣本。

Gartner 2022年數(shù)據(jù)管理宣傳周期

商業(yè)解決方案的優(yōu)勢在于，無需不斷更新和調(diào)整您的自定義監(jiān)控閾值，您可以在添加數(shù)據(jù)資產(chǎn)的那一刻就依賴于覆蓋所有數(shù)據(jù)資產(chǎn)的基線，同時還能夠在必要時添加自定義監(jiān)控規(guī)則。

監(jiān)控您的所有生產(chǎn)管道和表不僅會使您的工作更容易，還會使您的模型更準(zhǔn)確。

例如，通過監(jiān)視數(shù)據(jù)中值的分布，您可以快速查看數(shù)據(jù)集的這些范圍，而不必手動進(jìn)行多次探索和分析來回答歷史唯一百分比等問題。正如我們在臉書的例子中看到的那樣，這些監(jiān)視器還可以提醒您每個數(shù)據(jù)類別的比例發(fā)生了突然變化。

監(jiān)控管道接收的數(shù)據(jù)量中的異常可確保您的模型始終接收高精度預(yù)測結(jié)果所需的最小數(shù)量的樣本。

數(shù)據(jù)可觀察性解決方案還包括數(shù)據(jù)沿襲和輕量級編目功能，通過展現(xiàn)對象之間的關(guān)系和識別相關(guān)事件，在發(fā)現(xiàn)和探索性數(shù)據(jù)分析過程中提供幫助。

有了干凈的數(shù)據(jù)環(huán)境，您可以將重點放在創(chuàng)建推動業(yè)務(wù)價值的精確、可信的ML模型上。