為什么數(shù)據(jù)清理會讓您的ML模型失敗
我們對150多家組織的數(shù)據(jù)堆棧進(jìn)行的研究顯示,在一個環(huán)境中,每1,000個表平均每年會發(fā)生70起有影響的數(shù)據(jù)事件。這些事件侵入探索性數(shù)據(jù)分析;他們侵入模型訓(xùn)練和驗證;并在部署后入侵模型的推理數(shù)據(jù),產(chǎn)生漂移。
模型的準(zhǔn)確性不會隨著筆記本中的數(shù)據(jù)清理而開始或結(jié)束,您只需使用幾個表來通知、訓(xùn)練和驗證您的模型。它從ETL管道和您選擇度量什么來解決問題的那一刻開始。
讓我們看一個半假設(shè)的場景,其中包含我們在野外看到的真實例子,以強(qiáng)調(diào)一些常見的故障點。然后,我們將討論如何通過組織對高質(zhì)量數(shù)據(jù)的承諾來避免這些問題。
想象一下
你是一名數(shù)據(jù)科學(xué)家,大搖大擺地研究預(yù)測模型,以優(yōu)化一家快速發(fā)展的公司的數(shù)字營銷支出。在勤奮的數(shù)據(jù)探索之后,您將一些數(shù)據(jù)集導(dǎo)入到您的Python筆記本中。
探索性數(shù)據(jù)分析
因為您的公司熱衷于儀表板,而且數(shù)據(jù)工程團(tuán)隊比以往任何時候都更容易通過管道傳輸數(shù)據(jù)來滿足臨時請求,所以這一發(fā)現(xiàn)極具挑戰(zhàn)性。數(shù)據(jù)倉庫一片混亂,缺乏語義。
沒有清除數(shù)據(jù)譜系,您浪費時間合并和清理數(shù)據(jù),而沒有注意到下游的表已經(jīng)合并了更多的數(shù)據(jù)源。這幾乎和你注意到你差點遺漏了一個關(guān)鍵數(shù)據(jù)集時一樣刺痛,但是你安慰自己即使是最偉大的人不時地犯那些錯誤.
模型設(shè)計
您看到LinkedIn廣告點擊數(shù)據(jù)有0.1%為空,因此您將該值估算到特征列的中值。這在你的筆記本中是整潔的,但是在模型部署之后,LinkedIn和營銷自動化平臺之間的集成沒有被重新授權(quán)。生產(chǎn)數(shù)據(jù)集中的空值現(xiàn)已躍升至90%,導(dǎo)致這種插補(bǔ)更加頻繁,并且基于更小、更不準(zhǔn)確的樣本。
你的模型還使用了由一位前同事建立的另一個用于廣告支出優(yōu)化的機(jī)器學(xué)習(xí)模型推斷的數(shù)據(jù)。不幸的是,在離開公司之前,他們在數(shù)千個臨時桌子上建立了這個模型。它壞了,自動駕駛,讓公司損失了幾百萬,但你不知道。
模型訓(xùn)練和驗證
您小心地分離出維持集,以避免污染,并確保用于驗證模型的數(shù)據(jù)不會與定型數(shù)據(jù)重疊。您不知道的是,訓(xùn)練數(shù)據(jù)包含一個聚集訪問者網(wǎng)站數(shù)據(jù)的表,其中的列一個月沒有更新。
原來,營銷運(yùn)營團(tuán)隊升級到Google Analytics 4是為了趕在2023年7月的最后期限之前,這改變了數(shù)據(jù)模式。這導(dǎo)致自動化ETL管道旋轉(zhuǎn)出一個全新的表,打破了聚集表的依賴性。因此,您的訓(xùn)練集不包含上個月的數(shù)據(jù),這些數(shù)據(jù)包括由于不斷變化的宏觀經(jīng)濟(jì)環(huán)境而導(dǎo)致的瀏覽行為和購買模式的統(tǒng)計顯著變化。
模型部署
您的模型已經(jīng)部署好了,并且默默承受著重大的偏差。臉書改變了他們發(fā)送數(shù)據(jù)的方式,從每24小時改為每12小時。您團(tuán)隊的ETL被設(shè)置為每天只獲取一次數(shù)據(jù),因此這意味著突然有一半正在發(fā)送的活動數(shù)據(jù)沒有被處理或傳遞到下游,從而使他們的新用戶指標(biāo)偏離“付費”而趨向“有機(jī)”
模型評論
所有這些問題意味著你的預(yù)測模型對數(shù)字廣告的表現(xiàn)沒有影響。你現(xiàn)在已經(jīng)失去了營銷團(tuán)隊和高管的信任。畢竟,他們一開始就持懷疑態(tài)度。當(dāng)他們在每周報告中看到錯誤,儀表板每月崩潰兩次時,他們怎么能相信一個預(yù)測黑匣子呢?
證明你的團(tuán)隊增加人員和投資的合理性現(xiàn)在變得更加困難了,盡管模型的失敗不是你的錯。
這個故事里有什么聽起來耳熟的嗎?雖然這個特定的故事可能是虛構(gòu)的,但像您剛剛讀到的故事在現(xiàn)代數(shù)據(jù)團(tuán)隊中太常見了。那么,怎樣才能避免這樣的結(jié)果呢?讓我們看看對數(shù)據(jù)質(zhì)量的承諾如何幫助我們的數(shù)據(jù)科學(xué)家獲得更好的結(jié)果。
現(xiàn)代數(shù)據(jù)堆棧的數(shù)據(jù)清理
數(shù)據(jù)科學(xué)家不能也不應(yīng)該負(fù)責(zé)持續(xù)清理數(shù)據(jù)倉庫中的每個表。然而,我們確實需要與我們的數(shù)據(jù)工程同事合作,創(chuàng)建一個適合數(shù)據(jù)科學(xué)的環(huán)境。
就像廚師了解她的原料供應(yīng)鏈一樣,我們也應(yīng)該了解我們數(shù)據(jù)的供應(yīng)鏈。每個組織都有不同的數(shù)據(jù)源組合,并且每個組織運(yùn)行管道的方式都略有不同。
有些將所有數(shù)據(jù)都放入一個中央數(shù)據(jù)倉庫或數(shù)據(jù)湖中,而有些則為原始數(shù)據(jù)和準(zhǔn)備好的數(shù)據(jù)運(yùn)行單獨的環(huán)境,中間有一層分析工程師。大多數(shù)可能更擅長清除遺留數(shù)據(jù)集。
數(shù)據(jù)的目的地及其組織很重要,因為它會影響您的探索性數(shù)據(jù)分析。然而,數(shù)據(jù)的旅程很重要,因為每條路徑都會給模型帶來不同的風(fēng)險。
除了在數(shù)據(jù)集層面用傳統(tǒng)的數(shù)據(jù)質(zhì)量的6個維度(準(zhǔn)確性、完整性、一致性、及時性、有效性和唯一性),是時候開始圍繞數(shù)據(jù)新鮮度、數(shù)量、模式和分布異常在管道級別進(jìn)行思考了。
您可以通過構(gòu)建自己的異常檢測器(這是一個由三部分組成的系列,展示了如何做到這一點)或利用商業(yè)數(shù)據(jù)可觀察性解決方案。
監(jiān)控管道接收的數(shù)據(jù)量中的異??纱_保您的模型始終接收高精度預(yù)測結(jié)果所需的最小數(shù)量的樣本。
Gartner 2022年數(shù)據(jù)管理宣傳周期
商業(yè)解決方案的優(yōu)勢在于,無需不斷更新和調(diào)整您的自定義監(jiān)控閾值,您可以在添加數(shù)據(jù)資產(chǎn)的那一刻就依賴于覆蓋所有數(shù)據(jù)資產(chǎn)的基線,同時還能夠在必要時添加自定義監(jiān)控規(guī)則。
監(jiān)控您的所有生產(chǎn)管道和表不僅會使您的工作更容易,還會使您的模型更準(zhǔn)確。
例如,通過監(jiān)視數(shù)據(jù)中值的分布,您可以快速查看數(shù)據(jù)集的這些范圍,而不必手動進(jìn)行多次探索和分析來回答歷史唯一百分比等問題。正如我們在臉書的例子中看到的那樣,這些監(jiān)視器還可以提醒您每個數(shù)據(jù)類別的比例發(fā)生了突然變化。
監(jiān)控管道接收的數(shù)據(jù)量中的異常可確保您的模型始終接收高精度預(yù)測結(jié)果所需的最小數(shù)量的樣本。
數(shù)據(jù)可觀察性解決方案還包括數(shù)據(jù)沿襲和輕量級編目功能,通過展現(xiàn)對象之間的關(guān)系和識別相關(guān)事件,在發(fā)現(xiàn)和探索性數(shù)據(jù)分析過程中提供幫助。
有了干凈的數(shù)據(jù)環(huán)境,您可以將重點放在創(chuàng)建推動業(yè)務(wù)價值的精確、可信的ML模型上。
我們對150多家組織的數(shù)據(jù)堆棧進(jìn)行的研究顯示,在一個環(huán)境中,每1,000個表平均每年會發(fā)生70起有影響的數(shù)據(jù)事件。這些事件侵入探索性數(shù)據(jù)分析;他們侵入模型訓(xùn)練和驗證;并在部署后入侵模型的推理數(shù)據(jù),產(chǎn)生漂移。
模型的準(zhǔn)確性不會隨著筆記本中的數(shù)據(jù)清理而開始或結(jié)束,您只需使用幾個表來通知、訓(xùn)練和驗證您的模型。它從ETL管道和您選擇度量什么來解決問題的那一刻開始。
讓我們看一個半假設(shè)的場景,其中包含我們在野外看到的真實例子,以強(qiáng)調(diào)一些常見的故障點。然后,我們將討論如何通過組織對高質(zhì)量數(shù)據(jù)的承諾來避免這些問題。
想象一下
你是一名數(shù)據(jù)科學(xué)家,大搖大擺地研究預(yù)測模型,以優(yōu)化一家快速發(fā)展的公司的數(shù)字營銷支出。在勤奮的數(shù)據(jù)探索之后,您將一些數(shù)據(jù)集導(dǎo)入到您的Python筆記本中。
探索性數(shù)據(jù)分析
因為您的公司熱衷于儀表板,而且數(shù)據(jù)工程團(tuán)隊比以往任何時候都更容易通過管道傳輸數(shù)據(jù)來滿足臨時請求,所以這一發(fā)現(xiàn)極具挑戰(zhàn)性。數(shù)據(jù)倉庫一片混亂,缺乏語義。
沒有清除數(shù)據(jù)譜系,您浪費時間合并和清理數(shù)據(jù),而沒有注意到下游的表已經(jīng)合并了更多的數(shù)據(jù)源。這幾乎和你注意到你差點遺漏了一個關(guān)鍵數(shù)據(jù)集時一樣刺痛,但是你安慰自己即使是最偉大的人不時地犯那些錯誤.
模型設(shè)計
您看到LinkedIn廣告點擊數(shù)據(jù)有0.1%為空,因此您將該值估算到特征列的中值。這在你的筆記本中是整潔的,但是在模型部署之后,LinkedIn和營銷自動化平臺之間的集成沒有被重新授權(quán)。生產(chǎn)數(shù)據(jù)集中的空值現(xiàn)已躍升至90%,導(dǎo)致這種插補(bǔ)更加頻繁,并且基于更小、更不準(zhǔn)確的樣本。
你的模型還使用了由一位前同事建立的另一個用于廣告支出優(yōu)化的機(jī)器學(xué)習(xí)模型推斷的數(shù)據(jù)。不幸的是,在離開公司之前,他們在數(shù)千個臨時桌子上建立了這個模型。它壞了,自動駕駛,讓公司損失了幾百萬,但你不知道。
模型訓(xùn)練和驗證
您小心地分離出維持集,以避免污染,并確保用于驗證模型的數(shù)據(jù)不會與定型數(shù)據(jù)重疊。您不知道的是,訓(xùn)練數(shù)據(jù)包含一個聚集訪問者網(wǎng)站數(shù)據(jù)的表,其中的列一個月沒有更新。
原來,營銷運(yùn)營團(tuán)隊升級到Google Analytics 4是為了趕在2023年7月的最后期限之前,這改變了數(shù)據(jù)模式。這導(dǎo)致自動化ETL管道旋轉(zhuǎn)出一個全新的表,打破了聚集表的依賴性。因此,您的訓(xùn)練集不包含上個月的數(shù)據(jù),這些數(shù)據(jù)包括由于不斷變化的宏觀經(jīng)濟(jì)環(huán)境而導(dǎo)致的瀏覽行為和購買模式的統(tǒng)計顯著變化。
模型部署
您的模型已經(jīng)部署好了,并且默默承受著重大的偏差。臉書改變了他們發(fā)送數(shù)據(jù)的方式,從每24小時改為每12小時。您團(tuán)隊的ETL被設(shè)置為每天只獲取一次數(shù)據(jù),因此這意味著突然有一半正在發(fā)送的活動數(shù)據(jù)沒有被處理或傳遞到下游,從而使他們的新用戶指標(biāo)偏離“付費”而趨向“有機(jī)”
因為您的模型不斷地訓(xùn)練新數(shù)據(jù),這種類的轉(zhuǎn)移降低了您的模型的性能,因為它開始過度適應(yīng)有機(jī)用戶獲取。由于這發(fā)生在數(shù)據(jù)清理和模型構(gòu)建之后,您沒有意識到這種需要糾正的不平衡
模型評論
所有這些問題意味著你的預(yù)測模型對數(shù)字廣告的表現(xiàn)沒有影響。你現(xiàn)在已經(jīng)失去了營銷團(tuán)隊和高管的信任。畢竟,他們一開始就持懷疑態(tài)度。當(dāng)他們在每周報告中看到錯誤,儀表板每月崩潰兩次時,他們怎么能相信一個預(yù)測黑匣子呢?
證明你的團(tuán)隊增加人員和投資的合理性現(xiàn)在變得更加困難了,盡管模型的失敗不是你的錯。
這個故事里有什么聽起來耳熟的嗎?雖然這個特定的故事可能是虛構(gòu)的,但像您剛剛讀到的故事在現(xiàn)代數(shù)據(jù)團(tuán)隊中太常見了。那么,怎樣才能避免這樣的結(jié)果呢?讓我們看看對數(shù)據(jù)質(zhì)量的承諾如何幫助我們的數(shù)據(jù)科學(xué)家獲得更好的結(jié)果。
現(xiàn)代數(shù)據(jù)堆棧的數(shù)據(jù)清理
數(shù)據(jù)科學(xué)家不能也不應(yīng)該負(fù)責(zé)持續(xù)清理數(shù)據(jù)倉庫中的每個表。然而,我們確實需要與我們的數(shù)據(jù)工程同事合作,創(chuàng)建一個適合數(shù)據(jù)科學(xué)的環(huán)境。
就像廚師了解她的原料供應(yīng)鏈一樣,我們也應(yīng)該了解我們數(shù)據(jù)的供應(yīng)鏈。每個組織都有不同的數(shù)據(jù)源組合,并且每個組織運(yùn)行管道的方式都略有不同。
有些將所有數(shù)據(jù)都放入一個中央數(shù)據(jù)倉庫或數(shù)據(jù)湖中,而有些則為原始數(shù)據(jù)和準(zhǔn)備好的數(shù)據(jù)運(yùn)行單獨的環(huán)境,中間有一層分析工程師。大多數(shù)可能更擅長清除遺留數(shù)據(jù)集。
數(shù)據(jù)的目的地及其組織很重要,因為它會影響您的探索性數(shù)據(jù)分析。然而,數(shù)據(jù)的旅程很重要,因為每條路徑都會給模型帶來不同的風(fēng)險。
除了在數(shù)據(jù)集層面用傳統(tǒng)的數(shù)據(jù)質(zhì)量的6個維度(準(zhǔn)確性、完整性、一致性、及時性、有效性和唯一性),是時候開始圍繞數(shù)據(jù)新鮮度、數(shù)量、模式和分布異常在管道級別進(jìn)行思考了。
您可以通過構(gòu)建自己的異常檢測器(這是一個由三部分組成的系列,展示了如何做到這一點)或利用商業(yè)數(shù)據(jù)可觀察性解決方案。
監(jiān)控管道接收的數(shù)據(jù)量中的異常可確保您的模型始終接收高精度預(yù)測結(jié)果所需的最小數(shù)量的樣本。
Gartner 2022年數(shù)據(jù)管理宣傳周期
商業(yè)解決方案的優(yōu)勢在于,無需不斷更新和調(diào)整您的自定義監(jiān)控閾值,您可以在添加數(shù)據(jù)資產(chǎn)的那一刻就依賴于覆蓋所有數(shù)據(jù)資產(chǎn)的基線,同時還能夠在必要時添加自定義監(jiān)控規(guī)則。
監(jiān)控您的所有生產(chǎn)管道和表不僅會使您的工作更容易,還會使您的模型更準(zhǔn)確。
例如,通過監(jiān)視數(shù)據(jù)中值的分布,您可以快速查看數(shù)據(jù)集的這些范圍,而不必手動進(jìn)行多次探索和分析來回答歷史唯一百分比等問題。正如我們在臉書的例子中看到的那樣,這些監(jiān)視器還可以提醒您每個數(shù)據(jù)類別的比例發(fā)生了突然變化。
監(jiān)控管道接收的數(shù)據(jù)量中的異??纱_保您的模型始終接收高精度預(yù)測結(jié)果所需的最小數(shù)量的樣本。
數(shù)據(jù)可觀察性解決方案還包括數(shù)據(jù)沿襲和輕量級編目功能,通過展現(xiàn)對象之間的關(guān)系和識別相關(guān)事件,在發(fā)現(xiàn)和探索性數(shù)據(jù)分析過程中提供幫助。
數(shù)據(jù)可觀察性平臺中的數(shù)據(jù)沿襲顯示了表依賴關(guān)系。
有了干凈的數(shù)據(jù)環(huán)境,您可以將重點放在創(chuàng)建推動業(yè)務(wù)價值的精確、可信的ML模型上。
- 上一篇
人工智能能否在物聯(lián)網(wǎng)應(yīng)用中提供價值?
如果你涉足物聯(lián)網(wǎng)技術(shù)領(lǐng)域,那么了解AI的重要性和好處是必不可少的。在這一節(jié)中,我將討論與AI相關(guān)的所有方面,以便您可以對這個主題有一個清晰的了解。今天,物聯(lián)網(wǎng)應(yīng)用在視覺識別、預(yù)測未來事件和識別物體方面。
- 下一篇
到2026年,全球非公路車輛遠(yuǎn)程信息處理系統(tǒng)的裝機(jī)量將達(dá)到1220萬套
Berg Insight 估計,到 2021 年,全球有源非公路車輛遠(yuǎn)程信息處理系統(tǒng)的裝機(jī)量將達(dá)到 660 萬臺。這包括部署在建筑、采礦、農(nóng)業(yè)和林業(yè)部門的各種非公路車輛上的互聯(lián)單元。在重型