淺談數(shù)據(jù)質(zhì)量管理
Part 01、 什么是數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量管理,是DAMA數(shù)據(jù)管理知識(shí)體系指南中數(shù)據(jù)治理領(lǐng)域非常重要的一部分(圖1 所示),主要是指對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
Part 02、 數(shù)據(jù)質(zhì)量問(wèn)題原因及評(píng)價(jià)標(biāo)準(zhǔn)
數(shù)據(jù)在計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)等各個(gè)環(huán)節(jié)都有可能引發(fā)數(shù)據(jù)質(zhì)量問(wèn)題,主要原因分為幾下幾個(gè)方面:
數(shù)據(jù)不完整:由于企業(yè)信息系統(tǒng)的孤立使用,各個(gè)業(yè)務(wù)系統(tǒng)或模塊按照各自的需要錄入系統(tǒng),沒(méi)有統(tǒng)一的錄入工具和數(shù)據(jù)出口,業(yè)務(wù)系統(tǒng)不需要的信息就不錄,造成同樣的數(shù)據(jù)有不同的信息屬性,再或者取數(shù)動(dòng)作不規(guī)范,或許某個(gè)數(shù)據(jù)本身就是采集過(guò)來(lái)的,本來(lái)就是不完整的,數(shù)據(jù)完整性無(wú)法得到保障。
數(shù)據(jù)不合規(guī):沒(méi)有統(tǒng)一的數(shù)據(jù)管理平臺(tái)和數(shù)據(jù)源頭,數(shù)據(jù)生命周期管理不完整,同時(shí)企業(yè)各信息系統(tǒng)的數(shù)據(jù)錄入環(huán)節(jié)過(guò)于簡(jiǎn)單且手工參與較多,就數(shù)據(jù)本身而言,缺少是否重復(fù)、合法、對(duì)錯(cuò)等校驗(yàn)環(huán)節(jié),導(dǎo)致各個(gè)信息系統(tǒng)的數(shù)據(jù)不夠準(zhǔn)確,格式混亂,各類數(shù)據(jù)難以集成和統(tǒng)一,沒(méi)有質(zhì)量控制導(dǎo)致海量數(shù)據(jù)因質(zhì)量過(guò)低而難以被利用。
數(shù)據(jù)時(shí)效性差:大數(shù)據(jù)項(xiàng)目對(duì)數(shù)據(jù)的時(shí)效性要求是非常嚴(yán)格的,比如離線項(xiàng)目是每天計(jì)算前一天的數(shù)據(jù),如果前一天的源數(shù)據(jù)因?yàn)槟承┰驔](méi)有被及時(shí)的傳輸過(guò)來(lái),這樣就會(huì)嚴(yán)重影響后面指標(biāo)的計(jì)算以及報(bào)表的生成。
數(shù)據(jù)冗余:各個(gè)信息系統(tǒng)針對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范不一、編碼規(guī)則不一、校驗(yàn)標(biāo)準(zhǔn)不一、且部分業(yè)務(wù)系統(tǒng)針對(duì)數(shù)據(jù)的驗(yàn)證標(biāo)準(zhǔn)缺失,造成了企業(yè)頂層視角的數(shù)據(jù)出現(xiàn)“一物多碼,一碼多物”等現(xiàn)象。
數(shù)據(jù)不精確:數(shù)據(jù)的精確性也是指數(shù)據(jù)的準(zhǔn)確性,是指數(shù)據(jù)是否與目標(biāo)值匹配;比如一個(gè)訂購(gòu)金額,如果遠(yuǎn)遠(yuǎn)大于或低于常規(guī)的數(shù)值,那么我們就要懷疑這個(gè)的數(shù)據(jù)的精確性不夠。
那么如何判斷數(shù)據(jù)質(zhì)量的優(yōu)劣?從哪些方面可以評(píng)估數(shù)據(jù)質(zhì)量?在實(shí)踐中,我們可以通過(guò)數(shù)據(jù)質(zhì)量評(píng)估維度進(jìn)行評(píng)估。數(shù)據(jù)質(zhì)量評(píng)估維度是數(shù)據(jù)質(zhì)量的特征之一,它們?yōu)槎攘亢凸芾頂?shù)據(jù)的質(zhì)量提供了一種途徑和標(biāo)準(zhǔn)。在一個(gè)具體的數(shù)據(jù)質(zhì)量項(xiàng)目中,要選擇最適用于業(yè)務(wù)需求的數(shù)據(jù)質(zhì)量維度進(jìn)行測(cè)量,以評(píng)價(jià)數(shù)據(jù)的質(zhì)量。
在《GB/T36344-信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)》中,國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)明確了數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)框架如圖2所示。
圖2
- 規(guī)范性:數(shù)據(jù)符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度。
- 完整性:按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度。
- 準(zhǔn)確性:數(shù)據(jù)準(zhǔn)確表示其所描述的真實(shí)實(shí)體(實(shí)際對(duì)象)真實(shí)值的程度。
- 一致性:數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)無(wú)矛盾的程度。
- 時(shí)效性:數(shù)據(jù)在時(shí)間變化中的正確程度。
- 可訪問(wèn)性:數(shù)據(jù)能被訪問(wèn)的程度。
Part 03、目前常用的數(shù)據(jù)質(zhì)量管理工具
3.1 Apache Griffin
Griffin是一個(gè)開(kāi)源的大數(shù)據(jù)質(zhì)量解決方案, 2016年12月07日進(jìn)入 Apache 孵化,由eBay開(kāi)源,它支持批處理和流模式兩種數(shù)據(jù)質(zhì)量檢測(cè)方式,是一個(gè)基于Hadoop和Spark建立的數(shù)據(jù)質(zhì)量服務(wù)平臺(tái) (DQSP),如圖3所示。它提供了一個(gè)全面的框架來(lái)處理不同的任務(wù),例如定義數(shù)據(jù)質(zhì)量模型、執(zhí)行數(shù)據(jù)質(zhì)量測(cè)量、自動(dòng)化數(shù)據(jù)分析和驗(yàn)證,以及跨多個(gè)數(shù)據(jù)系統(tǒng)的統(tǒng)一數(shù)據(jù)質(zhì)量可視化。
圖3
Griffin由Define、Measure、Analyze三大模塊組成,各個(gè)部分的職責(zé)如下:
Define:主要負(fù)責(zé)定義數(shù)據(jù)質(zhì)量統(tǒng)計(jì)的維度,比如數(shù)據(jù)質(zhì)量統(tǒng)計(jì)的時(shí)間跨度、統(tǒng)計(jì)的目標(biāo)(源端和目標(biāo)端的數(shù)據(jù)數(shù)量是否一致,數(shù)據(jù)源里某一字段的非空的數(shù)量、不重復(fù)值的數(shù)量、最大值、最小值、top5的值數(shù)量等)。
Measure:主要負(fù)責(zé)執(zhí)行統(tǒng)計(jì)任務(wù),生成統(tǒng)計(jì)結(jié)果。這一塊主要技術(shù)棧使用的是Livy+ Spark,Spark作為執(zhí)行引擎,Apache Livy基于Spark的開(kāi)源REST服務(wù),它能夠通過(guò)REST的方式將代碼片段或是序列化的二進(jìn)制代碼提交到Spark集群中去執(zhí)行。
Analyze:主要負(fù)責(zé)保存與展示統(tǒng)計(jì)結(jié)果。
-現(xiàn)狀分析:
- Griffin的社區(qū)并不太活躍,現(xiàn)在最新版本還是0.6,網(wǎng)上技術(shù)文檔并不算太多, 擔(dān)心出了問(wèn)題比較難找到解決方案。
- 從技術(shù)棧的角度Livy過(guò)于小眾,數(shù)據(jù)存儲(chǔ)方面ES的運(yùn)維對(duì)于一個(gè)小團(tuán)隊(duì)來(lái)說(shuō)也比較麻煩。
- 針對(duì)數(shù)據(jù)檢查任務(wù)的調(diào)度和數(shù)據(jù)檢查結(jié)果的后續(xù)處理方面,Griffin一般還需要和現(xiàn)有的大數(shù)據(jù)調(diào)度平臺(tái)打通,也有一定的工作量。
3.2 Apache DolphinScheduler
在2022年4月22日,Apache DolphinScheduler 正式宣布 3.0.0 alpha 版本發(fā)布,此版本中用戶期待已久的數(shù)據(jù)質(zhì)量校驗(yàn)應(yīng)用功能上線,實(shí)現(xiàn)了數(shù)據(jù)質(zhì)量的原生支持,支持在工作流運(yùn)行前進(jìn)行數(shù)據(jù)質(zhì)量的校驗(yàn),可由用戶自定義數(shù)據(jù)質(zhì)量的校驗(yàn)規(guī)則,實(shí)現(xiàn)了任務(wù)運(yùn)行過(guò)程中對(duì)數(shù)據(jù)質(zhì)量的嚴(yán)格控制和運(yùn)行結(jié)果的監(jiān)控,如圖4所示。
圖4
-現(xiàn)狀分析:
- DolphinScheduler作為一個(gè)任務(wù)調(diào)度系統(tǒng),具備了執(zhí)行任務(wù)的基礎(chǔ),不需要引入新的組件來(lái)提交任務(wù);
- 數(shù)據(jù)質(zhì)量檢查可以作為一種任務(wù)類型無(wú)縫接入到工作流當(dāng)中;
- 無(wú)需新增其他服務(wù)來(lái)增加運(yùn)維的難度;
- 可以很好地與社區(qū)共建開(kāi)源。
基于以上現(xiàn)狀,DolphinScheduler是一款比較適合與業(yè)務(wù)相結(jié)合進(jìn)行二次開(kāi)發(fā)的數(shù)據(jù)質(zhì)量工具,但是目前僅適用于離線數(shù)據(jù)驗(yàn)證。
3.3 Deequ
Deequ是一個(gè)來(lái)自AWS實(shí)驗(yàn)室的開(kāi)源工具,可以用來(lái)驗(yàn)證許多大型生產(chǎn)數(shù)據(jù)集的質(zhì)量。數(shù)據(jù)生產(chǎn)者可以通過(guò)添加和編輯數(shù)據(jù)質(zhì)量約束,使得系統(tǒng)定期計(jì)算數(shù)據(jù)質(zhì)量指標(biāo)。當(dāng)數(shù)據(jù)質(zhì)量約束成功時(shí)將數(shù)據(jù)集發(fā)布給消費(fèi)者,錯(cuò)誤時(shí)可停止數(shù)據(jù)集的發(fā)布,并通知生產(chǎn)者采取行動(dòng),這樣數(shù)據(jù)質(zhì)量問(wèn)題就不會(huì)傳播到消費(fèi)者的數(shù)據(jù)管道,從而減少它們的爆炸半徑。主要組件如圖5所示。
圖5
- 指標(biāo)計(jì)算(Metrics Computation),Deequ 計(jì)算數(shù)據(jù)質(zhì)量指標(biāo),即完整性、最大值或相關(guān)性等統(tǒng)計(jì)數(shù)據(jù)。Deequ 使用 Spark 從 Amazon S3 等源中讀取數(shù)據(jù),并通過(guò)一組優(yōu)化的聚合查詢計(jì)算指標(biāo)。
- 約束驗(yàn)證(Constraint Verification),作為用戶,可以專注于定義一組要驗(yàn)證的數(shù)據(jù)質(zhì)量約束,Deequ負(fù)責(zé)利用該約束在數(shù)據(jù)集上進(jìn)行計(jì)算,進(jìn)而生成數(shù)據(jù)質(zhì)量報(bào)告,其中包含約束驗(yàn)證的結(jié)果。
- 約束建議(Constraint Suggestion),可以選擇自定義所需的數(shù)據(jù)質(zhì)量約束,或使用自動(dòng)約束建議方法來(lái)分析數(shù)據(jù)以推斷有用的約束。
-現(xiàn)狀分析:
- Deequ和spark關(guān)聯(lián)密切,使用spark技術(shù)框架的可以考慮。
- 社區(qū)較為活躍,使用的較多。
3.4 Great Expectations
Great expectations是一個(gè)python的工具包,Python近幾年在數(shù)據(jù)分析領(lǐng)域大放異彩,而Python本身對(duì)于數(shù)據(jù)質(zhì)量問(wèn)題的解決一直是一個(gè)大問(wèn)題。而Great expectations正好彌補(bǔ)了這方面的不足。對(duì)于一些對(duì)Python支持良好的公司,可以優(yōu)先選擇Great expectations來(lái)進(jìn)行數(shù)據(jù)質(zhì)量的解決方案建設(shè)。
-現(xiàn)狀分析:
- 版本更新快,Bug修復(fù)也快。
- 社區(qū)非?;钴S,值得長(zhǎng)期關(guān)注。
- 上一篇
一文讀懂?dāng)?shù)據(jù)運(yùn)營(yíng)的指標(biāo)體系
在大數(shù)據(jù)時(shí)代早期,大部分?jǐn)?shù)據(jù)并沒(méi)有被充分地挖掘分析和利用。雖然數(shù)據(jù)規(guī)模非常大,但是卻很難利用這些數(shù)據(jù)創(chuàng)造價(jià)值。而數(shù)據(jù)中臺(tái)的提出及數(shù)據(jù)指標(biāo)體系的構(gòu)建,使得數(shù)據(jù)產(chǎn)生了實(shí)際價(jià)值。
- 下一篇
RPA目前主要應(yīng)用在哪些行業(yè)?
隨著科技的不斷發(fā)展,機(jī)器人過(guò)程自動(dòng)化(Robotic Process Automation,簡(jiǎn)稱RPA)逐漸成為了企業(yè)和組織的熱門技術(shù)之一。然而,很多人對(duì)RPA的具體應(yīng)用范圍和領(lǐng)域還存在困惑。本文將探
相關(guān)資訊
- 大模型智能體熱潮:技術(shù)革新與挑戰(zhàn)
- 供應(yīng)鏈管理中的數(shù)字化轉(zhuǎn)型
- 七個(gè)觀點(diǎn):理性看透數(shù)據(jù)的價(jià)值屬性
- 機(jī)器學(xué)習(xí)如何提高商業(yè)智能
- 為什么您應(yīng)該使用AI增強(qiáng)您的電子
- 未來(lái)AI會(huì)對(duì)哪些職業(yè)造成沖擊?
- 數(shù)字化轉(zhuǎn)型:關(guān)注能夠最大限度地提
- 如何使您的數(shù)據(jù)安全知識(shí)保持最新
- 5G及未來(lái)技術(shù):引領(lǐng)2024年變革與機(jī)
- 互聯(lián)網(wǎng)第三幕邊緣的監(jiān)控