亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

淺談數(shù)據(jù)質(zhì)量管理

2023-10-23 10:25:234636

Part 01、  什么是數(shù)據(jù)質(zhì)量管理 

數(shù)據(jù)質(zhì)量管理,是DAMA數(shù)據(jù)管理知識(shí)體系指南中數(shù)據(jù)治理領(lǐng)域非常重要的一部分(圖1 所示),主要是指對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

圖1

Part 02、 數(shù)據(jù)質(zhì)量問(wèn)題原因及評(píng)價(jià)標(biāo)準(zhǔn) 

數(shù)據(jù)在計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)等各個(gè)環(huán)節(jié)都有可能引發(fā)數(shù)據(jù)質(zhì)量問(wèn)題,主要原因分為幾下幾個(gè)方面:

數(shù)據(jù)不完整:由于企業(yè)信息系統(tǒng)的孤立使用,各個(gè)業(yè)務(wù)系統(tǒng)或模塊按照各自的需要錄入系統(tǒng),沒(méi)有統(tǒng)一的錄入工具和數(shù)據(jù)出口,業(yè)務(wù)系統(tǒng)不需要的信息就不錄,造成同樣的數(shù)據(jù)有不同的信息屬性,再或者取數(shù)動(dòng)作不規(guī)范,或許某個(gè)數(shù)據(jù)本身就是采集過(guò)來(lái)的,本來(lái)就是不完整的,數(shù)據(jù)完整性無(wú)法得到保障。

數(shù)據(jù)不合規(guī):沒(méi)有統(tǒng)一的數(shù)據(jù)管理平臺(tái)和數(shù)據(jù)源頭,數(shù)據(jù)生命周期管理不完整,同時(shí)企業(yè)各信息系統(tǒng)的數(shù)據(jù)錄入環(huán)節(jié)過(guò)于簡(jiǎn)單且手工參與較多,就數(shù)據(jù)本身而言,缺少是否重復(fù)、合法、對(duì)錯(cuò)等校驗(yàn)環(huán)節(jié),導(dǎo)致各個(gè)信息系統(tǒng)的數(shù)據(jù)不夠準(zhǔn)確,格式混亂,各類數(shù)據(jù)難以集成和統(tǒng)一,沒(méi)有質(zhì)量控制導(dǎo)致海量數(shù)據(jù)因質(zhì)量過(guò)低而難以被利用。

數(shù)據(jù)時(shí)效性差:大數(shù)據(jù)項(xiàng)目對(duì)數(shù)據(jù)的時(shí)效性要求是非常嚴(yán)格的,比如離線項(xiàng)目是每天計(jì)算前一天的數(shù)據(jù),如果前一天的源數(shù)據(jù)因?yàn)槟承┰驔](méi)有被及時(shí)的傳輸過(guò)來(lái),這樣就會(huì)嚴(yán)重影響后面指標(biāo)的計(jì)算以及報(bào)表的生成。

數(shù)據(jù)冗余:各個(gè)信息系統(tǒng)針對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范不一、編碼規(guī)則不一、校驗(yàn)標(biāo)準(zhǔn)不一、且部分業(yè)務(wù)系統(tǒng)針對(duì)數(shù)據(jù)的驗(yàn)證標(biāo)準(zhǔn)缺失,造成了企業(yè)頂層視角的數(shù)據(jù)出現(xiàn)“一物多碼,一碼多物”等現(xiàn)象。

數(shù)據(jù)不精確:數(shù)據(jù)的精確性也是指數(shù)據(jù)的準(zhǔn)確性,是指數(shù)據(jù)是否與目標(biāo)值匹配;比如一個(gè)訂購(gòu)金額,如果遠(yuǎn)遠(yuǎn)大于或低于常規(guī)的數(shù)值,那么我們就要懷疑這個(gè)的數(shù)據(jù)的精確性不夠。

那么如何判斷數(shù)據(jù)質(zhì)量的優(yōu)劣?從哪些方面可以評(píng)估數(shù)據(jù)質(zhì)量?在實(shí)踐中,我們可以通過(guò)數(shù)據(jù)質(zhì)量評(píng)估維度進(jìn)行評(píng)估。數(shù)據(jù)質(zhì)量評(píng)估維度是數(shù)據(jù)質(zhì)量的特征之一,它們?yōu)槎攘亢凸芾頂?shù)據(jù)的質(zhì)量提供了一種途徑和標(biāo)準(zhǔn)。在一個(gè)具體的數(shù)據(jù)質(zhì)量項(xiàng)目中,要選擇最適用于業(yè)務(wù)需求的數(shù)據(jù)質(zhì)量維度進(jìn)行測(cè)量,以評(píng)價(jià)數(shù)據(jù)的質(zhì)量。

在《GB/T36344-信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)》中,國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)明確了數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)框架如圖2所示。

圖2圖2

  • 規(guī)范性:數(shù)據(jù)符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度。
  • 完整性:按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度。
  • 準(zhǔn)確性:數(shù)據(jù)準(zhǔn)確表示其所描述的真實(shí)實(shí)體(實(shí)際對(duì)象)真實(shí)值的程度。
  • 一致性:數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)無(wú)矛盾的程度。
  • 時(shí)效性:數(shù)據(jù)在時(shí)間變化中的正確程度。
  • 可訪問(wèn)性:數(shù)據(jù)能被訪問(wèn)的程度。

Part 03、目前常用的數(shù)據(jù)質(zhì)量管理工具 

3.1 Apache Griffin

Griffin是一個(gè)開(kāi)源的大數(shù)據(jù)質(zhì)量解決方案, 2016年12月07日進(jìn)入 Apache 孵化,由eBay開(kāi)源,它支持批處理和流模式兩種數(shù)據(jù)質(zhì)量檢測(cè)方式,是一個(gè)基于Hadoop和Spark建立的數(shù)據(jù)質(zhì)量服務(wù)平臺(tái) (DQSP),如圖3所示。它提供了一個(gè)全面的框架來(lái)處理不同的任務(wù),例如定義數(shù)據(jù)質(zhì)量模型、執(zhí)行數(shù)據(jù)質(zhì)量測(cè)量、自動(dòng)化數(shù)據(jù)分析和驗(yàn)證,以及跨多個(gè)數(shù)據(jù)系統(tǒng)的統(tǒng)一數(shù)據(jù)質(zhì)量可視化。

圖3圖3

Griffin由Define、Measure、Analyze三大模塊組成,各個(gè)部分的職責(zé)如下:

Define:主要負(fù)責(zé)定義數(shù)據(jù)質(zhì)量統(tǒng)計(jì)的維度,比如數(shù)據(jù)質(zhì)量統(tǒng)計(jì)的時(shí)間跨度、統(tǒng)計(jì)的目標(biāo)(源端和目標(biāo)端的數(shù)據(jù)數(shù)量是否一致,數(shù)據(jù)源里某一字段的非空的數(shù)量、不重復(fù)值的數(shù)量、最大值、最小值、top5的值數(shù)量等)。

Measure:主要負(fù)責(zé)執(zhí)行統(tǒng)計(jì)任務(wù),生成統(tǒng)計(jì)結(jié)果。這一塊主要技術(shù)棧使用的是Livy+ Spark,Spark作為執(zhí)行引擎,Apache Livy基于Spark的開(kāi)源REST服務(wù),它能夠通過(guò)REST的方式將代碼片段或是序列化的二進(jìn)制代碼提交到Spark集群中去執(zhí)行。

Analyze:主要負(fù)責(zé)保存與展示統(tǒng)計(jì)結(jié)果。

-現(xiàn)狀分析:

  • Griffin的社區(qū)并不太活躍,現(xiàn)在最新版本還是0.6,網(wǎng)上技術(shù)文檔并不算太多, 擔(dān)心出了問(wèn)題比較難找到解決方案。
  • 從技術(shù)棧的角度Livy過(guò)于小眾,數(shù)據(jù)存儲(chǔ)方面ES的運(yùn)維對(duì)于一個(gè)小團(tuán)隊(duì)來(lái)說(shuō)也比較麻煩。
  • 針對(duì)數(shù)據(jù)檢查任務(wù)的調(diào)度和數(shù)據(jù)檢查結(jié)果的后續(xù)處理方面,Griffin一般還需要和現(xiàn)有的大數(shù)據(jù)調(diào)度平臺(tái)打通,也有一定的工作量。

3.2 Apache DolphinScheduler

在2022年4月22日,Apache DolphinScheduler 正式宣布 3.0.0 alpha 版本發(fā)布,此版本中用戶期待已久的數(shù)據(jù)質(zhì)量校驗(yàn)應(yīng)用功能上線,實(shí)現(xiàn)了數(shù)據(jù)質(zhì)量的原生支持,支持在工作流運(yùn)行前進(jìn)行數(shù)據(jù)質(zhì)量的校驗(yàn),可由用戶自定義數(shù)據(jù)質(zhì)量的校驗(yàn)規(guī)則,實(shí)現(xiàn)了任務(wù)運(yùn)行過(guò)程中對(duì)數(shù)據(jù)質(zhì)量的嚴(yán)格控制和運(yùn)行結(jié)果的監(jiān)控,如圖4所示。

圖4圖4

-現(xiàn)狀分析

  • DolphinScheduler作為一個(gè)任務(wù)調(diào)度系統(tǒng),具備了執(zhí)行任務(wù)的基礎(chǔ),不需要引入新的組件來(lái)提交任務(wù);
  • 數(shù)據(jù)質(zhì)量檢查可以作為一種任務(wù)類型無(wú)縫接入到工作流當(dāng)中;
  • 無(wú)需新增其他服務(wù)來(lái)增加運(yùn)維的難度;
  • 可以很好地與社區(qū)共建開(kāi)源。

基于以上現(xiàn)狀,DolphinScheduler是一款比較適合與業(yè)務(wù)相結(jié)合進(jìn)行二次開(kāi)發(fā)的數(shù)據(jù)質(zhì)量工具,但是目前僅適用于離線數(shù)據(jù)驗(yàn)證。

3.3 Deequ

Deequ是一個(gè)來(lái)自AWS實(shí)驗(yàn)室的開(kāi)源工具,可以用來(lái)驗(yàn)證許多大型生產(chǎn)數(shù)據(jù)集的質(zhì)量。數(shù)據(jù)生產(chǎn)者可以通過(guò)添加和編輯數(shù)據(jù)質(zhì)量約束,使得系統(tǒng)定期計(jì)算數(shù)據(jù)質(zhì)量指標(biāo)。當(dāng)數(shù)據(jù)質(zhì)量約束成功時(shí)將數(shù)據(jù)集發(fā)布給消費(fèi)者,錯(cuò)誤時(shí)可停止數(shù)據(jù)集的發(fā)布,并通知生產(chǎn)者采取行動(dòng),這樣數(shù)據(jù)質(zhì)量問(wèn)題就不會(huì)傳播到消費(fèi)者的數(shù)據(jù)管道,從而減少它們的爆炸半徑。主要組件如圖5所示。

圖5圖5

  • 指標(biāo)計(jì)算(Metrics Computation),Deequ 計(jì)算數(shù)據(jù)質(zhì)量指標(biāo),即完整性、最大值或相關(guān)性等統(tǒng)計(jì)數(shù)據(jù)。Deequ 使用 Spark 從 Amazon S3 等源中讀取數(shù)據(jù),并通過(guò)一組優(yōu)化的聚合查詢計(jì)算指標(biāo)。
  • 約束驗(yàn)證(Constraint Verification),作為用戶,可以專注于定義一組要驗(yàn)證的數(shù)據(jù)質(zhì)量約束,Deequ負(fù)責(zé)利用該約束在數(shù)據(jù)集上進(jìn)行計(jì)算,進(jìn)而生成數(shù)據(jù)質(zhì)量報(bào)告,其中包含約束驗(yàn)證的結(jié)果。
  • 約束建議(Constraint Suggestion),可以選擇自定義所需的數(shù)據(jù)質(zhì)量約束,或使用自動(dòng)約束建議方法來(lái)分析數(shù)據(jù)以推斷有用的約束。

-現(xiàn)狀分析:

  • Deequ和spark關(guān)聯(lián)密切,使用spark技術(shù)框架的可以考慮。
  • 社區(qū)較為活躍,使用的較多。

3.4 Great Expectations

Great expectations是一個(gè)python的工具包,Python近幾年在數(shù)據(jù)分析領(lǐng)域大放異彩,而Python本身對(duì)于數(shù)據(jù)質(zhì)量問(wèn)題的解決一直是一個(gè)大問(wèn)題。而Great expectations正好彌補(bǔ)了這方面的不足。對(duì)于一些對(duì)Python支持良好的公司,可以優(yōu)先選擇Great expectations來(lái)進(jìn)行數(shù)據(jù)質(zhì)量的解決方案建設(shè)。

-現(xiàn)狀分析:

  • 版本更新快,Bug修復(fù)也快。
  • 社區(qū)非?;钴S,值得長(zhǎng)期關(guān)注。