如何設(shè)計適合數(shù)字化轉(zhuǎn)型需要的數(shù)據(jù)架構(gòu)
現(xiàn)代組織需要一個模塊化的數(shù)據(jù)架構(gòu)來支持復(fù)雜的企業(yè)環(huán)境,同時為業(yè)務(wù)用戶提供數(shù)據(jù)訪問。以下是一些關(guān)鍵考慮因素。
一重視元數(shù)據(jù)的管理
數(shù)據(jù)架構(gòu)不斷發(fā)展以提供由元數(shù)據(jù)支持的數(shù)據(jù)自助服務(wù)
過去幾十年來,數(shù)據(jù)分析架構(gòu)最佳實踐已經(jīng)經(jīng)歷了多個時代,數(shù)字化轉(zhuǎn)型強調(diào)了實現(xiàn)數(shù)據(jù)戰(zhàn)略現(xiàn)代化和利用數(shù)據(jù)使用機會的必要性。這些時代包括:
2000年之前的時期—企業(yè)數(shù)據(jù)倉庫時代:以企業(yè)數(shù)據(jù)倉庫(EDW)的成功為中心的數(shù)據(jù)架構(gòu)。
2000-2010—后EDW時代:這一時期的特點是碎片化的數(shù)據(jù)分析,數(shù)據(jù)集市依賴于數(shù)據(jù)倉庫。根據(jù)你問的是誰,你得到的事實版本不同,因為每次數(shù)據(jù)集市整合都會導(dǎo)致另一個數(shù)據(jù)孤島,從而導(dǎo)致分析碎片化和不一致。
2010-2020年—邏輯數(shù)據(jù)倉庫(LDW)時代:這一時期通過通用語義層對數(shù)據(jù)進行更加統(tǒng)一的分析,從而可以訪問數(shù)據(jù)倉庫、數(shù)據(jù)集市和數(shù)據(jù)湖。這是當(dāng)前的最佳實踐。
2020年未來—活躍元數(shù)據(jù)時代:未來將看到使用所有相關(guān)數(shù)據(jù)源對數(shù)據(jù)進行增強分析,通過高級分析、推薦引擎、數(shù)據(jù)和人工智能編排、自適應(yīng)實踐和元數(shù)據(jù)分析來訪問和啟用。
數(shù)據(jù)訪問和自助分析的廣泛化正在推動當(dāng)前從LDW時代向主動元數(shù)據(jù)時代的演變。首席數(shù)據(jù)和分析官(CDAO)同樣希望將數(shù)據(jù)用例擴展到LDW無法處理的范圍。其中包括主數(shù)據(jù)管理、企業(yè)間數(shù)據(jù)共享、B2B數(shù)據(jù)集成、合作伙伴數(shù)據(jù)共享、應(yīng)用程序數(shù)據(jù)集成等。
但什么是元數(shù)據(jù),它在這一演變中扮演什么角色?
元數(shù)據(jù)描述數(shù)據(jù)的不同方面,例如數(shù)據(jù)的上下文。它是作為數(shù)據(jù)在企業(yè)系統(tǒng)中移動的副產(chǎn)品而產(chǎn)生的。元數(shù)據(jù)有四種類型:技術(shù)元數(shù)據(jù)、操作元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)和社交元數(shù)據(jù)。這些類型中的每一種都可以是組織收集但不主動分析的“被動”元數(shù)據(jù),也可以是使用相同數(shù)據(jù)識別兩個或多個系統(tǒng)之間的操作的“主動”元數(shù)據(jù)。
主動元數(shù)據(jù)可以實現(xiàn)自動化、提供見解并優(yōu)化用戶參與度,并且是自助分析的關(guān)鍵推動者。然而,要實現(xiàn)其潛力,需要一個能夠平衡可重復(fù)性、可重用性、治理、權(quán)威、來源和優(yōu)化交付等要求的數(shù)據(jù)架構(gòu)。
數(shù)據(jù)分析領(lǐng)導(dǎo)者看到了兩種選擇,可以將其數(shù)據(jù)架構(gòu)從目前大多數(shù)運營的LDW時代發(fā)展到主動元數(shù)據(jù)時代。這些選項是數(shù)據(jù)編織或數(shù)據(jù)網(wǎng)格。這些獨立概念的共同目標(biāo)是為使用數(shù)據(jù)的每個人(包括數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和數(shù)據(jù)工程師以及數(shù)據(jù)消費者)提供更輕松的數(shù)據(jù)訪問。盡管許多數(shù)據(jù)領(lǐng)導(dǎo)者將數(shù)據(jù)編織和數(shù)據(jù)網(wǎng)格視為相互競爭的數(shù)據(jù)架構(gòu)方法,但更準(zhǔn)確地說,它們被視為互補。
二關(guān)注數(shù)據(jù)編織技術(shù)
DataFabric利用邏輯數(shù)據(jù)倉庫時代的現(xiàn)有資產(chǎn)。
數(shù)據(jù)編織是一種新興的數(shù)據(jù)管理和數(shù)據(jù)集成設(shè)計概念。其目標(biāo)是實現(xiàn)靈活、可重用和增強的數(shù)據(jù)集成,以支持整個企業(yè)的數(shù)據(jù)訪問。
對于許多組織來說,數(shù)據(jù)編織是邏輯數(shù)據(jù)倉庫模型的自然演變,因為它利用現(xiàn)代化數(shù)據(jù)架構(gòu)中的現(xiàn)有技術(shù)和元數(shù)據(jù)。數(shù)據(jù)編織設(shè)計不存在“淘汰和替換”。相反,它利用沉沒成本,同時為新的數(shù)據(jù)管理支出提供優(yōu)先級和成本控制指導(dǎo)。
數(shù)據(jù)編織從不同角度提供優(yōu)勢:
業(yè)務(wù)視角:使技術(shù)含量較低的業(yè)務(wù)用戶(包括分析師)能夠快速查找、集成、分析和共享數(shù)據(jù)
數(shù)據(jù)管理團隊觀點:數(shù)據(jù)工程師的自動化數(shù)據(jù)訪問和集成帶來的生產(chǎn)力優(yōu)勢,以及敏捷性的提高,達到每天/每周/每年更多地關(guān)閉數(shù)據(jù)請求
整體組織視角:更快地從數(shù)據(jù)和分析投資中獲得洞察;提高組織數(shù)據(jù)的利用率;通過分析所有參與系統(tǒng)的元數(shù)據(jù)并提供有關(guān)有效數(shù)據(jù)設(shè)計、交付和利用的見解來降低成本
決定數(shù)據(jù)編織設(shè)計是否適合組織的兩個因素是:元數(shù)據(jù)完整性和組織中的數(shù)據(jù)編織主題專業(yè)知識。具體來說,元數(shù)據(jù)太少的組織將看不到數(shù)據(jù)編織的好處。缺乏元數(shù)據(jù)還增加了對主題專家(SME)的依賴,他們可以幫助發(fā)現(xiàn)、推斷甚至創(chuàng)作元數(shù)據(jù),這可能會抵消數(shù)據(jù)編織設(shè)計相對較低的SME要求。
三關(guān)注數(shù)據(jù)網(wǎng)格技術(shù)
數(shù)據(jù)網(wǎng)格雖然有吸引力,但需要嚴(yán)格的方法
數(shù)據(jù)網(wǎng)格是一種允許分散數(shù)據(jù)管理的架構(gòu)方法。其目標(biāo)是支持定義、交付、維護和管理數(shù)據(jù)產(chǎn)品的工作,使數(shù)據(jù)消費者能夠輕松查找和使用數(shù)據(jù)產(chǎn)品。數(shù)據(jù)網(wǎng)格架構(gòu)基于將數(shù)據(jù)責(zé)任分散和分配給最接近數(shù)據(jù)的人并將該數(shù)據(jù)作為服務(wù)共享的概念。
數(shù)據(jù)網(wǎng)格最常見的驅(qū)動因素是:業(yè)務(wù)線(LOB)具有更多的數(shù)據(jù)自主權(quán)、減少對中央IT的依賴以及利用數(shù)據(jù)去中心化來打破孤島(盡管可能需要在網(wǎng)格架構(gòu)內(nèi)進行一些數(shù)據(jù)集中化)。盡管其吸引力顯而易見,但請注意以下先決條件和挑戰(zhàn)。
數(shù)據(jù)網(wǎng)格架構(gòu)尚未成為既定的最佳實踐。
該術(shù)語與因組織模式、數(shù)據(jù)管理和技術(shù)實施而異的各種方法相關(guān)。組織驅(qū)動因素也各不相同。其中包括消除IT瓶頸,以及合理化由LOB主導(dǎo)的數(shù)據(jù)管道創(chuàng)建或由云現(xiàn)代化數(shù)據(jù)管理計劃觸發(fā)的孤立數(shù)據(jù)集。
數(shù)據(jù)分析領(lǐng)導(dǎo)者不應(yīng)采用數(shù)據(jù)網(wǎng)格架構(gòu)作為解決數(shù)據(jù)管理挑戰(zhàn)的看似簡單的解決方案。盡管它正式化了常見做法,但它放棄了LOB專家的數(shù)據(jù)責(zé)任,這可能會導(dǎo)致孤立數(shù)據(jù)使用激增。
數(shù)據(jù)網(wǎng)格的成功取決于LOB中的組織模式和數(shù)據(jù)技能。
如果各個部門的數(shù)據(jù)素養(yǎng)、自主性和數(shù)據(jù)技能差異很大,并且組織缺乏實施數(shù)據(jù)管理活動的能力,那么中央IT將需要提供更多支持——至少在一開始是這樣。LOB可以通過創(chuàng)建新角色(例如數(shù)據(jù)產(chǎn)品所有者)來管理數(shù)據(jù)產(chǎn)品的定義、創(chuàng)建和治理,從而在數(shù)據(jù)網(wǎng)格環(huán)境中實現(xiàn)更大的自主權(quán)。然而,缺乏構(gòu)建分布式數(shù)據(jù)技能承諾的組織應(yīng)該避免數(shù)據(jù)網(wǎng)格。
數(shù)據(jù)網(wǎng)格架構(gòu)、設(shè)計和技術(shù)實現(xiàn)差異很大。
數(shù)據(jù)網(wǎng)格架構(gòu)實現(xiàn)通?;谠撇⑹褂霉蚕泶鎯吞幚?。然而,每個LOB用于數(shù)據(jù)交付、維護和治理的工具將根據(jù)用例以及生產(chǎn)者和消費者之間的合同而有很大差異。這些合同定義了數(shù)據(jù)產(chǎn)品的范圍、SLA和運營成本,例如可用性、計算成本、訪問并發(fā)性、治理和質(zhì)量策略、上下文和語義。沒有明確合同的組織通常會面臨共享性和可重用性限制,這違背了開發(fā)數(shù)據(jù)網(wǎng)格架構(gòu)的目標(biāo)。
組織需要聯(lián)合治理模型。
數(shù)據(jù)網(wǎng)格將數(shù)據(jù)治理的責(zé)任轉(zhuǎn)移給領(lǐng)域應(yīng)用程序設(shè)計者和用戶。對于要自主構(gòu)建和公開數(shù)據(jù)產(chǎn)品的LOB,它必須定義符合首席信息安全官(CISO)和首席數(shù)據(jù)官(CDO)或中央治理委員會的中央指導(dǎo)的本地數(shù)據(jù)治理和數(shù)據(jù)管理。在成熟的數(shù)據(jù)網(wǎng)格組織中,業(yè)務(wù)組織通過中央IT支持來實施自己的治理策略,而不是相反。
對于元數(shù)據(jù)不完整的組織來說,數(shù)據(jù)網(wǎng)格是一個可行的選擇。只要他們擁有具有主題專業(yè)知識的數(shù)據(jù)架構(gòu)師,他們就可以從數(shù)據(jù)網(wǎng)格開始并并行構(gòu)建其活動元數(shù)據(jù)存儲。
四構(gòu)建靈活的數(shù)據(jù)架構(gòu)
現(xiàn)代環(huán)境的復(fù)雜性需要靈活的數(shù)據(jù)架構(gòu)
使用本地、云、多云、云間和混合部署進行運營的數(shù)據(jù)領(lǐng)導(dǎo)者將需要修改其現(xiàn)有的數(shù)據(jù)架構(gòu)策略,以支持其當(dāng)前和未來的復(fù)雜性。精心規(guī)劃且強大的數(shù)據(jù)架構(gòu)可確保新技術(shù)與現(xiàn)有基礎(chǔ)設(shè)施相一致,并能夠支持未來的需求,包括跨云提供商、SaaS解決方案和本地資源部署等的集成和互操作性。數(shù)據(jù)架構(gòu)制定重點圍繞以下方面考慮:
制定解決整個數(shù)據(jù)生態(tài)系統(tǒng)的策略。即使對于最初進行云部署的組織來說,隨著時間的推移,發(fā)展成為混合和多云環(huán)境也是很常見的。建立優(yōu)先考慮提供商的總體云戰(zhàn)略可以管理其他云部署。這將減輕未經(jīng)批準(zhǔn)的云部署可能的數(shù)據(jù)架構(gòu)帶來的風(fēng)險。
使數(shù)據(jù)要求與用例保持一致。分布式和復(fù)雜的用例現(xiàn)在正在推動可提供業(yè)務(wù)價值的更新創(chuàng)新,特別是通過啟用自助數(shù)據(jù)訪問。云的成功將取決于滿足企業(yè)消費者用例的能力,這些用例很可能本質(zhì)上是分布式的、靠近數(shù)據(jù)源并在邊緣網(wǎng)絡(luò)和設(shè)備上運行。
評估集成模式。快速的數(shù)據(jù)增長和自助數(shù)據(jù)訪問加劇了以適當(dāng)?shù)膸?、延遲和吞吐量跨不同云和本地系統(tǒng)移動數(shù)據(jù)的挑戰(zhàn)。評估集成模式,以確定可靠且高效的數(shù)據(jù)架構(gòu),該架構(gòu)可以服務(wù)于不斷發(fā)展的業(yè)務(wù)用例并滿足數(shù)據(jù)合規(guī)性和主權(quán)需求。
采用開源和開放標(biāo)準(zhǔn)來進行面向未來的數(shù)據(jù)投資。熟悉云中的開源定價模型,包括計算和存儲資源的費用。使用開放或提供商中立的標(biāo)準(zhǔn),并了解開源數(shù)據(jù)存儲的選項,以及使元數(shù)據(jù)可在企業(yè)環(huán)境中跨平臺共享的開源元數(shù)據(jù)標(biāo)準(zhǔn)。最后,制定支持計劃來解決開源解決方案的問題。
最后
根據(jù)數(shù)據(jù)和分析(D&A)團隊組織、共享和分析數(shù)據(jù)的方式設(shè)計數(shù)據(jù)管理架構(gòu)。
- 上一篇
數(shù)據(jù)驅(qū)動的數(shù)字化轉(zhuǎn)型如何為工程師帶來更好的結(jié)果
在本文中,我們將探討數(shù)字化轉(zhuǎn)型如何為工程師和其他學(xué)科提高信息的商業(yè)價值,我們將比較工程師和經(jīng)理在數(shù)字化轉(zhuǎn)型前后如何尋求業(yè)務(wù)價值,顯示出后者對具體數(shù)據(jù)的重視帶來的成果。
- 下一篇
如何看待大數(shù)據(jù)云原生發(fā)展之路
作為一個大數(shù)據(jù)從業(yè)者,在公有云和容器化發(fā)展的大趨勢下,我們關(guān)注的重點已經(jīng)不僅僅是大模型,大數(shù)據(jù)在未來幾年發(fā)展的重點方向是什么,大數(shù)據(jù)的技術(shù)演進路線會如何。