從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)架構(gòu)的演變之路
在上個(gè)世紀(jì),從電子商務(wù)巨頭到醫(yī)療服務(wù)機(jī)構(gòu)和政府部門,數(shù)據(jù)已成為每家組織的生命線。有效地收集和管理這些數(shù)據(jù)可以為組織提供寶貴的洞察力,以幫助決策,然而這是一項(xiàng)艱巨的任務(wù)。
盡管數(shù)據(jù)很重要,但CIOinsight聲稱,只有10%的組織認(rèn)為自己擅長(zhǎng)數(shù)據(jù)分析管理。組織認(rèn)識(shí)到數(shù)據(jù)利用方面的這一重大缺口后,積極采用現(xiàn)代數(shù)據(jù)架構(gòu)來(lái)縮小缺口。
數(shù)據(jù)架構(gòu)是結(jié)構(gòu)化的框架和系統(tǒng),它們定義了如何在組織內(nèi)組織、集成和訪問(wèn)數(shù)據(jù)。架構(gòu)為數(shù)據(jù)及其在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的流動(dòng)明確了藍(lán)圖,并確立了指導(dǎo)原則。
本文討論了數(shù)據(jù)架構(gòu)的演變、基本原則以及采用現(xiàn)代數(shù)據(jù)架構(gòu)有效管理組織數(shù)據(jù)的優(yōu)點(diǎn)。
數(shù)據(jù)架構(gòu)的演變
多年來(lái),數(shù)據(jù)架構(gòu)不斷發(fā)展,以適應(yīng)不斷增長(zhǎng)的業(yè)務(wù)需求。下面討論的一個(gè)值得注意的轉(zhuǎn)變是數(shù)據(jù)架構(gòu)由邏輯倉(cāng)庫(kù)向數(shù)據(jù)結(jié)構(gòu)(Data Fabrics)轉(zhuǎn)變。
1. 邏輯倉(cāng)庫(kù)
邏輯倉(cāng)庫(kù)又叫數(shù)據(jù)倉(cāng)庫(kù),幾十年來(lái)一直是數(shù)據(jù)管理的基礎(chǔ)。這些數(shù)據(jù)倉(cāng)庫(kù)是中央存儲(chǔ)庫(kù),旨在存儲(chǔ)來(lái)自不同來(lái)源(比如事務(wù)系統(tǒng)、應(yīng)用程序日志文件或關(guān)系數(shù)據(jù)庫(kù)等)的數(shù)據(jù),從而提供信息的統(tǒng)一視圖。
通常,邏輯倉(cāng)庫(kù)使用提取、轉(zhuǎn)換和加載(ETL)流程從源系統(tǒng)提取數(shù)據(jù),對(duì)其進(jìn)行轉(zhuǎn)換以確保一致性,并加載到倉(cāng)庫(kù)中。邏輯倉(cāng)庫(kù)僅用于執(zhí)行查詢和分析,常常含有大量的歷史數(shù)據(jù)。
邏輯倉(cāng)庫(kù)面臨的挑戰(zhàn)
雖然邏輯倉(cāng)庫(kù)發(fā)揮了其作用,但隨著數(shù)據(jù)量增加,它們面臨幾個(gè)挑戰(zhàn)。一些主要的限制包括如下:
- 數(shù)據(jù)孤島:邏輯倉(cāng)庫(kù)通常會(huì)導(dǎo)致數(shù)據(jù)孤島,即不同的部門或團(tuán)隊(duì)會(huì)維護(hù)各自孤立的數(shù)據(jù)集,從而導(dǎo)致不一致和重復(fù)。
- 性能:由于數(shù)據(jù)必須經(jīng)過(guò)多個(gè)流程和階段才能用于分析,這大大影響了數(shù)據(jù)倉(cāng)庫(kù)的性能。
- 可擴(kuò)展性:由于硬件限制,實(shí)施數(shù)據(jù)倉(cāng)庫(kù)既復(fù)雜又昂貴。它還需要數(shù)據(jù)建模、ETL流程和數(shù)據(jù)庫(kù)管理方面的專業(yè)知識(shí),因而更難處理急劇增加的數(shù)據(jù)。
2. 數(shù)據(jù)湖
為了應(yīng)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的挑戰(zhàn),數(shù)據(jù)湖架構(gòu)在2010年被引入。雖然數(shù)據(jù)湖架構(gòu)與數(shù)據(jù)倉(cāng)庫(kù)非常相似,但兩者的不同之處在于數(shù)據(jù)湖還適用于半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)湖以自然或原始格式存儲(chǔ)大量數(shù)據(jù)的功能幫助我們:
- 使用來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),不用考慮數(shù)據(jù)類型(非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化);
- 創(chuàng)建數(shù)據(jù)的重點(diǎn)部分,以滿足特定用例的需求;
- 利用先進(jìn)的分析和機(jī)器學(xué)習(xí)技術(shù)發(fā)現(xiàn)新的洞察力,而不受預(yù)定義模式的限制。
數(shù)據(jù)湖面臨的挑戰(zhàn)
數(shù)據(jù)湖的這種開(kāi)放格式特性使其比數(shù)據(jù)倉(cāng)庫(kù)更受歡迎。然而,數(shù)據(jù)湖帶來(lái)了挑戰(zhàn),因?yàn)闆](méi)有嚴(yán)格標(biāo)準(zhǔn)化而攝取的數(shù)據(jù)導(dǎo)致數(shù)據(jù)庫(kù)中出現(xiàn)不一致。此外,存儲(chǔ)在數(shù)據(jù)湖中的數(shù)據(jù)需要大量的轉(zhuǎn)換和集成工作,然后才能用于復(fù)雜又耗時(shí)的分析。
3. 數(shù)據(jù)網(wǎng)格
數(shù)據(jù)網(wǎng)格架構(gòu)是一種新興的方法,它為中央數(shù)據(jù)湖架構(gòu)提供了另一種選擇。數(shù)據(jù)網(wǎng)格是由Zhamak Dehghani在2019年創(chuàng)造的,這種分散的數(shù)據(jù)架構(gòu)按特定的業(yè)務(wù)領(lǐng)域組織數(shù)據(jù)。
通過(guò)引入面向領(lǐng)域的數(shù)據(jù)所有權(quán),負(fù)責(zé)各領(lǐng)域的團(tuán)隊(duì)對(duì)其數(shù)據(jù)和產(chǎn)品負(fù)責(zé),從而提高數(shù)據(jù)質(zhì)量和治理。
傳統(tǒng)的數(shù)據(jù)湖在處理大量數(shù)據(jù)時(shí)常常遇到可擴(kuò)展性和性能方面的挑戰(zhàn)。然而,數(shù)據(jù)網(wǎng)格架構(gòu)通過(guò)其分散的自助式數(shù)據(jù)基礎(chǔ)設(shè)施解決了這些可擴(kuò)展性問(wèn)題。
由于每個(gè)領(lǐng)域都可以自主地選擇最適合其需求的技術(shù)和工具,數(shù)據(jù)網(wǎng)格允許團(tuán)隊(duì)獨(dú)立地?cái)U(kuò)展其數(shù)據(jù)存儲(chǔ)和處理系統(tǒng)。
4. 數(shù)據(jù)結(jié)構(gòu)
數(shù)據(jù)結(jié)構(gòu)是一種自適應(yīng)、靈活又安全的集成式數(shù)據(jù)架構(gòu)。它是一種架構(gòu)方法和技術(shù)框架,通過(guò)提供跨各種數(shù)據(jù)源的統(tǒng)一集成數(shù)據(jù)視圖來(lái)解決數(shù)據(jù)湖挑戰(zhàn)。
通過(guò)應(yīng)對(duì)數(shù)據(jù)集成、轉(zhuǎn)換和移動(dòng)中涉及的技術(shù)復(fù)雜性,數(shù)據(jù)結(jié)構(gòu)允許更快速、更有效地訪問(wèn)數(shù)據(jù),以便任何人都可以使用它。
現(xiàn)代數(shù)據(jù)架構(gòu)原則
據(jù)Dataversity聲稱,數(shù)據(jù)架構(gòu)原則指一系列策略,以監(jiān)管用于收集、集成和管理數(shù)據(jù)資產(chǎn)的企業(yè)數(shù)據(jù)框架和操作規(guī)則。這些原則幫助我們創(chuàng)建一致、可靠又高效的數(shù)據(jù)架構(gòu),使其與組織的目標(biāo)和目的保持一致。
為了有效地利用數(shù)據(jù)作為一種有競(jìng)爭(zhēng)力的資產(chǎn),以下是需要遵循的幾個(gè)常見(jiàn)現(xiàn)代數(shù)據(jù)架構(gòu)原則:
- 數(shù)據(jù)質(zhì)量(DQ):數(shù)據(jù)質(zhì)量對(duì)于任何數(shù)據(jù)架構(gòu)都必不可少;建立數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和流程可確保數(shù)據(jù)的準(zhǔn)確性、完整性和可靠性。數(shù)據(jù)質(zhì)量原則指導(dǎo)我們實(shí)施數(shù)據(jù)分析、清理和驗(yàn)證技術(shù),以立即識(shí)別和糾正數(shù)據(jù)問(wèn)題,從而避免低劣的數(shù)據(jù)質(zhì)量。有效管理和可靠的數(shù)據(jù)對(duì)于開(kāi)發(fā)準(zhǔn)確模型和可靠模式以提取寶貴的洞察力至關(guān)重要。
- 數(shù)據(jù)治理(DG):Experian數(shù)據(jù)質(zhì)量報(bào)告表明,全球78%的組織受到數(shù)據(jù)治理不善的困擾,這導(dǎo)致人們對(duì)數(shù)據(jù)和從數(shù)據(jù)獲得的洞察力產(chǎn)生不信任。數(shù)據(jù)治理告訴我們,在數(shù)據(jù)生命周期的任何時(shí)候,數(shù)據(jù)消費(fèi)者都應(yīng)該知道數(shù)據(jù)的位置、格式、使用關(guān)系以及與數(shù)據(jù)相關(guān)的任何其他相關(guān)信息,以避免數(shù)據(jù)債務(wù)。數(shù)據(jù)治理與數(shù)據(jù)質(zhì)量密切相關(guān),使數(shù)據(jù)架構(gòu)能夠確保數(shù)據(jù)完整性,并提高數(shù)據(jù)質(zhì)量。
- 爭(zhēng)取確保一致性:這條數(shù)據(jù)原則強(qiáng)調(diào)面對(duì)整個(gè)組織的所有數(shù)據(jù)結(jié)構(gòu)、格式和流程,確保一致性。使用標(biāo)準(zhǔn)術(shù)語(yǔ)和詞匯表可以確保數(shù)據(jù)在不同系統(tǒng)之間定義一致,從而使開(kāi)發(fā)人員和非開(kāi)發(fā)人員更容易就同一項(xiàng)目進(jìn)行協(xié)作。跨組織數(shù)據(jù)表示的一致性為團(tuán)隊(duì)提供了“事實(shí)的單一版本”,從而使數(shù)據(jù)和數(shù)據(jù)分析易于被公司內(nèi)的廣泛用戶理解。
- 使數(shù)據(jù)成為可共享的資產(chǎn):使數(shù)據(jù)成為可共享的資產(chǎn)強(qiáng)調(diào)我們將數(shù)據(jù)視為一種有價(jià)值的資源,可以在不同的系統(tǒng)之間共享和訪問(wèn)。該原則旨在消除數(shù)據(jù)孤島,并鼓勵(lì)設(shè)計(jì)有助于高效共享數(shù)據(jù)的數(shù)據(jù)架構(gòu)。這么做確保所有利益相關(guān)者全面了解公司及數(shù)據(jù),以便于合作和明智的決策。
- 數(shù)據(jù)安全和隱私:現(xiàn)代數(shù)據(jù)架構(gòu)必須確保數(shù)據(jù)的機(jī)密性和完整性,同時(shí)保護(hù)敏感信息免遭未經(jīng)授權(quán)的訪問(wèn)、破壞或?yàn)E用。
現(xiàn)代數(shù)據(jù)架構(gòu)的特點(diǎn)
下面討論現(xiàn)代數(shù)據(jù)架構(gòu)的一些特點(diǎn):
- 自動(dòng)化:現(xiàn)代數(shù)據(jù)架構(gòu)使用自動(dòng)化的流程、工具和技術(shù),以優(yōu)化與數(shù)據(jù)相關(guān)的任務(wù)和操作。與傳統(tǒng)系統(tǒng)不同,現(xiàn)代數(shù)據(jù)架構(gòu)可以使用基于云的工具在數(shù)小時(shí)或數(shù)天內(nèi)構(gòu)建好復(fù)雜的流程。
- 適應(yīng)性:現(xiàn)代數(shù)據(jù)架構(gòu)必須靈活,以響應(yīng)不斷變化的業(yè)務(wù)需求。它必須支持多種類型的用戶、查詢操作和部署、數(shù)據(jù)處理引擎以及管道等。
- 可擴(kuò)展性:可擴(kuò)展性是現(xiàn)代數(shù)據(jù)架構(gòu)的一個(gè)關(guān)鍵特點(diǎn),它允許我們?cè)跇I(yè)務(wù)需求發(fā)生變化時(shí)快速且經(jīng)濟(jì)地?cái)U(kuò)展或縮小規(guī)模。
- 具有成本效益:利用可擴(kuò)展基礎(chǔ)設(shè)施的現(xiàn)代數(shù)據(jù)架構(gòu)使我們得以輕松地適應(yīng)未來(lái)不斷增長(zhǎng)的需求,無(wú)需一開(kāi)始過(guò)度購(gòu)買硬件。此外,現(xiàn)代數(shù)據(jù)架構(gòu)有時(shí)采用“按需付費(fèi)模式”的云計(jì)算平臺(tái),這樣我們只需為實(shí)際使用的資源付費(fèi)。
現(xiàn)代數(shù)據(jù)架構(gòu)的好處
在討論了現(xiàn)代數(shù)據(jù)架構(gòu)及其特點(diǎn)之后,下面討論現(xiàn)代數(shù)據(jù)架構(gòu)給企業(yè)和組織帶來(lái)的好處。
- 提供全面的公司視圖:由于數(shù)據(jù)集成可以實(shí)現(xiàn)來(lái)自組織內(nèi)各種數(shù)據(jù)源和系統(tǒng)的數(shù)據(jù)無(wú)縫集成,因而可以一致地收集和存儲(chǔ)數(shù)據(jù)。這種集成確保了任何時(shí)候的數(shù)據(jù)都能提供公司的全面視圖,即“事實(shí)的單一來(lái)源”。
- 減少冗余:通過(guò)收集和協(xié)調(diào)不同的數(shù)據(jù)和數(shù)據(jù)源,數(shù)據(jù)集成減少了組織中數(shù)據(jù)字段的重疊。
- 改進(jìn)的數(shù)據(jù)質(zhì)量:現(xiàn)代數(shù)據(jù)架構(gòu)包含數(shù)據(jù)清理和驗(yàn)證、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)質(zhì)量監(jiān)控和修復(fù)等技術(shù),以確保數(shù)據(jù)可靠性。
結(jié)論
數(shù)據(jù)在組織中越來(lái)越重要,這推動(dòng)了數(shù)據(jù)架構(gòu)的發(fā)展。從傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)到現(xiàn)代的數(shù)據(jù)網(wǎng)格和數(shù)據(jù)結(jié)構(gòu)方法,這些架構(gòu)解決了特定的挑戰(zhàn),帶來(lái)了新的機(jī)遇。
通過(guò)采用現(xiàn)代數(shù)據(jù)架構(gòu),組織可以得益于改進(jìn)的數(shù)據(jù)質(zhì)量和全面的數(shù)據(jù)洞察力,從而全面釋放數(shù)據(jù)的潛力,并在當(dāng)今世界保持競(jìng)爭(zhēng)力。
原文標(biāo)題:From data warehouse to data fabric: the evolution of data architecture
- 上一篇
一種衡量轉(zhuǎn)型進(jìn)展的新方法
在本文中,我們將探討示例性轉(zhuǎn)型的共同特征,以及追求這條道路的企業(yè)可以獲得的價(jià)值。我們從提出關(guān)于整體績(jī)效和業(yè)務(wù)再造的十個(gè)類別的正確問(wèn)題開(kāi)始,揭示了一種分析轉(zhuǎn)型進(jìn)程的新方法,這種方法可以為領(lǐng)導(dǎo)者提供一個(gè)準(zhǔn)確的基線,說(shuō)明他們?cè)谀男┓矫娴霓D(zhuǎn)型努力取得了成功,哪些方面則有更多的工作要做。
- 下一篇
如何利用傳統(tǒng)IT系統(tǒng)進(jìn)行云遷移以克服障礙
到2023年,73%的企業(yè)已經(jīng)擁有混合IT基礎(chǔ)設(shè)施。37%的企業(yè)計(jì)劃在未來(lái)12個(gè)月內(nèi)采用云計(jì)算技術(shù)。這意味著對(duì)于大多數(shù)企業(yè)來(lái)說(shuō),學(xué)習(xí)如何有效而安全地使用云計(jì)算服務(wù)是至關(guān)重要的。
相關(guān)資訊
- 數(shù)據(jù)網(wǎng)格可以改進(jìn)數(shù)字產(chǎn)品開(kāi)發(fā)的
- 數(shù)據(jù)治理,一起要從“源頭”開(kāi)始!
- 物聯(lián)網(wǎng)和邊緣計(jì)算的未來(lái)是怎樣的
- 保護(hù)人工智能,網(wǎng)絡(luò)安全專業(yè)人士責(zé)
- AI與自動(dòng)化在職場(chǎng)中有哪些應(yīng)用?
- 全球區(qū)塊鏈專利狀況:中國(guó)專利申請(qǐng)
- 虛擬現(xiàn)實(shí)不僅僅是為了好玩,它可以
- 如何減緩氣候變化促進(jìn)農(nóng)業(yè)可持續(xù)
- 通信技術(shù)在智慧醫(yī)療中的影響與應(yīng)
- 物聯(lián)網(wǎng)如何增強(qiáng)電網(wǎng)彈性