亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

2023年數(shù)據(jù)架構(gòu)要關(guān)注的五個(gè)重要方面

2023-05-30 09:31:414636

2023 年已經(jīng)過(guò)去五個(gè)月,我想談?wù)?2023 年需要關(guān)注的一些數(shù)據(jù)架構(gòu)趨勢(shì)。

介紹

在本文中,我將討論五種數(shù)據(jù)趨勢(shì),我認(rèn)為它們將成為 2023 年以后數(shù)據(jù)公司的首要任務(wù)。

2023 年趨勢(shì)

  • Lakehouse Architecture
  • Data Mesh
  • Data Governance
  • Real-time Processing/Streaming
  • Data Architecture & Data Modeling

湖倉(cāng)架構(gòu)

那么什么是湖倉(cāng)架構(gòu)呢?湖倉(cāng)是什么意思?湖倉(cāng)架構(gòu)是一種數(shù)據(jù)存儲(chǔ)和管理架構(gòu),結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)點(diǎn)。它旨在解決傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的局限性,并提供一種更高效、更具成本效益的數(shù)據(jù)管理方法。

數(shù)據(jù)倉(cāng)庫(kù):用于“商業(yè)智能目的”的大規(guī)模數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)來(lái)自各種來(lái)源的數(shù)據(jù),并針對(duì)查詢和分析進(jìn)行了優(yōu)化,通常使用維度數(shù)據(jù)模型。數(shù)據(jù)倉(cāng)庫(kù)支持更快、更高效的報(bào)告和數(shù)據(jù)分析,幫助根據(jù)數(shù)據(jù)驅(qū)動(dòng)的洞察力做出更好的決策。

數(shù)據(jù)湖:數(shù)據(jù)湖是一個(gè)集中式存儲(chǔ)庫(kù),以其本機(jī)格式存儲(chǔ)來(lái)自各種來(lái)源的原始、未處理的數(shù)據(jù)。數(shù)據(jù)湖提供了存儲(chǔ)和分析大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)(包括文本、圖像和視頻)的靈活性。數(shù)據(jù)湖旨在處理在存儲(chǔ)時(shí)用例未知的數(shù)據(jù),以便以后可以探索和分析數(shù)據(jù)。與數(shù)據(jù)倉(cāng)庫(kù)不同,數(shù)據(jù)湖不需要預(yù)先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化或轉(zhuǎn)換,因此更適合探索性或“臨時(shí)”分析。

在湖倉(cāng)架構(gòu)中,數(shù)據(jù)以原始格式存儲(chǔ)在中央存儲(chǔ)庫(kù)中,類似于數(shù)據(jù)湖。但是,就像數(shù)據(jù)倉(cāng)庫(kù)一樣,數(shù)據(jù)也是經(jīng)過(guò)組織和索引的。這允許更快、更有效地查詢數(shù)據(jù),以及處理和分析數(shù)據(jù)的方式的靈活性。

此外,湖倉(cāng)架構(gòu)通常包括數(shù)據(jù)版本控制、數(shù)據(jù)沿襲和數(shù)據(jù)治理等功能,以幫助確保數(shù)據(jù)質(zhì)量和一致性。

近年來(lái),由于數(shù)據(jù)爆炸以及組織需要能夠?qū)崟r(shí)存儲(chǔ)、管理和分析大量數(shù)據(jù),湖倉(cāng)架構(gòu)越來(lái)越受歡迎。一些流行的湖倉(cāng)架構(gòu)技術(shù)包括 Apache Spark、Delta Lake 和 Databricks。

大多數(shù)組織現(xiàn)在都在尋求構(gòu)建湖倉(cāng)而不是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,并且所有主要數(shù)據(jù)平臺(tái)現(xiàn)在都有用于實(shí)現(xiàn)湖倉(cāng)的產(chǎn)品/功能。

  • Databricks
  • Apache Iceberg
  • Snowflake

數(shù)據(jù)網(wǎng)格

Data Mesh 聽起來(lái)有點(diǎn)抽象,那到底是什么呢?

Data Mesh 是設(shè)計(jì)和操作分布式數(shù)據(jù)架構(gòu)的一種相對(duì)較新的方法。它基于這樣一種理念,即數(shù)據(jù)應(yīng)被視為產(chǎn)品并作為跨多個(gè)部門的分布式自助服務(wù)系統(tǒng)進(jìn)行管理,而不是作為集中式 IT 功能進(jìn)行管理。

在數(shù)據(jù)網(wǎng)格架構(gòu)中,數(shù)據(jù)被組織成特定領(lǐng)域的數(shù)據(jù)集,這些數(shù)據(jù)集由最接近數(shù)據(jù)的團(tuán)隊(duì)擁有和管理。這些團(tuán)隊(duì)負(fù)責(zé)他們管理的數(shù)據(jù)的質(zhì)量、治理和安全性。數(shù)據(jù)被視為商品,數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費(fèi)者之間有明確的合同。

該架構(gòu)旨在支持團(tuán)隊(duì)的可擴(kuò)展性、靈活性和自主性。它鼓勵(lì)使用數(shù)據(jù)標(biāo)準(zhǔn)、API 和定義明確的合同,以便跨多個(gè)域輕松安全地訪問(wèn)數(shù)據(jù)。

Data Mesh 是對(duì)傳統(tǒng)集中式數(shù)據(jù)架構(gòu)緩慢、僵化和難以擴(kuò)展的局限性的回應(yīng)。通過(guò)分散數(shù)據(jù)管理,Data Mesh 的目標(biāo)是擴(kuò)大數(shù)據(jù)民主化、加速創(chuàng)新并提高數(shù)據(jù)的整體質(zhì)量。

整個(gè) 2022 年,我們一直在聽說(shuō)數(shù)據(jù)網(wǎng)格架構(gòu),似乎每個(gè)現(xiàn)代數(shù)據(jù)公司都在討論并計(jì)劃實(shí)施它們。但這并不容易。

Data Mesh 不僅僅是一種架構(gòu)變化,它是一種組織協(xié)作,它需要轉(zhuǎn)變關(guān)于誰(shuí)擁有和管理數(shù)據(jù)以及如何擁有和管理數(shù)據(jù)的思維方式,因此 Data Mesh 的成功將取決于維護(hù)和運(yùn)營(yíng)管理的系統(tǒng)的程度.

Data Mesh 建立在四個(gè)關(guān)鍵基礎(chǔ)之上。

領(lǐng)域所有權(quán)——領(lǐng)域團(tuán)隊(duì)對(duì)自己的數(shù)據(jù)負(fù)責(zé)。

數(shù)據(jù)作為一種產(chǎn)品——領(lǐng)域團(tuán)隊(duì)?wèi)?yīng)該將他們的數(shù)據(jù)視為一種產(chǎn)品,并將其提供給其他領(lǐng)域或下游消費(fèi)者。

自助數(shù)據(jù)基礎(chǔ)架構(gòu)——一個(gè)專門的團(tuán)隊(duì)來(lái)管理數(shù)據(jù)平臺(tái)并使領(lǐng)域團(tuán)隊(duì)能夠?qū)⑵溆糜谒麄兊挠美?/p>

聯(lián)合治理——跨域標(biāo)準(zhǔn)化數(shù)據(jù)產(chǎn)品,使它們更易于管理、共享并遵守行業(yè)和監(jiān)管標(biāo)準(zhǔn)。

數(shù)據(jù)治理

數(shù)據(jù)治理是一個(gè)需要討論和理解的廣泛話題。數(shù)據(jù)治理包含許多不同的方式,可以更好地管理數(shù)據(jù)。

以下是對(duì)數(shù)據(jù)治理的簡(jiǎn)要說(shuō)明數(shù)據(jù)治理是一組政策、程序和控制措施,用于管理組織如何收集、存儲(chǔ)、管理和使用其數(shù)據(jù)資產(chǎn)。這包括定義和執(zhí)行與數(shù)據(jù)相關(guān)的標(biāo)準(zhǔn)、確保數(shù)據(jù)質(zhì)量和準(zhǔn)確性、管理數(shù)據(jù)安全和隱私,以及確保遵守法規(guī)要求。

數(shù)據(jù)治理提供了一個(gè)框架,用于將數(shù)據(jù)作為戰(zhàn)略資產(chǎn)進(jìn)行管理,確保數(shù)據(jù)可靠、一致、及時(shí)并且可供合適的人員訪問(wèn)。這使組織能夠降低與數(shù)據(jù)泄露、違規(guī)和聲譽(yù)損害相關(guān)的風(fēng)險(xiǎn)。

數(shù)據(jù)治理還可以通過(guò)清楚地了解哪些數(shù)據(jù)可用、數(shù)據(jù)的結(jié)構(gòu)以及如何用于支持業(yè)務(wù)目標(biāo)來(lái)幫助組織優(yōu)化其數(shù)據(jù)資產(chǎn)并改進(jìn)決策。

數(shù)據(jù)治理的一些步驟包括:

  • 數(shù)據(jù)質(zhì)量——驗(yàn)證和改進(jìn)
  • 元數(shù)據(jù)管理和數(shù)據(jù)發(fā)現(xiàn)
  • 數(shù)據(jù)審計(jì)和數(shù)據(jù)沿襲
  • 訪問(wèn)控制和安全數(shù)據(jù)共享
  • 主數(shù)據(jù)管理定期審查流程
  • 實(shí)時(shí)處理/流媒體

傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)在一天結(jié)束時(shí) (EoD) 或一天開始時(shí) (SoD) 以批處理的方式進(jìn)行填充。BI 用戶很高興他們每天可以看到一次他們的準(zhǔn)確和完整的數(shù)據(jù)。但時(shí)代變了,現(xiàn)在的決策更加實(shí)時(shí)。一個(gè)典型的例子是股票市場(chǎng)。

我們現(xiàn)在需要有關(guān)信用卡欺詐或未經(jīng)授權(quán)訪問(wèn)的即時(shí)警報(bào)。我們還需要實(shí)時(shí)電影推薦或閃購(gòu)提醒,以便快速做出決策。以下是幾個(gè)示例:

  • 金融服務(wù):實(shí)時(shí)處理用于監(jiān)控股市數(shù)據(jù)并實(shí)時(shí)識(shí)別交易機(jī)會(huì)。它還用于欺詐檢測(cè)和風(fēng)險(xiǎn)管理,其中需要快速處理和分析數(shù)據(jù)以防止欺詐活動(dòng)。
  • 電子商務(wù):電子商務(wù)中使用實(shí)時(shí)處理來(lái)跟蹤客戶行為,例如搜索查詢、點(diǎn)擊和購(gòu)買,以及實(shí)時(shí)個(gè)性化產(chǎn)品推薦和促銷。
  • 醫(yī)療保健:實(shí)時(shí)處理用于監(jiān)測(cè)患者數(shù)據(jù),包括生命體征和病史,以識(shí)別潛在的健康問(wèn)題并提供及時(shí)的醫(yī)療干預(yù)。
  • 電信:電信中使用實(shí)時(shí)處理來(lái)監(jiān)控網(wǎng)絡(luò)流量并檢測(cè)和防止網(wǎng)絡(luò)中斷或故障。
  • 交通:實(shí)時(shí)處理用于交通監(jiān)控交通狀況,優(yōu)化路線,提高交通網(wǎng)絡(luò)的整體效率。

隨著世界向更多實(shí)時(shí)用例發(fā)展,對(duì)實(shí)施可支持這些流分析的架構(gòu)的需求將越來(lái)越大。2023 年,許多組織將開始致力于支持流式處理、近實(shí)時(shí)或微批處理用例。

數(shù)據(jù)架構(gòu)和數(shù)據(jù)建模

這些是實(shí)現(xiàn)數(shù)據(jù)平臺(tái)的構(gòu)建塊。從長(zhǎng)遠(yuǎn)來(lái)看,擁有正確的架構(gòu)藍(lán)圖和適當(dāng)?shù)臄?shù)據(jù)存儲(chǔ)建模策略可以幫助企業(yè)更好的管理數(shù)據(jù)。

隨著 Hadoop 的興起,數(shù)據(jù)建模已經(jīng)退居二線。各種形狀和形式的數(shù)據(jù)在沒(méi)有任何建模指導(dǎo)的情況下被發(fā)送到數(shù)據(jù)湖。結(jié)果是數(shù)據(jù)沼澤很快變得很難發(fā)現(xiàn)和使用。

自去年以來(lái),我聽過(guò)許多行業(yè)專家談?wù)撨m當(dāng)架構(gòu)和建模的必要性。數(shù)據(jù)建模師又回來(lái)了,現(xiàn)在公司似乎希望使用最合適的建模方法將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)中:維度模型或數(shù)據(jù)存儲(chǔ)。這絕對(duì)是構(gòu)建數(shù)據(jù)平臺(tái)的一個(gè)重要方面。