資訊詳情

如何構建六層大數(shù)據(jù)堆棧架構

2023-11-10 09:29:184636

面對大數(shù)據(jù)挑戰(zhàn)而擴展其傳統(tǒng)基礎設施的企業(yè)應考慮使用專門構建的軟件產(chǎn)品和服務來構建大數(shù)據(jù)堆棧架構。

大數(shù)據(jù)堆棧是一套互補的軟件技術，用于管理和分析對于傳統(tǒng)技術來說太大或太復雜的數(shù)據(jù)集。大數(shù)據(jù)堆棧技術——最常用于分析——是專門為應對數(shù)據(jù)大小、速度和種類的增長而設計的。大數(shù)據(jù)產(chǎn)品和服務通常用于管理數(shù)據(jù)管道中的數(shù)據(jù)，以提供及時高效的業(yè)務洞察。

企業(yè)可以考慮幾個流行的大數(shù)據(jù)堆棧，每個堆棧都有一套技術和開源替代方案，無論他們是選擇套裝堆棧還是構建自己的堆棧，大數(shù)據(jù)堆棧都已成為現(xiàn)代數(shù)據(jù)架構的主要組成部分。

大數(shù)據(jù)面臨的挑戰(zhàn)

大數(shù)據(jù)通常被描述為規(guī)模和復雜性，這帶來了獨特的挑戰(zhàn)，稱為三個V：

數(shù)據(jù)量-人和機器生成的數(shù)據(jù)量，通常，機器生成的數(shù)據(jù)(例如傳感器數(shù)據(jù))量遠遠大于人類生成的交易數(shù)據(jù)，海量的靜態(tài)和動態(tài)數(shù)據(jù)給企業(yè)帶來了挑戰(zhàn)。

速度-數(shù)據(jù)的速率，機器生成的數(shù)據(jù)通常比人類生成的數(shù)據(jù)產(chǎn)生的頻率更高，挑戰(zhàn)在于企業(yè)收集和處理數(shù)據(jù)的巨大速度，尤其是在實時流架構中。

多種多樣-數(shù)據(jù)的多樣性，數(shù)據(jù)采用的三種主要形式包括結構化、半結構化和非結構化。各種各樣的結構不同的數(shù)據(jù)——通常需要不同的方法——帶來了新的挑戰(zhàn)。

傳統(tǒng)軟件技術無法處理的三種情況中的任何一種都被認為是大數(shù)據(jù)。

大數(shù)據(jù)堆棧的架構層

要應對大數(shù)據(jù)的挑戰(zhàn)，企業(yè)必須將目光投向傳統(tǒng)數(shù)據(jù)處理基礎設施以外的領域，求助的一個領域是特殊用途的大數(shù)據(jù)軟件技術，當配合使用時，大數(shù)據(jù)技術可以克服大數(shù)據(jù)面臨的挑戰(zhàn)。

以下6層是成功的大數(shù)據(jù)堆棧架構的關鍵：

1、收集

大數(shù)據(jù)堆棧架構的第一步是數(shù)據(jù)收集。數(shù)據(jù)采集可以從各種內部和外部數(shù)據(jù)源進行推送或拉取。數(shù)據(jù)源的一些示例包括交易系統(tǒng)、物聯(lián)網(wǎng)設備、社交媒體和靜態(tài)日志文件。

大數(shù)據(jù)攝取軟件處理大型靜態(tài)數(shù)據(jù)集、小型實時數(shù)據(jù)集以及每個數(shù)據(jù)集的各種數(shù)據(jù)格式。大的數(shù)據(jù)集到達得很慢，小的數(shù)據(jù)集到達得很快。將模式和質量驗證推遲到管道中的更遠有助于更高的吞吐量。

2、儲存

一旦收集，原始數(shù)據(jù)通常以文件的形式存儲在數(shù)據(jù)湖中，該數(shù)據(jù)湖針對將數(shù)據(jù)輸入分析管道進行了優(yōu)化。原生格式存儲庫既是批量數(shù)據(jù)的著陸區(qū)，也是時間敏感型探索性查詢的沙盒。

大數(shù)據(jù)存儲軟件存儲各種格式的大文件和小文件，通常采用對象存儲等分布式文件系統(tǒng)的形式。非瞬時數(shù)據(jù)可以在較長的保留期內持續(xù)存在，并且需要在數(shù)據(jù)的整個生命周期中使用自動分層的軟件。

3、處理

處理包括準備靜態(tài)的批量數(shù)據(jù)集和流動的動態(tài)數(shù)據(jù)以供分析。數(shù)據(jù)管理可以包括清理、整合、豐富、集成、過濾、聚合和以其他方式準備用于分析的數(shù)據(jù)。

大數(shù)據(jù)處理軟件運行在大批量數(shù)據(jù)上，延遲更高，計算更復雜，需要長時間運行的高效率計算。使用分布式處理軟件對較小的分區(qū)數(shù)據(jù)片段進行操作可以實現(xiàn)這一點。

大數(shù)據(jù)處理軟件也可以處理高速的流數(shù)據(jù)，延遲更低，計算相對簡單。流數(shù)據(jù)處理需要通過持續(xù)可用的流服務實現(xiàn)有保證的耐用性、訂購和交付。

通過軟件并行性、就地處理和讀取時架構實現(xiàn)批處理和流性能。關鍵的大數(shù)據(jù)堆棧策略包括將數(shù)據(jù)和處理劃分為同時執(zhí)行的小單元，以及在分析存儲加載期間最大限度地減少模式驗證。

4、提煉

分析數(shù)據(jù)存儲處理或提煉數(shù)據(jù)以供分析。數(shù)據(jù)存儲的示例包括基于SQL的多維數(shù)據(jù)倉庫、NoSQL技術和具有抽象層的分布式數(shù)據(jù)存儲，該抽象層用于通過接口訪問各種數(shù)據(jù)類型。

大數(shù)據(jù)分析商店支持多種存儲方法和技術，稱為多語言持久性。專用單一模型數(shù)據(jù)庫通過優(yōu)化數(shù)據(jù)存儲和處理特定數(shù)據(jù)類型來提供性能和可擴展性?；静呗园〝?shù)據(jù)處理、并行執(zhí)行和數(shù)據(jù)分區(qū)。

5、分析

分析檢查分析數(shù)據(jù)存儲和原始存儲，處于交互環(huán)境中的人類用戶使用BI工具通過可視化獲得洞察力，先進的分析工具處理數(shù)據(jù)以提取情報，機器學習使用人工智能直接處理數(shù)據(jù)來自我學習。

大數(shù)據(jù)分析軟件處理從簡單的即席查詢到復雜的預測分析和機器學習操作的查詢。用戶范圍包括臨時分析師、數(shù)據(jù)科學家和機器。由于數(shù)據(jù)通常是分散的，就地分析是必不可少的，因此軟件應該通過數(shù)據(jù)交換矩陣的虛擬化向用戶呈現(xiàn)數(shù)據(jù)生態(tài)系統(tǒng)的統(tǒng)一視圖。

6、編排

大數(shù)據(jù)堆棧通常使用工作流技術來管理源數(shù)據(jù)收集、原始數(shù)據(jù)存儲和數(shù)據(jù)處理等數(shù)據(jù)操作，運營還包括將精煉數(shù)據(jù)移動到分析數(shù)據(jù)存儲，以及將洞察力直接推送到商業(yè)智能應用程序，如報告和儀表板。

大數(shù)據(jù)協(xié)調軟件可自動化數(shù)據(jù)管道，從而最大限度地減少延遲并縮短實現(xiàn)價值的時間。工作流軟件提供了易于使用的管理界面和架構組件之間的無縫集成。

選擇大數(shù)據(jù)堆棧

在選擇大數(shù)據(jù)技術或堆棧之前，企業(yè)應量化其當前和未來的數(shù)據(jù)挑戰(zhàn)，了解傳統(tǒng)軟件的局限性，并注意大數(shù)據(jù)行業(yè)趨勢。他們應該定期重新評估自己的評估，因為大數(shù)據(jù)和技術演變是不斷變化的目標。

重要的是要確保技術選擇是模塊化的和松散耦合的，以允許即插即用策略中的更改，而對其他堆棧軟件的影響最小或沒有影響。專注于專門為解決體系結構中的獨特挑戰(zhàn)而設計的軟件，而不是多用途軟件。

數(shù)據(jù)驅動型企業(yè)了解處理大數(shù)據(jù)是一項核心能力。專用大數(shù)據(jù)軟件可以應對規(guī)模性和復雜性的數(shù)據(jù)挑戰(zhàn)。與傳統(tǒng)數(shù)據(jù)軟件一起，大數(shù)據(jù)堆棧有助于管理數(shù)據(jù)并提供及時的業(yè)務洞察。