大數(shù)據(jù)分析的理解和探索
如今,云計(jì)算的熱潮似乎還沒散去,行業(yè)廠商就已經(jīng)開始關(guān)注下一個(gè)熱點(diǎn):大數(shù)據(jù)。而與以往的炒作周期一樣,現(xiàn)在的大數(shù)據(jù)對(duì)于用戶來(lái)說(shuō)其來(lái)源比較混亂,因?yàn)楣?yīng)商提出了自己獨(dú)特的,并且經(jīng)常相互矛盾的定義和術(shù)語(yǔ)。
大數(shù)據(jù)定議之所以混亂的最常見的原因,是人們將大數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)分析的結(jié)果混為一談。“大數(shù)據(jù)”一詞起源于開源社區(qū),其開發(fā)和分析過(guò)程比傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)速度更快,擴(kuò)展性更強(qiáng),并且可以通過(guò)網(wǎng)絡(luò)在用戶每天產(chǎn)生的大量非結(jié)構(gòu)化數(shù)據(jù)中提取價(jià)值。
大數(shù)據(jù)的存儲(chǔ)是相關(guān)的,其旨在解決大量的非結(jié)構(gòu)化數(shù)據(jù),助長(zhǎng)企業(yè)級(jí)的數(shù)據(jù)增長(zhǎng)。而擴(kuò)展NAS和對(duì)象存儲(chǔ)這些技術(shù)支撐大數(shù)據(jù)存儲(chǔ),已經(jīng)存在了多年,并且人們對(duì)此有著充分的了解。
在一個(gè)非常簡(jiǎn)單的層面上,大數(shù)據(jù)存儲(chǔ)無(wú)非是存儲(chǔ)用于產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序處理的大量數(shù)據(jù)。這包括高清晰度視頻流,油氣勘探,基因組學(xué)等數(shù)據(jù)。
一個(gè)大型存儲(chǔ)廠商的一位營(yíng)銷高管表示,其公司正在考慮將“海量數(shù)據(jù)”作為其大數(shù)據(jù)存儲(chǔ)條目的名稱。
大數(shù)據(jù)分析是比較緊急的和多方面的,但I(xiàn)T人員對(duì)其理解較少。大數(shù)據(jù)分析發(fā)展過(guò)程在歷史上一直受到網(wǎng)絡(luò)的推動(dòng)。然而,大數(shù)據(jù)分析的應(yīng)用程序正在發(fā)生在所有主要垂直行業(yè)領(lǐng)域,現(xiàn)在的快速增長(zhǎng)是一個(gè)增長(zhǎng)的機(jī)會(huì),值得所有供應(yīng)商進(jìn)行炒作。
大數(shù)據(jù)分析是快速增長(zhǎng)的多樣化的區(qū)域。因此,試圖確定它有什么用可能是無(wú)益的。但是,可以識(shí)別和鑒定大數(shù)據(jù)分析的技術(shù)特征和共同點(diǎn)。這些包括:
•在可擴(kuò)展性方面,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)處理速度太慢,而且有限制;
•融合來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)的能力,其中包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù);
•從數(shù)據(jù)來(lái)源獲取信息是至關(guān)重要的,其中包括越來(lái)越多的移動(dòng)設(shè)備、無(wú)線射頻識(shí)別技術(shù)、網(wǎng)絡(luò),以及自動(dòng)化技術(shù)。
此外,在多樣性大數(shù)據(jù)分析中可以找到至少四個(gè)主要發(fā)展片段。這些片段是MapReduce,可擴(kuò)展的數(shù)據(jù)庫(kù),實(shí)時(shí)流處理和大數(shù)據(jù)應(yīng)用。
(1)MapReduce
ApacheHadoop是MapReduce段開始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件,描述了一種用于并行網(wǎng)絡(luò)的數(shù)據(jù)處理稱為MapReduce的概念。此后不久,ApacheHadoop的誕生成為一個(gè)開源實(shí)現(xiàn)MapReduce的過(guò)程。周圍的社區(qū)正在快速成長(zhǎng),生產(chǎn)加載項(xiàng)擴(kuò)展了企業(yè)數(shù)據(jù)中心內(nèi)的ApacheHadoop的可用性。
Apache的Hadoop的用戶通常在商用服務(wù)器建立自己的并行計(jì)算集群,各有專門存儲(chǔ)在一個(gè)小型磁盤陣列的形式,最近,也開始采用固態(tài)硬盤(SSD)的形式。這些通常被稱為“無(wú)共享”架構(gòu)。而存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)和網(wǎng)絡(luò)附加存儲(chǔ)(NAS)的可擴(kuò)展性和彈性,通常被視為缺乏I/O性能,這些集群需要超越標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)的能力。因此,Hadoop的存儲(chǔ)是直接連接存儲(chǔ)(DAS)。然而,使用SAN和NAS的“二次”存儲(chǔ)正在成為新興的形式。
一個(gè)潛在的Hadoop用戶面臨的采購(gòu)選擇,從單純的開源到高度商業(yè)化的版本,其范圍內(nèi)越來(lái)越廣泛。Apache的Hadoop和相關(guān)的工具都可以免費(fèi)在ApacheHadoop的網(wǎng)站下載。Cloudera的公司提供了一個(gè)商業(yè)版本,其中包括一些Cloudera的插件和支持。其他開放源代碼的變種,如Facebook的distribution,也可以從Cloudera公司獲得。其商業(yè)版本包括MAPR,EMC公司現(xiàn)在將其合并成一個(gè)Hadoop應(yīng)用。
(2)可擴(kuò)展的數(shù)據(jù)庫(kù)
而Hadoop已經(jīng)攫取了大部分的頭條新聞,因?yàn)樗跀?shù)據(jù)倉(cāng)庫(kù)環(huán)境下具有非結(jié)構(gòu)化數(shù)據(jù)的處理能力,更有向大數(shù)據(jù)分析的發(fā)展空間。
結(jié)構(gòu)化數(shù)據(jù)也得到了大量的關(guān)注。一個(gè)充滿活力和快速增長(zhǎng)的社區(qū)圍繞NoSQL,這是一個(gè)開源的、非關(guān)系型、分布和橫向擴(kuò)展的數(shù)據(jù)庫(kù)集合的結(jié)構(gòu),可以滿足網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)庫(kù)設(shè)計(jì)的高流量的網(wǎng)站和流媒體的需要。面向文檔的實(shí)現(xiàn)包括MongoDB(如“humongous”DB)和Terrastore。
開源社區(qū)所產(chǎn)生的另一種面向分析的數(shù)據(jù)庫(kù)是正在開發(fā)使用的scidb,包括環(huán)境觀測(cè)和監(jiān)測(cè),射電天文學(xué)和地震,等等。
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商并沒有袖手旁觀。甲骨文公司正在打造其“下一代”大數(shù)據(jù)平臺(tái),將利用其分析平臺(tái)和內(nèi)存計(jì)算的實(shí)時(shí)信息傳遞。Teradata公司最近收購(gòu)了ASTER數(shù)據(jù)系統(tǒng)公司,將ASTER數(shù)據(jù)的SQLMapReduce添加到其產(chǎn)品組合中。
(3)實(shí)時(shí)流處理
對(duì)于多個(gè)數(shù)據(jù)流進(jìn)行實(shí)時(shí)分析的StreamSQL從2003年開始使用,然而到現(xiàn)在為止,StreamSQL只能夠滲透到一些比較小的小眾市場(chǎng),如金融服務(wù),監(jiān)視和通信網(wǎng)絡(luò)監(jiān)控等領(lǐng)域。而隨著行業(yè)廠商和用戶對(duì)大數(shù)據(jù)的興趣不斷增長(zhǎng),StreamSQL勢(shì)必會(huì)得到更多的關(guān)注和尋找更多的市場(chǎng)機(jī)會(huì)。
Streamsql是生長(zhǎng)計(jì)算研究的一個(gè)區(qū)域稱為復(fù)雜事件處理(CEP),對(duì)真實(shí)世界的事件數(shù)據(jù)的低延遲處理技術(shù)。無(wú)論是IBM,還是InfoSphereStreams公司,以及StreamBase系統(tǒng)公司的產(chǎn)品都在這個(gè)領(lǐng)域中。
(4)大數(shù)據(jù)應(yīng)用
作為大數(shù)據(jù)分析的興趣擴(kuò)展到企業(yè)數(shù)據(jù)中心,供應(yīng)商群體看到了一個(gè)機(jī)會(huì),把一起大數(shù)據(jù)“家電”。這些設(shè)備的服務(wù)器,網(wǎng)絡(luò)和存儲(chǔ)設(shè)備集成到加速信息傳遞到一個(gè)機(jī)箱和運(yùn)行分析軟件用戶。這些設(shè)備針對(duì)企業(yè)買家都會(huì)看重大數(shù)據(jù)設(shè)備易用性和價(jià)值,以及其固有的實(shí)施和使用的特點(diǎn)而推出的。圍繞Greenplum數(shù)據(jù)庫(kù)引擎這個(gè)領(lǐng)域的廠商,其中包括EMC公司,IBM和Netezza公司,MAPR公司最近推出了Hadoop商業(yè)化版本,預(yù)集成系統(tǒng),內(nèi)置設(shè)備,可與甲骨文和Teradata公司的版本相媲美。
大數(shù)據(jù)分析的大數(shù)據(jù)存儲(chǔ)
大數(shù)據(jù)分析過(guò)程的從業(yè)人員一般都不喜歡共享存儲(chǔ)。他們喜歡DAS的各種形式,從SSD到其內(nèi)部并行處理節(jié)點(diǎn)的高容量的SATA硬盤。共享存儲(chǔ)體系結(jié)構(gòu),如SAN和NAS,通常被認(rèn)為是相對(duì)緩慢的復(fù)雜的,首先,是其價(jià)格昂貴。這些特點(diǎn)都不選用于大數(shù)據(jù)分析系統(tǒng)的系統(tǒng)性能,不能滿足商品基礎(chǔ)設(shè)施的低成本的蓬勃發(fā)展。
實(shí)時(shí)或接近實(shí)時(shí)信息傳遞是大數(shù)據(jù)分析的定義特征之一,因此,延遲是可以避免的,無(wú)論何時(shí)何地。在內(nèi)存中的數(shù)據(jù)是良好的,至少比采用光纖傳輸?shù)綑C(jī)械式硬盤要好,但也許比其他任何事情都更加糟糕,SAN在規(guī)模需要分析應(yīng)用的成本讓人望而卻步。
在大數(shù)據(jù)分析中,有一個(gè)共享存儲(chǔ)的案例。然而,存儲(chǔ)廠商和一般的存儲(chǔ)社區(qū)還沒有成為大數(shù)據(jù)分析的實(shí)踐者。這個(gè)例子可以在ParAccel的分析數(shù)據(jù)庫(kù)(PADB)與NetAppSAN存儲(chǔ)中看到。
數(shù)據(jù)存儲(chǔ)技術(shù)的開發(fā)人員表示將存儲(chǔ)看作從物理設(shè)備遷移到一個(gè)更虛擬和抽象的實(shí)體的實(shí)現(xiàn)。其結(jié)果是,共享存儲(chǔ)環(huán)境可以并且應(yīng)該被大數(shù)據(jù)從業(yè)者視為他們可以找到潛在有價(jià)值的數(shù)據(jù)服務(wù),如:
(1)數(shù)據(jù)保護(hù)和系統(tǒng)可用性:基于存儲(chǔ)的復(fù)制功能可以不需要數(shù)據(jù)庫(kù)創(chuàng)建數(shù)據(jù)副本,當(dāng)系統(tǒng)故障和數(shù)據(jù)損壞事件發(fā)生時(shí),重新啟動(dòng)可以恢復(fù)系統(tǒng)。
(2)縮短部署新應(yīng)用程序和自動(dòng)化流程的時(shí)間:通過(guò)可重復(fù)使用的數(shù)據(jù)副本,當(dāng)新的應(yīng)用程序都可以在網(wǎng)上迅速被建立,提高業(yè)務(wù)靈活性。
(3)變更管理:共享存儲(chǔ)可以幫助保持一個(gè)“永遠(yuǎn)在線”的能力,可能減少所需的改變和升級(jí),以及對(duì)在線生產(chǎn)環(huán)境的影響。
(4)生命周期管理:當(dāng)共享存儲(chǔ)可以作為記錄的數(shù)據(jù)庫(kù)時(shí),系統(tǒng)的演化變得更加容易管理,并且那些已經(jīng)廢棄的應(yīng)用變得更加容易丟棄。
(5)節(jié)約成本:使用共享存儲(chǔ)作為一個(gè)無(wú)共享架構(gòu),可以輔助DAS降低成本和處理器節(jié)點(diǎn)的復(fù)雜性。
以上提到的好處每個(gè)人都可以被映射到無(wú)共享架構(gòu)的分析。我們可以期望看到更多的存儲(chǔ)廠商這樣做一段時(shí)間。例如,雖然尚未公布,EMC公司可以憑借其基于MAPR設(shè)備整合Isilon或Atmos公司的存儲(chǔ)。
大數(shù)據(jù)是一個(gè)大問(wèn)題
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)大而相對(duì)較慢的生產(chǎn)商信息的業(yè)務(wù)分析。它從有限的數(shù)據(jù)資源,并依賴于反復(fù)的提取、轉(zhuǎn)換和加載(ETL)過(guò)程??蛻粼诳焖賹ふ耀@取信息的基礎(chǔ)上,從多個(gè)數(shù)據(jù)源同時(shí)淘汰掘金。大數(shù)據(jù)分析可以被定義,在一定程度上,需要從多個(gè)數(shù)據(jù)源解析大數(shù)據(jù)集,并產(chǎn)生實(shí)時(shí)或接近實(shí)時(shí)的信息。
大數(shù)據(jù)分析代表了一個(gè)巨大的機(jī)會(huì)。IT組織都在探索上述來(lái)自社交網(wǎng)絡(luò)的繁榮,解析基于網(wǎng)絡(luò)的數(shù)據(jù)源和提取價(jià)值分析技術(shù)。然而,現(xiàn)在有了一個(gè)更大的機(jī)會(huì),那就是物聯(lián)網(wǎng)成為了一種新興的數(shù)據(jù)源。思科系統(tǒng)公司估計(jì)全球目前約有350億個(gè)可以連接到互聯(lián)網(wǎng)的電子設(shè)備。任何電子設(shè)備可以(有線或無(wú)線)連接到互聯(lián)網(wǎng),甚至汽車制造商正在建設(shè)連接到車輛的互聯(lián)網(wǎng)。“連接的”汽車將在2020年成為司空見慣的事情,并產(chǎn)生數(shù)以百萬(wàn)計(jì)的瞬態(tài)數(shù)據(jù)流。
理解大數(shù)據(jù)分析
利用多個(gè)數(shù)據(jù)源,如物聯(lián)網(wǎng)的力量將會(huì)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。這將需要模仿人類大腦功能的過(guò)程。我們的大腦需要大量的感官數(shù)據(jù)流,并創(chuàng)建必要的相關(guān)關(guān)系,讓我們知道我們?cè)谀睦?,我們?cè)谧鍪裁?,最終我們?cè)谙胧裁?,所有這些都是實(shí)時(shí)的。
- 上一篇
重新思考淘汰和替換:中間件和數(shù)字化轉(zhuǎn)型
隨著 DX 領(lǐng)域的不斷發(fā)展,新的方法和技術(shù)不斷涌現(xiàn),例如人工智能 (AI)、機(jī)器學(xué)習(xí) (ML)、開發(fā)、安全和運(yùn)營(yíng) (DevSecOps)、自動(dòng)化和低代碼解決方案。
- 下一篇
大數(shù)據(jù)和物聯(lián)網(wǎng)之間的關(guān)系以及如何互相幫助
大數(shù)據(jù)和物聯(lián)網(wǎng)(IoT)有時(shí)被有些人混淆,特別是因?yàn)樗鼈兘?jīng)常被放在一起討論。但實(shí)際上,它們代表著兩個(gè)截然不同的技術(shù)領(lǐng)域,而且經(jīng)常重疊。