工欲善事,必先利器:數(shù)字經(jīng)濟(jì)下的大數(shù)據(jù)“技術(shù)觀”
眾所周知,任何社會(huì)發(fā)展的潮流和趨勢(shì),背后都有一系列綜合因素共同驅(qū)動(dòng),那么對(duì)于數(shù)字經(jīng)濟(jì)的發(fā)展也是一樣。
我們要關(guān)注驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵技術(shù)因素,或者說,影響社會(huì)發(fā)展大方向的底層“慢變量”到底是什么,其中從數(shù)據(jù)科學(xué)發(fā)展角度,最重要的“慢變量”就是大數(shù)據(jù)技術(shù)的成熟和普及。
大數(shù)據(jù)技術(shù)的發(fā)展,改變了傳統(tǒng)的數(shù)據(jù)分析方法和人們對(duì)數(shù)據(jù)的使用方式,同時(shí),也改變了在信息化、數(shù)字化產(chǎn)業(yè)實(shí)踐中,如何存儲(chǔ)、管理、傳輸、搜索、分析、觀察等一系列數(shù)據(jù)相關(guān)技術(shù)活動(dòng)的基本模式和評(píng)價(jià)方式。
大數(shù)據(jù)技術(shù),讓數(shù)據(jù)分析真正從“實(shí)驗(yàn)室環(huán)境”走向“生產(chǎn)環(huán)境和商業(yè)環(huán)境”,讓數(shù)據(jù)分析的本質(zhì)從“算法理論”轉(zhuǎn)化為“算法工程”。
1.傳統(tǒng)的數(shù)據(jù)分析方法為何已不能滿足數(shù)字經(jīng)濟(jì)時(shí)代的現(xiàn)實(shí)業(yè)務(wù)需求
數(shù)字經(jīng)濟(jì)之所以快速發(fā)展,首先要?dú)w功于人們對(duì)數(shù)據(jù)分析處理能力的快速提升。自從2003年Google提出了分布式的數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)架構(gòu),大數(shù)據(jù)技術(shù)得到快速的發(fā)展和崛起。
無論是在軟件方面、硬件方面,還是在關(guān)于數(shù)據(jù)處理的技術(shù)方面,都出現(xiàn)了越來越多的創(chuàng)新形態(tài),揭示著人們?cè)跀?shù)據(jù)處理能力的邊界得到了史無前例的拓展。
可以說,在以數(shù)據(jù)為基本對(duì)象的技術(shù)實(shí)踐上,從傳統(tǒng)的實(shí)驗(yàn)室環(huán)境,真正走向了現(xiàn)實(shí)業(yè)務(wù)的實(shí)戰(zhàn)環(huán)境。數(shù)據(jù)不是為了驗(yàn)證某個(gè)科學(xué)理論,而是為了帶來業(yè)務(wù)啟發(fā),提供智能決策能力,最終完成從數(shù)據(jù)要素到經(jīng)濟(jì)價(jià)值的完整過程轉(zhuǎn)換。
為了突出說明大數(shù)據(jù)技術(shù)的重要性,還是要先回到傳統(tǒng)的數(shù)據(jù)分析方法,了解傳統(tǒng)方法的特征和局限性。
在傳統(tǒng)的數(shù)據(jù)分析場(chǎng)景,數(shù)據(jù)是干凈、純粹、任務(wù)相關(guān)的,甚至是統(tǒng)計(jì)分布客觀均勻的。比如要分析小麥作物與光照強(qiáng)度的相關(guān)性,那么會(huì)嚴(yán)格控制實(shí)驗(yàn)環(huán)境中溫度、濕度、微生物指標(biāo)等諸多物理參數(shù),接著只要收集足夠量的數(shù)據(jù)樣本,就可以進(jìn)行非常有效的數(shù)據(jù)分析。
上述這些數(shù)據(jù)都是在嚴(yán)格控制的環(huán)境下產(chǎn)生的,因此數(shù)據(jù)與目標(biāo)問題的相關(guān)性非常強(qiáng),通過有意“挑選”出來的數(shù)據(jù)對(duì)象可以很好地解釋人們關(guān)心的問題,提供令人滿意的解決方案。
因此,在傳統(tǒng)通過數(shù)據(jù)分析場(chǎng)景中,數(shù)據(jù)量通常不需要太大,往往幾十條、幾百條就能支持業(yè)務(wù)分析應(yīng)用。
人們此時(shí)可以把更多精力關(guān)注到數(shù)學(xué)模型的客觀性、嚴(yán)謹(jǐn)性,以及可解釋性。
對(duì)于傳統(tǒng)的數(shù)據(jù)分析,常用的方法主要包括回歸分析、統(tǒng)計(jì)推斷、指標(biāo)分析、傳統(tǒng)機(jī)器學(xué)習(xí)、概率圖模型等,這些模型要求變量的挑選以及變量之間的關(guān)系都設(shè)計(jì)精良,只有這樣,才能充分發(fā)揮出這些數(shù)據(jù)的本源價(jià)值。
然而,傳統(tǒng)的數(shù)據(jù)分析方法只適用于“實(shí)驗(yàn)室環(huán)境”的數(shù)據(jù)集,在真實(shí)世界中并沒有太多施展拳腳的機(jī)會(huì)。
在真實(shí)世界場(chǎng)景中,數(shù)據(jù)環(huán)境是大數(shù)據(jù)的環(huán)境,雖然數(shù)據(jù)夠多,但是數(shù)據(jù)質(zhì)量并不好,也就是所謂的數(shù)據(jù)看起來多,實(shí)際上少(看似有用的數(shù)據(jù)少)。
那么,這個(gè)質(zhì)量不好怎么理解呢?
其實(shí),這里講的就是所謂“著名的”大數(shù)據(jù)5V特征,即Volume(數(shù)據(jù)量大)、Velocity(數(shù)據(jù)高速產(chǎn)生)、Variety(數(shù)據(jù)形式多樣)、Value(價(jià)值密度低)、Veracity(真實(shí)性差)。
大數(shù)據(jù)概念不是被設(shè)計(jì)出來的,而是被發(fā)現(xiàn)出來的。5V不就是客觀世界中信息的最原始形態(tài)么?
數(shù)據(jù)本身是自然而然的狀態(tài),是按照最樸素的狀態(tài)產(chǎn)生出來的:數(shù)據(jù)量很大,也不一定干凈,有表格、文字、音頻、視頻、日志等不同格式,數(shù)據(jù)渠道來源不同,信息有真有假,內(nèi)容有實(shí)有虛。
2.人們需要一套應(yīng)付“非典型”數(shù)據(jù)問題的數(shù)據(jù)分析技術(shù)——大數(shù)據(jù)技術(shù)
大數(shù)據(jù)技術(shù)解決了兩方面的問題,一是效率的問題,二是質(zhì)量的問題,兩方面問題本身也是彼此相關(guān)的。
面對(duì)效率問題,大數(shù)據(jù)技術(shù)得益于底層軟硬件計(jì)算框架的能力發(fā)展,而面對(duì)質(zhì)量問題,大數(shù)據(jù)技術(shù)則依賴于數(shù)據(jù)科學(xué)算法的研究和創(chuàng)新。
在效率方面,大數(shù)據(jù)技術(shù)提供更高效的數(shù)據(jù)處理性能。
首先,是數(shù)據(jù)存儲(chǔ)。為了能夠?qū)Σ煌袷降臄?shù)據(jù)進(jìn)行靈活的存儲(chǔ)、讀寫、和管理,在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的基礎(chǔ)之上,又先后興起了NoSQL和NewSQL等非關(guān)系型數(shù)據(jù)庫(kù)。
非關(guān)系型數(shù)據(jù)庫(kù)可以對(duì)任意結(jié)構(gòu)的數(shù)據(jù)源進(jìn)行定義和存儲(chǔ),業(yè)務(wù)適用性更廣泛,很好地回應(yīng)了5V中Variety(多樣)的特征。
此外,由于大數(shù)據(jù)場(chǎng)景下數(shù)據(jù)規(guī)模巨大(Volume),需要構(gòu)建能夠存儲(chǔ)大規(guī)模數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)和文件管理系統(tǒng),于是相應(yīng)地就催生了分布式的數(shù)據(jù)存儲(chǔ)架構(gòu)。
該架構(gòu)可以在單臺(tái)機(jī)器存儲(chǔ)能力有限的情況下,用多臺(tái)機(jī)器組網(wǎng)構(gòu)成存儲(chǔ)節(jié)點(diǎn)集群,統(tǒng)一地存儲(chǔ)和管理海量的數(shù)據(jù)資源。
其次,是數(shù)據(jù)計(jì)算。針對(duì)給定的數(shù)據(jù)計(jì)算問題,大數(shù)據(jù)技術(shù)實(shí)現(xiàn)了編程和執(zhí)行策略的優(yōu)化設(shè)計(jì)。
比如,通過引入并行計(jì)算架構(gòu),以及該架構(gòu)下OpenMP、GPU、MPI等相應(yīng)的并行編程技術(shù),可以同時(shí)對(duì)多個(gè)近似的、單元化的計(jì)算任務(wù)進(jìn)行并行處理,提升芯片的整體利用率。
再有,通過引入分布式計(jì)算架構(gòu),把單個(gè)復(fù)雜的計(jì)算任務(wù)分配給多個(gè)單臺(tái)機(jī)器協(xié)同處理,發(fā)揮多個(gè)計(jì)算資源的整體性能。
另外,通過引入流式計(jì)算架構(gòu),可以有效地解決實(shí)時(shí)計(jì)算的問題(Velocity,高速),機(jī)器可以邊讀取、邊計(jì)算,讓數(shù)據(jù)處理系統(tǒng)快速地響應(yīng)外部業(yè)務(wù)環(huán)境的實(shí)時(shí)變化。
在質(zhì)量方面,大數(shù)據(jù)技術(shù)提供更先進(jìn)的數(shù)據(jù)分析能力。
考慮到大數(shù)據(jù)場(chǎng)景下數(shù)據(jù)質(zhì)量通常并不那么好,因此在數(shù)據(jù)分析方法的層面上也逐漸衍生出了新的技術(shù)解決思路。
在大數(shù)據(jù)的“技術(shù)觀念”下,會(huì)自然地“放松”算法模型在科學(xué)嚴(yán)謹(jǐn)性上的約束限制,同時(shí)更加強(qiáng)調(diào)其實(shí)用性價(jià)值。
人們更加關(guān)注數(shù)據(jù)之間的相關(guān)性,而非因果性,盡管這種相關(guān)性可能比較隱晦,或者難以解釋,但是確實(shí)能夠呈現(xiàn)出數(shù)據(jù)背后隱含的業(yè)務(wù)含義,并對(duì)日常應(yīng)用起到重要的定量決策支撐。
深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)可以說是大數(shù)據(jù)在算法方向最為重要的技術(shù)突破,其背后的想法是:只要數(shù)據(jù)規(guī)模足夠大,哪怕數(shù)據(jù)質(zhì)量差一點(diǎn)也沒關(guān)系。
尤其是深度學(xué)習(xí)模型,與傳統(tǒng)的統(tǒng)計(jì)模型或機(jī)器學(xué)習(xí)模型不同在于,其模型的變量和結(jié)構(gòu)都可以從數(shù)據(jù)中探索而來,而不用人為進(jìn)行精巧設(shè)計(jì)。
深度學(xué)習(xí)模型非常善于從低價(jià)值密度的大規(guī)模數(shù)據(jù)資源中,面向特定的業(yè)務(wù)場(chǎng)景,進(jìn)行知識(shí)模型的自動(dòng)提煉。
當(dāng)前,市場(chǎng)化商業(yè)環(huán)境所能產(chǎn)生的業(yè)務(wù)數(shù)據(jù),在很多領(lǐng)域已經(jīng)可以滿足建模所需的數(shù)據(jù)規(guī)模需求,這也為深度學(xué)習(xí)的廣泛應(yīng)用提供了良好的落地基礎(chǔ)。
3.總結(jié)
值得注意的是,大數(shù)據(jù)技術(shù)的出現(xiàn)對(duì)傳統(tǒng)數(shù)據(jù)分析方法來說,是補(bǔ)充而非替代的作用。大數(shù)據(jù)技術(shù)充分發(fā)揮了數(shù)據(jù)在規(guī)模維度上的資源優(yōu)勢(shì),從而對(duì)前端的數(shù)字化應(yīng)用提供更多有價(jià)值的業(yè)務(wù)信息。
在實(shí)際應(yīng)用中,傳統(tǒng)數(shù)據(jù)分析中的思想和方法更多是和大數(shù)據(jù)技術(shù)互相融會(huì)貫通、協(xié)同應(yīng)用,很多底層的技術(shù)思想也在互相借鑒,彌補(bǔ)著自身技術(shù)的不足與應(yīng)用缺陷。
- 上一篇
談?wù)剶?shù)據(jù)要素資產(chǎn)化的六個(gè)核心事項(xiàng)
最新的 NewVantage數(shù)據(jù)和分析全球領(lǐng)導(dǎo)力 (DAGL) 調(diào)查顯示,幾乎所有接受調(diào)查的公司都報(bào)告稱其數(shù)據(jù)提供了一些可衡量的價(jià)值,而五年前只有一半的組織做出了肯定的答復(fù)。盡管全球經(jīng)濟(jì)不確定性加劇,超過 90% 的受訪者還表示計(jì)劃在 2023 年增加數(shù)據(jù)投資。
- 下一篇
邊緣計(jì)算架構(gòu):實(shí)現(xiàn)低延遲的邊緣服務(wù)
在互聯(lián)網(wǎng)的快速發(fā)展中,邊緣計(jì)算架構(gòu)逐漸引起了廣泛關(guān)注。傳統(tǒng)的云計(jì)算模式將數(shù)據(jù)中心集中存儲(chǔ)和處理數(shù)據(jù),但在某些應(yīng)用場(chǎng)景下,如物聯(lián)網(wǎng)、智能制造、車聯(lián)網(wǎng)等,要求低延遲和高可靠性的邊緣服務(wù)變得越來越重要。