大數(shù)據(jù)分析是什么、它是如何工作的
什么是大數(shù)據(jù)分析?
大數(shù)據(jù)分析描述了在大量原始數(shù)據(jù)中發(fā)現(xiàn)趨勢、模式和相關性的過程,以幫助做出基于數(shù)據(jù)的決策。這些過程使用熟悉的統(tǒng)計分析技術,并在更新的工具的幫助下將它們應用于更廣泛的數(shù)據(jù)集。自 2000 年代初以來,大數(shù)據(jù)一直是一個流行詞,當時軟件和硬件功能使組織能夠處理大量非結構化數(shù)據(jù)。隨著數(shù)據(jù)的爆炸式增長,Hadoop、Spark 和 NoSQL 數(shù)據(jù)庫等早期創(chuàng)新項目被創(chuàng)建用于存儲和處理大數(shù)據(jù)。隨著數(shù)據(jù)工程師尋找方法來集成由傳感器、網(wǎng)絡、交易、智能設備、Web 使用等創(chuàng)建的大量復雜信息,該領域不斷發(fā)展。
大數(shù)據(jù)分析的工作原理
1.收集數(shù)據(jù)
每個組織的數(shù)據(jù)收集看起來都不同。借助當今的技術,組織可以從各種來源收集結構化和非結構化數(shù)據(jù),從云存儲到移動應用程序,再到物聯(lián)網(wǎng)傳感器等。一些數(shù)據(jù)將存儲在數(shù)據(jù)倉庫中,商業(yè)智能工具和解決方案可以輕松訪問它。對于倉庫來說過于多樣化或復雜的原始或非結構化數(shù)據(jù)可能會被分配元數(shù)據(jù)并存儲在數(shù)據(jù)湖中。
2.過程數(shù)據(jù)
收集和存儲數(shù)據(jù)后,必須對其進行適當?shù)慕M織,以獲得有關分析查詢的準確結果,尤其是當數(shù)據(jù)很大且非結構化時??捎脭?shù)據(jù)呈指數(shù)級增長,這使得數(shù)據(jù)處理成為組織面臨的挑戰(zhàn)。一種處理選項是批處理,它隨時間推移查看大型數(shù)據(jù)塊。當收集和分析數(shù)據(jù)之間的周轉時間較長時,批處理非常有用。流處理一次查看小批量數(shù)據(jù),縮短了收集和分析之間的延遲時間,從而更快地做出決策。流處理更復雜,通常更昂貴。
3.清理數(shù)據(jù)
無論數(shù)據(jù)大小,都需要進行清理,以提高數(shù)據(jù)質量并獲得更強的結果;所有數(shù)據(jù)的格式必須正確,任何重復或不相關的數(shù)據(jù)都必須被消除或考慮在內。臟數(shù)據(jù)可能會模糊和誤導,從而產(chǎn)生有缺陷的見解。
4.分析數(shù)據(jù)
讓大數(shù)據(jù)進入可用狀態(tài)需要時間。一旦準備就緒,高級分析流程就可以將大數(shù)據(jù)轉化為大洞察。其中一些大數(shù)據(jù)分析方法包括:
數(shù)據(jù)挖掘對大型數(shù)據(jù)集進行排序,通過識別異常和創(chuàng)建數(shù)據(jù)集群來識別模式和關系。
預測分析使用組織的歷史數(shù)據(jù)對未來進行預測,識別即將到來的風險和機遇。
深度學習通過使用人工智能和機器學習來模仿人類的學習模式,對算法進行分層,并在最復雜和最抽象的數(shù)據(jù)中查找模式。