什么是大數(shù)據(jù)分析?
“大數(shù)據(jù)”似乎是我們?yōu)楝F(xiàn)代生活提供動(dòng)力的方式的一個(gè)簡(jiǎn)單術(shù)語(yǔ),但它遠(yuǎn)比它所暗示的要復(fù)雜得多。從本質(zhì)上講,它是我們用來(lái)制定決策、訓(xùn)練模型、增強(qiáng)面向公眾的技術(shù)等等的海量信息集合。
用于收集大數(shù)據(jù)分析中使用的原始數(shù)據(jù)的方法范圍很廣;物聯(lián)網(wǎng) (IoT)、云計(jì)算的興起和智能手機(jī)使用的增加都使信息的收集成為可能。對(duì)于某些人,例如不良演員,這被用于身份盜竊等惡意行為。然而,對(duì)于企業(yè)來(lái)說(shuō),數(shù)據(jù)收集是他們尋求增加利潤(rùn)的基石。
分析用于識(shí)別數(shù)據(jù)集中存在的見(jiàn)解、模式和策略。為任務(wù)量身定制的專業(yè)軟件或系統(tǒng)通常用于比任何團(tuán)隊(duì)更快地分析大量數(shù)據(jù)。然后將這些信息用于為業(yè)務(wù)決策提供信息。
什么是大數(shù)據(jù)?
要了解大數(shù)據(jù)分析,您首先需要了解正在檢查的內(nèi)容。
大數(shù)據(jù)由三個(gè)“V”定義——數(shù)量、速度和多樣性。每天每一秒都會(huì)產(chǎn)生大量信息,并且根據(jù)一個(gè)人的注意力,可能會(huì)以多種格式表示。
在大數(shù)據(jù)分析方面,最重要的是最后一個(gè)組件?,F(xiàn)在可以訪問(wèn)比以往任何時(shí)候都更多樣化的數(shù)據(jù)源:組織可以從會(huì)員卡計(jì)劃、網(wǎng)站交互、閉路電視攝像機(jī)、評(píng)論、應(yīng)用程序使用數(shù)據(jù)等不同領(lǐng)域獲取信息。這些數(shù)據(jù)都可以分為兩類:結(jié)構(gòu)化和非結(jié)構(gòu)化。
當(dāng)您想到“數(shù)據(jù)”(例如,整齊地存儲(chǔ)在數(shù)據(jù)庫(kù)或電子表格中的信息)時(shí),可能會(huì)立即想到結(jié)構(gòu)化數(shù)據(jù)。
相比之下,非結(jié)構(gòu)化數(shù)據(jù)是在電子郵件、電話、在線互動(dòng)和其他看似不透明的形式中發(fā)現(xiàn)的那種難以輕松分析的信息。
大數(shù)據(jù)分析程序,如 Spark、Hadoop、NoSQL和 MapReduce,可以分析來(lái)自各種來(lái)源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),識(shí)別可用于推動(dòng)新業(yè)務(wù)提案或調(diào)整策略的重要模式。
此外,谷歌和 Meta 等公司提供自己的分析洞察力,盡管這些公司通常缺乏內(nèi)部數(shù)據(jù)集提供的原始洞察力。
大數(shù)據(jù)分析的類型
了解可以與大數(shù)據(jù)一起部署的三種主要分析類型是最有效地使用它的關(guān)鍵。
第一個(gè)是描述性的——例如,通知、警報(bào)和儀表板。這些告訴你以前發(fā)生了什么,但不要詳細(xì)說(shuō)明原因或結(jié)果可能會(huì)發(fā)生什么變化。
接下來(lái)是預(yù)測(cè)性的,可能是一種更有用的分析形式。這使用過(guò)去的數(shù)據(jù)來(lái)模擬未來(lái)可能發(fā)生的事情。例如,銷售如何受到營(yíng)銷條件的影響,或者營(yíng)銷活動(dòng)如何影響客戶行為。
最后,還有規(guī)范性分析。這使用諸如 A/B 測(cè)試或優(yōu)化測(cè)試之類的技術(shù)來(lái)建議經(jīng)理和員工如何最好地履行他們?cè)诮M織中的角色。例如,它可以幫助銷售人員決定向客戶提供哪種類型的折扣,或者讓開發(fā)人員了解哪種形式的廣告在網(wǎng)頁(yè)上最有效。
大數(shù)據(jù)分析趨勢(shì)
分析數(shù)據(jù)的工具,無(wú)論是在以本機(jī)格式存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)湖中還是在數(shù)據(jù)倉(cāng)庫(kù)中,仍在不斷涌現(xiàn)。許多不同的因素將決定大數(shù)據(jù)和相關(guān)分析在未來(lái)的運(yùn)作方式。
首先是云中的分析。與許多事情一樣,大數(shù)據(jù)分析越來(lái)越多地托管在云上。Hadoop 現(xiàn)在可以在云中處理大型數(shù)據(jù)集,盡管它最初設(shè)計(jì)為在物理機(jī)器集群上執(zhí)行此操作。在云中提供基于 Hadoop 的服務(wù)的公司包括 IBM Cloud、由 BI 數(shù)據(jù)倉(cāng)庫(kù)托管的亞馬遜 Redshift、谷歌的 BigQuery 數(shù)據(jù)分析服務(wù)和 Kinesis 數(shù)據(jù)處理服務(wù)。
預(yù)測(cè)分析也變得越來(lái)越普遍。隨著技術(shù)變得更加強(qiáng)大,更大的數(shù)據(jù)集將能夠進(jìn)行分析,而這反過(guò)來(lái)又會(huì)增加預(yù)期變化的能力。
視頻分析也是生成和部署大數(shù)據(jù)的一個(gè)很好的例子。基于云的閉路電視系統(tǒng)每天提取數(shù)十億個(gè)數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)用于驅(qū)動(dòng)面部識(shí)別系統(tǒng)、管理活動(dòng)中的人群控制,甚至有助于智慧城鎮(zhèn)和城市規(guī)劃。在無(wú)人駕駛汽車使用的攝像頭和傳感器中也發(fā)現(xiàn)了類似的系統(tǒng),其中許多用于改進(jìn)這項(xiàng)技術(shù)并使其最終在實(shí)際道路上更安全地使用。
最后,還有深度學(xué)習(xí)。這是一組機(jī)器學(xué)習(xí) (ML)技術(shù),它使用神經(jīng)網(wǎng)絡(luò)在大量二進(jìn)制和非結(jié)構(gòu)化數(shù)據(jù)中發(fā)現(xiàn)有趣的模式,并在不需要顯式編程或模型的情況下推斷關(guān)系。這對(duì)于訓(xùn)練人工智能 (AI)至關(guān)重要,目前是科技領(lǐng)域最受關(guān)注的發(fā)展領(lǐng)域之一。
大數(shù)據(jù)和分析的結(jié)合是讓組織在競(jìng)爭(zhēng)中領(lǐng)先一步的重要組成部分,尤其是在云計(jì)算成為無(wú)處不在的業(yè)務(wù)支柱的情況下。但公司還必須培養(yǎng)合適的條件,使數(shù)據(jù)科學(xué)家和分析師能夠根據(jù)他們擁有的數(shù)據(jù)測(cè)試?yán)碚?,從而獲得最有價(jià)值的結(jié)果。
- 上一篇
什么是5G,我們離推出還有多遠(yuǎn)?
英國(guó)首個(gè)5G網(wǎng)絡(luò)于2019年5月由EE啟動(dòng),標(biāo)志著四大電信提供商競(jìng)相盡早開啟網(wǎng)絡(luò)的夏季。劉易斯·漢密爾頓 (Lewis Hamilton) 幫助沃達(dá)豐 (Vodafone) 的網(wǎng)絡(luò)獲得第二名,Three
- 下一篇
數(shù)據(jù)質(zhì)量在人工智能實(shí)施中的重要性
人工智能和機(jī)器學(xué)習(xí)技術(shù)可以顯著造福各種規(guī)模的行業(yè)。根據(jù)麥肯錫的一份報(bào)告,到2030年,采用人工智能技術(shù)的企業(yè)的現(xiàn)金流將翻一番。相反,不部署人工智能的企業(yè)的現(xiàn)金流將減少20%