為什么沒有大數(shù)據(jù)人工智能就無法生存
毫不奇怪,互聯(lián)網(wǎng)已經(jīng)隨著數(shù)據(jù)量的增加而膨脹,以至于難以跟蹤。如果在 2005 年我們只處理 0.1 澤字節(jié)的數(shù)據(jù),那么現(xiàn)在這個數(shù)字剛剛超過 20 澤字節(jié),甚至估計到 2020 年將達到驚人的47 澤字節(jié)。除了數(shù)量龐大之外,問題在于事實它主要是非結構化的。沒有什么比為 AI 提供不完整或不準確的數(shù)據(jù)更有害的了。
似乎我們只處理了大約 10% 的結構化數(shù)據(jù),而其余的只是一大堆沒有標記的信息,機器無法以建設性的方式使用。為了更好地理解這個主題,很高興知道電子郵件不符合結構化數(shù)據(jù)的條件,而電子表格等任何內(nèi)容都被視為已標記并且可以被機器成功掃描。
這似乎沒有什么問題,但如果我們期望人工智能能夠改善我們在醫(yī)療保健、無人駕駛汽車、聯(lián)網(wǎng)家庭等領域的生活,我們需要擁有干凈且有組織的數(shù)據(jù)。具有諷刺意味的是,我們已經(jīng)非常擅長創(chuàng)建內(nèi)容和數(shù)據(jù),但我們還沒有找到一種方法來準確地利用它來滿足我們的需求。
數(shù)據(jù)科學家也在苦苦掙扎
很自然,數(shù)據(jù)科學是在過去幾年中取得了很大進展的領域之一,越來越多的數(shù)據(jù)科學家致力于解決這個爛攤子。然而,最近的一項調(diào)查顯示,與流行的觀點相反,數(shù)據(jù)科學家花在構建算法和挖掘模式數(shù)據(jù)上的時間要少得多,而是花在做所謂的數(shù)字清潔工作——清理和組織數(shù)據(jù)上。正如你所看到的,這些數(shù)字肯定不利于人工智能的光明未來。
人工智能阻礙人類滅絕的預測者顯然沒有考慮到這樣一個事實,即雖然機器可以成功取代少數(shù)數(shù)據(jù)科學家,但它們可能無法取代絕大多數(shù)致力于挖掘數(shù)據(jù)的科學家。他們大部分時間都在收集、清理和組織這些數(shù)據(jù)。當然,最好從一開始就以更完整的方式簡單地收集數(shù)據(jù),而不是分配如此多的時間和資源來追溯“修復”它。幸運的是,人工智能領域的領導者也慢慢地達成了這種理解,利用他們的技能和影響力來改變數(shù)據(jù)科學的發(fā)展方向——并且隱含著人工智能。
人工智能很好,但還不是人類好
我們都聽說過機器在面對真正的人類時被證明是超人的案例,例如世界上最好的圍棋選手被谷歌的 AlphaGo AI 擊敗的案例。然而,這僅表明人工智能能夠在小眾任務中取得驚人的成績,但其整體能力仍然無法與人類能力相提并論。人工智能根本無法處理許多微妙之處和邏輯步驟。
在處理財務文件和法律術語時,人工智能的局限性更加明顯。這里的問題和其他地方一樣。只要不向 AI 機器提供結構化數(shù)據(jù),例如標準化合約,它們就會被嚴重混淆。這意味著,目前仍由合格的數(shù)據(jù)科學家來解決這個爛攤子。
只有當每個人都作為一個團隊工作時,有效的人工智能才是可能的
聘請高素質(zhì)數(shù)據(jù)分析師的成本很高,這使得在該領域取得進展更加困難。關鍵是通過可以簡化流程的技術來完成收集和建模階段。
另一個關鍵方面是多部門共同努力應對和解決大數(shù)據(jù)帶來的問題。財務和技術專家需要攜手合作,以便從一開始就正確識別他們收集的數(shù)據(jù)中的潛在缺陷。這些專家解決問題的方式也應該被注冊,以便隨后被機器成功復制。目標是創(chuàng)建質(zhì)量保證算法,該算法可以查明與過去錯誤相關的建模結果。我們能夠創(chuàng)建的此類模型越多,數(shù)據(jù)錯誤和違規(guī)行為的空間就越小。
沒有大數(shù)據(jù),人工智能就無法生存
不管人工智能的發(fā)展方向是什么——無論它對人類是好是壞——有一件事是肯定的:沒有大數(shù)據(jù),人工智能就無法去任何地方。我們已經(jīng)有日常生活中的例子,我們很可能認為這些例子是理所當然的,這證明了人工智能在它們的存在中是多么必要。以 Cortana 或Siri為例。他們之所以能夠理解我們的問題和疑問,只是因為他們獲得了無窮無盡的信息,幫助他們理解了我們的自然語言。谷歌已經(jīng)成為一個無所不知的巨大力量,它對我們每一個人都了如指掌,這僅僅是因為我們每天在其搜索引擎上的大量條目。為此,公司還能夠制作準確的報告——例如,那些可以使用 revcontent 識別網(wǎng)站的公司,這要歸功于最初收集該數(shù)據(jù)的整潔性。
由于 AI 與大數(shù)據(jù)的聯(lián)系如此緊密,因此只有訪問干凈、結構化的數(shù)據(jù)才能以改善我們生活的方式進行處理才有意義。幸運的是,世界正在逐漸了解人工智能進步背后的需求。這就是為什么我們注意到數(shù)據(jù)科學家在資金、工資、可用工具和設備方面的工作方式有所改善。
這種意識正在全球范圍內(nèi)慢慢傳播,使公司和專家能夠相互合作,以便更有效地收集數(shù)據(jù),建立可以進一步幫助機器清理和結構化數(shù)據(jù)的模型,并為子孫后代奠定基礎。知道人工智能和大數(shù)據(jù)的問題出在哪里意味著問題已經(jīng)解決了一半。