亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動端logo

關于人工智能中數(shù)據(jù)質量和數(shù)量的影響的知識

2022-10-28 09:23:304636

信不信由你,有“好數(shù)據(jù)”和“壞數(shù)據(jù)”之類的東西——尤其是在人工智能方面。更具體地說,僅擁有可用數(shù)據(jù)是不夠的:在“有用”和“不那么有用”的數(shù)據(jù)之間有一個值得區(qū)分的地方。有時,由于收集數(shù)據(jù)的方式或地點、不準確或偽造的跡象以及其他危險信號,數(shù)據(jù)必須立即丟棄。其他時候,可以先處理數(shù)據(jù),然后將其傳遞給人工智能開發(fā)。

仔細觀察這個過程會發(fā)現(xiàn)我們收集和處理數(shù)據(jù)的能力與我們構建更智能的人工智能的能力之間存在共生關系。數(shù)據(jù)和機器學習都為人工智能提供動力,而人工智能反過來又提供了更復雜的機器學習工具。這是一個完美的系統(tǒng),對各種類型和規(guī)模的企業(yè)都有影響,更不用說統(tǒng)計學家和科學家了。

為什么存在“壞數(shù)據(jù)”而數(shù)量還不夠

為什么在人工智能數(shù)據(jù)方面甚至存在質量問題?訪問大量數(shù)據(jù)還不夠嗎?答案是否定的——這還不夠。這是因為以下因素:

  • 來自多個渠道的海量數(shù)據(jù)
  • 數(shù)據(jù)收集地點的地理意義
  • 多種文件類型以及結構化和非結構化數(shù)據(jù)
  • 基于區(qū)域隱私限制的不可接受的數(shù)據(jù)
  • 在市場上購買的潛在偽造數(shù)據(jù)

機器學習是開發(fā)人工智能過程中使用的一種工具。外行對機器學習的描述涉及收集大量結構化數(shù)據(jù)并使用它來“訓練”人工智能以根據(jù)已知參數(shù)觀察和識別模式。在機器學習之前,我們大多數(shù)人都認為真正的人工智能只能通過預先預見到每一個潛在可能性的艱苦的逐行編碼來實現(xiàn)。我們現(xiàn)在看到這是一個錯誤,原因有很多。

它讓我們回到了這樣一個想法,即不是每一種數(shù)據(jù),也不是每一個數(shù)據(jù)源,對于推動人工智能開發(fā)的機器學習算法都是有用的或具有足夠高質量的——無論該人工智能應用程序的最終目的是什么。畢竟,當涉及到數(shù)據(jù)量時,您很快就會達到收益遞減:一個數(shù)據(jù)集只需要足夠大,就可以真正代表整體。但是首先弄清楚“整體”是什么,這才是機器學習的目的——依賴大量重復或不準確的數(shù)據(jù)是構建上下文和理解的糟糕方法。

根據(jù)專家的說法,編譯一個大小相等且有用的數(shù)據(jù)存儲需要大量的手動工作。來自數(shù)據(jù)科學領域的其他見解表明,糟糕的數(shù)據(jù)質量是導致 IT 部門投資浪費的主要原因,也是導致企業(yè)級管理工具失去信任的重要來源,這些工具為業(yè)務決策提供信息。

所以賭注很高。讓我們更詳細地了解為什么人工智能和高數(shù)據(jù)質量齊頭并進。

數(shù)據(jù)質量與人工智能之間的關系是共生的

幾乎所有產(chǎn)品類型的用戶都比以往任何時候都對這些產(chǎn)品的制造方式產(chǎn)生了濃厚的興趣。對于自動化軟件、商業(yè)智能平臺、路線規(guī)劃、地圖和任何其他面向業(yè)務的人工智能應用程序的用戶來說,情況大致相同。用戶對如何產(chǎn)生這些東西有一定的期望——也就是說,支持這些工具和洞察力的數(shù)據(jù)不是:

  • 復制、偽造或被盜
  • 不完整
  • 損壞或損壞
  • 不一致或難以理解

換句話說,如果你不能信任汽車中包含不合格材料的組件,你就不能依賴人工智能承諾的分析、分析和洞察力。

因此,在現(xiàn)實世界條件下提供有意義和可操作的見解的人工智能平臺的開發(fā)需要高質量的數(shù)據(jù)。好消息是,隨著時間的推移,人工智能反過來幫助我們收集和存儲更多有用的數(shù)據(jù)。

首先,想想我們現(xiàn)在作為一個全球商業(yè)社區(qū)共同交易的所有不同類型的數(shù)據(jù)。您自己的公司可能會進行以下一項或多項交易:

  • 有關實物資產(chǎn)狀況和位置的數(shù)據(jù)
  • 來自生產(chǎn)車間或其他設施傳感器的數(shù)據(jù)
  • 歷史和實時銷售數(shù)據(jù)
  • 有關客戶人口統(tǒng)計和社會趨勢的數(shù)據(jù)
  • 來自現(xiàn)場調查和客戶研究的地理空間和地理數(shù)據(jù)
  • 來自訂單跟蹤、重新訂購和監(jiān)控供應水平的數(shù)據(jù)

關鍵是,現(xiàn)代商業(yè)需要幾乎荒謬的數(shù)據(jù)量。如果還沒有,您所在行業(yè)的競爭力很快將取決于您運用更高技術并幫助您從上面列出的數(shù)據(jù)類型中獲得意義、意圖、方向和洞察力的能力。

因此,我們回到了您的數(shù)據(jù)質量。如果告知您已經(jīng)做出的業(yè)務決策,那么它還必須告知您在更精簡和更全球化的經(jīng)濟中競爭所需的分析、自動化和人工智能工具。

帶回家的例子

一項案例研究證明了為什么數(shù)據(jù)質量對于全球零售市場的機器學習算法至關重要。

這家零售公司的最終目標是通過更好地管理整個產(chǎn)品和庫存數(shù)據(jù)來降低成本并提高效率。但在此之前,他們需要知道他們所依賴的數(shù)據(jù)是否適合他們的需求。因此,他們使用機器學習來尋找錯誤、遺漏、重復和異常值。機器學習算法最終使他們大約 30% 的數(shù)據(jù)更準確,因此更可操作和更有用,只需進行小的修正。

科學和學術界的一些人工智能工具也受益于更高質量的數(shù)據(jù)。在統(tǒng)計學中,梳理數(shù)據(jù)集的錯誤是一個巨大、昂貴和勞動密集型的過程。但是機器學習在“清理”大量數(shù)據(jù)以消除錯誤或不完整性方面已經(jīng)證明了比人類統(tǒng)計學家更好的結果。

換句話說,不僅僅是企業(yè)和商業(yè)從機器學習通過更好的數(shù)據(jù)和改進的數(shù)據(jù)處理技術為人工智能開發(fā)提供動力的方式中受益。科學、社會和人口調查領域也應該及時發(fā)現(xiàn)自己擁有更好的工具,這一切都歸功于更高質量的數(shù)據(jù)。