什么是數(shù)據(jù)增強?
對于尋求實施機器學習解決方案的公司而言,最常見的挑戰(zhàn)之一是數(shù)據(jù)不足。收集它通常既費錢又費時。同時,機器學習和深度學習模型的性能高度依賴于訓練數(shù)據(jù)的質(zhì)量、數(shù)量和相關性。
這就是數(shù)據(jù)增強的用武之地。
數(shù)據(jù)增強可以定義為一組人為增加數(shù)據(jù)量的技術。這些技術從現(xiàn)有數(shù)據(jù)生成新的數(shù)據(jù)點,并且可以包括對數(shù)據(jù)進行小的改動或使用深度學習模型生成新數(shù)據(jù)。
數(shù)據(jù)擴充的重要性
在過去幾年中,數(shù)據(jù)增強技術一直在穩(wěn)步普及。這有幾個原因。其一,它提高了機器學習模型的性能并導致了更多樣化的數(shù)據(jù)集。
許多深度學習應用程序,如對象檢測、圖像分類、圖像識別、自然語言理解和語義分割,都依賴于數(shù)據(jù)增強方法。通過生成新的和多樣化的訓練數(shù)據(jù)集,深度學習模型的性能和結(jié)果得到改善。
數(shù)據(jù)擴充還降低了與數(shù)據(jù)收集相關的運營成本。例如,數(shù)據(jù)標記和收集對公司來說既費時又昂貴,因此他們依靠通過數(shù)據(jù)增強技術轉(zhuǎn)換數(shù)據(jù)集來降低成本。
準備數(shù)據(jù)模型的主要步驟之一是清理數(shù)據(jù),這會產(chǎn)生高精度模型。這種清理過程會降低數(shù)據(jù)的可表示性,使模型無法提供良好的預測。數(shù)據(jù)增強技術可用于通過創(chuàng)建模型在現(xiàn)實世界中可能遇到的變化來幫助機器學習模型更加穩(wěn)健。
數(shù)據(jù)增強如何工作?
數(shù)據(jù)增強通常用于圖像分類和分割。對視覺數(shù)據(jù)進行更改是很常見的,生成對抗網(wǎng)絡 (GAN) 用于創(chuàng)建合成數(shù)據(jù)。用于數(shù)據(jù)增強的一些經(jīng)典圖像處理活動包括填充、隨機旋轉(zhuǎn)、垂直和水平翻轉(zhuǎn)、重新縮放、平移、裁剪、縮放、更改對比度等。
有一些用于數(shù)據(jù)擴充的高級模型:
- 生成對抗網(wǎng)絡 (GAN):GAN 有助于從輸入數(shù)據(jù)集中學習模式,并自動為訓練數(shù)據(jù)創(chuàng)建新示例。
- 神經(jīng)風格遷移:這些模型混合了內(nèi)容圖像和風格圖像,以及將風格與內(nèi)容分開。
- 強化學習:這些模型訓練代理人在虛擬環(huán)境中完成目標并做出決策。
數(shù)據(jù)增強的另一個主要應用是自然語言處理(NLP)。由于語言是如此復雜,因此擴充文本數(shù)據(jù)可能極具挑戰(zhàn)性。
NLP 數(shù)據(jù)增強有幾種主要方法,包括簡單的數(shù)據(jù)增強 (EDA) 操作,如同義詞替換、單詞插入和單詞交換。另一種常見的方法是反向翻譯,它涉及將文本從目標語言重新翻譯回原始語言。
數(shù)據(jù)擴充的好處和局限性
重要的是要注意數(shù)據(jù)擴充既有好處也有局限性。
就收益而言,數(shù)據(jù)增強可以通過添加更多訓練數(shù)據(jù)、防止數(shù)據(jù)稀缺、減少數(shù)據(jù)過擬合、增加泛化以及解決分類中的類別不平衡問題來提高模型預測準確性。
數(shù)據(jù)增強還可以降低與收集和標記數(shù)據(jù)相關的成本,實現(xiàn)罕見事件預測,并加強數(shù)據(jù)隱私。
同時,數(shù)據(jù)增強的局限性包括增強數(shù)據(jù)集質(zhì)量保證的高成本。它還涉及大量研究和開發(fā),以構(gòu)建具有高級應用程序的合成數(shù)據(jù)。
如果您使用 GAN 等數(shù)據(jù)增強技術,驗證可能會很困難。如果原始數(shù)據(jù)在增強數(shù)據(jù)中持續(xù)存在,那么解決原始數(shù)據(jù)的固有偏差也具有挑戰(zhàn)性。
數(shù)據(jù)增強用例
數(shù)據(jù)增強是人工增加訓練 AI 模型的數(shù)據(jù)量的最流行方法之一,它被廣泛應用于各個領域和行業(yè)。
利用數(shù)據(jù)增強功能的兩個最突出的行業(yè)是自動駕駛汽車和醫(yī)療保?。?/p>
- 自動駕駛汽車:數(shù)據(jù)增強對于自動駕駛汽車的發(fā)展很重要。使用強化學習機制構(gòu)建的模擬環(huán)境有助于訓練和測試數(shù)據(jù)稀缺的 AI 系統(tǒng)??梢愿鶕?jù)特定要求對仿真環(huán)境進行建模,以生成真實示例。
- 醫(yī)療保?。?/b>醫(yī)療保健行業(yè)也使用數(shù)據(jù)增強。通常,患者的數(shù)據(jù)不能用于訓練模型,這意味著很多數(shù)據(jù)在訓練中被過濾掉了。在其他情況下,沒有足夠的特定疾病數(shù)據(jù),因此可以使用現(xiàn)有疾病的變體來擴充數(shù)據(jù)。
如何擴充數(shù)據(jù)
如果您希望擴充數(shù)據(jù),則應首先確定數(shù)據(jù)中的差距。例如,這可能涉及尋找缺失的人口統(tǒng)計信息。所有活動還應該支持貴公司的使命,因此根據(jù)信息如何推進使命來確定差距的優(yōu)先級非常重要。
下一步是確定您將從何處獲取丟失的數(shù)據(jù),例如通過第三方數(shù)據(jù)集。在評估數(shù)據(jù)時,您應該考慮成本、完整性以及集成所需的復雜程度和工作量。
數(shù)據(jù)擴充可能需要時間,因此規(guī)劃好時間和資源非常重要。許多第三方數(shù)據(jù)源需要投資。計劃如何收集和獲取數(shù)據(jù)也很重要,并且應該評估數(shù)據(jù)的投資回報率。
最后一步是確定數(shù)據(jù)的存儲位置,這可能涉及將其添加到您的 AMS 或其他系統(tǒng)中的字段。
當然,這只是數(shù)據(jù)擴充過程的一個基本輪廓。實際過程將包含更多內(nèi)容,這就是為什么擁有一支由數(shù)據(jù)科學家和其他專家組成的裝備精良的團隊至關重要的原因。但是通過規(guī)劃和執(zhí)行數(shù)據(jù)擴充過程,您可以確保您的組織擁有最好的數(shù)據(jù)來進行準確的預測。
- 上一篇
工業(yè)物聯(lián)網(wǎng)簡史
工業(yè)物聯(lián)網(wǎng)的歷史有三個不同的技術發(fā)展故事:網(wǎng)絡連接、處理和存儲能力,以及傳感器和執(zhí)行器。如果能了解每一項核心技術的發(fā)展時間表,將能準確了解相應時代工業(yè)環(huán)境中使用的連接設備的能力。
- 下一篇
數(shù)據(jù)合規(guī)性和數(shù)據(jù)隱私之間有什么區(qū)別?
在部署任何保存客戶或用戶數(shù)據(jù)的應用程序時,數(shù)據(jù)合規(guī)性和數(shù)據(jù)隱私都是需要考慮的重要領域。然而,這兩個數(shù)據(jù)管理領域有時會被誤解。本文將闡明數(shù)據(jù)合規(guī)性和數(shù)據(jù)隱私之間的區(qū)別