機器學(xué)習(xí)生命周期的步驟
如果您在過去幾年一直在考慮機器學(xué)習(xí),那么您不是唯一的人。這是一項大業(yè)務(wù),可以對公司的績效產(chǎn)生重大影響,提供急需的競爭優(yōu)勢。
統(tǒng)計數(shù)據(jù)證明了這一點。例如,根據(jù)Markets and Markets 的數(shù)據(jù),到 2027 年,全球 ML 市場的價值預(yù)計將超過 1150 億美元,而 AI 和 ML 的進步將使全球 GDP 從 2019 年到 2030 年增加 14%。此外,Netflix 表示,它已經(jīng)能夠通過使用機器學(xué)習(xí)節(jié)省 10 億美元。現(xiàn)在我們知道為什么 ML 是必不可少的;在繼續(xù)討論 ML 生命周期的七個步驟之前,讓我們快速回顧一下機器學(xué)習(xí)到底是什么。
什么是機器學(xué)習(xí)?
機器學(xué)習(xí)是人工智能的一個子集,旨在通過使用數(shù)據(jù)、算法和人工智能來模仿人類的學(xué)習(xí)方式,隨著時間的推移慢慢提高準確性。
例如,Netflix 使用機器學(xué)習(xí)為其推薦算法提供支持,利用它可以訪問的大量觀看數(shù)據(jù)并處理這些數(shù)字,以向人們展示其他類似用戶喜歡的內(nèi)容。
要使機器學(xué)習(xí)發(fā)揮作用,您需要一個強大的模型并訪問大量數(shù)據(jù)。大多數(shù) ML 算法還可以訪問輸入信息的閘門,并且隨著更多數(shù)據(jù)的輸入,它們可以做得更好。
機器學(xué)習(xí)具有大量潛在應(yīng)用,從提供個性化醫(yī)療保健到為自動駕駛汽車和智慧城市提供動力。機器學(xué)習(xí)在每個行業(yè)都有應(yīng)用,所以問題不是您的公司是否可以從中受益,而是它是否可以在您的利基市場中率先這樣做。
現(xiàn)在,是時候讓我們看一下機器學(xué)習(xí)的生命周期了。這個有七個步驟,前幾個步驟是最激烈的,所以堅持到最后。
七個步驟
1.收集數(shù)據(jù)
任何 ML 活動的第一步都是開始收集數(shù)據(jù)。畢竟,如果您沒有任何數(shù)據(jù),您的機器學(xué)習(xí)模型將無法處理任何內(nèi)容。我們可以將數(shù)據(jù)收集分為三個進一步的階段:
1. 確定數(shù)據(jù)源
在開始收集任何數(shù)據(jù)之前,您需要知道要從哪里獲取數(shù)據(jù)。根據(jù)您正在構(gòu)建的模型類型,您可能會發(fā)現(xiàn)自己在使用自己的專有數(shù)據(jù)、訪問公共數(shù)據(jù)(例如通過社交網(wǎng)站)或兩者兼而有之。同樣值得考慮的是您是需要顯式數(shù)據(jù)(人們專門提供)還是隱式數(shù)據(jù)(根據(jù)人們的瀏覽習(xí)慣和活動識別)。
2. 收集數(shù)據(jù)
既然您知道數(shù)據(jù)源是什么以及要捕獲的數(shù)據(jù)類型,下一步就是開始收集數(shù)據(jù)。您需要確保從正確的來源收集正確的數(shù)據(jù),這是上一步的用武之地。不要擔(dān)心整理數(shù)據(jù),因為那會晚一點。
3.整合數(shù)據(jù)
下一步是將您收集的數(shù)據(jù)與您的工作流程集成,并最終與您的機器學(xué)習(xí)模型集成。這可能意味著將數(shù)據(jù)導(dǎo)入您的專有數(shù)據(jù)庫或使用 API 設(shè)置來自第三方來源的自動數(shù)據(jù)源。
2.準備數(shù)據(jù)
現(xiàn)在您已經(jīng)確定了您的數(shù)據(jù)源,收集了它們并將它們集成到您的系統(tǒng)中,下一步是準備它以便模型準備好開始使用它。這個過程有四個步驟:
1.數(shù)據(jù)探索
首先,您需要查看您擁有的數(shù)據(jù),以便了解它的完整性以及需要做多少工作才能使其適合您的用途。
這也是您確定在接下來的兩個步驟中將采用的方法的地方,以確保您已為算法準備好一切。
2. 數(shù)據(jù)預(yù)處理
預(yù)處理涉及清理可能存在的任何格式,并去除數(shù)據(jù)中的空白條目和其他異常元素。
我們談?wù)摰氖悄梢栽谡麄€數(shù)據(jù)集中執(zhí)行的操作,以使其為進一步處理做好準備,而不是專注于任何單個條目。
3. 數(shù)據(jù)整理
有了這些,您就可以處理個人記錄了。數(shù)據(jù)整理要求您手動瀏覽您擁有的數(shù)據(jù),并更新任何需要更新的數(shù)據(jù),以便您的公司能夠處理它。
您也可以在這里對數(shù)據(jù)進行任何更改,以使其對您構(gòu)建的模型具有可讀性和易于處理性。
4. 分析數(shù)據(jù)
到目前為止,您的數(shù)據(jù)應(yīng)該處于非常好的狀態(tài),因此下一步是讓您仔細查看您擁有的數(shù)據(jù)并對其進行分析,以確定您將如何處理它并構(gòu)建您的模型。
3.選擇型號
現(xiàn)在我們已經(jīng)整理了您的數(shù)據(jù)并仔細查看了您擁有的數(shù)據(jù),下一步是讓您選擇一個模型,以便您可以開始處理該數(shù)據(jù)并朝著您的最終目標努力。
在選擇模型時有多種不同的選擇,因此最好的辦法是研究現(xiàn)有的模型并找到能夠就您的需求提供最佳建議的開發(fā)人員。
4.訓(xùn)練模型
現(xiàn)在你已經(jīng)選擇了你的模型,下一步是開始開發(fā)它并向它提供你擁有的數(shù)據(jù),這樣你就可以開始訓(xùn)練它了。
當(dāng)我們談?wù)撚?xùn)練模型時,那是因為機器學(xué)習(xí)算法通過自學(xué)來工作。
您無需告訴他們狗和貓長什么樣,而是向他們提供一堆關(guān)于狗和貓的標記數(shù)據(jù),然后訓(xùn)練模型得出自己的結(jié)論。
5. 模型參數(shù)調(diào)優(yōu)
通過測試和評估,您現(xiàn)在應(yīng)該清楚需要對模型進行哪些更改以對其進行微調(diào)并確保它更好地幫助您實現(xiàn)目標。
6. 模型評估與測試
一旦您的模型根據(jù)您提供的數(shù)據(jù)進行了自我訓(xùn)練,您就可以開始測試它并評估它是否實現(xiàn)了您為其設(shè)定的目標。
測試和評估齊頭并進,因為測試將是您評估的關(guān)鍵部分,并將幫助您確定事情是否有效。測試完成后,您就可以進行下一步了。
你可以一遍又一遍地重復(fù)第五步和第六步,一個接一個,直到你準備好進入第七步也是最后一步。
7.模型部署和預(yù)測
現(xiàn)在您已經(jīng)完成了評估、測試和微調(diào),您的模型已準備好進行實時部署。
一旦您部署了它,您就可以開始預(yù)測并使用您有權(quán)訪問的數(shù)據(jù)進行預(yù)測,并且您將能夠做出相應(yīng)的決策。
您也可以隨時返回并進行更多微調(diào)或添加新的數(shù)據(jù)源,所以不要認為構(gòu)建已經(jīng)結(jié)束并且僅僅因為它是實時的就完成了。
如果機器學(xué)習(xí)向我們展示了一件事,那就是總有改進的余地。
結(jié)論
既然您知道如何開始使用機器學(xué)習(xí),那么您就可以通過在您的公司實施機器學(xué)習(xí)來將事情推進到下一步。