谷歌推出改進(jìn)強(qiáng)化學(xué)習(xí)的新方法
谷歌的人工智能研究人員提出了一種改進(jìn)強(qiáng)化學(xué)習(xí) (RL) 的新方法——重用先前的計算工作。
在論文Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress中,該團(tuán)隊提議在 RL 代理到另一個代理的設(shè)計迭代之間重用記錄的數(shù)據(jù)或?qū)W習(xí)模型。
研究人員表示,重用計算工作可以“顯著提高現(xiàn)實世界 RL 的采用率,并有助于進(jìn)一步民主化”。
該論文的作者表示,重生強(qiáng)化學(xué)習(xí) (RRL) 是“比白板強(qiáng)化學(xué)習(xí)更(更多)計算效率更高的研究工作流程,并且可以幫助進(jìn)一步使研究民主化”。
該論文在 NeurIPS 2022 會議之前發(fā)表,代碼可通過GitHub獲得。
降低研究人員的計算成本
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)訓(xùn)練方法,其中期望的行為得到獎勵,而未尋求的行為則受到懲罰。實際上,這是一種試錯法,系統(tǒng)會逐漸學(xué)習(xí)其任務(wù)和周圍的環(huán)境。RL 可用于改進(jìn)機(jī)器人、自動駕駛汽車本文和對話代理等領(lǐng)域的部署。
大多數(shù)基于代理的系統(tǒng)都是使用 RL 的白板方法開發(fā)的,因為它們是從頭開始構(gòu)建的,而不使用先前學(xué)習(xí)的有關(guān)問題的知識。
谷歌的研究團(tuán)隊認(rèn)為,tabula rasa RL 方法“通常是解決大規(guī)模 RL 問題的例外而不是規(guī)范”。他們認(rèn)為,重新訓(xùn)練大型系統(tǒng)“成本高得令人望而卻步”,尤其是考慮到許多系統(tǒng)經(jīng)歷了多次設(shè)計變更和修改。
“tabula rasa RL 研究的低效率可能使許多研究人員無法解決計算要求高的問題,”作者在谷歌博客文章中寫道。
相反,研究人員認(rèn)為,他們的新可重用方法將使研究人員受益,因為不需要過多的計算資源。
谷歌研究人員表示:“RRL 可以實現(xiàn)基準(zhǔn)測試范式,研究人員可以在其中不斷改進(jìn)和更新現(xiàn)有的訓(xùn)練有素的代理,特別是在提高性能對現(xiàn)實世界產(chǎn)生影響的問題上,例如(平流層)氣球?qū)Ш交蛐酒O(shè)計。”
然而,該論文確實指出,對于自然語言處理 (NLP) 和計算機(jī)視覺來說,重新強(qiáng)化學(xué)習(xí)將是困難的,因為在這些領(lǐng)域,預(yù)訓(xùn)練的模型很少(如果有的話)從頭開始復(fù)制或重新訓(xùn)練,但幾乎總是按原樣使用。
作者寫道:“由于從頭開始的再現(xiàn)性涉及再現(xiàn)現(xiàn)有的計算工作,它可能比訓(xùn)練白板更昂貴,這超出了進(jìn)行輪回的目的。”
- 上一篇
區(qū)塊鏈開發(fā):內(nèi)部與外包你更喜歡哪個?
我們都看到了區(qū)塊鏈如何成為越來越廣泛的企業(yè)的首選技術(shù)堆棧,為加密貨幣、金融應(yīng)用程序、供應(yīng)鏈系統(tǒng)等提供動力。此外,隨著web 3.0的出現(xiàn),企業(yè)除了實施區(qū)塊鏈技術(shù)在新連接的互
- 下一篇
什么是道德黑客及其如何運作?
我們生活在一個前所未有的網(wǎng)絡(luò)犯罪時代,無論是數(shù)量還是質(zhì)量。這些攻擊可以采取多種形式,可以顯著影響國家安全和商業(yè)利益。對于組織來說,應(yīng)對這些挑戰(zhàn)比以往任何時候都更加重要