亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動端logo

谷歌推出改進(jìn)強(qiáng)化學(xué)習(xí)的新方法

2022-11-12 08:42:224636

谷歌推出改進(jìn)強(qiáng)化學(xué)習(xí)的新方法

谷歌的人工智能研究人員提出了一種改進(jìn)強(qiáng)化學(xué)習(xí) (RL) 的新方法——重用先前的計算工作。

在論文Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress中,該團(tuán)隊提議在 RL 代理到另一個代理的設(shè)計迭代之間重用記錄的數(shù)據(jù)或?qū)W習(xí)模型。

研究人員表示,重用計算工作可以“顯著提高現(xiàn)實世界 RL 的采用率,并有助于進(jìn)一步民主化”。

該論文的作者表示,重生強(qiáng)化學(xué)習(xí) (RRL) 是“比白板強(qiáng)化學(xué)習(xí)更(更多)計算效率更高的研究工作流程,并且可以幫助進(jìn)一步使研究民主化”。

該論文在 NeurIPS 2022 會議之前發(fā)表,代碼可通過GitHub獲得。

降低研究人員的計算成本

強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)訓(xùn)練方法,其中期望的行為得到獎勵,而未尋求的行為則受到懲罰。實際上,這是一種試錯法,系統(tǒng)會逐漸學(xué)習(xí)其任務(wù)和周圍的環(huán)境。RL 可用于改進(jìn)機(jī)器人、自動駕駛汽車本文和對話代理等領(lǐng)域的部署。

谷歌推出改進(jìn)強(qiáng)化學(xué)習(xí)的新方法

大多數(shù)基于代理的系統(tǒng)都是使用 RL 的白板方法開發(fā)的,因為它們是從頭開始構(gòu)建的,而不使用先前學(xué)習(xí)的有關(guān)問題的知識。

谷歌的研究團(tuán)隊認(rèn)為,tabula rasa RL 方法“通常是解決大規(guī)模 RL 問題的例外而不是規(guī)范”。他們認(rèn)為,重新訓(xùn)練大型系統(tǒng)“成本高得令人望而卻步”,尤其是考慮到許多系統(tǒng)經(jīng)歷了多次設(shè)計變更和修改。

“tabula rasa RL 研究的低效率可能使許多研究人員無法解決計算要求高的問題,”作者在谷歌博客文章中寫道。

相反,研究人員認(rèn)為,他們的新可重用方法將使研究人員受益,因為不需要過多的計算資源。

谷歌研究人員表示:“RRL 可以實現(xiàn)基準(zhǔn)測試范式,研究人員可以在其中不斷改進(jìn)和更新現(xiàn)有的訓(xùn)練有素的代理,特別是在提高性能對現(xiàn)實世界產(chǎn)生影響的問題上,例如(平流層)氣球?qū)Ш交蛐酒O(shè)計。”

然而,該論文確實指出,對于自然語言處理 (NLP) 和計算機(jī)視覺來說,重新強(qiáng)化學(xué)習(xí)將是困難的,因為在這些領(lǐng)域,預(yù)訓(xùn)練的模型很少(如果有的話)從頭開始復(fù)制或重新訓(xùn)練,但幾乎總是按原樣使用。

作者寫道:“由于從頭開始的再現(xiàn)性涉及再現(xiàn)現(xiàn)有的計算工作,它可能比訓(xùn)練白板更昂貴,這超出了進(jìn)行輪回的目的。”