亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

從運(yùn)動(dòng)控制到體現(xiàn)智能

DeepMind2022-09-02 09:19:444636

使用人類(lèi)和動(dòng)物的動(dòng)作來(lái)教機(jī)器人運(yùn)球,并模擬人形角色搬運(yùn)箱子和踢足球。

人形角色通過(guò)反復(fù)試驗(yàn)學(xué)習(xí)穿越障礙課程,這可能會(huì)導(dǎo)致特殊的解決方案。海斯等人。“豐富環(huán)境中運(yùn)動(dòng)行為的出現(xiàn)”(2017 年)。

五年前,我們接受了教授一個(gè)完全清晰的人形角色穿越障礙課程的挑戰(zhàn)。這展示了強(qiáng)化學(xué)習(xí) (RL) 可以通過(guò)反復(fù)試驗(yàn)來(lái)實(shí)現(xiàn)什么,但也突出了解決具身智能的兩個(gè)挑戰(zhàn):

重用先前學(xué)習(xí)的行為:代理需要大量數(shù)據(jù)才能“起步”。在沒(méi)有任何初步知識(shí)對(duì)每個(gè)關(guān)節(jié)施加什么力的情況下,代理開(kāi)始隨機(jī)抽搐并迅速跌倒在地。這個(gè)問(wèn)題可以通過(guò)重用以前學(xué)習(xí)的行為來(lái)緩解。

特殊行為:當(dāng)智能體最終學(xué)會(huì)導(dǎo)航障礙路線(xiàn)時(shí),它會(huì)以不自然(盡管很有趣)的運(yùn)動(dòng)模式進(jìn)行,這對(duì)于機(jī)器人等應(yīng)用來(lái)說(shuō)是不切實(shí)際的。

在這里,我們描述了一個(gè)解決這兩個(gè)挑戰(zhàn)的解決方案,稱(chēng)為神經(jīng)概率運(yùn)動(dòng)原語(yǔ) (NPMP),涉及使用源自人類(lèi)和動(dòng)物的運(yùn)動(dòng)模式進(jìn)行引導(dǎo)學(xué)習(xí),并討論如何在我們的Humanoid Football 論文中使用這種方法,該論文今天發(fā)表在 Science Robotics 上。

我們還討論了這種相同的方法如何通過(guò)視覺(jué)實(shí)現(xiàn)人形全身操作,例如攜帶物體的人形,以及現(xiàn)實(shí)世界中的機(jī)器人控制,例如運(yùn)球的機(jī)器人。

使用 NPMP 將數(shù)據(jù)提取為可控電機(jī)原語(yǔ)

NPMP 是一種通用電機(jī)控制模塊,可將短視距電機(jī)意圖轉(zhuǎn)換為低級(jí)控制信號(hào),并通過(guò)模仿運(yùn)動(dòng)捕捉 (MoCap) 數(shù)據(jù)離線(xiàn)或通過(guò) RL進(jìn)行訓(xùn)練,這些數(shù)據(jù)由跟蹤器記錄的人類(lèi)或動(dòng)物執(zhí)行以下動(dòng)作興趣。

一個(gè)學(xué)習(xí)模仿 MoCap 軌跡的智能體(以灰色顯示)。

該模型有兩個(gè)部分:

采用未來(lái)軌跡并將其壓縮為運(yùn)動(dòng)意圖的編碼器。

一個(gè)低級(jí)控制器,在給定代理的當(dāng)前狀態(tài)和這個(gè)運(yùn)動(dòng)意圖的情況下產(chǎn)生下一個(gè)動(dòng)作。

我們的 NPMP 模型首先將參考數(shù)據(jù)提取到低級(jí)控制器(左)。然后,該低級(jí)控制器可用作新任務(wù)的即插即用電機(jī)控制模塊(右)。

訓(xùn)練后,低級(jí)控制器可以重新用于學(xué)習(xí)新任務(wù),其中高級(jí)控制器被優(yōu)化以直接輸出電機(jī)意圖。這可以實(shí)現(xiàn)有效的探索——因?yàn)榧词故请S機(jī)采樣的運(yùn)動(dòng)意圖也會(huì)產(chǎn)生連貫的行為——并限制最終的解決方案。

人形足球中的緊急團(tuán)隊(duì)協(xié)調(diào)

足球一直是體現(xiàn)智力研究的長(zhǎng)期挑戰(zhàn),需要個(gè)人技能和協(xié)調(diào)的團(tuán)隊(duì)合作。在我們最新的工作中,我們使用 NPMP 作為指導(dǎo)學(xué)習(xí)運(yùn)動(dòng)技能的先驗(yàn)。

結(jié)果是一群球員從學(xué)習(xí)追球技巧發(fā)展到最終學(xué)會(huì)協(xié)調(diào)。以前,在一項(xiàng)具有簡(jiǎn)單實(shí)施例的研究中,我們已經(jīng)表明協(xié)調(diào)行為可以出現(xiàn)在相互競(jìng)爭(zhēng)的團(tuán)隊(duì)中。NPMP 使我們能夠觀(guān)察到類(lèi)似的效果,但在需要更先進(jìn)的電機(jī)控制的情況下。

代理首先模仿足球運(yùn)動(dòng)員的運(yùn)動(dòng)來(lái)學(xué)習(xí) NPMP 模塊(上)。使用 NPMP,代理然后學(xué)習(xí)足球特定技能(底部)。

我們的代理人獲得了包括敏捷運(yùn)動(dòng)、傳球和分工在內(nèi)的技能,這些技能由一系列統(tǒng)計(jì)數(shù)據(jù)(包括現(xiàn)實(shí)世界體育分析中使用的指標(biāo))證明。球員們表現(xiàn)出敏捷的高頻運(yùn)動(dòng)控制和長(zhǎng)期決策,包括預(yù)測(cè)隊(duì)友的行為,從而實(shí)現(xiàn)協(xié)調(diào)的團(tuán)隊(duì)合作。

使用多智能體 RL 學(xué)習(xí)有競(jìng)爭(zhēng)力地踢足球的智能體。

使用視覺(jué)的全身

學(xué)習(xí)使用手臂與物體交互是另一個(gè)困難的控制挑戰(zhàn)。NPMP 還可以實(shí)現(xiàn)這種類(lèi)型的全身操作。通過(guò)與盒子交互的少量 MoCap 數(shù)據(jù),我們能夠訓(xùn)練一個(gè)智能體將一個(gè)盒子從一個(gè)位置帶到另一個(gè)位置,使用以自我為中心的視覺(jué)并且只有一個(gè)稀疏的獎(jiǎng)勵(lì)信號(hào):

使用少量 MoCap 數(shù)據(jù)(上),我們的 NPMP 方法可以解決一個(gè)盒子搬運(yùn)任務(wù)(下)。

同樣,我們可以教智能體接球和扔球:

模擬人形接球和投球。

使用 NPMP,我們還可以處理涉及運(yùn)動(dòng)、感知和記憶的迷宮任務(wù):

模擬人形機(jī)器人在迷宮中收集藍(lán)色球體。

安全高效地控制現(xiàn)實(shí)世界的機(jī)器人

NPMP 還可以幫助控制真正的機(jī)器人。有規(guī)律的行為對(duì)于在崎嶇地形上行走或處理易碎物體等活動(dòng)至關(guān)重要。抖動(dòng)的動(dòng)作可能會(huì)損壞機(jī)器人本身或其周?chē)h(huán)境,或者至少會(huì)耗盡其電池。因此,通常會(huì)投入大量精力來(lái)設(shè)計(jì)學(xué)習(xí)目標(biāo),使機(jī)器人能夠按照我們的意愿行事,同時(shí)以安全有效的方式行事。

作為替代方案,我們調(diào)查了使用源自生物運(yùn)動(dòng)的先驗(yàn)是否可以為有腿機(jī)器人提供規(guī)則化、外觀(guān)自然和可重復(fù)使用的運(yùn)動(dòng)技能,例如適合部署在現(xiàn)實(shí)世界機(jī)器人上的步行、跑步和轉(zhuǎn)彎.

從人類(lèi)和狗的 MoCap 數(shù)據(jù)開(kāi)始,我們采用 NPMP 方法在模擬中訓(xùn)練技能和控制器,然后可以分別部署在真正的類(lèi)人機(jī)器人 (OP3) 和四足機(jī)器人 (ANYmal B) 上。這允許用戶(hù)通過(guò)操縱桿操縱機(jī)器人或以自然且穩(wěn)健的方式將球運(yùn)到目標(biāo)位置。

ANYmal 機(jī)器人的運(yùn)動(dòng)技能是通過(guò)模仿狗的動(dòng)作捕捉來(lái)學(xué)習(xí)的。

然后可以將運(yùn)動(dòng)技能重新用于可控步行和運(yùn)球。

使用神經(jīng)概率運(yùn)動(dòng)原語(yǔ)的好處

總之,我們已經(jīng)使用 NPMP 技能模型來(lái)學(xué)習(xí)模擬和現(xiàn)實(shí)世界機(jī)器人中具有人形角色的復(fù)雜任務(wù)。NPMP 以可重用的方式打包了低級(jí)運(yùn)動(dòng)技能,從而更容易學(xué)習(xí)通過(guò)非結(jié)構(gòu)化試錯(cuò)法難以發(fā)現(xiàn)的有用行為。使用動(dòng)作捕捉作為先驗(yàn)信息的來(lái)源,它將運(yùn)動(dòng)控制的學(xué)習(xí)偏向自然運(yùn)動(dòng)的學(xué)習(xí)。

NPMP 使具體代理能夠使用 RL 更快地學(xué)習(xí);學(xué)習(xí)更多自然主義的行為;學(xué)習(xí)更安全、高效、穩(wěn)定的適用于現(xiàn)實(shí)世界機(jī)器人的行為;并將全身運(yùn)動(dòng)控制與更長(zhǎng)視野的認(rèn)知技能相結(jié)合,例如團(tuán)隊(duì)合作和協(xié)調(diào)。