導(dǎo)航:首頁>> 最新資訊>> 踹了OpenAI后 Figure光速發(fā)布具身大模型Helix

踹了OpenAI后 Figure光速發(fā)布具身大模型Helix

42天前 53 技術(shù)

來源:機器之心

在 2 月份突然宣布終結(jié)與 OpenAI 合作之后,知名機器人初創(chuàng)公司 Figure AI 在本周四晚公開了背后的原因:他們已經(jīng)造出了自己的通用具身智能模型 Helix。

Helix 是一個通用的視覺 - 語言 - 動作(VLA)模型,它統(tǒng)一了感知、語言理解和學(xué)習(xí)控制,以克服機器人技術(shù)中的多個長期挑戰(zhàn)。

Helix 創(chuàng)造了多項第一:

  • 全身控制:它是歷史上第一個類人機器人上半身的高速連續(xù)控制 VLA 模型,覆蓋手腕、軀干、頭部和單個手指;

  • 多機器人協(xié)作:可以兩臺機器人用一個模型控制協(xié)作,完成前所未見的任務(wù);?

  • 抓取任何物品:可以撿起任何小型物體,包括數(shù)千種它們從未遇到過的物品,只需遵循自然語言指令即可;

  • 單一神經(jīng)網(wǎng)絡(luò):Helix 使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重來學(xué)習(xí)所有行為 —— 抓取和放置物品、使用抽屜和冰箱、以及跨機器人交互 —— 無需任何任務(wù)特定的微調(diào);

  • 本地化:Helix 是史上第一個在本地 GPU 運行的機器人 VLA 模型,已經(jīng)具備了商業(yè)化落地能力。

在智能駕駛領(lǐng)域,今年各家車廠都在推進(jìn)端到端技術(shù)的大規(guī)模落地,如今 VLA 驅(qū)動的機器人也已進(jìn)入了商業(yè)化的倒計時,如此看來 Helix 可謂是具身智能的一次重大突破。

一組 Helix 神經(jīng)網(wǎng)絡(luò)權(quán)重同時在兩個機器人上運行,它們協(xié)同工作,將從未見過的雜貨物品收納起來。

人形機器人技術(shù)的新擴展

Figure 表示,家庭環(huán)境是機器人技術(shù)面臨的最大挑戰(zhàn)。與受控的工業(yè)環(huán)境不同,家庭中充滿了無數(shù)非規(guī)則物體,如易碎的玻璃器皿、皺巴巴的衣物、散落的玩具,每件物品的形狀、大小、顏色和質(zhì)地都難以預(yù)測。為了讓機器人在家庭中發(fā)揮作用,它們需要能夠按需生成智能的新行為。

當(dāng)前的機器人技術(shù)無法擴展到家庭環(huán)境中 —— 目前,即使教機器人一個單一的新行為,也需要大量的人力投入。要么需要數(shù)小時的博士級專家手動編程,要么需要數(shù)千次的演示,這兩種方法的成本都高得令人望而卻步。

圖 1:不同方法獲取新機器人技能的擴展曲線。在傳統(tǒng)的啟發(fā)式操作中,技能的增長依賴于專家手動編寫腳本。在傳統(tǒng)機器人模仿學(xué)習(xí)中,技能的擴展依賴于收集的數(shù)據(jù)。而通過 Helix,新技能可以通過語言即時指定。

當(dāng)前,人工智能的其他領(lǐng)域已經(jīng)掌握了這種即時泛化的能力。如果能簡單地將視覺 - 語言模型(VLM)中捕獲的豐富語義知識直接轉(zhuǎn)化為機器人動作,或許會實現(xiàn)技術(shù)突破。

這種新能力將從根本上改變機器人技術(shù)的擴展軌跡(圖 1)。于是,關(guān)鍵問題變成了:如何從 VLM 中提取所有這些常識性知識,并將其轉(zhuǎn)化為可泛化的機器人控制?Figure 構(gòu)建了 Helix 來彌合這一差距。

Helix:首個機器人系統(tǒng) 1 + 系統(tǒng) 2 VLA 模型

Helix 是機器人領(lǐng)域上首創(chuàng)的「系統(tǒng) 1 + 系統(tǒng) 2」VLA 模型,用于高速、靈巧地控制整個人形機器人上半身。

Figure 表示,先前的方法面臨一個根本性的權(quán)衡:VLM 主干是通用的,但速度不快,而機器人視覺運動策略是快速的,但不夠通用。Helix 通過兩個互補的系統(tǒng)解決了這一權(quán)衡,這兩個系統(tǒng)經(jīng)過端到端的訓(xùn)練,可以進(jìn)行通信:

  • 系統(tǒng) 1 (S1):一種快速反應(yīng)的視覺運動策略,可將 S2 產(chǎn)生的潛在語義表征轉(zhuǎn)換為 200 Hz 的精確連續(xù)機器人動作;

  • 系統(tǒng) 2 (S2):一個機載互聯(lián)網(wǎng)預(yù)訓(xùn)練的 VLM,以 7-9 Hz 運行,用于場景理解和語言理解,實現(xiàn)跨物體和上下文的廣泛泛化。

這種解耦架構(gòu)允許每個系統(tǒng)在其最佳時間尺度上運行。S2 可以「慢慢思考」高層次目標(biāo),而 S1 可以「快速思考」機器人實時執(zhí)行和調(diào)整的動作。例如,在協(xié)作行為中(見下圖),S1 可以快速適應(yīng)伙伴機器人不斷變化的動作,同時保持 S2 的語義目標(biāo)。

Helix 能讓機器人快速進(jìn)行精細(xì)的運動調(diào)整,這是在執(zhí)行新語義目標(biāo)時對協(xié)作伙伴做出反應(yīng)所必需的。

Helix 的設(shè)計相較于現(xiàn)有方法具有以下幾個關(guān)鍵優(yōu)勢:

  • 速度與泛化能力:Helix 在速度上與專門用于單一任務(wù)的行為克隆策略相當(dāng),同時能夠零樣本泛化到數(shù)千種新測試對象上;

  • 可擴展性:Helix 直接輸出高維動作空間的連續(xù)控制,避免了之前 VLA 方法中使用的復(fù)雜動作標(biāo)記化方案。這些方案在低維控制設(shè)置(例如二值化平行夾爪)中取得了一些成功,但在高維人形控制中面臨擴展挑戰(zhàn);

  • 架構(gòu)簡潔性:Helix 使用標(biāo)準(zhǔn)架構(gòu) —— 一個開源的、開放權(quán)重的 VLM 用于系統(tǒng) 2,以及一個簡單的基于 Transformer 的視覺運動策略用于系統(tǒng) 1;

  • 關(guān)注點分離:將 S1 和 S2 解耦使我們能夠分別迭代每個系統(tǒng),而無需受限于尋找統(tǒng)一的觀察空間或動作表示。

Figure 介紹了部分模型及訓(xùn)練細(xì)節(jié),其收集了一個高質(zhì)量、多機器人、多操作員的多樣化遙操作行為數(shù)據(jù)集,總計約 500 小時。為了生成自然語言條件下的訓(xùn)練對,工程人員使用了一個自動標(biāo)注的視覺語言模型(VLM)來生成事后指令。

該 VLM 會處理來自機器人機載攝像頭的分段視頻片段,并提示:「你會給機器人什么指令以使其執(zhí)行視頻中看到的動作?」訓(xùn)練期間處理的所有物品在評估中被排除,以防止數(shù)據(jù)污染。

模型架構(gòu)

Helix 系統(tǒng)主要由兩個主要組件組成:S2,一個 VLM 骨干網(wǎng)絡(luò);S1,一個潛在條件視覺運動 Transformer。

S2 基于一個 70 億參數(shù)的開源、開放權(quán)重的 VLM 構(gòu)建,該 VLM 在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。它處理單目機器人圖像和機器人狀態(tài)信息(包括手腕姿態(tài)和手指位置),并將它們投影到視覺語言嵌入空間中。結(jié)合指定期望行為的自然語言指令,S2 將所有語義任務(wù)相關(guān)信息提煉為一個連續(xù)的潛在向量,傳遞給 S1 以調(diào)節(jié)其低級動作。

S1 是一個 8000 萬參數(shù)的交叉注意力編碼器 - 解碼器 Transformer,負(fù)責(zé)低級控制。它依賴于一個完全卷積的多尺度視覺骨干網(wǎng)絡(luò)進(jìn)行視覺處理,該網(wǎng)絡(luò)完全在模擬環(huán)境中進(jìn)行預(yù)訓(xùn)練初始化。雖然 S1 接收與 S2 相同的圖像和狀態(tài)輸入,但它以更高的頻率處理這些輸入,以實現(xiàn)更靈敏的閉環(huán)控制。來自 S2 的潛在向量被投影到 S1 的標(biāo)記空間中,并與 S1 視覺骨干網(wǎng)絡(luò)提取的視覺特征沿序列維度連接,提供任務(wù)條件。

在工作時,S1 以 200 赫茲的頻率輸出完整的上半身人形控制,包括期望的手腕姿態(tài)、手指屈曲和外展控制,以及軀干和頭部方向目標(biāo)。Figure 在動作空間中附加了一個合成的「任務(wù)完成百分比」動作,使 Helix 能夠預(yù)測自身的終止條件,從而更容易對多個學(xué)習(xí)到的行為進(jìn)行排序。

訓(xùn)練

Helix 的訓(xùn)練是完全端到端的:從原始像素和文本命令映射到具有標(biāo)準(zhǔn)回歸損失的連續(xù)動作。

梯度的反向傳播路徑是通過用于調(diào)節(jié) S1 行為的隱通信向量從 S1 到 S2,從而允許對這兩個組件進(jìn)行聯(lián)合優(yōu)化。

Helix 不需要針對具體某某任務(wù)進(jìn)行調(diào)整;它只需維持單個訓(xùn)練階段和一組神經(jīng)網(wǎng)絡(luò)權(quán)重,無需單獨的動作頭或針對每個任務(wù)的微調(diào)階段。

在訓(xùn)練期間,他們還會在 S1 和 S2 輸入之間添加一個時間偏移量。此偏移量經(jīng)過校準(zhǔn)以匹配 S1 和 S2 部署的推理延遲之間的差距,確保部署期間的實時控制要求準(zhǔn)確反映在訓(xùn)練中。

經(jīng)過優(yōu)化的流式推理

Helix 的訓(xùn)練設(shè)計可實現(xiàn)在 Figure 機器人上高效地并行部署模型,每臺機器人都配備了雙低功耗嵌入式 GPU。推理管道分為 S2(高級隱規(guī)劃)和 S1(低級控制)模型,每個模型都在專用 GPU 上運行。

S2 作為異步后臺進(jìn)程運行,用于處理最新的觀察結(jié)果(機載攝像頭和機器人狀態(tài))和自然語言命令。它不斷更新編碼高級行為意圖的共享內(nèi)存隱向量。

S1 作為單獨的實時進(jìn)程執(zhí)行,其目標(biāo)是維持讓整個上身動作平滑執(zhí)行所需的關(guān)鍵 200Hz 控制回路。它的輸入是最新的觀察結(jié)果和最新的 S2 隱向量。由于 S2 和 S1 推理之間存在固有的速度差異,因此 S1 自然會在機器人觀察上以更高的時間分辨率運行,從而為反應(yīng)控制創(chuàng)建更緊密的反饋回路。

這種部署策略有意反映了訓(xùn)練中引入的時間偏移量,從而可最大限度地減少訓(xùn)練推理分布差距。這種異步執(zhí)行模型允許兩個進(jìn)程以各自最佳頻率運行,使 Helix 的運行速度能與最快的單任務(wù)模仿學(xué)習(xí)策略一樣快。

有趣的是,在 Figure 發(fā)布 Helix 之后,清華大學(xué)博士生 Yanjiang Guo 表示其技術(shù)思路與他們的一篇 CoRL 2024 論文頗為相似,感興趣的讀者也可參照閱讀。

論文地址:https://arxiv.org/abs/2410.05273

結(jié)果

細(xì)粒度 VLA 全上身控制

Helix 能以 200Hz 的頻率協(xié)調(diào) 35 自由度的動作空間,控制從單個手指運動到末端執(zhí)行器軌跡、頭部注視和軀干姿勢等一切。

頭部和軀干控制具有獨特的挑戰(zhàn) —— 當(dāng)頭部和軀干移動時,會改變機器人可以觸及的范圍和可以看到的范圍,從而產(chǎn)生反饋回路,過去這種反饋回路會導(dǎo)致不穩(wěn)定。

視頻 3 演示了這種協(xié)調(diào)的實際操作:機器人用頭部平穩(wěn)地跟蹤雙手,同時調(diào)整軀干以獲得最佳觸及范圍,同時保持精確的手指控制以進(jìn)行抓握。在此之前,在如此高維的動作空間中實現(xiàn)這種精度水平是很難的,即使對于單個且已知的任務(wù)也是如此。Figure 公司表示,之前還沒有 VLA 系統(tǒng)能夠表現(xiàn)出這種程度的實時協(xié)調(diào),同時保持跨任務(wù)和物體泛化的能力。

Helix 的 VLA 能控制整個人形機器人上半身,這是機器人學(xué)習(xí)領(lǐng)域首個做到一點的模型。

零樣本多機器人協(xié)同

Figure 表示,他們在一個高難度多智能體操作場景中將 Helix 推向極限:兩臺 Figure 機器人協(xié)作實現(xiàn)零樣本雜貨存放。

視頻 1 展示了兩個基本進(jìn)步:兩臺機器人成功地操作了全新的貨物(訓(xùn)練期間從未遇到過的物品),展示了對各種形狀、大小和材料的穩(wěn)健泛化。

此外,兩個機器人都使用相同的 Helix 模型權(quán)重進(jìn)行操作,無需進(jìn)行特定于具體機器人的訓(xùn)練或明確的角色分配。它們的協(xié)同是通過自然語言提示詞實現(xiàn)的,例如「將一袋餅干遞給你右邊的機器人」或「從你左邊的機器人那里接過一袋餅干并將其放在打開的抽屜里」(參見視頻 4)。這是首次使用 VLA 展示多臺機器人之間靈活、擴展的協(xié)作操作??紤]到它們成功處理了全新的物體,這項成就就顯得尤其顯著了。

Helix 實現(xiàn)精確的多機器人協(xié)同

涌現(xiàn)出「拿起任何東西」能力

只需一個「拿起 [X]」指令,配備了 Helix 的 Figure 機器人基本就能拿起任何小型家用物品。在系統(tǒng)性測試中,無需任何事先演示或自定義編程,機器人就成功地處理了雜亂擺放的數(shù)千件新物品 —— 從玻璃器皿和玩具到工具和衣服。

特別值得注意的是,Helix 可以建立互聯(lián)網(wǎng)規(guī)模的語言理解和精確的機器人控制之間的聯(lián)系。例如,當(dāng)被提示「拿起沙漠物品」時,Helix 不僅能確定出玩具仙人掌與這個抽象概念相匹配,還能選擇最近的手并能通過精確運動命令安全地抓起它。

Figure 公司表示:「對于在非結(jié)構(gòu)化環(huán)境中部署人形機器人,這種通用的『語言到動作』抓取能力開辟了令人興奮的新可能?!?/p>

Helix 可將「拿起 [X]」等高層面指令轉(zhuǎn)譯成低層動作。

討論

Helix 的訓(xùn)練效率很高

Helix 以極少的資源實現(xiàn)了強大的物體泛化。Figure 公司表示:「我們總共使用了約 500 小時的高質(zhì)量監(jiān)督數(shù)據(jù)來訓(xùn)練 Helix,這僅僅是之前收集的 VLA 數(shù)據(jù)集的一小部分(<5%),并且不依賴多機器人具身收集或多個訓(xùn)練階段?!顾麄冏⒁獾?,這種收集規(guī)模更接近現(xiàn)代單任務(wù)模仿學(xué)習(xí)數(shù)據(jù)集。盡管數(shù)據(jù)要求相對較小,但 Helix 可以擴展到更具挑戰(zhàn)性的動作空間,即完整的上身人形控制,具有高速率、高維度的輸出。

單一權(quán)重集

現(xiàn)有的 VLA 系統(tǒng)通常需要專門的微調(diào)或?qū)S玫膭幼黝^來優(yōu)化執(zhí)行不同高級行為的性能。值得注意的是,Helix 僅使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重(系統(tǒng) 2 為 7B、系統(tǒng) 1 為 80M),就可以完成在各種容器中拾取和放置物品、操作抽屜和冰箱、協(xié)調(diào)靈巧的多機器人交接以及操縱數(shù)千個新物體等動作。

「拿起 Helix」(Helix 意為螺旋)

總結(jié)

Helix 是首個通過自然語言直接控制整個人形機器人上半身的「視覺 - 語言 - 動作」模型。與早期的機器人系統(tǒng)不同,Helix 能夠即時生成長視界、協(xié)作、靈巧的操作,而無需任何特定于任務(wù)的演示或大量的手動編程。

Helix 表現(xiàn)出了強大的對象泛化能力,能夠拿起數(shù)千種形狀、大小、顏色和材料特性各異的新奇家居用品,并且這些物品在訓(xùn)練中從未遇到過,只需用自然語言命令即可。該公司表示:「這代表了 Figure 在擴展人形機器人行為方面邁出了變革性的一步 —— 我們相信,隨著我們的機器人越來越多地協(xié)助日常家庭環(huán)境,這一步將至關(guān)重要?!?/p>

雖然這些早期結(jié)果確實令人興奮,但總體來說,我們上面看到的還都屬于概念驗證,只是展示了可能性。真正的變革將發(fā)生在能大規(guī)模實際部署 Helix 的時候。期待那一天早些到來!

最后順帶一提,F(xiàn)igure 的發(fā)布可能只是今年具身智能眾多突破的一小步。今天凌晨,1X 機器人也官宣即將推出新品。


登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。文章內(nèi)容僅供參考,不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。

最新快訊
來源:jinse
時間:2025-04-05 06:17:00
金色財經(jīng)報道,聯(lián)合國貿(mào)發(fā)會議當(dāng)?shù)貢r間4月4日發(fā)布聲明指出,隨著主要經(jīng)濟(jì)體將征收新關(guān)稅,全球經(jīng)濟(jì)增長可能進(jìn)一步下滑。在低增長、高負(fù)債的全球經(jīng)濟(jì)中,關(guān)稅上調(diào)可能會削弱投資和貿(mào)易流動,給本已脆弱的環(huán)境增加不...
來源:jinse
時間:2025-04-05 06:16:00
金色財經(jīng)報道,Space Systems Command授予馬斯克旗下太空探索公司SpaceX價值60億美元的發(fā)射合同,授予United Launch Alliance價值54億美元的合同,授予貝佐斯...
來源:jinse
時間:2025-04-05 06:03:00
金色財經(jīng)報道,加密貨幣兌法定貨幣應(yīng)用 P2P.me 宣布完成 200 萬美元種子輪融資,Multicoin 和 Coinbase Ventures 參投,據(jù)悉該開放協(xié)議建立在 Base 基礎(chǔ)上,計劃在...
來源:jinse
時間:2025-04-05 06:02:00
金色財經(jīng)報道,Meta Platforms計劃在威斯康星州投資近10億美元建設(shè)數(shù)據(jù)中心項目。
來源:chaincatcher
時間:2025-04-05 06:01:00
ChainCatcher 消息,幣安-BNB/USDT 現(xiàn)報 $600.00,24小時漲幅1.52%。
最新文章
推薦閱讀
作者專欄 查看更多>
金色財經(jīng)
金色財經(jīng)
6311
文章
301805
瀏覽
6898
訪問
  • 交易所
  • 幣種
排名 交易所 24h成交額
1 BinanceBinance ¥1,527.57 億
2 BybitBybit ¥576.23 億
3 Coinbase ExchangeCoinbase Exchange ¥71.57 億
4 OKXOKX ¥519.71 億
5 UpbitUpbit ¥77.13 億
6 KrakenKraken ¥43.20 億
7 BitgetBitget ¥494.79 億
8 RaydiumRaydium ¥11.50 億
9 BitfinexBitfinex ¥6.09 億
10 Uniswap v2Uniswap v2 ¥3.72 億
查看更多
行情行情 行情  平臺 平臺 平臺 首頁首頁 首頁 觀點觀點 觀點   快訊  快訊 快訊
日本永久免费Aⅴ在线观看,亚洲一区二区在线aⅴ,成人无码精品无码,久久机热这里只有精品23 www.sucaiwu.net