前言:人型機器人的開發曙光
NVIDIA 在2025 GTC 大會期間推出了 Isaac GR00T N1,這項號稱機器人領域迎來了一次重大的變革。這項宣布代表著革命性的進步,號稱全球首個開放且完全可客製化的基礎模型,專為通用型人形機器人的推理與技能而設計。
Isaac GR00T N1 是一款跨機體模型,能夠理解包含語言及圖像在內的多模態輸入,可在多樣化的環境中執行操作任務,希望能加速人形機器人領域的研究與開發步伐與希望賦能全球的機器人開發者,目標是解決影響全球各產業逾五千萬人的勞動力短缺問題。
NVIDIA CEO 黃仁勳表示:「通用型機器人的時代已經到來。」他進一步指出,NVIDIA Isaac GR00T N1 配合全新資料生成與機器人學習框架,將賦予全球開發者力量,打開人工智慧時代的新前沿。
本文是阿吉整理 gr00t N1 相關資訊心得,並結合 3 月底多場 NVIDIA watchparty 的心得。深入內容請參考這段 GTC 2025 session An Introduction to Building Humanoid Robots [S72590],非常精采!
NVIDIA GR00T N1 基礎模型
GR00T N1 被定義為世界上首個專為通用人形機器人開發所設計的開放式基礎模型。原廠強調,除了完全可客製化之壞,GR00T N1 的一項核心特質是其跨機體(cross-embodiment,或稱跨具身、跨形體)的能力,代表該模型能將所學技能跨到不同規格與配置的人形機器人上 (以往這件事幾乎等於不可能)。換句話說,它並不侷限於單一機器人身體,而能在多種不同環境下,以多種不同的機體形式執行操作任務。
GR00T N1 的設計上與我們人類更進一步,可以接受多模態輸入,特別是語言與圖像。此特性使它能理解以自然語言給予的指令,並透過視覺資訊感知環境。這種能力對機器人有效地與人類互動並在複雜環境中移動是至關重要的。
有了這些能力,GR00T N1 能夠執行各種常見的操作任務,包括抓取物體、使用單臂或雙臂移動物品,以及在多機體與多臂間 (例如你丟我撿) 傳遞物件。此外,其處理長情境(long context)的能力,使其能完成需要多步驟且結合多種一般性技能的複雜任務。這些技能的潛在應用範圍廣泛,例如材料處理、包裝與檢驗等。
簡而言之,NVIDIA Isaac GR00T N1 為人形機器人提供了一種基礎智慧,使機器人能以更通用、更具彈性的方式進行推理、學習與行動。這代表著一個重要的轉變:機器人不再僅僅是專業工具,而是朝向更為多元化應用邁進的新契機。
N1的大腦:雙系統架構
GR00T N1 的智慧來自於一套複雜的雙系統架構,這種設計的靈感當然是來自我們人類,將機器人的認知過程劃分為兩個獨立但協作的系統,使其能夠在快速回應和深思熟慮之間達到平衡。(GTC session 說來自 “快思慢想” 一書)。
這種架構的第一部分是「系統 1」,特點是快速思考的行動模型。這個系統類似於人類的反射或直覺,為機器人提供了快速且即時反應的能力,負責將系統 2 所給予的高階計劃轉換為精確且連續的機器人動作。可以將其視為行動的執行者,確保機器人與環境的物理互動流暢且精確。根據原廠資料,系統 1 與低階的感知運動控制有關,以快速、無意識、直覺和反應式的方式運作。
與系統 1 相輔相成的是「系統 2」,這是專注於深思熟慮和方法論決策的慢思考模型。由視覺語言模型驅動的系統 2 負責推理 (例如空間感知) 機器人周圍的環境和它所接收到的指令。基於這些分析,然後制定機器人需要執行的行動計劃。與系統 1 的速度相比,系統 2 涉及高階認知、推理和規劃,其特點是緩慢、有意識、深思熟慮且消耗較大算力。
GR00T N1 的成功在於這兩個系統如何搭配合作。系統 2 讓機器人能夠理解複雜的命令並評估情況,而系統 1 確保結果動作能夠順利且高效地執行。這種雙系統設計為機器人提供了一種更細膩且可適應的任務執行方式,這也正是我們人類在處理多感官資訊以及與世界互動的方式。
訓練 GR00T N1:資料的力量
如同各款 “大” 模型,NVIDIA Isaac GR00T N1 的能力也是建立於龐大且多樣化訓練資料集的力量之上。根據 NVIDIA 的說法,身為世界上首個通用人形機器人推理與技能的開放基礎模型的 GR00T N1,是在一個廣泛的人形資料集上進行訓練的。這個全面的資料集並非單一來源,而是結合了幾種關鍵資料類型:
- 真實採集資料:這部分可能包括人類對各種任務的示範 (如下圖),為模型提供操作和互動的實際範例。GR00T N1 的雙系統架構中的快速思考「系統 1」已提到是根據人類示範資料來訓練。
- NVIDIA Isaac GR00T 藍圖生成的合成資料:.有鑑於單純仰賴真實資料的限制,特別是其收集的時間和成本,NVIDIA 開發了 Isaac GR00T 藍圖,用於合成操縱動作生成。基於 NVIDIA Omniverse 和 NVIDIA Cosmos 世界基礎模型,此藍圖允許開發者從少量的人類示範開始,為操縱任務生成大量的合成動作資料。NVIDIA 在 11 小時內生成了 78 萬條合成軌跡來證明了這種方法的效果,相當於大量的人類示範時間。此外,將合成資料與實際資料結合後,單純使用實際資料相比,GR00T N1 的性能提高了 40%。
- 網路上的影片資料:這系列的資料來源可說是包山包海也是取得成本最低的,雖然並未直接教授特定的機器人動作或控制,但可為 GR00T N1 提供了對世界的常識和推理的感知,。
這種多方位的資料收集和生成方法與「通用機器人的數據金字塔 (上圖)」概念相符,該概念建議:利用網路資料獲得廣泛知識,合成資料實現可擴充性,實際資料則是確保最珍貴的準確性。在這個資料金字塔的不同層次之間進行模擬與實際共同訓練的過程,就是 GR00T N1 訓練的關鍵所在。這種全面的訓練方案使 GR00T N1 能夠勝任各種任務、環境甚至跨機體協作。
NVIDIA GR00T N1藍圖與合成資料生成
NVIDIA Isaac GR00T 藍圖負責處理上一段說的合成資料作業。Isaac GR00T 藍圖建立在 NVIDIA Omniverse 和 NVIDIA Cosmos 世界基礎模型的強大基礎之上,使開發者能從少量的人類示範開始,為操縱任務生成大量的合成動作數據。這個功能非常重要,因為它允許快速擴大訓練資料 (平行運算、GPU加速),而不受現實世界的相關限制,例如您得先準備好不同的物體與場景才能讓機器人進行訓練,但如果使用合成資料,這些就只是參數而已。
根據原廠資料,NVIDIA Isaac GR00T 藍圖在 11 小時內就生成了 780,000 條合成軌跡—這相當於 6,500 小時或連續九個月的人類示範資料—從而證明了這種方法的有效性。此外,結果顯示,將這些合成生成的數據與現實世界數據結合,與僅使用真實數據訓練相比,GR00T N1 的性能提高了 40%。這突顯了真實資料與合成資料在訓練機器人模型上的強大協同作用。
NVIDIA Isaac GR00T 藍圖利用 Omniverse 和 Cosmos,增強了真實世界示範的價值並建立訓練通用人形機器人所需的廣泛和多樣化資料集。這一能力對於推動該領域的發展與提升人形機器人適應性來說極為重要。
有興趣的讀者可以進一步參考 DexMimicGen 與 MobilityGen 這兩個套件,都屬於 GR00T藍圖的資料生成工具鏈其中之一。依序說明
DexMimicGen(Dexterous Mimicry Generator):建立仿人手部操作的高品質資料,支援 GR00T N1 學習精細操控技能。
功能:
- 資料生成:生成擬真人類手部操作的資料,包括手部姿態、關節動作、觸覺回饋等。
- 仿真訓練:結合 Omniverse 模擬環境與 Dexterous Hands(如 Shadow Hand)模擬高自由度操作行為。
- Mimic Learning:支援模仿學習(Imitation Learning),讓 GR00T N1 能根據真人影片、動作軌跡或模擬手勢學習操作物體。
- 應用:拿取不規則物體(像是水瓶、螺絲起子)、精細插拔動作(如 USB 插槽操作)與多指協作操作(如旋轉蓋子)
MobilityGen(Mobility Data Generator):為 GR00T N1 提供涵蓋多樣地形與姿態的移動訓練資料,支援其穩定行走與任務遷移。
功能:
- 地形多樣性:模擬各種環境條件(如樓梯、斜坡、碎石地),生成腳步策略與姿態數據。
- 姿態資料擴增:自動產生各種關節角度與動態變化的訓練樣本,幫助模型泛化至不同身體結構或機器人形態。
- 強化學習支援:可與 RL (Reinforcement Learning) 演算法搭配,學習穩定移動策略。
- 從影片學習:搭配大規模人類移動影片(例如網路上的走路動作、運動影片)提取可學習特徵。
- 應用:室內外場景行走與避障、攀爬不穩地形(如瓦礫堆)、靈活改變姿勢以穿越狹窄空間
客製化與應用:改良GR00T N1
GR00T N1 的另一個關鍵特性是其通過後訓練的適應性。開發者和研究人員可以使用自己的真實或合成資料對模型進行後訓練,使其能快速調整於各種特定機器人設計或任務。這使得 GR00T N1 可以根據不同機體的配置特性和各種環境的具體需求進行微調。
根據GR00T N1 GitHub,這項作業的步驟如下:
- 收集格式為影片、狀態和行動三元組的機器人示範資料集。
- 將這些數據轉換為與 LeRobot 相容的資料格式。
- 配置適合被使用的特定機器人機體的訓練設置。
- 根據使用者資料對預訓練的 GR00T N1 模型進行微調。
- 最後,將 Gr00t Policy 連接到機器人的控制器,以在目標硬體上執行動作。
GR00T N1 的固有能力使其適用於廣泛的應用場景,常見的操縱任務,如抓取物體、用一臂或雙臂移動它們,以及在雙臂間轉移物品都沒有問題。此外,其處理長期情境的能力使其能夠執行需要結合通用技能的多步驟任務,此項技術的潛在應用領域包括:物料處理、包裝,檢驗。
NVIDIA GTC 2025 大會可說是機器人大會,其中可看到 1X 人形機器人使用經過 GR00T N1 微調的策略自動執行家庭整理任務。這展示了將基礎模型適應執行複雜實際任務的能力,並且只需再提供少量資料就能訓練完成。由此可知,GR00T N1 的目標受眾包括人形機器人領域的研究人員和專業人士:運用預訓練模型進行控制、為特定目的進行微調、適應新情況並將其部署在他們的機器人系統中。

底層柴火:NVIDIA Isaac 生態系
NVIDIA Isaac GR00T N1 的卓越能力並非橫空出世,而是深植於全面的 NVIDIA Isaac 生態系統中。NVIDIA Isaac 是專門建立通用機器人基礎模型及必要的資料管線之研究開發平台。此生態系統中的幾個關鍵組件對於像 GR00T N1 這樣的模型的創建、訓練、模擬和部署起著重要作用:
- NVIDIA Omniverse 和 NVIDIA Cosmos 世界基礎模型:此二者搭建了模擬框架和世界基礎模型的基礎。NVIDIA Cosmos 被描述為一個先進的世界基礎模型平台,幫助開發者為物理 AI 系統建置自定義的世界模型,提供資料策劃、訓練和客製化工具。基於這些平台,NVIDIA Isaac GR00T 藍圖用於合成操縱動作生成,允許開發者從有限的現實世界示範中生成大量的合成資料。
- NVIDIA Isaac Lab:使得在物理精確的場景中可擴展和適應的策略訓練成為可能,幫助彌合模擬與現實之間的差距(sim-to-real)。Isaac Lab 也相容於開源的 Newton 物理引擎,該引擎由 NVIDIA、Google DeepMind 和 Disney Research 共同開發,以增強機器人處理複雜任務的精確性。
- NVIDIA Isaac Sim:在機器人部署到現實世界之前,訓練好的機器人策略可以在 NVIDIA Isaac Sim 的物理精確環境中進行驗證。Isaac Sim 是 NVIDIA Isaac 提供的更大模擬和機器人學習框架的一部分,提供測試和模擬機器人行為的工具。

- NVIDIA Jetson AGX Thor:作為機器人的運算核心,運行所有軟體堆疊並加速高級人形機器人和多模態 AI 模型的開發。AGX Thor 基於 NVIDIA Blackwell 架構,號稱為自駕車與人形機器人的終極平台。
GR00T N1 入門
通過發布關鍵資源和工具,使得開始使用 NVIDIA Isaac GR00T N1 的旅程變得容易。作為世界上首個針對通用人形機器人推理和技能的開放基礎模型,NVIDIA 為人形機器人領域的研究人員和專業人士提供了多個途徑,以開始探索和利用其功能。這個微調過程使機器人行為的客製化成為可能,研究人員和專業人士可以有效地開始利用 GR00T N1 基礎模型的力量來實作他們的人形機器人專案。開源資源的可用性以及在自定義數據上微調模型的能力是加速該領域創新的關鍵。
最佳入門點當然是 NVIDIA Isaac GR00T N1 模型本身、相關資料集和 NVIDIA Isaac GR00T 藍圖。這些都可以從像 Hugging Face 和 GitHub 等平台下載,並取得 GR00T N1 的訓練資料和任務評估場景。
要開始使用 GR00T N1,請先參考 NVIDIA Isaac GR00T 的 GitHub。以下根據現有資訊來給您一個初步面向:
- 先決條件:確保您的系統可符合需求。GR00T Github 已在 Ubuntu 20.04 和 22.04 上進行了測試,使用特定 GPU 如 H100、L40、RTX 4090 和 A6000 進行微調,以及 RTX 4090 和 A6000 進行推理。建議使用 Python 3.10 和 CUDA 版本 12.4,當然也需要安裝如 ffmpeg、libsm6 和 libxext6 等相依套件。
- 安裝:取得 NVIDIA Isaac GR00T github,建立新的 conda 環境並根據系統說明存儲庫。克隆後,應創建一個新的 conda 環境,使用 Python 3.10,然後安裝所需的相依套件,包括 flash-attn 模塊,確保您的 CUDA 版本配置正確。
- 數據格式和加載:GR00T N1 使用 LeRobot 相容資料模式,這是 Hugging Face LeRobot 資料格式的擴展,包含更詳細的模態和註釋。請將機器人示範資料(影片、狀態、行動三元組)組織成此格式,然後就能用 LeRobotSingleDataset 類別來加載資料。
- 推論:預訓練的 GR00T N1 模型託管在 Hugging Face,還有互動式 Jupyter 筆記本和腳本,示範如何建構推論管線,並可在伺服器與客戶端模式下運行推理。
- 微調:如果要讓 GR00T N1 適應特定機器人機體、任務或環境,則需使用專屬資料集對預訓練模型進行微調。GR00T Github包括用於微調的腳本並提供有關配置不同機器人類型的訓練設置的指導,也可由。您還可以從 NVIDIA 的 Hugging Face 下載範例資料集來進行微調試驗。
- 部署:最後,您需要將 Gr00tPolicy 連接到您的機器人控制器,請參考 Holoscan Sensor Bridge。
結論:通用機器人的時代來臨
NVIDIA Isaac GR00T N1 的到來標誌著一個重要的轉折點,預示著通用人形機器人成為現實的時代已經來臨。作為世界上首個針對通用人形機器人推理和技能的開放基礎模型,GR00T N1 提供了一個強大且適應性強的基礎,未來的機器人學可以在此基礎上建立。

GR00T N1 能夠接收包括語言和圖像在內的多模態輸入,在多樣化的環境中執行操作任務,展示了其廣泛應用的潛力。它在一個廣泛的人形資料集上接受訓練,該資料集包括實際擷取的資料(人類示範)、由 NVIDIA Isaac GR00T 藍圖生成的合成資料以及互聯網規模的影片資料,體現了一種建立智能機器人系統的新方法。其靈感來自人類認知的雙系統架構 (快腦慢腦),允許機器人進行快速、直覺的行動和深思熟慮、有條不紊的決策。這種結合讓機器人不僅能夠熟練地執行任務,還能有效地推理其環境和指令。
GR00T N1 的力量進一步通過其在 NVIDIA Isaac 生態系統中的位置得到加強,該生態系統致力於打造通用機器人基礎模型和資料管線,並提供基於 NVIDIA Omniverse 和 Cosmos 的基本模擬框架,以及設計用來運行整個機器人堆疊的 Jetson AGX Thor 電腦。NVIDIA Isaac GR00T 藍圖在合成操縱動作生成中發揮著關鍵作用,通過從有限的實際世界示範中使訓練資料呈現指數級增長,確實在模擬中誕生了實體 AI (physical AI),這些工具為更有能力和更適應性的機器人鋪平了道路。
通過後訓練的客製化重點,允許開發者和研究人員使用他們自己的數據為特定的人形機器人設計和任務量身定制 GR00T N1。這種適應性開啟了一個廣闊的潛在應用領域,涵蓋面臨勞動力短缺的行業,如物料處理、包裝和檢查。機器人執行複雜任務如家庭整理的演示進一步突顯了這項技術的變革潛力。GR00T N1 作為一個開放基礎模型,NVIDIA 正在培養一個全球創新者社群,加速人形機器人領域的進展。模型、資料集和藍圖的可用性賦能研究人員和開發者探索 AI 驅動機器人的新領域。正如黃仁勳所說,“通用機器人的時代已經來臨”,而 NVIDIA Isaac GR00T N1 無疑是引領這個激動人心的新時代的關鍵催化劑。
還沒有人型機器人怎麼辦?
人型機器人需要相當的技術才能掌握,當然售價也很可觀,可以採用 Jetson AI Lab 上的 lerobot 專案來打造您的第一套多模態辨識機器手臂。
哪邊找合適的教學資源?
那… 當然是 CAVEDU 教育團隊所寫的,以及本部落格上的相關文章喔!
- [邊緣AI:使用NVIDIA Jetson Orin Nano開發具備深度學習、電腦視覺與生成式AI功能的ROS2機器人]
- CAVEDU Jetson 相關文章
- CAVEDU ROS2 相關文章 (實作於 Jetson 平台)
參考資料
- https://github.com/NVIDIA/Isaac-GR00T
- https://nvidianews.nvidia.com/news/nvidia-isaac-gr00t-n1-open-humanoid-robot-foundation-model-simulation-frameworks