前言:人型機器人的開發曙光
NVIDIA 在 2025 GTC 大會推出了 Isaac GR00T N1,這項宣布代表著機器人領域的重大變革。作為全球首個開放且完全可客製化的基礎模型,它是專為通用型人形機器人的推理與技能而設計。
Isaac GR00T N1 是一款關鍵的 跨機體模型,能夠理解語言及圖像在內的多模態輸入。其目標在於解決全球各產業逾五千萬人的勞動力短缺問題,加速人形機器人領域的研究步調。
NVIDIA CEO 黃仁勳表示:「通用型機器人的時代已經到來。」配合全新的資料生成與學習框架,將賦予全球開發者力量,打開人工智慧的新前沿。
本文由 阿吉 整理 GR00T N1 相關資訊心得,並結合 NVIDIA watchparty 的第一手觀察。深入內容可參考 GTC 2025 session:An Introduction to Building Humanoid Robots [S72590]。
NVIDIA GR00T N1 基礎模型
GR00T N1 的核心特質在於其 跨機體 (Cross-embodiment) 能力。這代表該模型能將所學技能無縫遷移至不同規格與配置的人形機器人上。這打破了以往機器人僅能侷限於單一身體的技術瓶頸。
它能接受多模態輸入,透過自然語言指令與視覺資訊感知環境,有效與人類互動。這種基礎智慧讓機器人不再僅是專業工具,而是朝向多元化應用邁進的新契機。
有了這些能力,GR00T N1 能夠執行各種常見的操作任務,包括抓取物體、使用單臂或雙臂移動物品,以及在多機體與多臂間 (例如你丟我撿) 傳遞物件。此外,其處理 長情境 (Long context) 的能力,使其能完成需要多步驟且結合多種一般性技能的複雜任務。這些技能的潛在應用範圍廣泛,例如材料處理、包裝與檢驗等。
簡而言之,NVIDIA Isaac GR00T N1 為人形機器人提供了一種基礎智慧,使機器人能以更通用、更具彈性的方式進行推理、學習與行動。這代表著一個重要的轉變:機器人不再只是狹窄的精密工具,而是朝向更通用、更多元化應用邁進的新契機。

N1 的大腦:雙系統架構
GR00T N1 的智慧源於一套模擬人類認知過程的 雙系統架構。這種設計旨在讓機器人在「快速回應」與「深思熟慮」之間取得完美平衡,其靈感取自《快思慢想》(Thinking, Fast and Slow) 經典著作。

● 系統 1:快速思考的行動模型
系統 1 類似於人類的反射或直覺,為機器人提供即時反應能力。它負責將高階計劃轉換為精確且連續的物理動作,與 低階感知運動控制 密切相關。
其運作特點是快速、無意識且具反應性,確保機器人與環境的物理互動達到流暢與精確。
● 系統 2:慢速思考的推理模型
系統 2 專注於方法論決策。由 視覺語言模型 (VLM) 驅動,負責推理機器人周圍的空間環境並解析指令。
相較於系統 1,它涉及高階認知與規劃,運作較慢但具備意識且深思熟慮,儘管消耗算力較大,卻是處理複雜任務的關鍵。
跨系統協作機制
GR00T N1 的成功關鍵在於雙系統的完美對接:系統 2 理解複雜命令並評估全局狀況,而 系統 1 則確保最終動作高效執行。這種設計賦予人形機器人更細膩的感官處理能力,模擬了人類與世界互動的真實方式。

訓練 GR00T N1:資料的力量
NVIDIA Isaac GR00T N1 的卓越能力建立在龐大且多樣化的訓練資料集之上。作為全球首個通用人形機器人基礎模型,GR00T N1 並非依賴單一來源,而是透過結合三種關鍵資料類型來構建其智慧核心。
1. 真實採集資料 (Real-world Data)
這部分包含人類對各種任務的示範,為模型提供操作與互動的實際範例。GR00T N1 雙系統架構中的快速思考 「系統 1」 主要是根據人類示範資料進行訓練。

2. 合成資料 (Synthetic Data)
為解決真實資料收集的高昂成本,NVIDIA 開發了 Isaac GR00T 藍圖。基於 NVIDIA Omniverse 與 NVIDIA Cosmos 世界基礎模型,此藍圖允許從少量人類示範中生成海量資料。
根據實測結果,研究人員運用本技術在 11 小時內就即生成了 78 萬條合成軌跡。數據證明,將合成資料與實際資料結合後,性能可比單純使用實際資料提升達 40%。

3. 網路影片資料 (Internet Video Data)
這是成本最低且來源最廣的資料,雖然不直接教授控制動作,但能為 GR00T N1 提供對現實世界的 常識與推理感知。

通用機器人的數據金字塔
這種多方位的資料策略與 「數據金字塔」 概念相符(上圖):利用網路資料獲得廣泛知識、合成資料實現擴充性、實際資料確保準確性。透過模擬與實際共同訓練,讓 GR00T N1 具備跨機體協作的能力。
NVIDIA GR00T N1 藍圖與合成資料生成
NVIDIA Isaac GR00T 藍圖 是處理合成資料的核心引擎。它建立在 NVIDIA Omniverse 與 NVIDIA Cosmos 世界基礎模型之上,讓開發者能從少量人類示範中快速擴大訓練資料。在模擬環境中,物體與場景不再受限於物理實體,而是轉化為可調校的「參數」。這個功能非常重要,因為它允許快速擴大訓練資料 (平行運算、GPU加速),而不受現實世界的相關限制,例如您得先準備好不同的物體與場景才能讓機器人進行訓練,但如果使用合成資料,這些就只是參數而已。
🚀 效能實證:原廠數據顯示,GR00T 藍圖在 11 小時 內即可生成 78 萬條 合成軌跡,相當於連續 9 個月的人類示範工作量。與僅使用真實數據訓練相比,結合合成資料技術,能讓模型性能顯著提升 40%。

關鍵資料生成工具鏈
● DexMimicGen:仿人手部精細操作
專注於建立高品質手部操控資料,支援 模仿學習 (Imitation Learning),讓機器人學習拿取不規則物體(如水瓶、螺絲起子)或執行 USB 插拔等細微動作。
● MobilityGen:多樣地形移動訓練
模擬樓梯、斜坡、碎石地等複雜地形,透過 強化學習 (RL) 生成腳步策略,確保機器人在狹窄空間或不穩地表上的行走穩定性。
客製化與應用:改良 GR00T N1
GR00T N1 具備極強的適應性。透過後訓練 (Post-training),開發者可根據特定機器人設計或環境需求進行微調。以下是根據 GitHub 官方指南整理的部署步驟:
- 資料收集:準備格式為「影片、狀態、行動」三元組的示範資料。
- 格式轉換:將資料轉為與 LeRobot 相容的開放格式。
- 訓練配置:針對目標機器人機體設定特定的訓練參數。
- 模型微調:對預訓練模型進行快速微調 (Fine-tuning)。
- 實體部署:將 Policy 連接至控制器,在實體硬體上執行動作。
GR00T N1 的固有能力使其適用於廣泛的應用場景,常見的操縱任務,如抓取物體、用一臂或雙臂移動它們,以及在雙臂間轉移物品都沒有問題。此外,其處理長期情境的能力使其能夠執行需要結合通用技能的多步驟任務,此項技術的潛在應用領域包括:物料處理、包裝,檢驗。
在 NVIDIA GTC 2025 大會中,1X 人形機器人 展示了透過微調策略自動執行家庭整理任務,證明了基礎模型在少量資料下即可展現複雜的實戰能力。由此可知,GR00T N1 的目標受眾包括人形機器人領域的研究人員和專業人士:運用預訓練模型進行控制、為特定目的進行微調、適應新情況並將其部署在他們的機器人系統中。

圖片來源:1X & NVIDIA Research Collaboration
底層柴火:NVIDIA Isaac 生態系
NVIDIA Isaac GR00T N1 的卓越能力並非橫空出世,而是深植於全面的 NVIDIA Isaac 生態系統中。這是一個專門為建立通用機器人基礎模型及數據管線而設計的研發平台,涵蓋了從模擬、訓練到最終部署的所有關鍵環節。

● NVIDIA Omniverse & Cosmos 世界基礎模型
這兩者奠定了模擬框架與物理 AI 系統的基礎。NVIDIA Cosmos 提供資料策劃與自定義世界模型工具,而 Omniverse 則提供擬真的 3D 模擬環境,讓開發者能從有限的現實示範中生成海量的合成資料。

● NVIDIA Isaac Lab & Isaac Sim
Isaac Lab 負責在物理精確的場景中進行策略訓練,成功彌合了模擬與現實之間的差距 (Sim-to-Real)。隨後,訓練好的策略會在 Isaac Sim 的環境中進行最終驗證,確保機器人在進入現實世界前已具備穩定表現。歡迎參考 CAVEDU 規劃的 Omniverse Isaac Sim 機器人課程 / 工業數位孿生課程

● NVIDIA Jetson AGX Thor:機器人的運算核心
作為人形機器人的「終極平台」,Jetson AGX Thor 基於強大的 Blackwell 架構。它負責運行所有的軟體堆疊,並加速多模態 AI 模型的即時推理,為機器人提供最高等級的運算力支持。(Jetson Thor 開箱文)

GR00T N1 入門指南
作為全球首個通用人形機器人開放基礎模型,NVIDIA 提供了多種途徑讓研究人員開始探索。開源資源的可用性與客製化微調能力,是加速此領域創新的關鍵。最佳入門點包括 GR00T N1 模型、相關資料集以及 Isaac GR00T 藍圖。
快速開發指南
- 🏁 系統要求: 建議使用 Ubuntu 20.04 / 22.04,硬體需配備 H100, L40, 或 RTX 4090 以上等級 GPU。
- 🛠️ 環境配置:從 GR00T github 即可開始, 使用 Python 3.10 與 CUDA 12.4,並安裝所有必要相依套件。
- 📊 數據格式: 採用 LeRobot 相容模式。將示範資料組織成「影片、狀態、行動」三元組。
- 🧠 推論與微調: 透過 GitHub 腳本針對特定機體進行 Fine-tuning,或從 Hugging Face 下載預訓練權重。
- 🚀 實體部署: 利用 Holoscan Sensor Bridge 將 Policy 連接至機器人控制器。

結論:通用機器人的時代來臨
NVIDIA Isaac GR00T N1 的到來預示著通用人形機器人成為現實的時代已經來臨。其靈感來自人類認知的 雙系統架構,結合了快速直覺的行動與深思熟慮的決策,讓機器人不再只是專業工具,而是具備推理環境能力的實體 AI (Physical AI)。

黃仁勳 @Computex 2024
還沒有人型機器人怎麼辦?
人型機器人門檻高,初學者可以採用 Jetson AI Lab 上的 LeRobot 專案,打造第一套具備多模態辨識能力的低成本機器手臂。
推薦教學資源

- 📙 實戰專書: [邊緣 AI:使用 NVIDIA Jetson Orin Nano 開發 ROS2 機器人]
- 🔗 CAVEDU Jetson 相關文章
- 🔗 CAVEDU ROS2 相關文章 (實作於 Jetson 平台)











