佐思汽研发布《2025年汽车与机器人的VLA大模型应用研究报告》。
Vision-Language-Action(VLA)模型是一种融合视觉(Vision)、语言(Language)和动作(Action)三大模态的端到端人工智能模型。它通过统一的多模态学习框架,将感知、推理与控制一体化,直接根据视觉输入(如图像、视频)和语言指令(如任务描述)生成可执行的物理世界动作(如机器人关节运动、车辆转向控制)。
2023年7月,谷歌DeepMind推出RT-2模型,该模型采用VLA架构,通过整合大语言模型与多模态数据训练,赋予机器人执行复杂任务的能力。其任务准确率较初代模型提升近一倍(从32%至62%),突破性地实现了垃圾分类等场景的零样本学习。
VLA的理念很快被汽车公司关注,快速应用于汽车智能驾驶领域,如果说2024年“端到端”是智能驾驶领域最火的词汇,那么2025年非“VLA“莫属。小鹏汽车、理想汽车等公司都发布了各自的VLA方案。
小鹏汽车在7月发布G7车型时,率先宣布VLA量产上车。理想汽车计划在i8车型上车VLA,有望在7月29日发布会上揭晓。
VLA模型上车是先蒸馏还是先强化学习,理想汽车和小鹏汽车给出了不同方案
小鹏汽车的G7预售发布会上,何小鹏以大脑和小脑为喻,阐述了传统端到端和VLA的功能作用。他表示,传统端到端方案发挥的是运动小脑的功能,“让汽车会开”,VLA引入了大语言模型,发挥的是大脑的功能,“让汽车开好”。
小鹏汽车VLA-OL模型

来源:小鹏汽车
小鹏汽车和理想汽车的VLA应用走出了略微不同的路线:理想汽车先对云端基座大模型做蒸馏,然后再对蒸馏后的端侧模型做强化学习;小鹏汽车则是先对云端基座大模型做强化学习,然后再蒸馏到车端。
2025年5月,李想在AI Talk中提到,理想汽车的云端基座模型达到320亿参数,蒸馏出32亿参数模型至车端,再通过驾驶场景数据进行后训练和强化学习,在第四阶段将最终的司机Agent进行端云部署。
理想汽车MindVLA :VLA司机大模型训练与推理过程的四个阶段

来源:理想汽车
小鹏汽车也将训练和部署VLA模型的工厂划分成了四个车间:第一车间负责基座模型的预训练和后训练;第二车间负责模型蒸馏;第三车间对蒸馏出的模型继续做预训练;第四车间将 XVLA部署到车端。小鹏世界基座模型负责人刘先明博士表示,小鹏汽车已经在云上训练了10亿、30亿、70亿、720亿等多个参数的“小鹏世界基座模型”。
小鹏汽车VLA :云端模型工厂的四个车间

来源:小鹏汽车
到底哪种方案更适合智能驾驶环境,还有待观察不同厂商VLA方案上车后的具体表现。
近日,麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊大学等研究团队联合发布了针对自动驾驶领域的VLA模型的全面综述文章《A Survey on Vision-Language-Action Models for Autonomous Driving》。文中将VLA的发展划分为四个阶段:Pre-VLA(VLM as explainer), Modular VLA, End-to-end VLA和Augmented VLA,清晰地展示了不同阶段VLA的特点以及VLA发展的渐进过程。
自动驾驶领域VLA模型发展的四个阶段
来源:A Survey on Vision-Language-Action Models for Autonomous Driving
机器人VLA模型过百,在不同路径上不断探索
相比于汽车的VLA大模型应用,动辄百亿参数、近千TOPS算力,机器人领域AI算力芯片还在选配栏里,训练数据集的参数量也大多只有100万至300万之间,还存在真实数据与仿真合成数据混用及路线争议。原因之一是,在路上行驶的汽车数量以亿计,而实际落地的机器人数量还屈指可数;另外一个重要原因是,机器人VLA模型注重微观世界的探索,相比宏大的汽车世界模型,机器人应用场景的多模态感知更丰富、执行动作更复杂、传感器数据更微观。
机器人领域的VLA模型和相关数据集已经超过百个,而且还不断有新的论文涌现,各个团队在不同路径上不断探索。
探索一:
融合触觉感知的多模态VTLA框架
2025年5月,中国科学院自动化研究所、三星北京研究院、北京智源研究院团队发布了VTLA相关论文《VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation》。研究显示,机器人在执行接触密集型操作任务时,视觉和触觉感知的融合对机器人执行精度要求高的任务至关重要。VTLA通过融合视觉、触觉与语言输入,结合时间增强模块与偏好学习策略,在接触密集型插入任务中展现出超越传统模仿学习方法和单模态模型的性能。
SFT VTLA模型架构
来源:VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation
探索二:
支持多机器人协同运行的VLA模型
2025年2月,Figure AI发布Helix通用模型。Helix可以在人形机器人上协同运行,使得两台机器人可以协作解决一个共享的、长期的操作任务。在发布会演示的视频中,Figure AI的机器人在摆放水果的操作中展现出流畅的协作模式:左边的机器人把果盆拉过来,右边的机器人顺手把水果放进去,然后左边的机器人再把果盆放回原位。
Figure AI强调这仅仅是触及了“可能性的表面”,公司渴望看到将Helix规模扩大1000倍后会发生什么。Figure AI介绍称,Helix完全能够在嵌入式低功耗GPU上运行,现在立即可以进行商业部署。
Figure AI机器人VLA模型Helix的协同运行模式
来源:Figure AI
探索三:
机器人领域离线型端侧VLA模型
2025年6月,谷歌发布了Gemini Robotics On-Device,这款VLA多模态大模型能在具身机器人上的本地离线运行。模型能够同步处理视觉输入、自然语言指令以及动作输出。即便在无网络环境下,该模型也能保持稳定运行。
特别值得注意的是该模型的适应性和通用性。谷歌指出,Gemini Robotics On-Device是首个向开发者开放微调功能的机器人VLA模型,开发者能够根据自己的特定需求和应用场景,对模型进行个性化训练。
谷歌Gemini Robotics On-Device:本地部署机器人VLA模型
来源:谷歌
VLA机器人已经在大量汽车工厂实现应用落地
当汽车的宏观世界模型与机器人的微观世界模型融合时,真正意义的具身智能时代将到来。
在具身智能进入VLA发展阶段时,汽车企业具有天然的先发优势。特斯拉Optimus,小鹏Iron、小米CyberOne机器人都充分借鉴了其在智能驾驶、传感器技术、机器视觉等领域的丰富经验,融合了它们在智能驾驶领域的技术积累。小鹏Iron机器人就搭载了小鹏汽车AI鹰眼视觉系统、端到端大模型、天玑 AIOS和图灵AI芯片。
小鹏AI机器人
来源:小鹏汽车
与此同时,汽车工厂也是目前机器人最主要的应用场景,特斯拉Optimus机器人目前主要用在特斯拉的电池车间。Apptronik与梅赛德斯-奔驰合作,Apollo机器人进入奔驰工厂参与造车,任务包括搬运、装配等体力工作。在模型层面,Apptronik 与 Google DeepMind 建立战略合作,Apollo 已集成谷歌Gemini Robotics VLA大模型。
Apptronik机器人Apollo进入奔驰工厂参与造车
来源:Apptronik
7月18日,优必选发布人形机器人Walker S2热插拔自主换电系统,这项技术可在无须人工干预的情况下,让Walker S2实现3分钟自主换电。
优必选Walker S2实现自主换电

来源:优必选
据公开报道显示,包括特斯拉、宝马、奔驰、比亚迪、吉利极氪、东风柳汽、奥迪一汽、一汽红旗、上汽通用、蔚来、小鹏、小米、北汽越野车在内的多家车企已在汽车工厂部署了人形机器人,Figure AI、Apptronik、优必选、智平方、乐聚等人形机器人,广泛应用于汽车及零部件生产组装、物流转运、设备巡查、工厂运维等多个环节。不久的未来,AI机器人会是“无人工厂”的主要“劳动力”。
《2025年汽车与机器人的VLA大模型应用研究报告》目录
页数:300页
相关定义
01
VLA大模型基础概述
1.1 VLA(Vision-Language-Action Model)基本定义
1.2 VLA技术起源与演进
1.3 VLA大模型方法分类
1.4 VLA自动驾驶模型的四个阶段
1.5 VLA方案应用(1)
1.5 VLA方案应用(2)
1.5 VLA方案应用(3)
1.5 VLA方案应用(4)
1.6 案例一:VLA泛化性增强
1.6 案例二:VLA计算开销
1.7 VLA核心特性
1.8 VLA技术发展挑战
02
VLA技术架构、方案及趋势
2.1 VLA核心技术架构解析(1)
2.1 VLA核心技术架构解析(2)
2.1 VLA核心技术架构解析(3)
2.1 VLA核心技术架构解析(4)
2.1 VLA核心技术架构解析(5)
2.1 VLA核心技术架构解析(6)
2.1 VLA核心技术架构解析(7)
2.2 VLA 决策核心—— 思维链(Chain-of-Thought, CoT)技术
2.3 VLA大模型实现方案总览
2.4 VLA实现方案(1):基于经典 Transformer 结构方案
2.4 VLA实现方案(2):基于预训练LLM/VLM方案
2.4 VLA实现方案(3):基于扩散模型方案
2.4 VLA实现方案(4):LLM+扩散模型方案
2.4 VLA实现方案(5):视频生成+逆运动学方案
2.4 VLA实现方案(6):显示端到端VLA方案
2.4 VLA实现方案(7):隐式端到端VLA方案
2.4 VLA实现方案(8):分层端到端VLA方案
2.5 智能驾驶 VLA 模型总结
2.6 具身智能 VLA 模型总结
2.7 案例一
2.7 案例二
2.7 案例三
2.7 案例四
2.8 VLA发展趋势(1)
2.8 VLA发展趋势(2)
2.8 VLA发展趋势(3)
2.8 VLA发展趋势(4)
03
汽车领域的VLA大模型应用研究
3.1 理想汽车
理想汽车基于AI的自动驾驶发展规划
理想汽车数据闭环的AI应用 :数据的云端训练
理想汽车端到端方案整体技术架构
理想汽车端到端方案技术架构:系统1—E2E(端到端)
理想汽车端到端方案技术架构:系统2—VLM(视觉语言模型)
理想汽车端到端方案技术架构:云端「世界模型」
理想汽车基于端到端+VLM双系统架构,自研MindVLA
MindVLA 技术架构:多模态感知层
MindVLA 技术架构:语义理解层
MindVLA 技术架构:决策与执行层
MindVLA :云端「世界模型」
MindVLA :VLA司机大模型训练与推理过程的四个阶段
英伟达端到端技术支撑理想 MindVLA 落地
理想 MindVLA 应用场景及功能
3.2 小鹏汽车
小鹏 G7 Ultra发布,VLA大模型上车
小鹏 VLA大模型:目标实现10倍端到端智驾能力
小鹏 VLA OL大模型:大脑+小脑
小鹏汽车云端模型工厂
小鹏汽车世界基座模型 (1)
小鹏汽车世界基座模型 (2)
小鹏汽车世界基座模型 (3)
小鹏汽车世界基座模型 (4)
小鹏汽车世界基座模型 (5)
小鹏汽车世界基座模型 (6)
3.3 奇瑞汽车
奇瑞汽车AI战略(1)
奇瑞汽车AI战略(2)
奇瑞大卓智驾技术演进路线及产品规划
奇瑞大卓2027年基于VLA大模型实现L3/4产品上车
奇瑞基于One Model 端到端的VLA大模型
奇瑞具身智能平台-VLA模型
奇瑞新一代智驾系统猎鹰900, 采用VLA+世界模型打造
奇瑞猎鹰智驾大模型架构
3.4 吉利
吉利汽车AI战略
吉利高阶智能驾驶系统
吉利千里浩瀚H9方案应用: VLA车端AI大模型
吉利融合VLA模型、世界模型、AI Drive大模型构建泛世界模型体系
3.5 小米汽车
小米汽车Orion方案框架
小米汽车Orion之QT-Former
小米汽车物理世界建模框架
小米汽车:物理建模与VLA双轨布局
3.6 元戎启行
元戎启行高阶智驾平台DeepRoute IO
元戎启行端到端模型智驾平台:DeepRoute IO 1.0
元戎启行VLA模型智驾平台:DeepRoute IO 2.0
元戎启行VLM & VLA智驾方案对比
元戎启行VLA模型架构
元戎启行VLA模型优势及挑战
元戎启行VLA模型合作动态
3.7 百度apollo
开源端到端自动驾驶系统AIR ApolloFM
AIR ApolloFM 核心模块(1)
AIR ApolloFM 核心模块(2)
AIR ApolloFM 参考工程设计
AIR ApolloFM 实车运行结果
3.8 地平线
地平线端到端VLA智驾系统(1)
地平线端到端VLA智驾系统(2)
地平线征程 6P 支持VLM/VLA 等技术
地平线预测2035年实现全自动驾驶
3.9 商汤科技
商汤推出端到端VLA建模框架SOLAMI
SOLAMI 整体框架
SOLAMI 训练过程
SOLAMI 多模态交互数据流程及示例
SOLAMI VR 交互系统架构
3.10 英伟达
英伟达机器人通用VLA大模型GR00T-N1 (1)
英伟达机器人通用VLA大模型GR00T-N1 (2)
英伟达机器人通用VLA大模型GR00T-N1 (3)
英伟达CoT-VLA模型凭"视觉思维链"实现复杂任务精准操控
3.11 知行科技
知行科技VLA智驾方案
04
机器人领域大模型进展
4.1 机器人通用基础模型
机器人基础大模型架构
通用基础大模型
机器人通用大模型 (1):Pi Zero
机器人通用大模型 (2):基于LLaMA的大语言模型
机器人通用大模型 (3):基于视觉Transformer的大模型
大模型驱动的机器人关键技术
机器人感知模块
机器人规划模块
机器人决策模块
机器人行动模块
机器人运动控制模块
机器人反馈模块
智源研究院开源具身大脑模型 RoboBrain 2.0
龙跃 MindLoongGPT
4.2 机器人多模态大模型
机器人多模态大模型
视觉生成大模型
商汤 日日新SenseNova V6大模型
群核科技 SpatialLM
4.3 机器人数据泛化模型
数据驱动的机器人模仿学习
RSR中的Real2Sim:纯视觉、低成本、零人工标注的真值生产流程
UnrealZoo:基于虚幻引擎为具身智能丰富逼真的虚拟世界
RoboTwin:生成式数字孪生的双臂机器人基准
RoboGSim: Real2Sim2Real范式的数据合成器和闭环仿真器
任意点轨迹模型:Any-point Trajectory Model(ATM)框架
北大和人大团队发布百万规模数据集打造人形机器人通用大模型
MotionLib 大规模动作生成:从语言到动作
4.4 机器人大模型数据集
智元AgiBot World
宇树G1数据集
上海交通大学RH20T
北京人形机器人创新中心RoboMIND
4.5 机器人VLM 模型
视觉–语言模型VLM
通用机器人模型 Pi zero
PaLM-E:具身多模态语言模型
Figure AI 同 OpenAI 合作推出三层级分层决策方案
穹彻具身大脑 Noematrix Brain
银河通用三层级大模型系统
4.6 机器人VLN模型
VLN基本概念
VLN主要实现方法
VLA 以及 VLN 模型对比
LH-VLN:长期发展眼光的视觉语言导航:平台、基准和方法
Safe-VLN:连续环境中自主机器人视觉和语言导航的防撞
MC-GPT:通过记忆图和推理链增强视觉和语言导航
4.7 机器人VLA模型
典型的机器人VLA模型构成
NaVILA: 用于导航的足式机器人视觉-语言-动作模型
OpenVLA:开源的视觉-语言-动作模型
OpenVLA:端到端训练-模视觉-语言模型VLM
视觉语言-行动(VLA)模型—Robotic Transformer2 (RT-2)
Uni-NaVid提出统一多种具身导航任务的视频-语言-动作(VLA)模型
QUAR-VLA:四足机器人的视觉-语言-动作(VLA)模型
RoboMamba:端到端VLA模型,推理速度提升3倍,仅需调整0.1%的参数
LeVERB :基于模拟数据训练实现零样本部署的VLA框架
谷歌Gemini Robotics On-Device:开启本地部署机器人VLA模型
4.8 机器人世界模型
世界模型基本架构
世界模型关键定义及应用的发展
智元机器人联合上海AI Lab提出具身4D世界模型EnerVerse
3D-VLA:一种三维视觉-语言-动作生成世界模型
RoboDreamer:学习机器人想象力的组合世界模型
IRASim—机器人中的世界模型
Robotic World Model:机器人鲁棒策略优化的神经网络模拟器
达摩院发布“世界VLA”大模型WorldVLA
05
机器人领域VLA应用案例
5.1 智元机器人
智元机器人Genie Operator-1(GO-1)大模型
Vision-Language-Latent-Action(ViLLA)架构
5.2 银河通用
银河通用机器人Galbot G1
银河通用Open VLA技术架构
银河通用仿真数据预训练模型 GraspVLA
5.3 星动纪元
星动纪元通用人形机器人星动STAR1
星动纪元ERA-42
星动纪元开源AIGC机器人大模型VPP
5.4 埃斯顿
埃斯顿酷卓人形机器人CODROID 02
埃斯顿酷卓CODROID 02的快慢系统
埃斯顿酷卓具身智能平台CoDroid EIP
5.5 宇树科技
宇树科技产品矩阵
宇树科技商业化布局
宇树科技UnifoLM统一大模型
5.6 优必选
优必选发布基于DeepSeek-R1的机器人多模态推理大模型
优必选机器人的群脑网络(BrainNet)软件架构
优必选机器人的超级大脑+智能小脑模型
5.7 特斯拉 Optimus
特斯拉Optimus的发展历程及机器人大模型进展
特斯拉Optimus机器人来自汽车领域技术的借鉴
特斯拉Optimus的规划与调整
特斯拉Optimus将集成xAI的Grok模型
Grok 4 Heavy 展现出极强的推理与理解能力
5.8 Figure AI
Figure AI机器人Figure 01与Open AI合作
Figure AI机器人Figure 02的自研VLA模型-Helix
Figure AI机器人VLA模型Helix的双系统模式
Figure AI机器人VLA模型Helix的协同运行模式
5.9 Apptronik
Apptronik机器人:Apollo
Apollo机器人 (1):谷歌Gemini Robotics人大模型
Apollo机器人 (2):开放对接外部AI系统
Apollo机器人 (3):助力AI造车
5.10 Agility Robotics
Agility Robotics机器人Digit
Digit机器人测试接入开源大语言模型以及AI模型
5.11 小鹏IRON
小鹏Iron机器人发展历程
小鹏Iron机器人大模型
5.12 小米 CyberOne
小米CyberOne机器人主要特点
小米CyberOne机器人的MiAl引擎
5.13 广汽 GoMate
广汽GoMate机器人主要特点
广汽GoMate机器人算法
5.14 奇瑞 Mornine
奇瑞Mornine机器人主要特点
奇瑞Mornine机器人的双核智能大脑
5.15 乐聚机器人
乐聚机器人发展历程
乐聚机器人KUAVO夸父搭载5G-A技术
乐聚机器人KUAVO夸父的盘古大模型
5.16 逐际动力
逐际动力机器人TRON 1
逐际动力LIMX:基于视频生成大模型的具身操作算法
逐际动力携手移远通信:Robrain AI机器人
5.17 智平方
智平方机器人Alpha Bot 2
智平方机器人VLA大模型
5.18 自变量机器人 X Square Robot
自变量机器人 X Square Robot核心团队
自变量机器人 X Square Robot:聚焦具身大模型,美团战略加持