機器人技術
边缘人工智能与机器人大脑:驱动机器人技术的VLA模型(2026年)
Securities.io 秉持严格的编辑标准,并可能通过审核链接获得报酬。我们并非注册投资顾问,本文亦不构成投资建议。请查看我们的 会员披露.

系列导航:第 2 部分(共 6 部分) 物理人工智能手册
边缘人工智能与基础模型:为什么机器人无法使用云
在软件人工智能领域,聊天机器人响应延迟半秒只是轻微的干扰。但在物理人工智能领域,半秒的延迟却会酿成安全灾难。如果一个人形机器人正在繁忙的工厂车间行走,这时有人突然出现在它的行进路线上,机器人必须在不到20毫秒的时间内处理这一视觉信息,推断出人意料的行为,并停止电机运转。
截至2026年,业界已达成共识:为了在现实世界中生存,大脑必须存在于人体之内。这一要求推动了向边缘人工智能的大规模迁移,如今80%的推理都在本地机器上完成,而不是在遥远的数据中心。
VLA的兴起:视觉-语言-行动模型
直到最近,机器人还如同盲人一般,只能机械地执行预先设定的程序代码。而到了2026年,我们将过渡到视觉-语言-动作(VLA)模型。这些多模态基础模型——可以将其视为人工智能的运动皮层——能够同时处理三种输入:
- 视觉:高速 4K 摄像头画面和 LiDAR 深度数据。
- 语言:来自人工主管的语音或文本命令(例如,“将损坏的零件分类放入蓝色箱子”)。
- 动作:为数百个微型电机(执行器)提供精确的扭矩和角度指令。
由于这些模型是在诸如 Open X-Embodiment(超过 1 万条轨迹)等海量数据集上训练的,因此它们具备通用智能。由 VLA 驱动的机器人无需编程即可找到特定工具;它通过视觉训练进行推理,就能知道工具是什么以及如何抓取它。
硅谷超级巨头:英伟达 vs. 高通
机器人大脑之争是半导体界两大巨头之间的双雄争霸,它们各自为实现具身智能提供了不同的途径。
NVIDIA Jetson 雷神 (NVDA )
英伟达依然是人工智能领域的领头羊。其基于Blackwell架构的Jetson Thor模块,可提供惊人的2,070 TFLOPS人工智能性能。Thor旨在运行世界模型——这种模拟程序每秒在机器人内部运行数千次,以预测实际发生的结果。
(NVDA )
高通龙翼IQ10 (QCOM )
Dragonwing IQ10 于 2026 年初发布,是高通公司进军机器人领域的力作。虽然英伟达在 TFLOPS 性能上领先,但高通在能效比方面更胜一筹。IQ10 正逐渐成为需要连续工作 8 小时且不会过热的电池供电人形机器人的首选。它搭载 18 核 Oryon CPU,并支持最多 20 个摄像头同时工作,实现 360 度全方位感知。
(QCOM )
延迟基准测试:为什么物理学要求边缘计算
下表说明了本地计算和云计算之间的安全差距。
数据反映了 2026 年初观察到的从感知到行动的往返时间的行业平均水平。
| 计算位置 | 平均延迟 | 安全可靠性 | 2026 用例 |
|---|---|---|---|
| 设备端(边缘) | 1 毫秒 – 10 毫秒 | 危急 | 实时避障 |
| 私有 5G Edge | 15 毫秒 – 40 毫秒 | 高 | 协同车队协调 |
| 公共云 | 100 毫秒 – 500 毫秒 | 不安全 | 长期模型重训练 |
结论:推理逆向
边缘脑革命颠覆了人工智能的投资理念。到2026年,关注点将从用于训练模型的大型数据中心转移到用于在现实世界中运行模型的专用芯片。在物理人工智能时代,价值存在于行动发生的地方:边缘。
然而,大脑的运作能力取决于它接收到的数据。要了解提供这些数据的眼睛和皮肤,请参阅…… 第三部分:传感器层与高保真感知.
物理人工智能手册
本文是《物理人工智能革命综合指南》的第五部分。
探索完整系列:
- 🌐 物理人工智能手册中心
- 🤖 第一部分:类人种族
- 🧠 第二部分:边缘大脑(当前)
- 👁️ 第三部分:传感器层
- 🌐 第四部分:数字孪生
- 📉 第五部分:RaaS与车队经济
- 💎 第四部分:投资审计








