🧭
先看这份研报的核心结论
主要领域: 具身智能机器人,融合大语言模型、视觉模型与动作控制的多模态AI系统 发展阶段: 商业化初期,实验室向商业市场转型加速,以Physical Intelligence为代表的明星企业崭露头角 核心挑战: 模型架构融合:大语言模型、视觉模型与动作模型的有效整合 数据样方优化:真实数据、合成数据、互联网数据的规模化应用 技术路径选择:扩散模型流匹配算法vs传统自回归算法
📌
核心要点
主要领域: 具身智能机器人,融合大语言模型、视觉模型与动作控制的多模态AI系统 发展阶段: 商业化初期,实验室向商业市场转型加速,以Physical Intelligence为代表的明星企业崭露头角 核心挑战: 模型架构融合:大语言模型、视觉模型与动作模型的有效整合 数据样方优化:真实数据、合成数据、互联网数据的规模化应用 技术路径选择:扩散模型流匹配算法vs传统自回归算法
具身智能企业普遍采用VLA(Vision-Language-Action)大模型架构,以10-100亿参数的视觉语言模型为骨架,配合1亿参数的动作模组,但在模块融合方式上存在技术路径分歧
💡
为什么值得继续看
具身智能企业普遍采用VLA(Vision-Language-Action)大模型架构,以10-100亿参数的视觉语言模型为骨架,配合1亿参数的动作模组,但在模块融合方式上存在技术路径分歧
⚠️
风险提示
短期关注: 具身模型行业的资本布局者及数据采集卖铲人 长期关注: 云计算及算力提供者 投资逻辑: 关注在模型架构、数据采集、算力支撑三个维度具备核心竞争力的企业