字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
技术资讯
AI资讯解读
先看这条资讯为什么重要,再判断它会影响哪条主线和哪些公司。
这类资讯通常先看什么:这类资讯市场通常先看技术突破是否真实落地,以及谁先受益。
这条资讯到底为什么重要
关键数据 • 成功率提升: 45.7%→83.3% ↑ • 失败率降低:近70% • 应用突破:业界首次真机强化学习穿鞋带 利好还是利空: 中长期偏利好 主要风险 • 技术落地:实验室成果到量产应用存在成本与稳定性挑战 • 竞争加剧:OpenAI、特斯拉等巨头同步布局具身智能 • 商业化周期:服务机器人市场培育需要3-5年时间 一句话总结: 强化学习突破灵巧操作瓶颈,加速服务机器人商用进程,利好核心零部件升级。
先看核心要点
技术突破:业界首次实现真机强化学习穿鞋带 字节跳动Seed团队发布GR-RL强化学习框架,在业界首次实现机器人给整只鞋连续穿鞋带的精细灵巧操作
该框架从离线数据筛选到在线真机微调形成完整闭环,标志着 VLA模型在长时程精细操作领域 取得重大进展
技术驱动:强化学习与真机训练深度融合 性能跃升:成功率提升至83.3% 相较前代监督学习模型GR-3,新框架在穿鞋带任务上将成功率从45.7%大幅提升至 83.3% ↑,失败率降低近70%
机器人为什么值得看
短期看: 推动机器人灵巧操作技术迭代加速,利好 灵巧手、力控传感器、视觉感知 等核心零部件环节,大厂技术竞赛将刺激产业链配套需求增长
中长期看: 强化学习与具身智能融合将重塑服务机器人产业格局,具备AI算法与硬件整合能力的平台型企业优势凸显, 带动上游传感器、执行器向高精度方向升级 ↑,加速商业化进程
📄
资讯原文
《科创板日报》2日讯,字节跳动Seed团队发布最新研究成果GR-RL,着力于拓展VLA模型在长时程精细灵巧操作方面的能力边界。GR-RL提出了一套从离线数据筛选到在线真机微调的强化学习框架,在业界首次实现“让机器人给整只鞋连续穿鞋带”。相较前作监督学习模型GR-3,GR-RL在穿鞋带任务上将成功率从45.7%提升至83.3%,减少了近70%的失败情况。