对话智元首席科学家:把具身智能过度类比大模型,是对它最大的误读

发布时间:2025-04-05 23:51

来源:36氪

必要的泡沫。

文|于丽丽

封面来源|IC Photo

当下的具身智能赛道正陷入某种奇观。

一边是朱啸虎这样的投资人高调逃离泡沫,一边是这个在去年年末就被很多投资人预判为“下注窗口期已结束”的方向,屡屡被高额融资激活。

这其中,除一些新入局的智驾背景公司之外,还包括去年估值就大幅飙升的一些公司。腾讯最新押注的智元机器人,就是最受瞩目的之一。而这也是腾讯投资在具身智能领域的首次押注。

早在2023年,这家由原华为计算产品线总裁邓泰华和“华为天才少年”稚晖君等人创建的公司,就创立过成立仅1月即完成3亿天使轮融资的记录。非但如此,它还在之后几个月内,估值快速抵达10亿美金,成为全球最快跻身独角兽的一家具身智能公司。

在中国头部几家具身智能公司中,智元无疑是最高举高打的一家。市面也从不缺少它的声音。

继3月发布首个通用具身基座大模型后,智元又宣布与具身智能公司 Physical Intelligence(Pi)达成合作关系。牵线人恰是昨天宣布加入智元的首席科学家:罗剑岚。

据了解,罗剑岚曾在Google X、Google DeepMind从事研究工作。在伯克利人工智能实验室(BAIR)做博士后期间,他曾是深度强化学习领域重要人物,Pi创始人之一的Sergey Levine 教授团队的核心成员。

关于自己为什么加入智元,以及外部对于具身智能赛道的诸多误读,罗剑岚和几家媒体一起做了分享。以下是其中部分问题的摘录,经暗涌编辑整合。

笑到最后的

一定是软硬件一体的全栈路线

提问1:因为朱啸虎的逃离,现在很多人觉得具身智能已有大量泡沫。

罗剑岚:泡沫本质上也意味着关注度和资源,是提前下注。大笔资源,一涌而上,到了某个点,发现预期达不到,就开始往下降,可能过一阵再开始往上升,这是非常正常的。

每一次技术范式的转移都会经历这种阶段,像自动驾驶也如此。自2016年Waymo始,自动驾驶到现在才真正看到可以商用、落地的曙光。具身智能,是一件更复杂、系统的事,决定了它需要更长时间技术积淀,而不是靠算力或模型堆叠就能突破。

提问2:具身智能的火热,最关键变量是大模型吗?

罗剑岚:把具身过度类比大模型范式,是外部关于这个行业最大的误读。

两者有相似之处,大模型有些技术也可以迁移到具身和机器人上,但不能简单的划等号。

比如,像大模型LLM有百分之五六十的准确率就可以用。因为你有人的大脑,ChatGPT让你去喝农药,你不会喝,因为你可以自己判断。但在机器人身上,这个准确率一点用都没有。

想象一下你的家庭机器人每三个小时,把你家的茶几上的杯子摔一次,把你的手机往窗户上丢一次,或者送咖啡的机器人每20分钟把咖啡随意泼一次。就像智驾,跟十年之前相比,完全两个物种,成功率已经很高, 但大家还是会要更高。因为每一个类似的失败动作,都会有一个物理世界的后果。

所以用大模型的周期去类比具身,是低估了作业智能和行动智能的独特挑战。

提问3:随着不同阶段的演进,大模型代表的软件部分和涉及制造的硬件部分,重要性会有哪些变化?

罗剑岚:软件和硬件同等重要。目前软件没有收敛到点,硬件也没有收敛到点,关于两者如何集成,目前行业也没有共识。

提问4:在软件和硬件上,目前最关键的卡点分别是什么?

罗剑岚:软件方面,大模型虽然强,但还没有长时间memory ,在跨任务尝试,分层控制和实时反馈上,都是难题。用不用仿真,需要多少真实数据,多少合成数据,都没有定论。包括用不用RL,因为RL在真实世界用的话,样本效率、训练稳定性、还有泛化能力,都是挑战。

硬件像一些高性能的硬件平台,成本还是很高,有些传感器反馈不够精细,像触觉传感器就没有到一个成熟状态,还有可靠性,都有很大提升空间。

目前也有很多本体,方案,包括执行器。我觉得后面不会是一个本体解决所有问题,而是根据不同行业,有几个相对标准化的本体,有一个方案。

提问5:数据问题好像是争议最大的,但这也很像一个蛋生鸡,鸡生蛋难题。

罗剑岚:对,看起来像头尾在循环。没有数据,没到一定程度,也很难把机器人部署到真实世界。

但你设想下,如果1000台机器人在星巴克,24小时乘以7的时间里,打咖啡送咖啡,一个月传回来的数据,也能超过现在我们见过的机器人数据集的scale。

而且机器人和汽车还有一个区别,汽车如果没有100%的把握,你很难拿到真实世界去,因为车的安全性各方面太严格。

但机器人可以先从一些封闭、半封闭空间开始,有百分之七八十可能性就可以转起来,这样就可以把更多数据传回来,来improve这个系统。

提问6:自动驾驶早期也有过很多关于数据问题的讨论。

罗剑岚:自动驾驶2016年刚开始时,也因为数据匮乏,有过很多争论。但现在是数据太多了,特斯拉去年公开的路上数据是500亿英里,数据中心都已经装不下了,所以我们应该担心的不是有没有多少数据,而是应该做哪些算法设计,把数据更好衔接起来。所以,那些掌握产品和生态,有能力自己去部署机器人的具身智能公司,先发优势会很大。

提问7:在你看来,软硬一体的全栈路线是必要的吗?有的公司就只想做好本体部分。

罗剑岚:自动驾驶早年,也有专做大脑的,但现在主机厂都开始做自动驾驶。十年前,无人机很火时,中美出现一大堆无人机公司。美国公司说不做硬件,记得当时好像英特尔在美国开了20多个实验室,就做这个无人机导航线这些东西,当然这也因为美国没有制造业,没有产业链,所以只能做大脑,但现在这些,你都记不住了,因为他们都已不存在。我们现在记住的名字是:DJI(大疆)。

虽然只做大脑也可以跟硬件结合一起,但我认为一定是软硬件一起迭代的全栈路线,会笑到最后。

如果机器人真的实现manipulation

这就是AGI

提问8:智元已经有CTO稚晖君,包括智元机器人研究院执行院长姚卯青也是技术背景。你们之间存在汇报关系吗,会如何分工?

罗剑岚:我们内部是一个比较扁平、高度协作的团队。稚晖君在系统工程方面有一些深厚的积累,姚院长在战略方向上会把控全局,我会更多的负责一些算法路线的推动,还有一些外部技术生态的融合。

我们之间是平行互补关系,更强调的是共识驱动,项目导向。

提问9:这次,智元选择和PI(Physical Intelligence)合作,是基于什么背景?

罗剑岚:首先是智元与PI在理念上有很多契合,都强调真实数据的重要性,都从实际出发推动具身智能落地,这个是合作的大背景。

此外,它是由具身智能领域的先驱Sergey Levine和Chelsea Finn等教授创立的,是目前国际上做具身智能最好的公司之一。

提问10:在具身智能创业公司里,智元也一直在用一种生态打法做公司,很像在用大公司方法运作创业公司,这是有意为之的吗?

罗剑岚:我们觉得具身智能的复杂性,远超单一公司所能承担的。所以我们强调开放协同。一方面帮助一些外部公司实现他们的一些迭代,另一方面,也把他们的能力引入到我们的生态体系内。

提问11:为什么在具身领域,还没有出现类似OpenAI这种引领型的明星公司?

罗剑岚:因为这个行业还没有收敛到非常确定性的一些技术方案,所以还不存在哪家遥遥领先,具有很强的话语权。

提问12:现在大家看到很多关于机器人的demo视频,很酷炫,但终究还都是人类在遥控,怎样才能实现自主决策?

罗剑岚:自主决策和遥控的差别,就类似你以为是和ChatGPT对话,但其实是背后还有另一个人在另一台电脑上打字,完完全全是两回事。

本质是机器人对不确定性的分析和建模,然后换成可执行的动作链。对机器人来说,位置变了一下,颜色变了一下,就跟它记到的东西不一样了。这套感知、预测、生成机制的泛化能力,是最关键的技术。

提问13:最近具身智能厂商都愿意拿来秀肌肉的技能展示,很多都集中在执行长周期、复杂任务,每家技能点也不太一样。你是怎么定义长周期和复杂任务的?

罗剑岚:长周期是一个比较主观的词,我们可能更关注的是一个任务,先后存在的一些比较复杂的依赖关系,和它的泛化能力,而不是某种绝对条件下,一分钟是长周期,小于一分钟是短周期。

至于复杂任务,至少在manipulation(操控)上,宇树可能更多是一些local motion(局部运动)这些东西。而manipulation上有一些没有解决的问题。比如机器手和外界有接触后,会产生非常复杂的物理现象、物理模型。然后是在多模态、高维度的视觉输入下,怎么完成一些比较灵巧的任务,同时达到非常高的成功率。

这个是manipulation50年以来的,最关键的challenge,我们现在会尝试做一些这类的工作。

提问14:manipulation,机器人操控问题,也是当下关注非常高的部分。

罗剑岚:如果机器人真的实现了manipulation,就是 AGI。是比LLM更高级的智能 。如果人类文明是零到十,LLM 最多算三,而如果把manipulation实现了,最少得有七到八吧。

现在是具身智能入局

最佳时间点

提问15:实现机器人AGI这件事中,什么是你最感兴趣的?

罗剑岚:怎么让这个系统有更强的自主学习能力、泛化能力。2016年,谷歌发出第一篇深度机器人学习的paper后,用这些基于learning的机器人,真正被部署到现实世界的,一台都没有,但当下会不一样。

我们在智元新成立的具身智能研究中心,不是单纯的科研机构,也不是单纯的工程化落地机构。它是一个中间态的,希望它能打通从基础科学到技术落地的链路。

提问16:受大模型的影响,在具身智能领域,强化学习也开始成为潮流。

罗剑岚:现在大家都在开始看这个方向,因为我们有了 DeepSeek R1,有了GPTo1。有50年历史的机器人领域,虽然很多教授做了先驱性的工作,解决了一系列这些控制的稳定性等,但过去十年,我有个观察,就是这个领域的进步总是来自于别的领域,比如CV或者 NLP。

现在有几波人在做具身智能, 一些是做CV的,一些是基于learning的,还有一些做核心机器人,大家视角都会不一样。

提问17:现在陆续很多大厂、产业方,包括消费电子公司也都在入局具身智能,你觉得像智元这样的创业公司有何独特优势?

罗剑岚:很多人下场,其实是一个积极信号,说明关注越来越多。作为下一代的智能终端,机器人天然就是消费电子公司的关注点,他们在用户体验、产品化,成本控制、供应链整合都有非常强的积累。

像智元这种团队,优势更多在于对行业底层逻辑的理解。他们可能会更垂直,更精致,我们可能会更擅长智能,最终两个方向也会聚合。

提问18:你觉得具身智能当下处于何种周期,还是入局的好时机点吗?

罗剑岚:从2016年看,我觉得具身已走过大概十年的探索期,刚开始它叫机器人学习。

我觉得现在是一个非常exciting的时间。几年时间内,我们会在一些特定场景里看到一些成功。

其实,现在全世界,有500万台机器人被部署在真实世界里,但它们都是盲的机器人,操作靠绝对的定位,做的是重复性的编程和工作。而随着智能的提升,我们已经进入机器人的应用窗口期了。

虽然那些理想型的,全能机器人可能十年甚至更久才能到来,但在特定场景下具备使用价值,且有持续学习能力的机器人会提前到来。

所以现在是入局,还有突破的最佳时间点。

网址:对话智元首席科学家:把具身智能过度类比大模型,是对它最大的误读 https://mxgxt.com/news/view/771870

相关内容

人工智能大模型应用或临拐点
大厂和大厂前高管争相入局!学院派VS大厂派 具身智能竞赛进入下半场
专访|科托:人们对非洲最大的误解,是把它视为一个整体
比尔·盖茨对话 OpenAI 创始人 Sam Altman:现有模型都将变成最愚蠢的模型
对话周鸿祎:大模型今天最重要的是要离用户近
智能客服不智能, “对牛弹琴”咋破解?
星环科技参编《大模型驱动的智能知识图谱技术要求》标准
国产chatgpt哪个好,深度解析:谁才是你的智能首选?
周鸿祎谈大模型:AI对于人类是协作而非取代关系
马斯克戏言背后的深度剖析:人工智能超越人类的前景与挑战

随便看看