成本低至 168 万的人形机器人正在成为现实
作者 郭思
编辑 陈彩娴
9月底,一则关于特斯拉机器人的视频流出,外界看到了Optimus擎天柱机器人的最新进展。
与此同时,在推特官方账号上,Optimus账号也发出了一则Hi,human,I have returned的讯息。
而往年九月底会迎来的特斯拉 AI DAY,今年却迟迟没有动静,种种迹象表明,对于人形机器人,特斯拉似乎一直在憋着大招,蓄势待发。(为什么此前一直宣传AI会毁灭人类的马斯克如今却频频点燃具身智能的技术火焰,你心目中理想的具身智能又是哪样?欢迎添加本文作者郭思微信lionceau2046,大家一起畅聊。)
据最新资料显示,Optimus擎天柱搭载了特斯拉自主研发的神经网络和计算机视觉技术,能够实时感知周围环境,执行各种任务。
马斯克表示,若未来两年内“擎天柱”能够量产,在规模效应下,其成本比汽车还要低,售价或许为2.5万美元(约合人民币16.74万元,低于一部车的价格。
算法层面,一名特斯拉机器人部门内部员工则告诉AI科技评论,特斯拉此次会将以往在自动驾驶采用的FSD算法引用到人形机器人中,FSD算法对于整个科技行业都是炸裂式的存在,一旦引入中国,将大杀四方,使得中国自动驾驶领域成为败垣。(现在上海市政府正有想要引入的想法,暂未有实质文件。)
而在香港城市大学助理教授殷鹏看来,特斯拉视频的此番表现表明国内企业与特斯拉的差距将进一步拉开, 10年都难以追赶。军方看到人形机器人的巨大突破,应该感到担忧,因为一旦大规模部署,人形机器人的成本肯定会低于人的成本。
与赞美之词一同而来的,是怀疑与争议,AIRS副研究员张添威,就向AI科技评论表示:特斯拉的机器人是美式的工业审美,全球机器人只有日本可以做出来,擎天柱只是一种特斯拉的PR。
宇树机器人CEO王兴兴则表示,特斯拉人形机器人的手展示出来的关节只有七到八个主动自由度,而人的手至少有二三十个自由度,相较而言,目前特斯拉人形机器人的手指灵活度还是很不足的。回归事件本身,我们发现此番特斯拉擎天柱引发的讨论点最多在于:人形机器人落地的难点究竟在哪里,特斯拉展出的人形机器人优势具体有哪些?大模型时代, 机器人产业的发展会呈现怎样的发展态势?
1、未来机器人:2岁的行动力加上 20 岁的大脑
在视频中,擎天柱有以下具体的突破:
不仅能够依靠单一的视觉传感进行物品捡拾,还可以当众表演一场瑜伽。
瑜伽高难度动作,这对于机器人步态的稳定性和复杂环境的适应性要求极高。让机器人走得稳,也一直是困扰人形机器人的最大难点之一。
相较于与去年首次亮相的「擎天柱」,已经完成了非常大的迭代升级。
机器人是软件界和硬件界交互的最终落地点,能否落地最终不仅考验硬件的安全稳健,更考验软件或算法层面的创新性。
特斯拉的人形机器人第一亮点便在于核心算法 FSD。
FSD采用的是端对端的算法方案。
「端到端」是深度学习中的概念,英文为End-to-End(E2E)指的是一个AI模型,只要输入原始数据就可以输出最终结果。
比如大火的ChatGPT的就是端到端效果的直接体现,也就是说让神经网络替代规则编写,在实际过程中,可以理解为从以前用规则指导行动变为用真实数据指导行动。
在此前的机器人领域,绝大多数采用的是模块化架构,也就是把机器人的行为拆分成一个个典型任务,然后将这些任务交由专门的AI模型或模块来处理,比如说感知、预测、规划等等。
就好比一个公司的运作需要财务、销售、市场、产品等各个部门的共同协作,是一种流水线工作,需要多个层级的信息输送,而端对端算法方案,最大的特点就是直接,负责决策的人直接与底层人员对接,不用经过非常多的中间环节。
其实端到端的思路是非常容易理解的,也并不是特斯拉的首创(早在1988年就面世的ALVINN自动驾驶试验车就基于端到端架构,)而特斯拉的优势就在于,铁定地认为这条路是对的,并且是可实现的。
初心决定终局。
在Transformer推出之后,这一切有了落地的实施路径。
在以前,卷积神经网络CNN大行其道,优势十分明显,在处理二维图像识别之时,CNN能完美完成背景识别、图像分割、特征提取、目标检测的等众多二维静态任务。但是到了动态的交通环境,CNN的劣势就显现出来。
而Transformer能依靠注意力机制洞察各种交通参与者之间的关联,判断自车和周围动静态交通参与者的时空关系,建立了三维的矢量空间,极大地改善了对于动态任务的处理结果。
种种迹象表明,特斯拉或许已经率先将这个优势用在了如今的人形机器人身上。
其实早在年初,我们便在汽车上看到了FSD的优越性。
马斯克当时在X上进行了一场45分钟的直播,在直播里,马斯克乘坐老款Model S,全程使用FSD,途径环岛、施工路段等。
「我们没有写任何一行代码告诉它该如何处理这种状况,全程都是靠AI实现的。」
马斯克在直播中表示,FSD V11版本有超过30万行的C++代码,而V12版本只有2000+行。
FSD运算灵活,能在离线情况下进行运算。
马斯克还表示,按推理,V12版本的运算功率只有100W。更少的代码也增加了系统的稳定性,让车辆智能驾驶更加安全。
可以推测,如果特斯拉人形机器人最终效果可以实现FSD算法与硬件的完美结合,就意味着大模型展现惊人出来的涌现能力在特斯拉机器人上也会出现 。采用了FSD算法的特斯拉人形机器人,将会拥有一个可被训练的大脑,只是相对来说行动能力还差了一些。
这就类似于训练小孩,小孩可以在不断地试错之中,持续进化。
据特斯拉员工介绍,我们可以看到的特斯拉人形机器人四肢虽然只有2岁的水平,但由于大脑可以不断迭代,后续做很多事情会变得很简单。可能后续会演变成20岁的大脑,2岁的四肢,想象空间十分巨大。(在你的想象中,机器人拥有自主学习能力会给整个产业带来怎样的影响和震撼,欢迎与本文作者:郭思,微信lionceau2046,聊聊你的看法。)
2、人形机器人,回归人本质
要想理解特斯拉人形机器人,就得理解马斯克。
在马斯克其人以及他所坚持的第一性原理已经在业界盛传的当下,知道马斯克个性鲜明,和真正体会马斯克的作风是两回事。
马斯克传记里写道「他的火星任务仿佛是对于重返家园的渴望,而他打造人形机器人的愿望似乎又在表达着一种对亲密情感关系的心理诉求。如果他扯掉衬衫,你发现他没有肚脐,你也不应该感到惊讶,因为他本来就不像地球人。」
而AI科技评论接触的特斯拉员工都坦言,马斯克是一个喜欢直接和底层员工接触的「奇怪」老板。
其中一员工告诉AI科技评论,他进入特斯拉半年, 就已经和马斯克汇报过四次。而他还只是一个普通工程师。更为夸张的是,进入特斯拉的实习生,不到两星期,马斯克就会叫他直接汇报,了解工作细节。
「马斯克十分严厉,经常会问一些很犀利的问题,谈论细节。他不会刻意 push 你,但是员工会自带紧张感,因为本身项目的有趣性,自发的热情又会被点燃。」
凌晨 3 点回家, 早上9点又重新上班,是特斯拉人形机器人团队工作的常态。
工作作风上,马斯克崇尚第一性原理,他认为太多人就太复杂,所以特斯拉内部自动驾驶部门的人数只有两百人。遇到重点事项,底层员工需要直接向他汇报。
第一性原理体现在马斯克的工作决策上,最著名的是饱受争议的「毫米波雷达阑尾」的言论。
一直以来,马斯克都认为,汽车自动驾驶应该和人类司机一样,采用纯视觉系统。人类可以依靠眼睛和智力来进行判断和驾驶,汽车同样可以通过相机和AI技术来控制。
2019年特斯拉的「Autonomy Day」上,马斯克就直言:激光雷达就像是人身上长了一堆阑尾,是傻子的玩意,任何人用激光雷达都注定失败。
2021年5月,特斯拉开始从其车辆中移除毫米波雷达;2022年,又开始从销往北美、欧洲、中东和中国的Model 3和Model Y上拆除了12个传感器。
在那以后,特斯拉传感器方案从「8摄像头+1毫米波雷达+12雷达」的多传感器方案减为「8摄像头『的纯视觉方案。
在汽车上采用FSD算法是第一性原理的体现,转到人形机器人的研究,马斯克的思考也很直接,特斯拉员工直言「马斯克想要的是能从车上搬过来的东西全部都搬过来,没有必要再做一套全新的AI系统。」
当然即使是将已经成熟的系统全部搬到人形机器人之上,人形机器人也不是那么简单的事情。
双足人形机器人的设计要求它在真实环境中以与人类相似的方式工作。这包括对不断变化的动态环境做出快速反应、执行复杂的身体动作,并精确及时地回应人类的语言、表情和情绪等。
在平衡能力上,双足机器人肯定会比机器狗要求更好,可以理解为,一个人站着会比趴着所需要的平衡能力更强。
根据展示的公开资料显示,特斯拉Optimus共有14个旋转执行器,14个线性执行器,这些零部件累积起来的复杂程度和成本可想而知。
拿线性执行器之中比较经典的滚柱丝杠为例,参考阿里1688网站部分公司的报价,瑞士ROLLVIS行星滚柱丝杠产品售价在2万元/套左右,国产博特精工相关产品约1900元/套。
人形机器人并不简单,即使是对于多次创造神话的特斯拉而言也是如此。
对于这个难题的解决,马斯克的第一性逻辑再次发挥作用:
「人类的发展史,是一个不断优化的过程,人长成这样子一定是最适合生存的样子,所以人形机器人的优化过程一定要在人身上完成。」
所谓人工智能,不就是一场对人的模仿游戏吗? 只有对人有充分的研究和了解,才能更好地处理人工智能。
借由这个思路,擎天柱机器人的发展历程朝着端对端的思路进行,在过程中如果遇到难题,也会借鉴传统算法,但核心理念会尽可能地使机器人靠近人,加入一些assumptions(假设),以及人为的理解在机器人算法里。
让「人」形更接近人,是这场游戏的核心。
3、中国市场能否迎来一个「人形机器人」时代?
2018年是改变马斯克的一年。
这一年,上海允许特斯拉建造超级工厂,以此来解决困扰马斯克已久的产能问题。上海决定给特斯拉提供年利率3.9%的,并允许从上海临港以一成价格拿地,以9.73亿拿下了临港1297.32亩(86.49万平米)土地。
而引入特斯拉的中国汽车行业也迎来了新的变革,特斯拉这条「鲶鱼」推动了中国汽车行业的技术升级和产业转型。
资料显示,2019年11月,特斯拉一飞冲天,直接终结了丰田全球市值第一高的位置,且遥遥领先。
同期中国汽车开始不断呈现不断赶超的态势,截至2022年12月,中国企业8家进入榜单TOP30,5家进入TOP20,排名最高的比亚迪2021开始超越大众,成为世界第三(或第四),长城、上汽则分别居于中国第二、三。
毋庸置疑,特斯拉冲击并深刻影响了中国汽车市场,那么如今特斯拉在人形机器人上的布局与引领,是否也会再次让中国市场迎来一个「人形机器人」时代?国内企业与特斯拉的差距究竟有多大?
机器人最关键三大要素:动力、精准度,以及算法。
笔者采访的众多行业人士,纷纷表示,其实现今人形机器人产业发展的主要问题是AI算法的发展不够,以及软硬件结合的临界点还没有到来。(你怎样看待人形机器人产业的发展现状与难点?欢迎与本文作者郭思微信lionceau2046 交流观点与看法~)
此次外界对于特斯拉人形机器人推测最多的也是,特斯拉将FSD算法引入到了人形机器人之上。好处无需多谈,但难点其实也很明显。
AI模型比规则更省运算空间,提升了运算效率。采用端对端算法,虽然减少了运算成本,但是端对端是只需要输入原始数据,即可输出最终结果,这意味着把感知、预测、规划三大部分划为一个整体,对于任务执行可解释性的黑盒子一直存在,能保证安全吗?
算法加入了人为的理解虽然极为便利,但肯定不通用,有些特殊情况可能无法预料,能否覆盖所有的情况?
对于这个问题,王兴兴提供了一个新思路,可解释性或许本身就是一个不值得深究的问题。
人形机器人领域有时候未必需要可解释性,很多情况下,许多事物的发展就是不可解释的,世界就是这么运作的。
「早在公元前200多年前,阿基米德便建立了包括浮力定律、浮体稳定性在内的液体平衡理论,由此奠定了流体静力学的基础。此后衍生出来的流体动力学,其中原理至今还是很难解释, 但不影响这门学科的发展以及人类对其的加以利用。」
特斯拉的端对端算法亦是如此。
对于AI算法发展本身,行业人士普遍判断,国内硬件水平要高于国外,但AI算法这块,国内与国外差距十分明显。王兴兴就坦言,中国高端AI人才较少,目前中国教育体系学出来的落后国外十几年。
「我自己去年各种岗位将近面试了 1000 个人,但比较合适一些的其实没多少个候选人。」
说回可解释性,对于这一点,马斯克认为,只要一直喂数据,就能喂到足够准确安全。
大力出奇迹, 与GPT的运行逻辑同出一辙。如果马斯克顺着这个思路,我们可以发现,数据,是未来人形机器人时代的关键要素。
以往的机器人系统或者自动驾驶系统在视觉模块,普遍会采用深度学习算法,操作操控的话大部分都是一部分 深度学习算法和传统的算法混合一起使用,执行层面基本上采用传统算法,各个版块之间数据没有打通。
特斯拉FSD本身能从算法层面解决数据打通的问题。另一方面,特斯拉这个汽车巨头一直以来积累的数据优势和资本优势也是这场竞争之中不可忽视的筹码。
据特斯拉发布的报告显示,特斯拉在二季度的总营收为249.27亿美元,较上年同期增加了47%,除去收入外,特斯拉的交付量也打破了其单季交付量的纪录。尽管特斯拉在上半年数次下调了美国,墨西哥,欧洲以及中国四款有轨电车的价格,但特斯拉在二季度的交付量达到了创纪录的466,000辆。
这足以表明,特斯拉积累的资本实力能使它有足够的底气去投资自己的研发 。
特斯拉员工表示,人形机器人出来后,会首先应用于特斯拉自己的工厂,自给自销,这样的好处是,机器人能跑起来,能捕捉到足够多的真实场景数据。
机器人产业的每一块数据都是从真实世界或者仿真环境得到的,无论多高大上的算法,多复杂的任务程序,最后都得落地于真实世界,真实世界的一组数据的作用大于虚拟环境的100组数据。
高质量数据来自于真实用户日常驾驶场景中遇到的罕见场景,搭载自动驾驶的本土车企保有量和特斯拉之间有着巨大的差距,在数据上存在天然的短板。
除了数据,在训练算力上,本土企业与特斯拉也存在巨大的差距。特斯拉的训练算力不仅来自NVIDIA(与绝大多数中国企业不一样),还有自家打造的超级计算机Dojo-道场,这也是特斯拉视频展示的另一亮点。数据显示,一台Dojo的算力高达1.1EFLOPS。
据特斯拉内部员工透露,Dojo正在疯狂的扩张。成本10倍低于 NVIDIA , Dojo的另一个优势在于GPU 是一个通用的平台。但Dojo是围绕着自动驾驶训练,完全定制化的超算系统,不光是芯片定制化,整个架构、电源、机柜全都是围绕自动驾驶设计。一块板上面全都是芯片,运算以及通讯速度大幅提高。这样的算力加载的汽车和机器人,其威慑力可想而知。
数据和算力的差距加持,再加上特斯拉算法本身的卓越性,一旦正式量产,擎天柱对于国内机器人产业的冲击不言而喻。
另一方面,马斯克宣称的16.8万元的成本,背后所采用的方法或许也和他在车上采用的「最小有效规模效应」同出一辙。也就是随着产量的增加,成本下降幅度会迅速加大。
利用这一点,特斯拉汽车的每个生产环节都致力于以最小的成本实现最大的效益。
以电池电芯为例,数据显示,特斯拉在美国市场的电池电芯成本为每千瓦时142美元,整个电动车产业的平均值为每千瓦时186美元。与产业均值相比,特斯拉电芯成本低了23.7%。
特斯拉内部员工告诉AI科技评论,曾经有禾赛的人找过他想打入特斯拉人形机器人供应链,但是他一口回绝,因为他知道供应链每一个环节,马斯克都会把成本降到最低。
一套组合拳下来,其他企业的生存空间似乎被特斯拉不断挤压。
不过,这场角逐的关键转折点还没有完全实现,人形机器人的商业落地是国内外企业共同面对的问题。
特斯拉所展示的「全能」的、能够有效替代人力的人形机器人,其实并没有完全匹配的落地场景,用在哪是一个巨大的问题,而且大众对其的感知也十分遥远,没有强烈的市场需要。
所以马斯克才会在活动日上表示,会首先实现自产自销。
王兴兴也强调,工业领域是有可能最先落地的场景,其次才是商业领域,家庭服务领域反倒是更难实现落地的地方。
国内人形机器人产业发展与特斯拉之间的确存在差距,但作为有高达300万工业机器人产业缺口的中国,未来机器人产业的发展拥有巨大的空间。
毕竟,在2008年之际,第一辆特斯拉在上海生产时,没有人想到,它会间接影响中国此后新能源汽车的蓬勃发展。如今,特斯拉成本低至16.8万的人形机器军雄赳气昂而来,机器人行业或许也将迎来新的变革。
雷峰网 雷峰网