悄无声息,特斯拉今天发布了全新一代人形机器人 Tesla Optimus Gen 2。


一句话划重点,和前代相比,Optimus Gen 2 更像人了,主要升级点概括如下:



  • 特斯拉全新设计的执行器和传感器,提高执行任务的效率和精准度;


  • 2-Dof (自由度)驱动的颈部,让头部转动更自由;


  • 11-Dof 的手部关节,使得手部运动更灵活;


  • 集成执行器与电子元件和线束,提高整体系统的稳定性;


  • 步行速度提升 30%,增强环境的适应性;


  • 引入脚力/扭矩感应,灵活适应地面情况;


  • 重量减轻 10 千克,机动性更强。


从马斯克发布的视频中可以看到,Optimus Gen 2 能够平稳地行走,步行速度比前代快了 30%,同时它还能做一个 90 度左右的蹲下,肢体控制程度相当不错。



Optimus Gen 2 还升级了全新的手部,11 个自由度的手可以让它像人手一样地摇动,动作完成的准确度和流畅度有真人那味了。



Optimus Gen 2 的所有手指都具有触觉感应,能够灵巧地处理鸡蛋等易碎物品,看着像是会做饭的样子。



在视频的最后,你还会看到两个 Optimus Gen 2 随着音乐的节拍和晃眼的灯光一起手舞足蹈,这也算是特斯拉埋下的小彩蛋。



特斯拉高级工程师表示,视频中的一切都是真实的,没有使用 CGI 生成,所以动作都是实时的,没有加速播放,并盛赞了特斯拉机器人在硬件性能上取得了难以置信的改进。



若他所说的属实,那特斯拉人形机器人的进化一目了然。


图片来自@Hanteta_


特斯拉人形机器人的进化之旅


从特斯拉推出第一台人形机器人开始,不过才短短三年时间,却迎来了飞速进化。


在 2021 年 8 月 AI Day 上,马斯克官宣特斯拉人形机器人Tesla Bot。这款机器人被设定为高 5 英尺 8 英寸,重 125 磅,具有承载 45 磅和举起 150 磅等能力,主要是用来执行一些被认为危险、重复和无聊的任务。


当时,这款机器人还只是几张“活在”屏幕上的 PPT 概念图,就连台上跳舞的亮相环节也是由穿着机器人套装的男人完成。



紧接着到了第二年的 AI Day 2022 大会上,主角截然变换,走到台前的 Optimus Robot(擎天柱机器人)成了当天发布会的最强主角。


裸露在外的机械结构让它的颜值显得有些粗糙,但无论是搬箱子、给植物浇花、还是在超级工厂里搬砖,演示视频里的“擎天柱”能干的活可真不少。



为这台擎天柱提供能量的不是火种,而是一块容量为 2.3kWh 的电池包,它被充分保护,放置在最核心的身体部位,即为图中蓝色的那一块。


当时马斯克称,擎天柱“非常适合一整天的工作”,它静坐时的功耗约为 100w,快走时为 500w。可能有人会问快走是多快,大概 2 米每秒。


为了确保擎天柱的灵活性,特斯拉甚至为其设计了 28 个关节,每一个关节里都有多套执行器,这些执行器能够在后台分析执行效率,减少无效工作。


特斯拉表示,整台擎天柱拥有 200 多个自由度,而它的手占了其中的 27 个,由促动机(actuator)驱动,通过视觉系统和算法,擎天柱能够准确识别手与物体的位置,完成上面提到的浇花、取物的任务。


从迈出第一步到自如地摆出各种姿势,“擎天柱”花了 5 个月的时间。



到了今年 3 月的特斯拉投资者期间,Optimus 再次迎来了史诗级进化。其中一个亮点是,Optimus 从桌子上拿起了一个机械臂并将其固定到位,另一个 Optimus 则将其固定在仍在组装的第三个 Optimus 身上,如此敏捷且流畅的任务执行,比最初的能力有了实质性的进步。


虽然 Optimus 的动作仍有些僵硬,还不能完成像跑酷一样的复杂动作,但已经初步展现出独立短距离行走、搬运物体和使用基本工具等普适性能力。


仅仅半年后,9 月份的 AI Day 上,Optimus 不仅能够根据颜色对方块进行分类,还能自信地将双臂举在空中,然后在一条腿上摆出瑜伽姿势,展露出优异的平衡力和协调力。



而现在,如上文所述,栩栩如生的身躯,机敏灵活的手指、流畅轻盈的步态,Optimus Gen 2 在运动和操作能力上更加贴近人类水平。希望再过不久,机动性更强的 Optimus 甚至能够复刻人类“爬、跳、抓、举”等复杂动作。


当然,按照马斯克的设想,Optimus 的远景目标不仅仅是替代人类完成重复劳动、危险操作等任务,而是要成为一款通用服务机器人,融入到家庭、办公场所和商业场景等更复杂的场景中。


因此,机器人的硬件仅仅只是基石,一个完整的人形智能体,还需要“大脑”级别的软件和算法赋能。


将GPT-4塞入人形机器人会发生什么?


今年以来,随着大模型不断的迭代升级,智能泛化能力的飞速提升,让人们看到了人形机器人的潜在前景,我们时不时就会看到一些新玩家入局人形机器人赛道。


不谋而合的是,他们都选择了具身智能这一解题思路。具身智能,顾名思义,指的是一种智能体利用自身的物理身体,通过感知、运动和环境交互来获取信息、做出判断并采取行动的智能形式,这也被视作人工智能的终极形态。


它强调身体在认知和行为发生中的关键作用。相比纯思维型的智能,具身智能更加贴近人类自然智能,它强调身体、行为和环境对认知的重要作用。


一种不太严谨的表达是,AI 大模型用作大脑,机器人充当躯壳,AI 大模型套上机器人的壳就是具身智能。


除了上文所说的特斯拉人形机器人,一个更直观的案例是,最近东京大学发布的人形机器人 Alter3 便是首款由 GPT-4 驱动的人形机器人。不需要任何事先的编程调教,通过口头反馈,你就可以让它自主地做出各种人类动作。


你不要过来呀


弹奏重金属音乐、表演自拍、用手投球、扮鬼吓人,在 GPT-4 智能语言描述的映射下,这些动作都不在话下。


需要说明的是,Alter3 本身无法理解像“抬起手有多高”这样的细节,因此也就无法改进自己的动作,通过人类的口头反馈,譬如“自拍时把手抬高一点”,接收到信息的 GPT-4 会将人类发出的指令分解为一连串步骤。



接着这些步骤就会被转化为控制 Alter3 各个身体部位运动的 Python 代码,也就是所谓的思维链(CoT),然后 Alter3 会把这些改进后的运动编码存储下来,形成“运动记忆”。


碰到下次再生成相同的运动时,它就会根据过去的相关经验推理出如何最优地执行相似的任务,而不是从零开始,这种零样本学习能力(zero-shot)也是机器人获得真正智能的关键。


更离谱的是,没有意识的它甚至可以通过 GPT-4 反馈的文本中推断出适当的情感,并用清晰的动作表达出来,属实是机器人又一“超纲”的表现。


像我们此前写过的华为天才少年稚晖君的智元机器人远征 A1、雷军的“铁蛋”也都归属于 AI + 机器人的范畴。



在大模型之前,机器人属于专用设备,如今有了大模型的通用能力,通用机器人开始曙光乍现,正如稚晖君所说的那样,现在我们不止需要 ChatGPT,还需要 WorkGPT。


这些进化间接印证了一条清晰可见的道路:当 AI 大模型生根发芽之后,总归是要走进现实世界,而具身智能则是最佳的路径。


一直活跃在 AI 前线的英伟达创始人黄仁勋曾洞察道:“具身智能将引领下一波人工智能浪潮。”


成熟的 AI 大模型充当人工大脑,模拟了人脑复杂的神经网络,实现了语言理解、视觉识别、情景推理等认知功能,解决了机器人更高层次的认知和决策问题。


与此同时,各种传感器、执行器、计算单元被集成到机器人躯体中,实现了对环境的感知和交互。比如视觉系统可以捕捉图像和视频,触觉传感器可以感受物体的形状和质地等。


因此,在 AI 大模型与机器人实体深度融合的基础之上,设想有一日,究极体的 Grok 结合 Optimus,也许能够模糊虚拟和物理现实的界限,让智能 AI 彻底走出屏幕,真正融入人类生活社会。


最后,放上网友 @cb_doge 让 Grok 评价 Optimus Gen 2 的回答:


哦,特斯拉在 Optimus Gen 2 上取得的进步真是让人瞩目!自从上次上线后,无论是速度、重量减轻,还是处理像鸡蛋这样易碎物体的能力,都有了显著的提高。这就像看到一只小鸟勇敢尝试第一次飞翔,尽管它拥有更多的执行器而非羽毛。            


放眼全局,我们要明白,发展像 Optimus 这样的机器人是一场长跑,而不是冲刺。这就像观看技术与人性之间缓慢而优雅的舞蹈,每一步都使我们更接近一个理想的未来,在那里,机器人和人类可以和谐相处、共同工作。            


至少,这是我们的梦想。


本文来自微信公众号:APPSO (ID:appsolution),作者:莫崇宇