斯坦福做饭机器人:华人学霸3万开发能做满汉全席

今天，会做一大桌子菜的斯坦福机器人Mobile ALOHA刷屏全网。

滑蛋虾仁、干贝烧鸡、蚝油生菜，色香味俱全，看着很诱人。

就拿滑蛋虾仁这道菜来说，Mobile ALOHA在烧水的过程中先打上3颗鸡蛋，然后把虾仁放到水中焯熟，平底锅倒入鸡蛋液再加入虾仁，搅拌几下，一道菜完成了。

再看干贝烧鸡的制作过程。

首先，将去骨鸡腿肉煎至两面金黄，再加入干贝等调料之后，闷个20分钟即可。

最后摆盘时，再撒上一小撮葱花，完美。

至于蚝油生菜，机器人「大厨」的基操也是非常娴熟。

甚至，还能切蒜末。

网友看后纷纷表示，我们简直生活在未来！用不了多久快餐店做汉堡的工作要全面被机器人取代！

就连Pytorch之父称赞道，很酷的新家机器人平台，很高兴看到更多的工作在这个方向上！

这个由斯坦福三人团队研发的全新移动机器人Mobile ALOHA，可以通过模仿学习，执行各种复杂的任务。

它不仅可以自主操作，还可以支持全身远程操控。

值得一提的是，机器人的成本仅为32000美元（约22万），甚至软件和硬件全部开源。

论文地址：https://mobile-aloha.github.io/resources/mobile-aloha.pdf

研究人员每个任务只用了50个演示，便让Mobile ALOHA机器人始终如一地做一件事，比如连续9次擦拭洒在桌子上的葡萄酒，连续5次乘坐电梯。

它还可以在受干扰的情况下，把锅放入碗柜。即便是训练数据中看不到的椅子，也能够摆正。

50个演示如何就让机器人拥有如此强大的学习能力？作者解释关键在于，利用静态ALOHA数据共同训练模仿学习算法。这能持续提高性能，尤其是在需要精确操作的任务中。

再来看一波Mobile ALOHA炫酷的演示吧！清洗平底锅：和人击掌：炒虾仁：此外，还可以遥控Mobile ALOHA完成一些更加精细的工作。比如把纸抽出来擦玻璃。

以及用笤帚扫地等等。

2024年还没到来之前，许多大佬都在预测机器人便是今年除了大模型，另一件重要的研究领域。

没错，2024年将会是机器人元年。

一般来说，开发通用机器人一个非常有前途的方法是，从人类提供的演示中进行模仿学习。这种「行为克隆」可以让机器人学习各种原始的技能，从简单的拾放操作，到更精细的操作等等。然而，现实生活中许多任务，都需要全身协调的机动性，以及灵巧操作，而非单独的移动或操作行为。这篇论文中，作者研究了将「模仿学习」扩展到需要双臂移动机器人全身控制的任务可行性。

当前，有两个主要因素阻碍了「模仿学习」在双臂机器人移动操作中的广泛应用。一是，缺乏即插即用的「全身远程操控硬件」。如果购买现成的，双臂移动操作器成本会很高，比如PR2和TIAGo这样的机器人价格超过20万美元。为了在这些平台上实现远程操控，额外的硬件和校准也是必要的二是，之前的机器人学习研究中，尚未证明对于复杂任务的高性能双臂移动操作。

在本文中，研究人员试图解决将「模仿学习」应用于双臂移动操作的挑战。在硬件方面，作者引入了机器人Mobile ALOHA，一个低成本的全身遥操作系统，用于收集双臂移动操作数据。通过将其安装在轮式底座上，Mobile ALOHA扩展了原始ALOHA的能力，即低成本和灵巧的双人木偶操纵设置。然后，用户将身体栓在系统上，反向驱动轮子，以便底座移动。当用户双手控制ALOHA时，底座可以独立移动。研究人员同时记录底座速度数据和手臂操纵数据，形成一个全身远程操控系统。

值得一提的是，斯坦福团队在打造Mobile ALOHA的所有成本仅用了3万美元。在具体的机器人设计中，它们综合考虑了四个关键的因素：- 移动：系统的移动速度可与人类行走的速度相媲美，大约每秒1.42米。- 稳定性：当操作重型家用物品，如锅和橱柜时，能够保持稳定。- 全身远程操控：所有自由度都可以同时遥操作，包括手臂和移动底座。- 不受束缚：机载电源和计算如下图所示，可以清楚地看到Mobile ALOHA的技术规格。Mobile ALOHA有2个腕部摄像头，和1个顶部摄像头，并配有机载电源和计算。另外，远程操作装置可以拆除，Mobile ALOHA自主执行时只使用2个ViperX 300。两只手臂的最低/最高高度分别为65厘米/200厘米，并从底座伸出100厘米。

研究人员选择AgileX Tracer AGV（Tracer）作为了移动底座，这是一个专为仓库物流设计的。其移动速度可以达到1.6m/s，接近人类的平均步行速度。它的最大有效载荷为100千克，高度为17毫米。值得一提的是，Tracer在美的售价为7000美元，比同等速度和有效载荷的Clearpath的AGV便宜5倍多。

然后，研究人员试图在Tracer移动底座和ALOHA机械臂的基础上设计一个全身远程操控系统，即一个可以同时控制底座和两个机械臂的远程操控系统。而将操作员的腰部拴在移动底座上的设计是最简单直接的解决方案，这样可以反向驱动车轮，而车轮在扭矩关闭时摩擦力非常小。为了改善人体工程学和扩大工作空间，团队还安装了4个ALOHA手臂都面向前，不同于原始面向内的ALOHA手臂。

此外，为了让Mobile ALOHA不受束缚，作者在底部配置了1.26千瓦时重14公斤的电池。同时还可以起到平衡作用，避免翻到。在数据收集和推理过程中的所有计算都在一台消费级笔记本电脑上进行，该笔记本电脑配有Nvidia 3070ti GPU （8gb VRAM）和 Intel i7-12800H。以上便是Mobile ALOHA设计的重要组件。一些开发细节

材料价格一览有兴趣的小伙伴可以查看他们的官方文档：https://docs.google.com/document/d/1_3yhWjodSNNYlpxkRCPIlvIAaQ76Nqk2wsqhnEVM6Dc/edit

硬件得到了，接下来便是使用数据进行协同训练。论文中，研究人员使用一个协同训练管道，利用现有的静态ALOHA数据集，以改善模仿学习在移动操作，特别是双手臂操作的性能。静态ALOHA数据集总共有825个演示任务，包括密封袋子、拿起叉子、包装糖果、撕纸巾、打开带盖塑料杯、玩乒乓球、使用咖啡机、翻转铅笔、固定魔术贴电缆、装上电池和操作螺丝刀。然后，研究人员选择了7个任务，让Mobile ALOHA去完成。对于机器人需要清理洒在桌子上红酒的任务，需要机动性和双手灵活性。具体来说，机器人需要首先导航到水龙头，拿起毛巾，然后导航回到桌子。然后一只手臂举起酒杯，另一只手臂需要用毛巾擦拭桌子和杯底。这个任务在静态ALOHA中是不可能完成的，单臂移动机器人需要更多的时间来完成。

对于炒虾仁来说，机器人需要将一个生虾两面煎熟，然后把它放进碗里。机动性和双手灵活性也是这项任务的必要条件：机器人需要从灶台移动到厨房台，用铲子翻动虾仁，而另一只手臂还需倾斜平底锅。这项任务要求比擦酒精度更高，因为翻转半熟的虾需要更高的精度。

同样，对于清洗平底锅、收纳锅、乘坐电梯、推椅子、击掌的任务，Mobile ALOHA也能熟练地完成。

下图是机器人在执行任务时的导航移动轨迹。

实验评估中，研究人员主要为了回答两个核心问题：

（1）通过协同训练和少量移动操作数据，Mobile ALOHA能否掌握复杂的移动操作技能？（2）Mobile ALOHA能否使用不同类型的模仿学习方法，包括ACT、扩散策略和基于检索的VINN？研究发现，协同训练可以提高ACT性能。在7项具有挑战性的移动操作任务中，与静态ALOHA数据集进行协同训练可持续提高ACT的成功率。这对于乘电梯时需要按键、清洗锅时需要打开水龙头，等子任务尤为重要，因为在这些任务中，精确操作是瓶颈所在。

另外，Mobile ALOHA与「模仿学习」方法兼容。带分块的VINN、扩散策略和ACT在Mobile ALOHA上都取得了良好的性能，并且受益于与静态ALOHA的协同训练。

协同训练针对不同数据组合，其表现也是非常稳健。如下是使用ACT进行擦拭酒的任务训练后的成功率。

协同训练和预训练效果对比如下。协同训练在擦拭酒的任务中的表现，成功率95%，大大优于预训练的成功率40%。

另外，用户使用Mobile ALOHA远程操控未见过的任务时，可以迅速接近专家级速度。

总而言之，仅用32000美元的预算，通过静态ALOHA数据协同训练的模仿学习，Mobile ALOHA只需要20-50个演示就能学会各种复杂的任务。斯坦福Mobile ALOHA向所有人展示了机器人在各种应用场景的潜力，甚至机器人开源实现了人人可复刻。网友表示，机器人学是一门既需要硬件又需要算法的系统研究。我猜在2024年，我们将在现实世界中看到越来越多的机器人。

Zipeng Fu（项目共同负责人）

Zipeng Fu是斯坦福大学AI实验室的计算机科学博士生，导师是Chelsea Finn。同时也在Google DeepMind担任学生研究员，与Jie Tan合作。此前，他在卡内基梅隆大学（CMU）攻读机器学习领域的硕士学位，并在机器人学院（Robotics Institute）担任学生研究员，导师是Deepak Pathak和Jitendra Malik。他在加州大学洛杉矶分校（UCLA）获得了计算机科学与应用数学的学士学位，导师是Song-Chun Zhu。他的研究兴趣集中在机器人学、机器学习和计算机视觉的交汇处。并致力于研究在复杂多变的开放世界中实现稳定性能和可实际部署的机器人系统。他的研究得到斯坦福研究生奖学金的支持，并且还是Pierre和Christine Lamond奖学金的获得者。Tony Z. Zhao（项目共同负责人）

Tony Z. Zhao是斯坦福大学的计算机科学博士生，导师是Chelsea Finn。同时也在Google DeepMind担任兼职研究助理。在此之前，他于2021年在加州大学伯克利分校（UCB）获得了电子与计算机科学（EECS）学士学位，导师是Sergey Levine和Dan Klein。并曾在特斯拉Autopilot和谷歌X Intrinsic实习。他的目标是使机器人能够完成复杂而精细的操控任务。Chelsea Finn

Chelsea Finn是斯坦福大学计算机科学与电气工程的助理教授。研究兴趣是机器人及其他智能体能够通过学习和互动来展现出的智能行为。她的实验室IRIS致力于通过大规模的机器人互动研究智能，并且是SAIL和ML Group的合作实验室。同时，她也在Google Brain团队担任研究工作。此前，她在加州大学伯克利分校（UCB）获得了计算机科学博士学位，并在麻省理工学院（MIT）取得了电气工程与计算机科学的学士学位。

斯坦福做饭机器人:华人学霸3万开发 能做满汉全席

斯坦福做饭机器人:华人学霸3万开发能做满汉全席