麻省理工学院(MIT)研究人员开发的一种新技术可以使机器人操纵像披萨面团这样柔软的物体或像衣服这样柔软的材料。一个披萨饼制作者处理面团是非常简单的。然而,对于机器人来说,处理像面团这样的可变形物体是很棘手的,因为面团的形状可以以多种方式改变,这很难用方程式来表示。此外,从面团中创造一个新的形状需要多个步骤和使用不同的工具。


Robotic-Pizza-Making-768x512.jpg


对于一个机器人来说,学习一个具有长序列步骤的操作任务是特别困难的--那里有许多可能的选择--因为学习常常是通过试验和错误进行的。


麻省理工学院、卡内基梅隆大学和加州大学圣迭戈分校的研究人员想出了一个更好的办法。他们创建了一个机器人操纵系统的框架,该系统使用两阶段的学习过程,这可以使机器人在很长的时间范围内执行复杂的面团操纵任务。一个“教师”算法解决了机器人为完成任务必须采取的每一个步骤。然后,它训练一个 “学生”机器学习模型,学习关于何时和如何执行任务中所需要的每项技能的抽象概念,如使用擀面杖。有了这些知识,系统就会推理出如何执行这些技能来完成整个任务。


研究人员表明,这种称为DiffSkill的方法可以在模拟中执行复杂的操作任务,如分割和摊开面团,或从砧板周围收集面团碎片,同时优于其他机器学习方法。


除了制作披萨饼之外,这种方法还可以应用于机器人需要操纵可变形物体的其他场合,例如为老人或有运动障碍的人喂食、洗澡或穿衣的护理机器人。


“这种方法更接近于我们人类计划行动的方式。当人类做一个长距离的任务时,我们不是在写下所有的细节。我们有一个更高层次的计划器,它大致上告诉我们阶段是什么,以及沿途我们需要实现的一些中间目标,然后我们执行它们,”MIT计算机科学和人工智能实验室(CSAIL)的研究生李云珠说,她是介绍DiffSkill的论文的主要作者之一。


DiffSkill框架中的“老师”是一种轨迹优化算法,可以解决短距离的任务,即物体的初始状态和目标位置很接近。轨迹优化器在一个模拟现实世界物理学的模拟器中工作(被称为可微分物理学模拟器,这使"DiffSkill"中的"Diff"成为现实)。“教师”算法使用模拟器中的信息来学习面团在每个阶段必须如何移动,一次一个,然后输出这些轨迹。


然后“学生 ”神经网络学习模仿“老师”的动作。作为输入,它使用两个摄像头拍摄的图像,一个显示面团的当前状态,另一个显示任务结束时的面团。该神经网络生成一个高级计划,以确定如何将不同的技能联系起来以达到目标。然后,它为每个技能生成具体的、短距离的轨迹,并直接向工具发送指令。


研究人员使用这种技术对三种不同的模拟面团操作任务进行了实验。在一项任务中,机器人使用铲子将面团举到砧板上,然后使用擀面杖将其压平。在另一项任务中,机器人使用抓手从柜台的各个角落收集面团,将其放在铲子上,并将其转移到砧板上。在第三个任务中,机器人用刀将一堆面团切成两半,然后用抓手将每块面团运送到不同的地方。


DiffSkill能够胜过依靠强化学习的流行技术,即机器人通过试验和错误学习任务。事实上,DiffSkill是唯一能够成功完成所有三项面团操作任务的方法。有趣的是,研究人员发现,“学生”神经网络甚至能够胜过“教师”算法。


“我们的框架为机器人获得新技能提供了一种新颖的方式。这些技能然后可以被串联起来,以解决更复杂的任务,这超出了以前机器人系统的能力,”研究人员说。


因为他们的方法专注于控制工具(铲子、刀、擀面杖等),它可以应用于不同的机器人,但前提是它们使用研究人员定义的特定工具。在未来,他们计划将工具的形状整合到“学生”网络的推理中,这样它就可以应用于其他设备。


研究人员打算通过使用3D数据作为输入来提高DiffSkill的性能,而不是使用难以从模拟转移到现实世界的图像。他们还希望使神经网络规划过程更加有效,并收集更多不同的训练数据,以增强DiffSkill对新情况的概括能力。从长远来看,他们希望将DiffSkill应用于更多不同的任务,包括布料操作等。