更快地教导机器人的方法

背景是蓝色的,显示咖啡杯的图案。 在左边的前景中,一只人手拿着一个蒂姆海狸咖啡杯。 在它的右边,一只机械手拿着另一个蒂姆马克杯。

标题:麻省理工学院和其他地方的研究人员开发了一种技术,使人类能够有效地微调未能完成所需任务(例如拿起一个独特的杯子)的机器人,而人类只需付出很少的努力。

制作人员:图片:Jose-Luis Olivares/MIT,图片来自 iStock 和 The Coop



想象一下购买一个机器人来执行家务。该机器人是在工厂中制造并接受特定任务训练的,并且从未见过您家中的物品。当你要求它从厨房桌子上拿起一个杯子时,它可能无法识别你的杯子(可能是因为这个杯子上画着一个不寻常的图像,比如麻省理工学院的吉祥物海狸蒂姆)。所以,机器人失败了。


“现在,我们训练这些机器人的方式,当它们失败时,我们真的不知道为什么。所以你会举起双手说:“好吧,我想我们必须重新开始。” 该系统缺少的一个关键组件是让机器人能够展示其失败的原因,以便用户可以向其提供反馈。”麻省理工学院电气工程和计算机科学 (EECS) 研究生 Andi Peng 说道。


彭和她在麻省理工学院、纽约大学和加州大学伯克利分校的合作者创建了一个框架,使人类能够以最少的努力快速教会机器人他们想要它做什么。


当机器人出现故障时,系统会使用算法生成反事实解释,描述机器人需要做出哪些改变才能成功。例如,如果杯子是某种颜色,机器人也许能够拿起杯子。它向人类展示这些反事实,并要求反馈机器人失败的原因。然后,系统利用该反馈和反事实解释来生成新数据,用于微调机器人。

微调涉及调整已经被训练来执行一项任务的机器学习模型,以便它可以执行第二个类似的任务。


研究人员在模拟中测试了这项技术,发现它可以比其他方法更有效地教导机器人。使用该框架训练的机器人表现更好,而训练过程消耗的时间更少。


该框架可以帮助机器人在新环境中更快地学习,而无需用户具备技术知识。从长远来看,这可能是使通用机器人能够在各种环境下为老年人或残疾人有效执行日常任务的一步。


主要作者 Peng 与 EECS 研究生 Aviv Netanyahu 共同作者;Mark Ho,史蒂文斯理工学院助理教授;舒天民,麻省理工学院博士后;Andreea Bobu,加州大学伯克利分校研究生;资深作者朱莉·沙阿(麻省理工学院航空航天学教授、计算机科学与人工智能实验室(CSAIL)交互式机器人小组主任)和 Pulkit Agrawal(CSAIL 教授)。 该研究将在国际机器学习会议上公布。


在职培训


机器人经常因分布转移而失败——机器人会看到它在训练过程中没有看到的物体和空间,并且它不知道在这个新环境中要做什么。


重新训练机器人执行特定任务的一种方法是模仿学习。用户可以演示正确的任务来教机器人做什么。如果用户尝试教机器人拿起杯子,但用白色杯子进行演示,则机器人可以了解到所有杯子都是白色的。然后它可能无法拿起红色、蓝色或“Tim-the-Beaver-brown”杯子。


训练机器人识别杯子就是杯子,无论其颜色如何,可能需要数千次演示。


“我不想用 30,000 个杯子来展示。我想只用一个杯子来演示。但接下来我需要教机器人,让它认识到它可以拿起任何颜色的杯子,”彭说。


为了实现这一目标,研究人员的系统确定用户关心什么特定物体(杯子)以及哪些元素对任务不重要(也许杯子的颜色并不重要)。它利用这些信息通过改变这些“不重要”的视觉概念来生成新的合成数据。这个过程称为数据增强。


该框架分为三个步骤。首先,它显示导致机器人失败的任务。然后,它从用户那里收集所需动作的演示,并通过搜索空间中的所有特征来生成反事实,这些特征显示机器人需要做出哪些改变才能成功。


系统向用户显示这些反事实,并请求反馈以确定哪些视觉概念不会影响所需的操作。然后,它使用这种人类反馈来生成许多新的增强演示。


通过这种方式,用户可以演示拿起一个杯子,但系统会通过改变颜色来生成演示,显示数千个不同杯子的所需动作。它使用这些数据来微调机器人。


彭说,创建反事实的解释并征求用户的反馈对于该技术的成功至关重要。


从人类推理到机器人推理


由于他们的工作旨在将人类纳入训练循环中,研究人员用人类用户测试了他们的技术。他们首先进行了一项研究,询问人们反事实解释是否有助于他们识别可以在不影响任务的情况下改变的元素。


“一开始就非常清楚。人类非常擅长这种反事实推理。这个反事实的步骤使得人类推理能够以一种有意义的方式转化为机器人推理,”她说。


然后他们将他们的框架应用到三个模拟中,机器人的任务是:导航到目标物体,拿起钥匙并打开门,拿起所需的物体然后将其放在桌面上。在每种情况下,他们的方法都使机器人比其他技术学习得更快,同时需要更少的用户演示。


展望未来,研究人员希望在真实的机器人上测试这个框架。他们还希望专注于减少系统使用生成机器学习模型创建新数据所需的时间。


“我们希望机器人能够做人类所做的事情,并且我们希望它们以语义上有意义的方式来做。人类倾向于在这个抽象的空间中进行操作,他们不会考虑图像中的每一个属性。归根结底,这实际上是为了让机器人能够在抽象层面上学习良好的、类似人类的表示,”彭说。


这项研究部分得到了美国国家科学基金会研究生研究奖学金、开放慈善事业、Apple AI/ML 奖学金、现代汽车公司、麻省理工学院-IBM Watson AI 实验室以及美国国家科学基金会人工智能和基础研究所的支持互动。

留学方案申请

0.077115s