
标题:麻省理工学院的研究人员开发了一种机器学习技术,可以在非常困难的“稳定-避免”场景中自动驾驶汽车或驾驶飞机,在这种情况下,车辆必须稳定其轨迹才能到达并停留在某个目标区域内,同时避开障碍物。
图片:由研究人员提供
在电影《壮志凌云:特立独行》中,由汤姆 克鲁斯饰演的特立独行者负责训练年轻飞行员完成一项看似不可能完成的任务——驾驶喷气式飞机深入岩石峡谷,并保持在离地面低到无法被发现的位置通过雷达,然后以极端角度快速爬出峡谷,避开岩壁。剧透警报:在 Maverick 的帮助下,这些人类飞行员完成了他们的任务。
另一方面,一台机器将难以完成同样的脉冲冲击任务。例如,对于一架自主飞行器来说,通往目标的最直接路径与机器为避免与峡谷壁碰撞或保持不被发现而需要做的事情是冲突的。许多现有的 AI 方法无法克服这种称为稳定避免问题的冲突,并且无法安全地达到目标。
麻省理工学院的研究人员开发了一种新技术,可以比其他方法更好地解决复杂的稳定避免问题。他们的机器学习方法匹配或超过现有方法的安全性,同时将稳定性提高十倍,这意味着代理到达并在其目标区域内保持稳定。
在一项让 Maverick 感到自豪的实验中,他们的技术有效地驾驶模拟喷气式飞机穿过狭窄的走廊,而没有坠毁在地面上。
“这是一个长期存在的、具有挑战性的问题。很多人都看过它,但不知道如何处理这种高维和复杂的动力学,”威尔逊航空航天助理教授、信息与决策系统实验室 (LIDS) 成员 Chuchu Fan 说。 ),以及一篇关于该技术的新论文的高级作者。
范与主要作者、研究生 Oswin So 一起。该论文将在机器人技术:科学与系统会议上发表。
稳定-避免挑战
许多方法通过简化系统来解决复杂的稳定避免问题,以便他们可以用简单的数学来解决它,但简化的结果通常不符合现实世界的动态。
更有效的技术使用强化学习,这是一种机器学习方法,在这种方法中,代理通过反复试验进行学习,并奖励使其更接近目标的行为。但这里实际上有两个目标——保持稳定和避免障碍——找到正确的平衡是乏味的。
麻省理工学院的研究人员将问题分为两个步骤。首先,他们将稳定避免问题重新定义为约束优化问题。在此设置中,解决优化问题使代理能够达到并稳定到其目标,这意味着它停留在某个区域内。So 解释说,通过应用约束,它们可以确保代理避开障碍物。
然后在第二步中,他们将受约束的优化问题重新表述为一种称为题词形式的数学表示形式,并使用深度强化学习算法对其进行求解。题词形式让他们绕过了其他方法在使用强化学习时面临的困难。
“但是深度强化学习并不是为了解决优化问题的题词形式而设计的,所以我们不能把它直接插入到我们的问题中。我们必须推导出适用于我们系统的数学表达式。一旦我们有了这些新的推导,我们就会将它们与其他方法使用的一些现有工程技巧结合起来,”So 说。
第二名不加分
为了测试他们的方法,他们设计了许多具有不同初始条件的控制实验。例如,在某些模拟中,自主代理需要到达并停留在目标区域内,同时进行激烈的机动以避免与其发生碰撞的障碍物。

该视频展示了研究人员如何使用他们的技术有效地驾驶模拟喷气式飞机,在这种情况下,飞机必须稳定到靠近地面的目标,同时保持非常低的高度并停留在狭窄的飞行走廊内。
由研究人员提供
与几种基线相比,他们的方法是唯一能够在保持安全的同时稳定所有轨迹的方法。为了进一步推进他们的方法,他们用它来驾驶一架模拟的喷气式飞机,就像人们在“壮志凌云”电影中看到的场景一样 。喷气式飞机必须稳定在靠近地面的目标,同时保持非常低的高度并停留在狭窄的飞行走廊内。
这个模拟喷气机模型于 2018 年开源,由飞行控制专家设计,作为测试挑战。研究人员能否创造一个他们的控制器无法飞行的场景?但范说,该模型非常复杂,难以使用,而且仍然无法处理复杂的场景。
麻省理工学院研究人员的控制器能够防止喷气式飞机坠毁或失速,同时比任何基线都更好地稳定到目标。
将来,这项技术可能成为设计高动态机器人控制器的起点,这些机器人必须满足安全性和稳定性要求,例如自动送货无人机。或者它可以作为更大系统的一部分来实现。也许只有当汽车在雪路上打滑时,算法才会被激活,以帮助驾驶员安全地回到稳定的轨迹。
So 补充说,应对人类无法应对的极端情况才是他们方法真正的亮点。
“我们认为,作为一个领域,我们应该努力实现的目标是为强化学习提供安全性和稳定性保证,当我们在关键任务系统上部署这些控制器时,我们需要为我们提供保证。我们认为这是朝着实现这一目标迈出的充满希望的第一步,”他说。
展望未来,研究人员希望增强他们的技术,以便在解决优化问题时能够更好地考虑不确定性。他们还想研究该算法部署在硬件上时的效果如何,因为模型的动态与现实世界中的动态不匹配。
“范教授的团队提高了安全至关重要的动力系统的强化学习性能。他们不是仅仅达到一个目标,而是创建控制器来确保系统能够安全地达到目标并无限期地停留在那里,”石溪大学计算机科学系助理教授斯坦利巴克说,他没有参与这项研究. “他们改进的公式允许成功生成用于复杂场景的安全控制器,包括部分由空军研究实验室 (AFRL) 的研究人员设计的 17 态非线性喷气式飞机模型,该模型结合了带有升力和阻力表的非线性微分方程。 ”
这项工作部分由麻省理工学院林肯实验室根据特技飞行安全计划资助。
留学方案申请