人工智能研究组织 OpenAI 在寻求构建通用自学机器人方面取得了新的里程碑。该组织的机器人部门表示,其去年首次开发的人形机器人手Dactyl已经学会了单手解决魔方。OpenAI 将这一壮举视为机器人附属物的灵巧性和它自己的 AI 软件的一次飞跃,这使得 Dactyl 能够在面临真正的物理挑战之前使用虚拟模拟来学习新任务。
在展示 Dactyl 新才能的演示视频中,我们可以看到机械手通过笨拙但准确的动作摸索着完成完整的立方体求解。这需要很多分钟,但 Dactyl 最终能够解决这个难题。在行动中看到有点令人不安,这仅仅是因为运动看起来明显不如人类的流畅,并且与人类速度在几秒钟内解决立方体时显示的令人眼花缭乱的速度和原始灵巧相比尤其脱节。
但对于 OpenAI 而言,Dactyl 的成就使其离更广泛的人工智能和机器人行业备受追捧的目标又近了一步:一个可以学习执行各种现实世界任务的机器人,而无需进行数月至数年的训练。真实世界的时间,无需专门编程。
图片:OpenAI
“很多机器人可以非常快地解魔方。OpenAI 的研究科学家兼机器人技术负责人彼得·韦林德 (Peter Welinder) 说:“他们在那里所做的与我们在这里所做的之间的重要区别在于,这些机器人是专门制造的。” “显然,您无法使用相同的机器人或相同的方法来执行另一项任务。OpenAI 的机器人团队有着截然不同的抱负。我们正在尝试构建一个通用机器人。类似于人类和我们的人手如何做很多事情,而不仅仅是一项特定的任务,我们正在尝试构建在其范围内更通用的东西。”
Welinder 引用了过去几年中的一系列机器人,这些机器人使魔方求解远远超出了人类手和头脑的限制。2016 年,半导体制造商英飞凌开发了一种机器人,专门用于以超人的速度解出魔方,并且该机器人在一秒内就完成了。这打破了当时低于 5 秒的人类世界纪录。两年后,麻省理工学院开发的机器在不到 0.4 秒的时间内解出了一个立方体。2018 年底,一个名为 Human Controller 的日本 YouTube 频道甚至使用连接到可编程伺服电机的 3D 打印核心开发了自己的自解魔方。
多年来,机器已经能够以超人的速度解出魔方
换句话说,为一项特定任务构建并通过编程以尽可能高效地执行该任务的机器人通常可以胜过人类,而魔方求解是软件早就掌握的东西。因此,开发一个机器人来解决立方体,即使是一个人形机器人,就其本身而言并不是那么出色,在 Dactyl 运行缓慢的情况下更是如此。
但是 OpenAI 的 Dactyl 机器人和为其提供动力的软件在设计和用途上与专用的立方体求解机大不相同。正如 Welinder 所说,OpenAI 正在进行的机器人工作并不旨在在狭窄的任务中取得出色的结果,因为这只需要您开发更好的机器人并对其进行相应的编程。这可以在没有现代人工智能的情况下完成。
相反,Dactyl 是作为一种自学机械手从头开始开发的,可以像人类一样处理新任务。它使用软件进行训练,该软件目前以一种基本的方式试图复制数百万年的进化,这些进化帮助我们在孩提时代就本能地学会使用我们的双手。OpenAI 希望有朝一日能帮助人类开发出我们只能从科幻小说中了解的类人机器人,这些机器人可以在社会中安全地运行而不会危及我们,并且可以在城市街道和工厂车间等混乱的环境中执行各种任务.
为了学习如何单手解决魔方,OpenAI 并没有明确编程 Dactyl 来解决这个玩具;互联网上的免费软件可以为您做到这一点。它还选择不为手执行单独的动作编程,因为它希望它自己辨别这些动作。取而代之的是,机器人团队为手部的底层软件设定了解决混乱立方体的最终目标,并使用现代人工智能——特别是一种称为强化学习的基于激励的深度学习品牌——来帮助它走上自己解决这个问题的道路。训练 AI 代理的相同方法是 OpenAI开发其世界级Dota 2机器人的方式。
但直到最近,训练 AI 代理执行虚拟任务(例如玩电脑游戏)比训练它执行现实世界任务容易得多。那是因为可以加快训练软件在虚拟世界中做某事的速度,因此借助数千个高端 CPU 和超- 强大的 GPU 并行工作。
使用物理机器人执行相同级别的训练来执行物理任务是不可行的。这就是为什么 OpenAI 试图开创使用模拟环境代替现实世界的机器人训练新方法的原因,机器人行业几乎没有尝试过这种方法。这样,该软件可以同时在许多不同的计算机上以更快的速度进行广泛的练习,希望它在开始控制真正的机器人时保留这些知识。
OPENAI 的 DACTYL 机械手由 AI 软件提供支持
由于训练限制和明显的安全问题,当今商业使用的机器人不使用人工智能,而是使用非常具体的指令进行编程。“过去采用的方法是使用非常专业的算法来解决任务,在这种情况下,您拥有机器人和您操作的环境的准确模型,”Welinder 说。“对于工厂机器人,您拥有非常精确的模型,并且您确切地知道您正在工作的环境。你确切地知道它将如何拾取特定的部分。”
这也是为什么目前的机器人远不如人类多才多艺的原因。重新编程一个机器人需要大量的时间、精力和金钱来组装汽车的一个特定部分或计算机组件来做其他事情。展示一个没有经过适当训练的机器人,即使是涉及任何水平的人类灵巧性或视觉处理的简单任务,它也会失败。然而,借助现代人工智能技术,机器人可以像人类一样建模,这样它们就可以使用对世界的同样直观理解来做任何事情,从开门到煎鸡蛋。至少,那是梦想。
我们距离这种复杂程度还有几十年的时间,人工智能社区在软件方面取得的飞跃——比如自动驾驶汽车、机器翻译和图像识别——还没有完全转化为下一代机器人。目前,OpenAI 只是试图模仿人体某一部分的复杂性,并让机器人模拟更自然地运行。
这就是为什么 Dactyl 是一种以人手为模型的 24 关节机械手,而不是您在工厂中看到的爪形或钳形机械手。对于支持 Dactyl 学习如何以人类的方式利用所有这些关节的软件,OpenAI 在尝试物理立方体求解之前对其进行了数千年的模拟训练。
图片:OpenAI
“如果你在现实世界的机器人上训练东西,很明显,无论你在学习什么,都是在你真正想要部署你的算法的东西上工作。这样一来,就简单多了。但是今天的算法需要大量数据。要训练一个真实世界的机器人,做任何复杂的事情,你需要多年的经验,”韦林德说。“即使对于人类来说,也需要几年时间,而人类经过数百万年的进化才能拥有操作手的学习能力。”
然而,在模拟中,Welinder 表示可以加速训练,就像玩游戏和其他作为 AI 基准的流行任务一样。“这需要数千年的时间来训练算法。但这只需要几天时间,因为我们可以并行化训练。在训练这些算法时,您也不必担心机器人会破坏或伤害某人,”他补充道。然而,研究人员过去在尝试让虚拟训练在物理机器人上工作时遇到了相当大的麻烦。OpenAI 表示,它是第一批真正看到这方面进展的组织之一。
当给它一个真正的立方体时,Dactyl 会使用它的训练并自行解决它,它是在它从未接受过明确训练的各种条件下这样做的。这包括用一只手戴上手套解决立方体,用它的两个手指粘在一起,而 OpenAI 成员通过用其他物体戳它并用气泡和五彩纸屑一样的纸片喷洒它来不断干扰它。
OPENAI 在现实世界中测试其技能之前使用模拟训练了 DACTYL 数千年
“我们发现,在所有这些扰动中,机器人仍然能够成功转动魔方。但它在训练中并没有经历这些,” Welinder 的同伴 OpenAI 机器人团队负责人 Matthias Plappert 说。“当我们在物理机器人上尝试这个时,我们发现的鲁棒性让我们感到惊讶。”
这就是为什么 OpenAI 认为 Dactyl 新获得的技能对于机器人硬件和 AI 培训的进步同等重要。即使是世界上最先进的机器人,如行业领导者波士顿动力公司开发的类人机器人和类狗机器人,也无法自主运行,它们需要大量针对特定任务的编程和频繁的人工干预才能执行基本动作。
OpenAI 表示,Dactyl 是朝着有朝一日可能执行体力劳动或家务甚至与人类一起工作的机器人迈出的一小步但至关重要的一步,而不是在封闭的环境中,没有任何明确的程序来控制他们的行为。
在未来的愿景中,机器人学习新任务和适应不断变化的环境的能力将与人工智能的灵活性和物理机器的稳健性同样重要。“这些方法真正开始证明,这些是处理我们生活的物理世界的所有固有复杂性和混乱的解决方案,”普拉珀特说。