贪婪的AI代理学会合作

如何克服强化学习固有的自私

11分钟读取
在粉红色和橙色的背景上,白色的小人儿共同组成了一个大脑的形状。
盖蒂图片社
DarkGray

想象你正坐着在赌场的牌桌上。有人向你解释了基本的规则,但你从来没有玩过,甚至不知道最简单的策略。虽然这听起来像是焦虑梦的准备,但这也是某种人工智能(AI)程序训练课程开始的一个公平类比。网上亚博Ayabo2016

如果人工智能系统遇到这样的情况,它会开始在规则的参数范围内采取随机行动——例如,如果玩五张牌抽,它不会要求七张牌。当它运气好,赢了一手牌时,它会仔细记录下获得奖励的行为。如果它玩这个游戏的时间足够长,也许下了数百万手牌,它就可以设计出一个很好的获胜策略。

这种类型的训练被称为强化学习(RL),这是当今机器学习中最令人兴奋的领域之一。RL可以用来教代理,无论是软件还是物理机器人,如何采取行动来实现某些目标。近年来,人工智能取得了一些令人印象深刻的胜利,比如AlphaGo的胜利在围棋棋盘游戏中与顶级人类专业选手进行比赛。

RL不同于另一种方法监督式学习,其中系统使用现有的标记数据集进行训练。继续以扑克为例:在监督学习方案中,AI玩家将摄取数百万手牌的数据。每个数据点都被标记为描述特定游戏状态下行动的好坏。这将允许玩家在看到与训练数据相似的游戏状态时采取良好的行动。这并不是一种训练此类连续决策问题的实用方法,因为构建包含大量游戏状态和行动的数据集是非常棘手的。

近年来,人工智能取得了一些令人印象深刻的胜利,强化学习功不可没。

相比之下,RL提供了一种更有效的训练方式,允许玩家与世界互动的培训。RL不需要标记的数据集,这在处理没有大量精心组织的观察结果的现实应用程序时被证明是一个很大的优势。更重要的是,RL智能体可以学习策略,使他们能够在不确定和不断变化的环境中采取行动,在面临新情况时采取最佳猜测的适当行动。

对RL的一个典型批评是,它的效率很低,它只是一个美化的试错过程,因为它的蛮力计算能力而成功。但我的研究小组英特尔人工智能实验室设计了有效的技术,可以利用RL实现实际突破。

我们一直在研究可以快速解决极其复杂任务的RL代理,并且可以在团队中合作,将团队的整体目标置于自己的个人目标之上。我们计划很快在机器人和其他自主系统中测试我们的方法,将这些成果带入现实世界。

在RL中,我们假设代理与某种动态环境一起操作,并且它至少可以部分地观察到该环境的状态。例如,一辆自动驾驶汽车可以感知来自车载摄像头的原始像素值,或者它可以接收经过更多处理的数据,如行人、汽车和车道标记的位置。环境还必须用某些类型的反馈来强化智能体的行动——比如,自动驾驶汽车是否安全到达目的地,还是撞上了墙。这种反馈信号通常被称为奖励。

在现代RL中,代理通常是深度神经网络,将输入观察映射到输出操作。对于RL代理来说,一个常见的过程是首先采取一系列随机操作,并记录每个操作的反馈信号,将所有这些都存储在所谓的重放缓冲区中——本质上是代理的内存。随着时间的推移,智能体创建了一个大型体验数据集,其形式包括状态、动作、下一个状态和任何结果奖励。

在强化学习中,利用现有策略和探索替代策略之间存在着根本的紧张关系。

利用这些数据,智能体自我训练,并提出一种策略,或一种在环境中行动的方式,这将使其总回报最大化。随着时间的推移,它的策略会随着学习而变得更好,但智能体不知道它的策略在任何给定的点上是否是最优的。因此,它必须做出决定:是继续在现有政策的基础上选择行动,还是偏离现有政策,探索新的可能性?如果选择前者,它将永远不会进步。

因此,大多数RL代理都有一个重要的任务,有时会忽略他们当前的最佳策略,而倾向于尝试新事物。特工“偏离政策”的频率是培训系统的一个额外参数。通常,探索率在训练开始时保持较高,随着智能体经验的增加而降低。

无论我们面对的是人工智能扑克玩家、自动驾驶汽车还是虚拟股票交易员,利用现有政策和探索替代方案之间的紧张关系都是RL的基础。

挑战甚至更大当代理在一个奖励稀疏的环境中行动时。在这种情况下,环境很少提供反馈信号——也许只有在一个长时间的多步骤任务结束时。所以代理的大多数行为不会产生有用的反馈。例如,我们假设的AI扑克玩家只有在赢了一手牌时才会得到积极的奖励,而不是当它有一手好牌但被另一个玩家险胜时。奖励越少,问题就越难解决。

为了测试RL代理在这种棘手情况下的能力,许多研究人员使用了OpenAI创建的基准测试Mujoco人形.在这里,研究人员必须训练一个3D人形人物的计算机模型在固定的时间内行走而不摔倒。虽然走路听起来很简单,但对于RL系统来说,这是一项极其困难的任务。

RL智能体的观察包括所有人形关节的角度,每个关节都有三个自由度。有了如此复杂的可能状态数组,随机操作的策略几乎肯定会失败。这种类人机器人能够站起来,并成功地迈出足够多的一步来获得奖励,这是非常罕见的。

对于Mujoco人形挑战,我们让许多学习者解决较小的问题,如不摔倒和抬脚。

我们提出了一个新颖的解决方案,我们称之为CERL:协同进化强化学习.我们的它证明了手头的挑战可以分解为两种组成部分:系统可以得到一些即时反馈的小问题和需要在较长时间内解决的较大优化问题。

我们认为,对于每一个较小的问题,我们可以通过联合探索和分享经验的代理群体来取得更快的进展。对于我们假设的AI扑克玩家来说,这就相当于突然生成许多角色,让他们同时玩牌,共同想出一个策略。

对于Mujoco Humanoid挑战,我们让许多学习者解决较小的问题,例如不摔倒,抬脚等等。当学习者试图实现这些小目标时,他们会得到即时的反馈。因此,每个学习者都成为了自己技能领域的专家,这些技能有助于实现持续行走的总体目标——尽管每个学习者本身没有机会实现这个更大的目标。

蓝色背景上的单词学习者A。在右边,它写着“保持平衡”,上面是一个向后倒的骨架简笔画。在我们应对Mujoco Humanoid挑战的方法中,一些“学习者”学习离散的技能,然后一个“演员”将这些技能组合成一个完整的行走策略。英特尔智能

在标准的RL过程中,每个代理都有自己的重放缓冲区,它用来学习什么动作是好是坏。但在我们的设计中,我们允许所有的学习者同时对一个缓冲区进行贡献和提取。这意味着每个学习者都可以获得所有其他人的经验,帮助自己的探索,并使其在自己的任务中更有效地完成。因为当他们在解决离散问题时,他们都在学习相同的基础物理规则。

第二组代理,我们称之为行动者,旨在综合所有的小动作,以实现持续行走的更大目标。因为这些代理很少接近这个目标来注册奖励,所以我们在这里没有使用RL。相反,我们采用了一种所谓的遗传算法,一种通过自然选择模拟生物进化的过程。遗传算法,这是进化算法的一个子类,它从一个问题的可能解的总体开始,并使用适应度函数逐渐进化到最优解。

在每个“生成”中,我们初始化了一组参与者,每个参与者都具有执行行走任务的不同策略。然后,我们根据他们的表现对他们进行排名,保留表现最好的人,丢弃其余的人。下一代参与者是幸存者的“后代”,继承了他们的政策,尽管我们通过突变(单亲父母政策的随机变化)和交叉(双亲政策的混合)来改变这些政策。

图中绿色的CERL性能上升很高,而其他程序,标记为Neuroevolution, TD3和ERL的平坦线较低我们的系统在复杂的Mujoco人形任务上优于其他基线。英特尔智能

就其本身而言,进化搜索众所周知,这是极其缓慢和低效的,因为它需要大量的输入来提出一个好的解决方案。但它也以其完整性而闻名——如果存在解决方案,它最终会被找到。我们的目标是利用这种完整性,同时通过开发快速RL方法来提高搜索速度。我们的RL学习器迅速提供了相当好的但次优的解决方案,我们将其插入进化搜索种群中,以指导我们的参与者获得更好的解决方案。我们的混合系统迅速达到了最优策略,使Mujoco Humanoid能够散步,并大大优于当时的其他算法。

而奖励的匮乏RL已经足够难了,当一个任务需要几个代理合作实现一个共同的目标时,它会变得更加复杂。例如,在一个涉及模拟火星探测车的基准测试中,两个探测车必须一起工作,以在最短的时间内找到多个目标。为了完成这项任务,我们不仅需要对每个探测车进行导航等技能的培训,还需要对它们进行合作策略的培训,这样即使没有直接沟通,一对探测车也能实现共同的目标。

“漫游者1号”放弃了它的本地目标,而是选择了一条更长的路线去一个不同的目标——这是为了团队的更大利益。

在这里,全局目标是让整个团队访问最大数量的目标。为了实现这一目标,每个漫游者都需要学习如何快速导航到目标,还需要学习如何与合作伙伴制定战略。首先,漫游者随机探索地形,使用激光雷达传感器扫描目标。亚博排列五投注网站在给定的时间间隔内,一个漫游者很可能偶然发现一个目标,所以我们说导航到目标的局部目标具有密集的奖励。只有两个漫游者都找到目标,才能实现全局目标,这是一个稀疏得多的奖励信号。

假设两个漫游者都有一个明确的目标。“漫游者1号”的燃料仅够到达目标,但不能再前进了。在这种情况下,最佳的团队策略是Rover 1号前往可见的目的地,Rover 2号牺牲其本地目标(尽量减少其到达目标的时间),并前往寻找其他目标。

2个红色的盒子,带轮子和绿灯,在红色的火星岩石上,分别标记为Rover 1和Rover 2在涉及模拟漫游者的基准测试中,智能体必须一起工作以实现总体目标。英特尔智能

通过添加另一个需求,这个问题会变得更加棘手。想象一下,团队规模更大,而且必须有几个火星车同时到达一个目标才能计算。此条件表示搜索和救援等情况,其中可能需要多个代理来完成一项任务,例如举起一根沉重的横梁。如果到达目标的探测器数量少于要求的数量,它们就得不到任何奖励。因此,漫游者必须学习寻找目标所需的技能,还必须学会与他人联系,一起访问目标,以实现团队的全球目标。更重要的是,在一开始,一个团队中的探测车并不知道必须有多少探测车一起访问一个目标——他们只有在成功时才能获得信息。

为了解决这个困难的多代理任务,我们扩展了CERL框架。我们展示了我们的新技术,我们称之为多智能体进化强化学习乌鸫),在2020年机器学习国际会议上。我们又把问题分成两部分。每个漫游者都使用RL来掌握一个局部目标,比如缩短与目标的距离。但这一成功并没有帮助解决更大的问题,如组建联盟和最大化访问目标的总数。

再一次,我们用进化搜索解决了这个全球性问题。这一次,我们与团队合作,所以我们基本上复制了整个漫游者团队的许多副本。在这些车队中,所有的漫游者1共享一个回放缓冲区,所有的漫游者2也是如此,以此类推。我们故意用漫游者来分隔重播缓冲区,因为这样可以让每个漫游者都专注于自己的局部学习。(我们用一个模拟足球队在那里,这种方法可以让守门员、前锋和其他球员学习不同的技能。)

因为每个目标只有在足够多的漫游者到达时才被计算,所以漫游者被要求一起工作。就像在CERL中一样,局部优化的策略被注入到进化搜索中,它可以尝试来自Rover 1、Rover 2等的最佳策略。进化只需要处理更大的团队策略。

我们将MERL的性能与另一个最先进的多代理RL系统进行了比较MADDPG算法来自加州大学伯克利分校。首先,我们在一个简单的漫游者问题上测试了我们的虚拟机器人,其中只有一个漫游者必须到达一个目标。我们发现MERL比MADDPG达到了更多的目标,并且在MERL中也发现了有趣的团队行为。

动态动图显示黄色、粉色和灰色方块在绿色背景上向4个灰色目标圆移动。
动态动图显示黄色、粉色和灰色方块在绿色背景上向4个灰色目标圆移动。

在我们的系统中,红色漫游者牺牲了它的本地目标来帮助团队。在这个例子中,只有一个漫游者到达一个目标才会被计算在内。

英特尔智能

在一个例子中,“漫游者1号”和“漫游者2号”都朝着同一个目标出发,但“漫游者1号”中途改变了路线,朝着不同的目标前进。这是有道理的:如果两个火星车都达到了目标,它们就不会得到额外的分数。因此,“漫游者1号”放弃了当地的目标,而是选择了一条更长的路线,前往另一个目标——这是为了团队的更大利益。

动画gif显示黄色、深粉色、浅粉色、蓝色、橙色、灰色方块在绿色背景上向4个灰色目标圆圈移动。
动画gif显示黄色、深粉色、浅粉色、蓝色、橙色、灰色方块在绿色背景上向4个灰色目标圆圈移动。

在这个例子中,三个漫游者必须到达一个目标才能被计数。我们的系统(正确)能够处理这一具有挑战性的任务,但其他系统却失败了。

英特尔智能

当三个火星车同时到达一个目标时,MADDPG完全失败了,而MERL的紧急团队形成更加明显,随着所需火星车数量的增加,我们越来越多地观察到这一趋势。我们使用几个不同的多代理基准测试来检查我们的工作。在每种情况下,MERL的两部分优化都大大优于现有的最先进算法。

在英特尔的人工智能实验室,我们也在探索通信如何帮助多智能体系统优化性能。特别是,我们正在调查团队中相互交流的代理是否可以形成某种语言。

举一个漫游者模拟的例子:如果我们允许每个漫游者有有限的带宽与其他漫游者通信,它会传输什么样的信息?探测车是否会为某些行为共同想出暗语?这个实验可以让我们深入了解语言是如何发展以实现共同目标的。

多种形式的自治系统现在已经成为日常生活的一部分。虽然你的Roomba不太可能造成太大伤害,即使它失控了,但一辆机器人卡车在高速公路上不规律地行驶可能会致人死亡。因此,我们需要确保任何经过RL训练的智能体都能在现实世界中安全运行。不过,如何做到这一点还不是特别清楚。

我们正在探索定义a的方法共同安全基准用于各种RL算法和一个通用框架,可用于训练RL代理安全操作,无论应用程序如何。这说起来容易做起来难,因为安全的抽象概念很难定义,而特定于任务的安全定义很难跨任务扩展。现在弄清楚如何让这样的系统安全运行是很重要的,因为我们相信RL系统在社会中扮演着重要的角色。如今的人工智能在物体和语音识别等感知任务上表现出色,但不适合采取行动。对于机器人、自动驾驶汽车和其他类似的自主系统,RL训练将使它们能够学习如何在不断变化和意外条件下的环境中采取行动。

在对我们的理论进行的一项测试中,我们正在使用RL与搜索算法相结合来教机器人如何发展成功的轨迹与现实世界的互动很少。这项技术可以让机器人尝试新的动作,而不会在这个过程中损坏自己。我们现在把通过这种方式获得的知识应用到实际的双足机器人俄勒冈州立大学。

最后,在从机器人系统到系统设计的飞跃中,我们已经应用了相同的方法来改进软件和硬件系统的各个方面。在最近的一篇论文中,我们演示了RL代理可以学习如何在硬件加速器上有效地执行内存管理。我们的方法,进化图RL,通过高效地将数据块分配到各种内存组件,就可以将硬件上的执行速度几乎提高一倍。这一成就其他最近作品研究表明,RL正在从解决游戏转向解决现实生活中的问题。

对话(0)

这些光学门提供电子通道

超快光计算接口与传统电路

2分钟读取
蓝色螺旋沿着绿线,红色螺旋沿着绿线

基于圆偏振光的光学逻辑门(这里启发式地说明)是由一种材料制成的,该材料根据输入光束的手性发射不同圆偏振的光子。

张毅/阿尔托大学

一项新的研究发现,通过使用光波,光学逻辑门的运行速度可以比电子逻辑门快100万倍,从而推动了基于超快光的计算。它还揭示了光学计算和传统电子计算之间一个新的和有前途的接口。

现代电子设备逻辑门晶体管执行与、或、非等逻辑运算。为了制造更快的电路,科学家们长期以来一直在研究用光门取代电子门光学设备芬兰阿尔托大学的第一作者张毅说。从理论上讲,它们可以运行得更快,因为光子以光速传播,而电子则不然。

继续阅读↓ 显示更少

权力与道路在哪里相遇

无与伦比的速度和动态范围使R&S NRP90S功率传感器成为所有汽车雷达应用的完美解决方案

1分钟读取
三种型号的NRP90S(N)二极管功率传感器。

新型R&S NRP90S(N)二极管功率传感器,功率测量高达亚博排列五投注网站90 GHz。

罗德与施瓦茨公司

罗德与施瓦茨公司目前,该公司正在将二极管功率传感器的最大可测量频率提高到90 GHz亚博排列五投注网站,高于目前可用的任何其他二极管传感器。二极管技术可以实现非常快速和准确的功率测量,从一个紧凑和轻便的便携式仪器具有最高的灵敏度。

R&S NRP90S(N)功率传感器亚博排列五投注网站均为通用功率测量装置的生产、校准、开发和研究。目前,5G、汽车雷达和卫星通信应用中67 GHz以上的所有频率(包括整个E波段)都可以实现高速功率测量。

继续阅读↓ 显示更少
Baidu