DeepMind用新AI超越自己：提速200倍，在所有雅达利游戏上胜过人

来源：IT之家2022-10-03 15:48 阅读量：13642

DeepMind又在攻击雅达利游戏了！

这次他们最新的agent MEME，效果一样，比两年前的Agent57快200倍！

DeepMind在2020年开发的代理Agent57有史以来第一次在全部57款雅达利游戏中超越了人类基准性能。

但它有一个致命的缺陷:效率低:需要近800亿帧的数据训练才能实现。

现在，模因的出现完美地解决了这个问题。

有网友看后表示:这才是真正的样本效率。

话不多说，我们来快速看一下。

新代理:MEME

Agent57作为Atari所有游戏中第一个超越人类基准性能的代理，性能足够先进。

但问题是，为了实现这个目标，背后需要780亿帧的庞大经验训练，无论从时间还是成本上来说，都是一笔不小的开支。

因此，以Agent57为出发点，DeepMind采取了一系列不同的策略来提高训练效率。

他们调查了还原数据系统中遇到的一系列不稳定因素和瓶颈，提出了有效的解决方案，最终建立了一个更强大，更高效的代理:MEME。

新的MEME agent主要在Agent57的四个方面进行了改进，即:

A.实现稀有事件相关学习信号的快速传播，

B.不同价值尺度下的稳定学习，

C.改进神经网络的结构，

D.使更新在快速变化的策略下更加健壮。

为了实现这四个目标，DeepMind采取了以下方法，分别对应以上四点。

A1。在线网络指导，

A2。带公差的目标计算，

B1。损失和优先级标准化，

B2。交叉混合训练，

C1。不规范的干线网络，

C2。综合损耗的共享干线，

D.由策略提炼的健壮行为。

这些方法旨在提高Agent57的数据效率，但这种效率的提高不能以牺牲终端性能为代价。

因此，为了测试上述步骤后agent MEME的效率和性能，研究团队分别在2亿帧，10亿帧，200亿帧和900亿帧环境下进行训练。

从下图中可以直观的看出，新agent MEME以3.9亿帧超越了人类基准，比Agent57快了两个数量级，在参数数量从90B减少到1B的情况下取得了类似的最终性能。

可以说，与Agent57相比，MEME不仅提高了效率，而且保持了性能。

研究团队

MEME的研究团队来自DeepMind。

值得一提的是Steven Kapturowski是这两篇论文中的一篇。

毕业于美国科罗拉多大学博尔德分校，曾就职于苹果，微软，Glassdoor等公司，现为DeepMind高级研究工程师。

涉及

。

关键词：

责任编辑：子墨

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

返回首页返回财经

DeepMind用新AI超越自己：提速200倍，在所有雅达利游戏上胜过人

相关新闻

热文排行

财经

暖新闻

黄金360

关注

热门主题

综合热门

热门主题

科技热门

热门主题

DeepMind用新AI超越自己：提速200倍，在所有雅达利游戏上胜过人

相关新闻

热文排行 财经 暖新闻 黄金360

关注 热门主题

综合热门 热门主题

科技热门 热门主题

热文排行

财经

暖新闻

黄金360

关注

热门主题

综合热门

热门主题

科技热门

热门主题