设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 数据 手机
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

DeepMind一次性开源3个新框架!深度强化学习应用落地即将迎来春天?(2)

发布时间:2019-09-20 11:06 所属栏目:19 来源:杨鲤萍
导读:SpriteWorld也可以用于强化学习以外的其他目的。例如:它被用于生成具有控制因子分布的图像数据集,如论文「Spatial Broadcast Decoder: A Simple Architecture for Learning Disentangled Representations in VAEs

SpriteWorld 也可以用于强化学习以外的其他目的。例如:它被用于生成具有控制因子分布的图像数据集,如论文「Spatial Broadcast Decoder: A Simple Architecture for Learning Disentangled Representations in VAEs」(watters 等人,2019,https://arxiv.org/abs/1901.07017)。

它还可以很容易地扩展到生成与简单物理力(如弹簧、重力等)相互作用的物体的数据集,这对于视觉动力学的无监督学习研究是有用的。

GitHub 地址:https://github.com/deepmind/spriteworld

bsuite

我们试图将 bsuite(Behaviour Suite for Reinforcement Learning,强化学习行为套件)打造成为强化学习领域 的 MNIST。

DeepMind一次性开源3个新框架!深度强化学习应用落地即将迎来春天?

具体而言,bsuite 是一系列实验,旨在突出智能体可扩展性的关键点。这些实验都体现了一些基本的问题,例如「探索」或「记忆」,其实验方式可以很容易地进行测试和迭代。bsuite 有两个主要目标:

  • 收集清晰、信息量丰富且可扩展的问题,这些问题捕获了高效和通用学习算法设计中的关键问题;

  • 通过在这些共享基准上的表现来研究智能体的行为。

bsuite 的当前实现可以在不同环境中自动执行手实验,并收集了相应的指标,这些指标可以简化 DRL 智能体的训练。同时,因为 bsuite 是一系列实验的集合,所以它在实验子目录中定义。每个子目录对应一个实验,包含:

  • 定义强化学习环境的一种文件,它可以配置为提供不同的难度等级或不同的随机种子(for example);

  • 此环境的关键字参数序列,在实验的 sweep.py 文件中的 settings 变量中定义;

  • 一个 analysis.py 文件,用于定义所提供的 jupyter 计算机中使用的绘图;

当通过加载和记录*函数加载环境时,bsuite 通过记录每个环境中的结果来工作。这意味着任何实验都将自动输出正确格式的数据,以便使用计算机进行分析,而不受任何智能体或算法结构的限制。

GitHub 地址:https://github.com/deepmind/bsuite

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读