企业公告

尤长靖唱跳俱佳台风沉稳AZORAland·启音乐会圆满收官_华体会体育全站app下载 许嵩孙涛“跨界CP”受欢迎 榜上榜开播盛典联手献唱 《蒙面》首播“驯鹿”愤然离场疑为王菲 酷狗独家音频全程直击 亚洲偶像榜台湾明星一览 歌声绕梁粉丝无数 专辑《躺着》签唱会人气爆棚 赵泳鑫爱心礼物获粉丝表白_华体会体育全站app下载 华体会体育全站app下载_TME live X Bose 徐佳莹定制专场探索商业化新模式 华体会体育全站app下载_“超脱女皇”“宇宙天后”双后相互扶持 二度同台合唱“我怀念你给的勇敢” BBT子鸣新歌《萌萌哒》上线 与蒋申甜蜜合作:华体会体育全站app下载 少女时代2NE1等 11月参加美国K-Pop Super Concert 华体会体育全站app下载-蔡依林变身现代夏娃玩“全裸” 挑战最大尺度 华体会体育全站app下载-内地女歌手涓子单曲《分手以后》全国发行 【华体会体育全站app下载】独唱的萧敬腾,为什么要去合唱? 【华体会体育全站app下载】梵净山鸽子花音乐节5.20为爱大声唱 【华体会体育全站app下载】网络人气歌曲 《走天涯》《我不是狼》《缘分惹的祸》走红 封存回忆将茫然碾碎 孟慧圆单曲《不算》MV全网曝光|华体会体育全站app下载 中国好声音“冠军之夜”演唱会新闻发布会群星璀璨:华体会体育全站app下载 华体会体育全站app下载_独家首发:方然新专辑《后天》全网试听 【华体会体育全站app下载】陈楚生音乐纪录片精华版今日上线 25分钟展现最真实的陈楚生 宁桓宇生日爆惊喜 方言版《每一天》搞笑来袭【华体会体育全站app下载】 【华体会体育全站app下载】嘻哈歌手黄礼格个人创作歌曲《撩》今日首发

产品展示PRODUCT

大师原酌

您当前的位置首页 > 产品展示 > 百年枝江

谷歌新智能体Dreamer将亮相NeurIPS2019,数据效率比前身PlaNet快8个小时

本文摘要:在具备挑战性的环境中,一些人工智能系统通过利用过去经验所获取的世界表象来实现目标。

在具备挑战性的环境中,一些人工智能系统通过利用过去经验所获取的世界表象来实现目标。研究人员将这些应用于推展到新的情况,使它们需要在以前未曾遇上过的环境中已完成任务。

华体会体育全站app下载

事实证明,增强自学——一种用于奖励来推展软件策略朝着目标行进的训练技术——尤其合适自学一个总结agent经验的世界模型,并通过拓展来增进新的不道德的自学。消息,近日,来自Google、Alphabet子公司DeepMind和多伦多大学的研究人员公开发表了一篇取名为《梦想掌控:通过潜意识的自学不道德》的新研究,他们研发了一个增强型自学智能体Dreamer,通过内化一个世界模型,并通过通过潜在的“想象力”来提早计划自由选择行动。他们说道,Dreamer不仅限于于任何自学目标,而且在数据效率、计算出来时间以及最后性能方面都多达了现有的方法。

在它的整个生命周期中,无论是交叠还是分段,Dreamer都会自学一个latent dynamics model(潜在动力学模型),以预测动作和仔细观察结果的报酬。在这种情况下,“latent dynamics model”是所指从图像输出中自学并继续执行计划以搜集新经验的模型。

“潜在”回应它依赖隐蔽状态或潜在状态的灵活序列,这使它需要自学更加多抽象化的回应形式,例如对象的方位和速度。用于编码器组件,有效地将来自输出图像的信息构建到隐蔽状态中,然后及时地将隐蔽状态向前投影以预测图像和奖励。上图:Dreamer已完成一个转动钟摆的任务。

中间表明45步预测Dreamer用于了一个多部分的latent dynamics model,这个模型的结构有些简单。“回应”位对仔细观察和动作展开编码,而“过渡性”位则在没看见不会引发仔细观察的情况下意识到状态。第三个组件(奖励组件)根据等价的模型状态来投影奖励,而不道德模型将实行自学的策略并目的预测可解决问题想象的环境的不道德。

华体会体育全站app下载

最后,价值模型评估行动模型构建的预期想象奖励,而仔细观察模型获取对系统信号。上图:梦想家在迷宫中导航系统。

中间表明45步预测。了解到,在一系列实验中,研究人员测试了Dreamer在DeepMind Control Suite中的20个视觉掌控任务上的效果,DeepMind Control Suite是一种用作评估机器学习驱动的代理的建模软件。

他们首先用于Nvidia V100图形芯片和10个处理器内核来训练它,每次培训运营一次。他们说道,掌控套件上每106个环境步骤花费了9个小时。(相比之下,Google的Dreamer前身PlaNet花上了17个小时才超过了类似于的性能。

)上图:梦想家在玩Atari游戏(摔跤)。中间表明45步预测。研究人员报告说道,Dreamer有效地利用了自学的世界模型来从少量经验中展开总结,并且它的顺利证明了,通过潜在的想象力展开的自学不道德可以比不上顶级方法。

华体会体育全站app下载

他们还说道,Dreamer的价值模型即使在短期计划中也展现出较好,在20个任务中的16个(有4个打成平手)上展现出高于其他模型。研究人员写到:“未来,关于密切相关自学的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中,”研究人员计划在本周温哥华的NeurIPS 2019上展出他们的工作。Dreamer项目的代码可在GitHub上公开发表取得。(公众号:)原创文章,予以许可禁令刊登。

下文闻刊登须知。


本文关键词:华体会体育全站app下载

返回首页