搜索资源 - 嵌入式培训 - 搜珍网

CDN加速镜像 | 设为首页 | 加入收藏夹

热门搜索： 源码 Android 整站插件识别 p2p OpenCV 网络编程游戏源码算法更多...

登陆 | 会员注册

当前位置：

数值算法/人工智能

搜索资源 - 嵌入式培训

下载资源主分类

源码下载

Web源码

开发工具

文档下载

其它资源

资源分类

压缩解压

STL

数据结构常用算法

数学计算/工程计算

人工智能/神经网络/遗传算法

matlab例程

生物技术

密码/编码算法

mathematica

Maple

数据挖掘

大数据

comsol

物理计算

化学计算

仿真建模

搜索资源列表

1709.04326

0下载：
多智能体设置在机器学习中的重要性日益突出。超过了最近的大量关于深度的工作多agent强化学习，层次强化学习，生成对抗网络和分散优化都可以看作是这种设置的实例。然而，多学习代理人的存在这些设置使得培训问题的非平稳常常导致不稳定的训练或不想要的最终结果。我们提出学习与对手的学习意识（萝拉），一种方法，原因的预期。其他代理的学习。罗拉学习规则包括一个额外的术语，解释了在预期的参数更新的代理政策其他药物。我们发现，利用似然比策略梯度更新的方法，可以有效地计算萝拉更新规则，使该方法适合于无模型强化学习。这
所属分类：人工智能/神经网络/深度学习
- 发布日期：2017-12-31
- 文件大小：1130496
- 提供者：我去六六六

搜珍网 www.dssz.com

本网站为编程资源及源代码搜集、介绍的搜索网站，版权归原作者所有！　　粤ICP备11031372号

1999-2046 搜珍网 All Rights Reserved.