深度强化学习 : 基础,研究与应用 = Deep reinforcement learning Shen du qiang hua xue xi : Ji chu,Yan jiu yu ying yong = Deep reinforcement learning 🔍
董豪 / 丁子涵 / 仉尚航
北京:电子工业出版社, 2021.06
中文 [zh] · PDF · 183.7MB · 2021 · 📘 非小说类图书 · 🚀/duxiu/lgli/lgrs/nexusstc/zlib · Save
描述
扉页
版权页
前言
目录
基础部分
第1章 深度学习入门
1.1 简介
1.2 感知器
1.3 多层感知器
1.4 激活函数
1.5 损失函数
1.6 优化
1.6.1 梯度下降和误差的反向传播
1.6.2 随机梯度下降和自适应学习率
1.6.3 超参数筛选
1.7 正则化
1.7.1 过拟合
1.7.2 权重衰减
1.7.3 Dropout
1.7.4 批标准化
1.7.5 其他缓和过拟合的方法
1.8 卷积神经网络
1.9 循环神经网络
1.10 深度学习的实现样例
1.10.1 张量和梯度
1.10.2 定义模型
1.10.3 自定义层
1.10.4 多层感知器: MNIST数据集上的图像分类
1.10.5 卷积神经网络: CIFAR-10数据集上的图像分类
1.10.6 序列到序列模型:聊天机器人
第2章 强化学习入门
2.1 简介
2.2 在线预测和在线学习
2.2.1 简介
2.2.2 随机多臂赌博机
2.2.3 对抗多臂赌博机
2.2.4 上下文赌博机
2.3 马尔可夫过程
2.3.1 简介
2.3.2 马尔可夫奖励过程
2.3.3 马尔可夫决策过程
2.3.4 贝尔曼方程和最优性
2.3.5 其他重要概念
2.4 动态规划
2.4.1 策略迭代
2.4.2 价值迭代
2.4.3 其他DPs:异步DP、近似DP和实时DP
2.5 蒙特卡罗
2.5.1 蒙特卡罗预测
2.5.2 蒙特卡罗控制
2.5.3 增量蒙特卡罗
2.6 时间差分学习
2.6.1 时间差分预测
2.6.2 Sarsa:在线策略TD控制
2.6.3 Q-Learning:离线策略TD控制
2.7 策略优化
2.7.1 简介
2.7.2 基于价值的优化
2.7.3 基于策略的优化
2.7.4 结合基于策略和基于价值的方法
第3章 强化学习算法分类
3.1 基于模型的方法和无模型的方法
3.2 基于价值的方法和基于策略的方法
3.3 蒙特卡罗方法和时间差分方法
3.4 在线策略方法和离线策略方法
第4章 深度Q网络
4.1 Sarsa 和 Q-Learning
4.2 为什么使用深度学习: 价值函数逼近
4.3 DQN
4.4 Double DQN
4.5 Dueling DQN
4.6 优先经验回放
4.7 其他改进内容:多步学习、噪声网络和值分布强化学习
4.8 DQN 代码实例
第5章 策略梯度
5.1 简介
5.2 REINFORCE:初版策略梯度
5.3 Actor-Critic
5.4 生成对抗网络和Actor-Critic
5.5 同步优势Actor-Critic
5.6 异步优势Actor-Critic
5.7 信赖域策略优化
5.8 近端策略优化
5.9 使用Kronecker因子化信赖域的Actor-Critic
5.10 策略梯度代码例子
5.10.1 相关的Gym环境
5.10.2 REINFORCE: Atari Pong和CartPole-V0
5.10.3 AC: CartPole-V0
5.10.4 A3C: BipedalWalker-v2
5.10.5 TRPO: Pendulum-V0
5.10.6 PPO: Pendulum-V0
第6章 深度Q网络和Actor-Critic的结合
6.1 简介
6.2 深度确定性策略梯度算法
6.3 孪生延迟DDPG算法
6.4 柔性Actor-Critic算法
6.4.1 柔性策略迭代
6.4.2 SAC
6.5 代码例子
6.5.1 相关的 Gym 环境
6.5.2 DDPG: Pendulum-V0
6.5.3 TD3: Pendulum-V0
6.5.4 SAC: Pendulum-v0
研究部分
第7章 深度强化学习的挑战
7.1 样本效率
7.2 学习稳定性
7.3 灾难性遗忘
7.4 探索
7.5 元学习和表征学习
7.6 多智能体强化学习
7.7 模拟到现实
7.8 大规模强化学习
7.9 其他挑战
第8章 模仿学习
8.1 简介
8.2 行为克隆方法
8.2.1 行为克隆方法的挑战
8.2.2 数据集聚合
8.2.3 Variational Dropout
8.2.4 行为克隆的其他方法
8.3 逆向强化学习方法
8.3.1 简介
8.3.2 逆向强化学习方法的挑战
8.3.3 生成对抗模仿学习
8.3.4 生成对抗网络指导性代价学习
8.3.5 对抗性逆向强化学习
8.4 从观察量进行模仿学习
8.4.1 基于模型方法
8.4.2 无模型方法
8.4.3 从观察量模仿学习的挑战
8.5 概率性方法
8.6 模仿学习作为强化学习的初始化
8.7 强化学习中利用示范数据的其他方法
8.7.1 将示范数据导入经验回放缓存
8.7.2 标准化Actor-Critic
8.7.3 用示范数据进行奖励塑形
8.8 总结
第9章 集成学习与规划
9.1 简介
9.2 基于模型的方法
9.3 集成模式架构
9.4 基于模拟的搜索
9.4.1 朴素蒙特卡罗搜索
9.4.2 蒙特卡罗树搜索
9.4.3 时间差分搜索
第10章 分层强化学习
10.1 简介
10.2 选项框架
10.2.1 战略专注作家
10.2.2 选项-批判者结构
10.3 封建制强化学习
10.3.1 封建制网络
10.3.2 离线策略修正
10.4 其他工作
第11章 多智能体强化学习
11.1 简介
11.2 优化和均衡
11.2.1 纳什均衡
11.2.2 关联性均衡
11.2.3 斯塔克尔伯格博弈
11.3 竞争与合作
11.3.1 合作
11.3.2 零和博弈
11.3.3 同时决策下的竞争
11.3.4 顺序决策下的竞争
11.4 博弈分析架构
第12章 并行计算
12.1 简介
12.2 同步和异步
12.3 并行计算网络
12.4 分布式强化学习算法
12.4.1 异步优势Actor-Critic
12.4.2 GPU/CPU混合式异步优势Actor-Critic
12.4.3 分布式近端策略优化
12.4.4 重要性加权的行动者-学习者结构和可扩展高效深度强化学习
12.4.5 Ape-X、回溯-行动者和分布式深度循环回放Q网络
12.4.6 Gorila
12.5 分布式计算架构
应用部分
第13章 Learning to Run
13.1 NeurIPS 2017挑战:Learning to Run
13.1.1 环境介绍
13.1.2 安装
13.2 训练智能体
13.2.1 并行训练
13.2.2 小技巧
13.2.3 学习结果
第14章 鲁棒的图像增强
14.1 图像增强
14.2 用于鲁棒处理的强化学习
第15章 AlphaZero
15.1 简介
15.2 组合博弈
15.3 蒙特卡罗树搜索
15.4 AlphaZero:棋类游戏的通用算法
第16章 模拟环境中机器人学习
16.1 机器人模拟
16.2 强化学习用于机器人学习任务
16.2.1 并行训练
16.2.2 学习效果
16.2.3 域随机化
16.2.4 机器人学习基准
16.2.5 其他模拟器
第17章 Arena:多智能体强化学习平台
17.1 安装
17.2 用Arena开发游戏
17.2.1 简单的单玩家游戏
17.2.2 简单的使用奖励机制的双玩家游戏
17.2.3 高级设置
17.2.4 导出二进制游戏
17.3 MARL训练
17.3.1 设置X-Server
17.3.2 进行训练
17.3.3 可视化
17.3.4 致谢
第18章 深度强化学习应用实践技巧
18.1 概览:如何应用深度强化学习
18.2 实现阶段
18.3 训练和调试阶段
总结部分
附录A 算法总结表
附录B 算法速查表
B.1 深度学习
B.1.1 随机梯度下降
B.1.2 Adam优化器
B.2 强化学习
B.2.1 赌博机
B.2.2 动态规划
B.2.3 蒙特卡罗
B.3 深度强化学习
B.4 高等深度强化学习
B.4.1 模仿学习
B.4.2 基于模型的强化学习
B.4.3 分层强化学习
B.4.4 多智能体强化学习
B.4.5 并行计算
附录C 中英文对照表
版权页
前言
目录
基础部分
第1章 深度学习入门
1.1 简介
1.2 感知器
1.3 多层感知器
1.4 激活函数
1.5 损失函数
1.6 优化
1.6.1 梯度下降和误差的反向传播
1.6.2 随机梯度下降和自适应学习率
1.6.3 超参数筛选
1.7 正则化
1.7.1 过拟合
1.7.2 权重衰减
1.7.3 Dropout
1.7.4 批标准化
1.7.5 其他缓和过拟合的方法
1.8 卷积神经网络
1.9 循环神经网络
1.10 深度学习的实现样例
1.10.1 张量和梯度
1.10.2 定义模型
1.10.3 自定义层
1.10.4 多层感知器: MNIST数据集上的图像分类
1.10.5 卷积神经网络: CIFAR-10数据集上的图像分类
1.10.6 序列到序列模型:聊天机器人
第2章 强化学习入门
2.1 简介
2.2 在线预测和在线学习
2.2.1 简介
2.2.2 随机多臂赌博机
2.2.3 对抗多臂赌博机
2.2.4 上下文赌博机
2.3 马尔可夫过程
2.3.1 简介
2.3.2 马尔可夫奖励过程
2.3.3 马尔可夫决策过程
2.3.4 贝尔曼方程和最优性
2.3.5 其他重要概念
2.4 动态规划
2.4.1 策略迭代
2.4.2 价值迭代
2.4.3 其他DPs:异步DP、近似DP和实时DP
2.5 蒙特卡罗
2.5.1 蒙特卡罗预测
2.5.2 蒙特卡罗控制
2.5.3 增量蒙特卡罗
2.6 时间差分学习
2.6.1 时间差分预测
2.6.2 Sarsa:在线策略TD控制
2.6.3 Q-Learning:离线策略TD控制
2.7 策略优化
2.7.1 简介
2.7.2 基于价值的优化
2.7.3 基于策略的优化
2.7.4 结合基于策略和基于价值的方法
第3章 强化学习算法分类
3.1 基于模型的方法和无模型的方法
3.2 基于价值的方法和基于策略的方法
3.3 蒙特卡罗方法和时间差分方法
3.4 在线策略方法和离线策略方法
第4章 深度Q网络
4.1 Sarsa 和 Q-Learning
4.2 为什么使用深度学习: 价值函数逼近
4.3 DQN
4.4 Double DQN
4.5 Dueling DQN
4.6 优先经验回放
4.7 其他改进内容:多步学习、噪声网络和值分布强化学习
4.8 DQN 代码实例
第5章 策略梯度
5.1 简介
5.2 REINFORCE:初版策略梯度
5.3 Actor-Critic
5.4 生成对抗网络和Actor-Critic
5.5 同步优势Actor-Critic
5.6 异步优势Actor-Critic
5.7 信赖域策略优化
5.8 近端策略优化
5.9 使用Kronecker因子化信赖域的Actor-Critic
5.10 策略梯度代码例子
5.10.1 相关的Gym环境
5.10.2 REINFORCE: Atari Pong和CartPole-V0
5.10.3 AC: CartPole-V0
5.10.4 A3C: BipedalWalker-v2
5.10.5 TRPO: Pendulum-V0
5.10.6 PPO: Pendulum-V0
第6章 深度Q网络和Actor-Critic的结合
6.1 简介
6.2 深度确定性策略梯度算法
6.3 孪生延迟DDPG算法
6.4 柔性Actor-Critic算法
6.4.1 柔性策略迭代
6.4.2 SAC
6.5 代码例子
6.5.1 相关的 Gym 环境
6.5.2 DDPG: Pendulum-V0
6.5.3 TD3: Pendulum-V0
6.5.4 SAC: Pendulum-v0
研究部分
第7章 深度强化学习的挑战
7.1 样本效率
7.2 学习稳定性
7.3 灾难性遗忘
7.4 探索
7.5 元学习和表征学习
7.6 多智能体强化学习
7.7 模拟到现实
7.8 大规模强化学习
7.9 其他挑战
第8章 模仿学习
8.1 简介
8.2 行为克隆方法
8.2.1 行为克隆方法的挑战
8.2.2 数据集聚合
8.2.3 Variational Dropout
8.2.4 行为克隆的其他方法
8.3 逆向强化学习方法
8.3.1 简介
8.3.2 逆向强化学习方法的挑战
8.3.3 生成对抗模仿学习
8.3.4 生成对抗网络指导性代价学习
8.3.5 对抗性逆向强化学习
8.4 从观察量进行模仿学习
8.4.1 基于模型方法
8.4.2 无模型方法
8.4.3 从观察量模仿学习的挑战
8.5 概率性方法
8.6 模仿学习作为强化学习的初始化
8.7 强化学习中利用示范数据的其他方法
8.7.1 将示范数据导入经验回放缓存
8.7.2 标准化Actor-Critic
8.7.3 用示范数据进行奖励塑形
8.8 总结
第9章 集成学习与规划
9.1 简介
9.2 基于模型的方法
9.3 集成模式架构
9.4 基于模拟的搜索
9.4.1 朴素蒙特卡罗搜索
9.4.2 蒙特卡罗树搜索
9.4.3 时间差分搜索
第10章 分层强化学习
10.1 简介
10.2 选项框架
10.2.1 战略专注作家
10.2.2 选项-批判者结构
10.3 封建制强化学习
10.3.1 封建制网络
10.3.2 离线策略修正
10.4 其他工作
第11章 多智能体强化学习
11.1 简介
11.2 优化和均衡
11.2.1 纳什均衡
11.2.2 关联性均衡
11.2.3 斯塔克尔伯格博弈
11.3 竞争与合作
11.3.1 合作
11.3.2 零和博弈
11.3.3 同时决策下的竞争
11.3.4 顺序决策下的竞争
11.4 博弈分析架构
第12章 并行计算
12.1 简介
12.2 同步和异步
12.3 并行计算网络
12.4 分布式强化学习算法
12.4.1 异步优势Actor-Critic
12.4.2 GPU/CPU混合式异步优势Actor-Critic
12.4.3 分布式近端策略优化
12.4.4 重要性加权的行动者-学习者结构和可扩展高效深度强化学习
12.4.5 Ape-X、回溯-行动者和分布式深度循环回放Q网络
12.4.6 Gorila
12.5 分布式计算架构
应用部分
第13章 Learning to Run
13.1 NeurIPS 2017挑战:Learning to Run
13.1.1 环境介绍
13.1.2 安装
13.2 训练智能体
13.2.1 并行训练
13.2.2 小技巧
13.2.3 学习结果
第14章 鲁棒的图像增强
14.1 图像增强
14.2 用于鲁棒处理的强化学习
第15章 AlphaZero
15.1 简介
15.2 组合博弈
15.3 蒙特卡罗树搜索
15.4 AlphaZero:棋类游戏的通用算法
第16章 模拟环境中机器人学习
16.1 机器人模拟
16.2 强化学习用于机器人学习任务
16.2.1 并行训练
16.2.2 学习效果
16.2.3 域随机化
16.2.4 机器人学习基准
16.2.5 其他模拟器
第17章 Arena:多智能体强化学习平台
17.1 安装
17.2 用Arena开发游戏
17.2.1 简单的单玩家游戏
17.2.2 简单的使用奖励机制的双玩家游戏
17.2.3 高级设置
17.2.4 导出二进制游戏
17.3 MARL训练
17.3.1 设置X-Server
17.3.2 进行训练
17.3.3 可视化
17.3.4 致谢
第18章 深度强化学习应用实践技巧
18.1 概览:如何应用深度强化学习
18.2 实现阶段
18.3 训练和调试阶段
总结部分
附录A 算法总结表
附录B 算法速查表
B.1 深度学习
B.1.1 随机梯度下降
B.1.2 Adam优化器
B.2 强化学习
B.2.1 赌博机
B.2.2 动态规划
B.2.3 蒙特卡罗
B.3 深度强化学习
B.4 高等深度强化学习
B.4.1 模仿学习
B.4.2 基于模型的强化学习
B.4.3 分层强化学习
B.4.4 多智能体强化学习
B.4.5 并行计算
附录C 中英文对照表
备用文件名
lgli/深度强化学习(中文版-彩色).pdf
备用文件名
lgrsnf/深度强化学习(中文版-彩色).pdf
备用文件名
zlib/Computers/Cybernetics/董豪 / 丁子涵 / 仉尚航/深度强化学习:基础、研究与应用_19202284.pdf
备选作者
董豪,丁子涵,仉尚航作
备用出版商
Publishing House of Electronics Industry
备用出版商
电子工业出版社 Dian zi gong ye chu ban she
备用版本
China, People's Republic, China
备用版本
Di 1 ban, 北京 Beijing, 2021
元数据中的注释
{"isbns":["7121411881","9787121411885"],"last_page":520,"publisher":"电子工业出版社"}
元数据中的注释
Bookmarks: p1 (p1): 基础部分
p1-1 (p2): 第1章 深度学习入门
p1-1-1 (p2): 1.1简介
p1-1-2 (p3): 1.2感知器
p1-1-3 (p7): 1.3多层感知器
p1-1-4 (p9): 1.4激活函数
p1-1-5 (p11): 1.5损失函数
p1-1-6 (p13): 1.6优化
p1-1-6-1 (p13): 1.6.1梯度下降和误差的反向传播
p1-1-6-2 (p15): 1.6.2随机梯度下降和自适应学习率
p1-1-6-3 (p17): 1.6.3超参数筛选
p1-1-7 (p18): 1.7正则化
p1-1-7-1 (p18): 1.7.1过拟合
p1-1-7-2 (p18): 1.7.2权重衰减
p1-1-7-3 (p20): 1.7.3 Dropout
p1-1-7-4 (p20): 1.7.4批标准化
p1-1-7-5 (p21): 1.7.5其他缓和过拟合的方法
p1-1-8 (p22): 1.8卷积神经网络
p1-1-9 (p25): 1.9循环神经网络
p1-1-10 (p28): 1.10深度学习的实现样例
p1-1-10-1 (p28): 1.10.1张量和梯度
p1-1-10-2 (p29): 1.10.2定义模型
p1-1-10-3 (p31): 1.10.3自定义层
p1-1-10-4 (p33): 1.10.4多层感知器:MNIST数据集上的图像分类
p1-1-10-5 (p35): 1.10.5卷积神经网络:CIFAR-10数据集上的图像分类
p1-1-10-6 (p36): 1.10.6序列到序列模型:聊天机器人
p1-2 (p43): 第2章 强化学习入门
p1-2-1 (p43): 2.1简介
p1-2-2 (p46): 2.2在线预测和在线学习
p1-2-2-1 (p46): 2.2.1简介
p1-2-2-2 (p48): 2.2.2随机多臂赌博机
p1-2-2-3 (p50): 2.2.3对抗多臂赌博机
p1-2-2-4 (p51): 2.2.4上下文赌博机
p1-2-3 (p52): 2.3马尔可夫过程
p1-2-3-1 (p52): 2.3.1简介
p1-2-3-2 (p54): 2.3.2马尔可夫奖励过程
p1-2-3-3 (p57): 2.3.3马尔可夫决策过程
p1-2-3-4 (p61): 2.3.4贝尔曼方程和最优性
p1-2-3-5 (p64): 2.3.5其他重要概念
p1-2-4 (p64): 2.4动态规划
p1-2-4-1 (p65): 2.4.1策略迭代
p1-2-4-2 (p67): 2.4.2价值迭代
p1-2-4-3 (p68): 2.4.3其他DPs:异步DP、近似DP和实时DP
p1-2-5 (p70): 2.5蒙特卡罗
p1-2-5-1 (p70): 2.5.1蒙特卡罗预测
p1-2-5-2 (p71): 2.5.2蒙特卡罗控制
p1-2-5-3 (p72): 2.5.3增量蒙特卡罗
p1-2-6 (p73): 2.6时间差分学习
p1-2-6-1 (p73): 2.6.1时间差分预测
p1-2-6-2 (p77): 2.6.2 S arsa:在线策略TD控制
p1-2-6-3 (p80): 2.6.3 Q-Learning:离线策略TD控制
p1-2-7 (p80): 2.7策略优化
p1-2-7-1 (p80): 2.7.1简介
p1-2-7-2 (p84): 2.7.2基于价值的优化
p1-2-7-3 (p89): 2.7.3基于策略的优化
p1-2-7-4 (p105): 2.7.4结合基于策略和基于价值的方法
p1-3 (p110): 第3章 强化学习算法分类
p1-3-1 (p111): 3.1基于模型的方法和无模型的方法
p1-3-2 (p113): 3.2基于价值的方法和基于策略的方法
p1-3-3 (p114): 3.3蒙特卡罗方法和时间差分方法
p1-3-4 (p115): 3.4在线策略方法和离线策略方法
p1-4 (p119): 第4章 深度Q网络
p1-4-1 (p121): 4.1 Sarsa和Q-Learning
p1-4-2 (p121): 4.2为什么使用深度学习:价值函数逼近
p1-4-3 (p123): 4.3 DQN
p1-4-4 (p124): 4.4 Double DQN
p1-4-5 (p125): 4.5 Dueling DQN
p1-4-6 (p127): 4.6优先经验回放
p1-4-7 (p128): 4.7其他改进内容:多步学习、噪声网络和值分布强化学习
p1-4-8 (p131): 4.8 DQN代码实例
p1-5 (p146): 第5章 策略梯度
p1-5-1 (p146): 5.1简介
p1-5-2 (p147): 5.2 REINFORCE:初版策略梯度
p1-5-3 (p149): 5.3 Actor-Critic
p1-5-4 (p150): 5.4生成对抗网络和Actor-Critic
p1-5-5 (p152): 5.5同步优势Actor-Critic
p1-5-6 (p153): 5.6异步优势Actor-Critic
p1-5-7 (p154): 5.7信赖域策略优化
p1-5-8 (p157): 5.8近端策略优化
p1-5-9 (p159): 5.9使用Kronecker因子化信赖域的Actor-Critic
p1-5-10 (p162): 5.10策略梯度代码例子
p1-5-10-1 (p162): 5.10.1相关的Gym环境
p1-5-10-2 (p165): 5.10.2 REINFORCE: Atari Pong和CartPole-V0
p1-5-10-3 (p173): 5.10.3 AC: CartPole-V0
p1-5-10-4 (p176): 5.10.4 A3C: BipedalWalker-v2
p1-5-10-5 (p181): 5.10.5 TRPO: Pendulum-V0
p1-5-10-6 (p192): 5.10.6 PPO: Pendulum-V0
p1-6 (p200): 第6章 深度Q网络和Actor-Critic的结合
p1-6-1 (p200): 6.1简介
p1-6-2 (p201): 6.2深度确定性策略梯度算法
p1-6-3 (p203): 6.3孪生延迟DDPG算法
p1-6-4 (p206): 6.4柔性Actor-Critic算法
p1-6-4-1 (p206): 6.4.1柔性策略迭代
p1-6-4-2 (p207): 6.4.2 SAC
p1-6-5 (p209): 6.5代码例子
p1-6-5-1 (p209): 6.5.1相关的Gym环境
p1-6-5-2 (p209): 6.5.2 DDPG: Pendulum-V0
p1-6-5-3 (p215): 6.5.3 TD3: Pendulum-V0
p1-6-5-4 (p225): 6.5.4 SAC: Pendulum-v0
p2 (p236): 研究部分
p2-1 (p237): 第7章 深度强化学习的挑战
p2-1-1 (p237): 7.1样本效率
p2-1-2 (p240): 7.2学习稳定性
p2-1-3 (p242): 7.3灾难性遗忘
p2-1-4 (p243): 7.4探索
p2-1-5 (p245): 7.5元学习和表征学习
p2-1-6 (p246): 7.6多智能体强化学习
p2-1-7 (p247): 7.7模拟到现实
p2-1-8 (p251): 7.8大规模强化学习
p2-1-9 (p252): 7.9其他挑战
p2-2 (p258): 第8章 模仿学习
p2-2-1 (p258): 8.1简介
p2-2-2 (p260): 8.2行为克隆方法
p2-2-2-1 (p260): 8.2.1行为克隆方法的挑战
p2-2-2-2 (p261): 8.2.2数据集聚合
p2-2-2-3 (p262): 8.2.3 Variational Dropout
p2-2-2-4 (p262): 8.2.4行为克隆的其他方法
p2-2-3 (p263): 8.3逆向强化学习方法
p2-2-3-1 (p263): 8.3.1简介
p2-2-3-2 (p264): 8.3.2逆向强化学习方法的挑战
p2-2-3-3 (p265): 8.3.3生成对抗模仿学习
p2-2-3-4 (p266): 8.3.4生成对抗网络指导性代价学习
p2-2-3-5 (p268): 8.3.5对抗性逆向强化学习
p2-2-4 (p269): 8.4从观察量进行模仿学习
p2-2-4-1 (p269): 8.4.1基于模型方法
p2-2-4-2 (p272): 8.4.2无模型方法
p2-2-4-3 (p277): 8.4.3从观察量模仿学习的挑战
p2-2-5 (p277): 8.5概率性方法
p2-2-6 (p279): 8.6模仿学习作为强化学习的初始化
p2-2-7 (p280): 8.7强化学习中利用示范数据的其他方法
p2-2-7-1 (p280): 8.7.1将示范数据导入经验回放缓存
p2-2-7-2 (p281): 8.7.2标准化Actor-Critic
p2-2-7-3 (p282): 8.7.3用示范数据进行奖励塑形
p2-2-8 (p282): 8.8总结
p2-3 (p289): 第9章 集成学习与规划
p2-3-1 (p289): 9.1简介
p2-3-2 (p290): 9.2基于模型的方法
p2-3-3 (p292): 9.3集成模式架构
p2-3-4 (p293): 9.4基于模拟的搜索
p2-3-4-1 (p294): 9.4.1朴素蒙特卡罗搜索
p2-3-4-2 (p294): 9.4.2蒙特卡罗树搜索
p2-3-4-3 (p295): 9.4.3时间差分搜索
p2-4 (p298): 第10章 分层强化学习
p2-4-1 (p298): 10.1简介
p2-4-2 (p299): 10.2选项框架
p2-4-2-1 (p300): 10.2.1战略专注作家
p2-4-2-2 (p303): 10.2.2选项-批判者结构
p2-4-3 (p305): 10.3封建制强化学习
p2-4-3-1 (p305): 10.3.1封建制网络
p2-4-3-2 (p307): 10.3.2离线策略修正
p2-4-4 (p309): 10.4其他工作
p2-5 (p315): 第11章 多智能体强化学习
p2-5-1 (p315): 11.1简介
p2-5-2 (p316): 11.2优化和均衡
p2-5-2-1 (p317): 11.2.1纳什均衡
p2-5-2-2 (p318): 11.2.2关联性均衡
p2-5-2-3 (p320): 11.2.3斯塔克尔伯格博弈
p2-5-3 (p321): 11.3竞争与合作
p2-5-3-1 (p321): 11.3.1合作
p2-5-3-2 (p321): 11.3.2零和博弈
p2-5-3-3 (p322): 11.3.3同时决策下的竞争
p2-5-3-4 (p323): 11.3.4顺序决策下的竞争
p2-5-4 (p324): 11.4博弈分析架构
p2-6 (p326): 第12章 并行计算
p2-6-1 (p326): 12.1简介
p2-6-2 (p327): 12.2同步和异步
p2-6-3 (p329): 12.3并行计算网络
p2-6-4 (p330): 12.4分布式强化学习算法
p2-6-4-1 (p330): 12.4.1异步优势Actor-Critic
p2-6-4-2 (p332): 12.4.2 GPU/CPU混合式异步优势Actor-Critic
p2-6-4-3 (p333): 12.4.3分布式近端策略优化
p2-6-4-4 (p336): 12.4.4重要性加权的行动者-学习者结构和可扩展高效深度强化学习
p2-6-4-5 (p338): 12.4.5 Ape-X、回溯-行动者和分布式深度循环回放Q网络
p2-6-4-6 (p340): 12.4.6 Gorila
p2-6-5 (p340): 12.5分布式计算架构
p3 (p343): 应用部分
p3-1 (p344): 第13章 Learning to Run
p3-1-1 (p344): 13.1NeurIPS 2017挑战:Learning to Run
p3-1-1-1 (p344): 13.1.1环境介绍
p3-1-1-2 (p346): 13.1.2安装
p3-1-2 (p347): 13.2训练智能体
p3-1-2-1 (p348): 13.2.1并行训练
p3-1-2-2 (p351): 13.2.2小技巧
p3-1-2-3 (p352): 13.2.3学习结果
p3-2 (p354): 第14章 鲁棒的图像增强
p3-2-1 (p354): 14.1图像增强
p3-2-2 (p356): 14.2用于鲁棒处理的强化学习
p3-3 (p366): 第15章 AlphaZero
p3-3-1 (p366): 15.1简介
p3-3-2 (p367): 15.2组合博弈
p3-3-3 (p370): 15.3蒙特卡罗树搜索
p3-3-4 (p376): 15.4 AlphaZero:棋类游戏的通用算法
p3-4 (p388): 第16章 模拟环境中机器人学习
p3-4-1 (p389): 16.1机器人模拟
p3-4-2 (p405): 16.2强化学习用于机器人学习任务
p3-4-2-1 (p407): 16.2.1并行训练
p3-4-2-2 (p407): 16.2.2学习效果
p3-4-2-3 (p408): 16.2.3域随机化
p3-4-2-4 (p409): 16.2.4机器人学习基准
p3-4-2-5 (p409): 16.2.5其他模拟器
p3-5 (p412): 第17章 Arena:多智能体强化学习平台
p3-5-1 (p413): 17.1安装
p3-5-2 (p413): 17.2用Arena开发游戏
p3-5-2-1 (p414): 17.2.1简单的单玩家游戏
p3-5-2-2 (p416): 17.2.2简单的使用奖励机制的双玩家游戏
p3-5-2-3 (p420): 17.2.3高级设置
p3-5-2-4 (p424): 17.2.4导出二进制游戏
p3-5-3 (p427): 17.3 MARL训练
p3-5-3-1 (p427): 17.3.1设置X-Server
p3-5-3-2 (p429): 17.3.2进行训练
p3-5-3-3 (p431): 17.3.3可视化
p3-5-3-4 (p431): 17.3.4致谢
p3-6 (p433): 第18章 深度强化学习应用实践技巧
p3-6-1 (p433): 18.1概览:如何应用深度强化学习
p3-6-2 (p434): 18.2实现阶段
p3-6-3 (p440): 18.3训练和调试阶段
p4 (p445): 总结部分
p5 (p446): 附录A 算法总结表
p6 (p451): 附录B 算法速查表
p6-1 (p451): B.1深度学习
p6-1-1 (p451): B.1.1随机梯度下降
p6-1-2 (p452): B.1.2 Adam优化器
p6-2 (p452): B.2强化学习
p6-2-1 (p452): B.2.1赌博机
p6-2-2 (p453): B.2.2动态规划
p6-2-3 (p454): B.2.3蒙特卡罗
p6-3 (p458): B.3深度强化学习
p6-4 (p467): B.4高等深度强化学习
p6-4-1 (p467): B.4.1模仿学习
p6-4-2 (p468): B.4.2基于模型的强化学习
p6-4-3 (p470): B.4.3分层强化学习
p6-4-4 (p471): B.4.4多智能体强化学习
p6-4-5 (p472): B.4.5并行计算
p7 (p476): 附录C 中英文对照表
p1-1 (p2): 第1章 深度学习入门
p1-1-1 (p2): 1.1简介
p1-1-2 (p3): 1.2感知器
p1-1-3 (p7): 1.3多层感知器
p1-1-4 (p9): 1.4激活函数
p1-1-5 (p11): 1.5损失函数
p1-1-6 (p13): 1.6优化
p1-1-6-1 (p13): 1.6.1梯度下降和误差的反向传播
p1-1-6-2 (p15): 1.6.2随机梯度下降和自适应学习率
p1-1-6-3 (p17): 1.6.3超参数筛选
p1-1-7 (p18): 1.7正则化
p1-1-7-1 (p18): 1.7.1过拟合
p1-1-7-2 (p18): 1.7.2权重衰减
p1-1-7-3 (p20): 1.7.3 Dropout
p1-1-7-4 (p20): 1.7.4批标准化
p1-1-7-5 (p21): 1.7.5其他缓和过拟合的方法
p1-1-8 (p22): 1.8卷积神经网络
p1-1-9 (p25): 1.9循环神经网络
p1-1-10 (p28): 1.10深度学习的实现样例
p1-1-10-1 (p28): 1.10.1张量和梯度
p1-1-10-2 (p29): 1.10.2定义模型
p1-1-10-3 (p31): 1.10.3自定义层
p1-1-10-4 (p33): 1.10.4多层感知器:MNIST数据集上的图像分类
p1-1-10-5 (p35): 1.10.5卷积神经网络:CIFAR-10数据集上的图像分类
p1-1-10-6 (p36): 1.10.6序列到序列模型:聊天机器人
p1-2 (p43): 第2章 强化学习入门
p1-2-1 (p43): 2.1简介
p1-2-2 (p46): 2.2在线预测和在线学习
p1-2-2-1 (p46): 2.2.1简介
p1-2-2-2 (p48): 2.2.2随机多臂赌博机
p1-2-2-3 (p50): 2.2.3对抗多臂赌博机
p1-2-2-4 (p51): 2.2.4上下文赌博机
p1-2-3 (p52): 2.3马尔可夫过程
p1-2-3-1 (p52): 2.3.1简介
p1-2-3-2 (p54): 2.3.2马尔可夫奖励过程
p1-2-3-3 (p57): 2.3.3马尔可夫决策过程
p1-2-3-4 (p61): 2.3.4贝尔曼方程和最优性
p1-2-3-5 (p64): 2.3.5其他重要概念
p1-2-4 (p64): 2.4动态规划
p1-2-4-1 (p65): 2.4.1策略迭代
p1-2-4-2 (p67): 2.4.2价值迭代
p1-2-4-3 (p68): 2.4.3其他DPs:异步DP、近似DP和实时DP
p1-2-5 (p70): 2.5蒙特卡罗
p1-2-5-1 (p70): 2.5.1蒙特卡罗预测
p1-2-5-2 (p71): 2.5.2蒙特卡罗控制
p1-2-5-3 (p72): 2.5.3增量蒙特卡罗
p1-2-6 (p73): 2.6时间差分学习
p1-2-6-1 (p73): 2.6.1时间差分预测
p1-2-6-2 (p77): 2.6.2 S arsa:在线策略TD控制
p1-2-6-3 (p80): 2.6.3 Q-Learning:离线策略TD控制
p1-2-7 (p80): 2.7策略优化
p1-2-7-1 (p80): 2.7.1简介
p1-2-7-2 (p84): 2.7.2基于价值的优化
p1-2-7-3 (p89): 2.7.3基于策略的优化
p1-2-7-4 (p105): 2.7.4结合基于策略和基于价值的方法
p1-3 (p110): 第3章 强化学习算法分类
p1-3-1 (p111): 3.1基于模型的方法和无模型的方法
p1-3-2 (p113): 3.2基于价值的方法和基于策略的方法
p1-3-3 (p114): 3.3蒙特卡罗方法和时间差分方法
p1-3-4 (p115): 3.4在线策略方法和离线策略方法
p1-4 (p119): 第4章 深度Q网络
p1-4-1 (p121): 4.1 Sarsa和Q-Learning
p1-4-2 (p121): 4.2为什么使用深度学习:价值函数逼近
p1-4-3 (p123): 4.3 DQN
p1-4-4 (p124): 4.4 Double DQN
p1-4-5 (p125): 4.5 Dueling DQN
p1-4-6 (p127): 4.6优先经验回放
p1-4-7 (p128): 4.7其他改进内容:多步学习、噪声网络和值分布强化学习
p1-4-8 (p131): 4.8 DQN代码实例
p1-5 (p146): 第5章 策略梯度
p1-5-1 (p146): 5.1简介
p1-5-2 (p147): 5.2 REINFORCE:初版策略梯度
p1-5-3 (p149): 5.3 Actor-Critic
p1-5-4 (p150): 5.4生成对抗网络和Actor-Critic
p1-5-5 (p152): 5.5同步优势Actor-Critic
p1-5-6 (p153): 5.6异步优势Actor-Critic
p1-5-7 (p154): 5.7信赖域策略优化
p1-5-8 (p157): 5.8近端策略优化
p1-5-9 (p159): 5.9使用Kronecker因子化信赖域的Actor-Critic
p1-5-10 (p162): 5.10策略梯度代码例子
p1-5-10-1 (p162): 5.10.1相关的Gym环境
p1-5-10-2 (p165): 5.10.2 REINFORCE: Atari Pong和CartPole-V0
p1-5-10-3 (p173): 5.10.3 AC: CartPole-V0
p1-5-10-4 (p176): 5.10.4 A3C: BipedalWalker-v2
p1-5-10-5 (p181): 5.10.5 TRPO: Pendulum-V0
p1-5-10-6 (p192): 5.10.6 PPO: Pendulum-V0
p1-6 (p200): 第6章 深度Q网络和Actor-Critic的结合
p1-6-1 (p200): 6.1简介
p1-6-2 (p201): 6.2深度确定性策略梯度算法
p1-6-3 (p203): 6.3孪生延迟DDPG算法
p1-6-4 (p206): 6.4柔性Actor-Critic算法
p1-6-4-1 (p206): 6.4.1柔性策略迭代
p1-6-4-2 (p207): 6.4.2 SAC
p1-6-5 (p209): 6.5代码例子
p1-6-5-1 (p209): 6.5.1相关的Gym环境
p1-6-5-2 (p209): 6.5.2 DDPG: Pendulum-V0
p1-6-5-3 (p215): 6.5.3 TD3: Pendulum-V0
p1-6-5-4 (p225): 6.5.4 SAC: Pendulum-v0
p2 (p236): 研究部分
p2-1 (p237): 第7章 深度强化学习的挑战
p2-1-1 (p237): 7.1样本效率
p2-1-2 (p240): 7.2学习稳定性
p2-1-3 (p242): 7.3灾难性遗忘
p2-1-4 (p243): 7.4探索
p2-1-5 (p245): 7.5元学习和表征学习
p2-1-6 (p246): 7.6多智能体强化学习
p2-1-7 (p247): 7.7模拟到现实
p2-1-8 (p251): 7.8大规模强化学习
p2-1-9 (p252): 7.9其他挑战
p2-2 (p258): 第8章 模仿学习
p2-2-1 (p258): 8.1简介
p2-2-2 (p260): 8.2行为克隆方法
p2-2-2-1 (p260): 8.2.1行为克隆方法的挑战
p2-2-2-2 (p261): 8.2.2数据集聚合
p2-2-2-3 (p262): 8.2.3 Variational Dropout
p2-2-2-4 (p262): 8.2.4行为克隆的其他方法
p2-2-3 (p263): 8.3逆向强化学习方法
p2-2-3-1 (p263): 8.3.1简介
p2-2-3-2 (p264): 8.3.2逆向强化学习方法的挑战
p2-2-3-3 (p265): 8.3.3生成对抗模仿学习
p2-2-3-4 (p266): 8.3.4生成对抗网络指导性代价学习
p2-2-3-5 (p268): 8.3.5对抗性逆向强化学习
p2-2-4 (p269): 8.4从观察量进行模仿学习
p2-2-4-1 (p269): 8.4.1基于模型方法
p2-2-4-2 (p272): 8.4.2无模型方法
p2-2-4-3 (p277): 8.4.3从观察量模仿学习的挑战
p2-2-5 (p277): 8.5概率性方法
p2-2-6 (p279): 8.6模仿学习作为强化学习的初始化
p2-2-7 (p280): 8.7强化学习中利用示范数据的其他方法
p2-2-7-1 (p280): 8.7.1将示范数据导入经验回放缓存
p2-2-7-2 (p281): 8.7.2标准化Actor-Critic
p2-2-7-3 (p282): 8.7.3用示范数据进行奖励塑形
p2-2-8 (p282): 8.8总结
p2-3 (p289): 第9章 集成学习与规划
p2-3-1 (p289): 9.1简介
p2-3-2 (p290): 9.2基于模型的方法
p2-3-3 (p292): 9.3集成模式架构
p2-3-4 (p293): 9.4基于模拟的搜索
p2-3-4-1 (p294): 9.4.1朴素蒙特卡罗搜索
p2-3-4-2 (p294): 9.4.2蒙特卡罗树搜索
p2-3-4-3 (p295): 9.4.3时间差分搜索
p2-4 (p298): 第10章 分层强化学习
p2-4-1 (p298): 10.1简介
p2-4-2 (p299): 10.2选项框架
p2-4-2-1 (p300): 10.2.1战略专注作家
p2-4-2-2 (p303): 10.2.2选项-批判者结构
p2-4-3 (p305): 10.3封建制强化学习
p2-4-3-1 (p305): 10.3.1封建制网络
p2-4-3-2 (p307): 10.3.2离线策略修正
p2-4-4 (p309): 10.4其他工作
p2-5 (p315): 第11章 多智能体强化学习
p2-5-1 (p315): 11.1简介
p2-5-2 (p316): 11.2优化和均衡
p2-5-2-1 (p317): 11.2.1纳什均衡
p2-5-2-2 (p318): 11.2.2关联性均衡
p2-5-2-3 (p320): 11.2.3斯塔克尔伯格博弈
p2-5-3 (p321): 11.3竞争与合作
p2-5-3-1 (p321): 11.3.1合作
p2-5-3-2 (p321): 11.3.2零和博弈
p2-5-3-3 (p322): 11.3.3同时决策下的竞争
p2-5-3-4 (p323): 11.3.4顺序决策下的竞争
p2-5-4 (p324): 11.4博弈分析架构
p2-6 (p326): 第12章 并行计算
p2-6-1 (p326): 12.1简介
p2-6-2 (p327): 12.2同步和异步
p2-6-3 (p329): 12.3并行计算网络
p2-6-4 (p330): 12.4分布式强化学习算法
p2-6-4-1 (p330): 12.4.1异步优势Actor-Critic
p2-6-4-2 (p332): 12.4.2 GPU/CPU混合式异步优势Actor-Critic
p2-6-4-3 (p333): 12.4.3分布式近端策略优化
p2-6-4-4 (p336): 12.4.4重要性加权的行动者-学习者结构和可扩展高效深度强化学习
p2-6-4-5 (p338): 12.4.5 Ape-X、回溯-行动者和分布式深度循环回放Q网络
p2-6-4-6 (p340): 12.4.6 Gorila
p2-6-5 (p340): 12.5分布式计算架构
p3 (p343): 应用部分
p3-1 (p344): 第13章 Learning to Run
p3-1-1 (p344): 13.1NeurIPS 2017挑战:Learning to Run
p3-1-1-1 (p344): 13.1.1环境介绍
p3-1-1-2 (p346): 13.1.2安装
p3-1-2 (p347): 13.2训练智能体
p3-1-2-1 (p348): 13.2.1并行训练
p3-1-2-2 (p351): 13.2.2小技巧
p3-1-2-3 (p352): 13.2.3学习结果
p3-2 (p354): 第14章 鲁棒的图像增强
p3-2-1 (p354): 14.1图像增强
p3-2-2 (p356): 14.2用于鲁棒处理的强化学习
p3-3 (p366): 第15章 AlphaZero
p3-3-1 (p366): 15.1简介
p3-3-2 (p367): 15.2组合博弈
p3-3-3 (p370): 15.3蒙特卡罗树搜索
p3-3-4 (p376): 15.4 AlphaZero:棋类游戏的通用算法
p3-4 (p388): 第16章 模拟环境中机器人学习
p3-4-1 (p389): 16.1机器人模拟
p3-4-2 (p405): 16.2强化学习用于机器人学习任务
p3-4-2-1 (p407): 16.2.1并行训练
p3-4-2-2 (p407): 16.2.2学习效果
p3-4-2-3 (p408): 16.2.3域随机化
p3-4-2-4 (p409): 16.2.4机器人学习基准
p3-4-2-5 (p409): 16.2.5其他模拟器
p3-5 (p412): 第17章 Arena:多智能体强化学习平台
p3-5-1 (p413): 17.1安装
p3-5-2 (p413): 17.2用Arena开发游戏
p3-5-2-1 (p414): 17.2.1简单的单玩家游戏
p3-5-2-2 (p416): 17.2.2简单的使用奖励机制的双玩家游戏
p3-5-2-3 (p420): 17.2.3高级设置
p3-5-2-4 (p424): 17.2.4导出二进制游戏
p3-5-3 (p427): 17.3 MARL训练
p3-5-3-1 (p427): 17.3.1设置X-Server
p3-5-3-2 (p429): 17.3.2进行训练
p3-5-3-3 (p431): 17.3.3可视化
p3-5-3-4 (p431): 17.3.4致谢
p3-6 (p433): 第18章 深度强化学习应用实践技巧
p3-6-1 (p433): 18.1概览:如何应用深度强化学习
p3-6-2 (p434): 18.2实现阶段
p3-6-3 (p440): 18.3训练和调试阶段
p4 (p445): 总结部分
p5 (p446): 附录A 算法总结表
p6 (p451): 附录B 算法速查表
p6-1 (p451): B.1深度学习
p6-1-1 (p451): B.1.1随机梯度下降
p6-1-2 (p452): B.1.2 Adam优化器
p6-2 (p452): B.2强化学习
p6-2-1 (p452): B.2.1赌博机
p6-2-2 (p453): B.2.2动态规划
p6-2-3 (p454): B.2.3蒙特卡罗
p6-3 (p458): B.3深度强化学习
p6-4 (p467): B.4高等深度强化学习
p6-4-1 (p467): B.4.1模仿学习
p6-4-2 (p468): B.4.2基于模型的强化学习
p6-4-3 (p470): B.4.3分层强化学习
p6-4-4 (p471): B.4.4多智能体强化学习
p6-4-5 (p472): B.4.5并行计算
p7 (p476): 附录C 中英文对照表
备用描述
本书分为三大部分,覆盖深度强化学习的全部内容.第一部分介绍深度学习和强化学习的入门知识,一些非常基础的深度强化学习算法及其实现细节,包括第1至6章.第二部分是一些精选的深度强化学习研究题目,这些内容对准备开展深度强化学习研究的读者非常有用,包括第7至12章.第三部分提供了丰富的应用案例,包括 AlphaZero,让机器人学习跑步等,包括第13至17章
开源日期
2022-02-16
🚀 快速下载
成为会员以支持书籍、论文等的长期保存。为了感谢您对我们的支持,您将获得高速下载权益。❤️
如果您在本月捐款,您将获得双倍的快速下载次数。
🐢 低速下载
由可信的合作方提供。 更多信息请参见常见问题解答。 (可能需要验证浏览器——无限次下载!)
- 低速服务器(合作方提供) #1 (稍快但需要排队)
- 低速服务器(合作方提供) #2 (稍快但需要排队)
- 低速服务器(合作方提供) #3 (稍快但需要排队)
- 低速服务器(合作方提供) #4 (稍快但需要排队)
- 低速服务器(合作方提供) #5 (无需排队,但可能非常慢)
- 低速服务器(合作方提供) #6 (无需排队,但可能非常慢)
- 低速服务器(合作方提供) #7 (无需排队,但可能非常慢)
- 低速服务器(合作方提供) #8 (无需排队,但可能非常慢)
- 低速服务器(合作方提供) #9 (无需排队,但可能非常慢)
- 下载后: 在我们的查看器中打开
所有选项下载的文件都相同,应该可以安全使用。即使这样,从互联网下载文件时始终要小心。例如,确保您的设备更新及时。
外部下载
-
对于大文件,我们建议使用下载管理器以防止中断。
推荐的下载管理器:JDownloader -
您将需要一个电子书或 PDF 阅读器来打开文件,具体取决于文件格式。
推荐的电子书阅读器:Anna的档案在线查看器、ReadEra和Calibre -
使用在线工具进行格式转换。
推荐的转换工具:CloudConvert和PrintFriendly -
您可以将 PDF 和 EPUB 文件发送到您的 Kindle 或 Kobo 电子阅读器。
推荐的工具:亚马逊的“发送到 Kindle”和djazz 的“发送到 Kobo/Kindle” -
支持作者和图书馆
✍️ 如果您喜欢这个并且能够负担得起,请考虑购买原版,或直接支持作者。
📚 如果您当地的图书馆有这本书,请考虑在那里免费借阅。
下面的文字仅以英文继续。
总下载量:
“文件的MD5”是根据文件内容计算出的哈希值,并且基于该内容具有相当的唯一性。我们这里索引的所有影子图书馆都主要使用MD5来标识文件。
一个文件可能会出现在多个影子图书馆中。有关我们编译的各种数据集的信息,请参见数据集页面。
有关此文件的详细信息,请查看其JSON 文件。 Live/debug JSON version. Live/debug page.