机读格式显示(MARC)

000 00646nam 2200169 450

001 0000826126

010 __ |a 978-7-115-63154-1 |d CNY79.80

092 __ |x 2

100 __ |a 20250729d2025 ekmy0chiy50 ea

101 0_ |a chi

200 0_ |a Joy RL |e 强化学习实践教程 |f 江季, 王琦, 杨毅远著

210 __ |a 北京 |c 人民邮电出版社 |d 2025

215 __ |a 160页 |d 23cm

330 __ |a 本书大部分内容基于3位作者的实践经验, 涵盖马尔可夫决策过程、动态规划、免模型预测、免模型控制、深度学习基础、DQN算法、DQN算法进阶、策略梯度、Actor-Critic算法、DDPG与TD3算法、PPO算法等内容。

333 __ |a 本书适合具有一定编程基础且希望快速进入实践应用阶段的读者阅读

606 0_ |a 机器学习

690 __ |a TP181