机读格式显示(MARC)
- 000 02532nam0 2200361 450
- 010 __ |a 978-7-111-70072-2 |d CNY89.00
- 100 __ |a 20220425d2022 em y0chiy50 ea
- 200 1_ |a Python深度强化学习入门 |A Python shen du qiang hua xue xi ru men |e 强化学习和深度学习的搜索与控制 |f (日) 伊藤多一 ... [等] 著 |g 王卫兵, 杨秋香等译
- 210 __ |a 北京 |c 机械工业出版社 |d 2022
- 215 __ |a xi, 239页 |c 图 |d 24cm
- 304 __ |a 题名页题: (日) 伊藤多一, 今津义充, 须藤广大, 仁平将人, 川崎悠介等著
- 306 __ |a 本书由翔泳社授权机械工业出版社在中国大陆地区 (不包括香港、澳门特别行政区及台湾地区) 出版与发行
- 314 __ |a 伊藤多一, 1995年在名古屋大学理学研究所完成博士课程, 并获得博士学位。今津义充, 博士学位 (理学), 熟悉统计分析、模型构建以及基于数值分析的基本粒子和核物理研究。自2013年以来, 领导了BrainPad公司的定量分析项目, 例如需求预测和数学优化等。近年来, 一直从事利用深度学习技术的项目分析和应用研究。须藤广大, 在奈良科学技术学院主修自然语言处理, 获得硕士学位 (信息工程)。后以新毕业生的身份加入BrainPad公司, 并以机器学习工程师的身份从事与深度学习相关的项目分析和开发。
- 320 __ |a 有书目 (第238-239页)
- 330 __ |a 本书共7章。第1章介绍了机器学习的分类、强化学习的学习机制以及深度强化学习的概念; 第2章通过强化学习的基本概念、马尔可夫决策过程和贝尔曼方程、贝尔曼方程的求解方法、无模型控制等介绍了强化学习的基本算法; 第3章通过深度学习、卷积神经网络 (CNN)、循环神经网络 (RNN)介绍了强化学习中深度学习的特征提取方法; 第4章通过行动价值函数的网络表示、策略函数的网络表示介绍了深度强化学习的实现; 第5章通过策略梯度法的连续控制、学习算法和策略模型等, 详细介绍了深度强化学习在连续控制问题中的应用及具体实现; 第6章通过巡回推销员问题和魔方问题详细介绍了深度强化学习在组合优化中的应用及具体实现; 第7章通过SeqGAN的文本生成和神经网络架构的搜索详细介绍了深度强化学习在时间序列数据生成的应用。在附录中还给出了Colaboratory和Docker等深度强化学习开发环境的构建。
- 333 __ |a 深度学习、强化学习方向的学生和技术人员
- 517 1_ |a 强化学习和深度学习的搜索与控制 |A qiang hua xue xi he shen du xue xi de sou suo yu kong zhi
- 606 0_ |a 软件工具 |A ruan jian gong ju |x 程序设计
- 701 _0 |a 伊藤多一 |A yi teng duo yi |4 著
- 701 _0 |a 今津义充 |A jin jin yi chong |4 著
- 701 _0 |a 须藤广大 |A xu teng guang da |4 著
- 702 _0 |a 王卫兵 |A wang wei bing |4 译
- 702 _0 |a 杨秋香 |A yang qiu xiang |4 译
- 801 _0 |a CN |b 北京京城新安 |c 20220425
- 905 __ |a WFKJXY |d TP311.561/399