机读格式显示(MARC)

000 01241nam0 2200313 450

001 0000479217

005 20190918134102.0

010 __ |a 978-7-121-29516-4 |d CNY168.00

100 __ |a 20190918d2019 em y0chiy50 ea

101 1_ |a chi |c eng

102 __ |a CN |b 110000

105 __ |a a z 000yy

106 __ |a r

200 1_ |a 强化学习 |d Reinforcement learning |e an introduction |f (加)Richard S. Sutton，(美)Andrew G. Barto著 |g 俞凯等译 |z eng

210 __ |a 北京 |c 电子工业出版社 |d 2019

215 __ |a 519页 |c 图 |d 24cm

225 1_ |a 智源人工智能丛书

305 __ |a 由博达著作权代理有限公司Bardon Chinese Media Agency代理The MIT Press授权出版据原书第2版译出

330 __ |a 本书从强化学习的基本思想出发，介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

333 __ |a 本书适用于对强化学习感兴趣的读者

510 1_ |a Reinforcement learning |e an introduction |z eng

606 0_ |a 机器学习 |x 算法 |x 研究

690 __ |a TP181 |v 5

701 _0 |c (加) |a 萨顿 |c (Sutton, Richard S.) |4 著

701 _0 |c (加) |a 巴图 |c (Bart, Andrew G.) |4 著

702 _0 |a 俞凯 |4 译

801 _0 |a CN |b 浙江省新华书店集团公司 |c 20190918

905 __ |a WFKJXY |d TP181/139

920 __ |a 4370400 |z 1