机读格式显示(MARC)

000 01180nam0 2200253 450

001 0000842272

005 20250921163000.0

010 __ |a 978-7-302-68600-2 |d CNY129.00

100 __ |a 20250331d2025 em y0chiy50 ea

101 0_ |a chi

102 __ |a CN |b 110000

105 __ |a ak z 000yy

106 __ |a r

200 1_ |a 大模型轻量化 |A da mo xing qing liang hua |e 模型压缩与训练加速 |f 梁志远著

210 __ |a 北京 |c 清华大学出版社 |d 2025

215 __ |a 384页 |c 图 |d 24cm

330 __ |a 本书分为三部分共10章, 首先聚焦大模型的背景与面临的问题, 讲解了Transformer和MoE架构的基本原理; 随后重点讲解模型压缩、训练加速和推理优化等核心技术, 包括量化、蒸馏和剪枝等, 并通过实际案例验证其效用; 后续则详述端侧学习与计算引擎优化策略, 尤其是动态Batch和异构执行的工程实现。最后针对高性能算子库与手工算子开发, 分别以cuDNN、NEON、CUDA等实际案例为导向, 揭示算子优化的细节; 结尾以最新的国产开源模型DeepSeek-V3为例, 展现从训练到推理的综合优化方案。

333 __ |a 从事大模型开发的工程师

517 1_ |a 模型压缩与训练加速 |A mo xing ya su yu xun lian jia su

606 0_ |a 人工智能 |A ren gong zhi neng

690 __ |a TP18 |v 5

701 _0 |a 梁志远 |A liang zhi yuan |4 著

801 _0 |a CN |b WFKJXY |c 20250921

905 __ |a WFKJXY |d TP18/1064