200 1_ |a DeepSeek硬核技术解读 |A DeepSeek ying he ji shu jie du |b 专著 |f 刘丹，尹俊希，杨院伶著

330 __ |a 本书是系统剖析DeepSeek系列大模型技术体系与实践路径的专著，结合作者一线研发经验与深度学习、强化学习、分布式系统等多领域知识，全面阐述DeepSeek在模型架构、训练推理、基础设施及数据工程等方面的核心突破与工程实践，兼具理论严谨性与实践指导性，旨在帮助AI研究者、工程师和技术决策者理解大模型关键技术，掌握高效、低成本构建和部署先进AI系统的方法。全书分为两部分：第一部分(第1-5章)：DeepSeek学习前置知识，从DeepSeek模型概述和重要突破切入，系统介绍经典Transformer架构、强化学习基础、大语言模型RLHF、量化技术及分布式训练基础知识，为读者奠定理论与技术基础。第二部分(第6-11章)：DeepSeek核心技术，先解析DeepSeek的模型架构创新(MoE、MLA、分词器设计等)，探讨跨模态对齐、负载均衡、基础设施优化及数据处理等关键议题；再聚焦DeepSeek V3、VL2及开源推理模型的训练逻辑(训练策略、超参数设计、数据构建等)与推理优化(Prefill、Decode阶段优化)，提供构建高效可扩展AI系统的完整方法论与实战参考。本书不仅解读技术报告，更注重前沿理论与工业实践结合，帮助读者理解AI系统构建的本质规律与发展趋势，为学术界和工业界提供清晰可复现的高效能人工智能研发路径。