机读格式显示(MARC)

000 01393nam0 2200265 450

001 0000842299

005 20250921164400.0

010 __ |a 978-7-302-68692-7 |d CNY99.00

100 __ |a 20250409d2025 em y0chiy50 ea

101 0_ |a chi

102 __ |a CN |b 110000

105 __ |a ak z 000yy

106 __ |a r

200 1_ |a 多模态大模型 |A duo mo tai da mo xing |e 从理论到实践 |f 韩晓晨著

210 __ |a 北京 |c 清华大学出版社 |d 2025

215 __ |a 324页 |c 图 |d 24cm

312 __ |a 英文并列题名取自封面

314 __ |a 韩晓晨, 博士, 长期从事高性能计算与大模型训练算力优化研究。近十年来, 专注于智能计算架构优化及大规模数据处理, 深耕控制算法、机器视觉等领域。

330 __ |a 本书分为两部分12章, 第1部分 (第1-5章) 围绕基础理论与技术解析展开论述, 包括基本概念、Transformer架构、跨模态对齐、模态融合, 以及多模态大模型的预训练方法、模型微调与优化等, 为理解多模态大模型的构建逻辑奠定基础。第2部分 (第6-12章) 聚集于多模态大模型的高级应用与场景实现, 包括主流视觉语言模型 (如CLIP、BLIP-2等) 的实现、跨模态推理与生成的技术应用、多模态大模型的推理与优化方法、模型的安全与可信性问题, 并通过多模态检索与推荐系统、多模态语义理解系统和多模态问答系统的端到端开发实践, 展示了多模态大模型的实际落地路径。

510 1_ |a Multimodal large models |e from theory to practice |z eng

606 0_ |a 人工智能 |A ren gong zhi neng

690 __ |a TP18 |v 5

701 _0 |a 韩晓晨 |A han xiao chen |4 著

801 _0 |a CN |b WFKJXY |c 20250921

905 __ |a WFKJXY |d TP18/1068