HAPPY-LLM：从零开始构建大模型

编号:: wx1204411800

销售价:: ￥68.60; (市场价: ~~￥79.80~~)

赠送积分:: 69

数量:: 件

商品介绍
商品参数
商品评论
商品咨询

商品介绍

1.【从零入门体系完整】本书从NLP基础讲起，逐步深入Transformer架构、预训练模型到大语言模型，帮读者搭建完整的LLM知识体系。
2.【开源社区背书内容靠谱】来自国内领先AI开源学习社区Datawhale，作者此前推出的Self-LLM等开源教程获国内外开发者广泛认可。
3.【手把手实战教学】从基于PyTorch亲手搭建大模型，到借助Transformers框架实现训练、LoRA高效微调，全流程带你动手实践。
4.【覆盖前沿热门应用】讲解大模型评测、检索增强生成RAG、大模型智能体等主流应用，帮助读者快速落地实际项目。
5.【化繁为简快乐学习】拆解复杂技术难点，让学习大模型变得轻松高效，帮助读者实现学得明白、用得顺畅的学习目标。

2022年底，ChatGPT的诞生引发变革，以GPT系列模型为代表的大语言模型（Large Language Model，LLM）成为人工智能领域的研究热点，LLM在此背景下基于预训练语言模型取得突破性进展。本书分为基础知识与实战应用两大部分，基础知识部分包含第1～4章，首先介绍NLP的基本任务及文本表示的发展历程，接着阐述LLM基本架构Transformer和经典PLM架构，最后详述LLM的特点、能力和训练过程；实战应用部分包含第5～7章，依次讲解基于PyTorch搭建LLM的全流程，借助主流框架实现LLM训练，以及LLM的各类应用，帮助读者构建完整的LLM知识体系。
本书适合具备一定编程经验（尤其对Python编程语言有所了解）、掌握深度学习相关知识且了解NLP领域相关概念和术语的大学生、研究人员及LLM爱好者阅读。

朱信忠，工学博士，博士生导师，二级教授，浙江省特级专家，浙江师范大学杭州人工智能研究院院长，工业和信息化部人工智能产业创新任务“智能机器人”揭榜挂帅项目负责人，国家高层次人才，国家有突出贡献中青年专家，国家科技进步奖二等奖第一完成人，享受国务院政府特殊津贴。Datawhale 首席科学家，Happy-LLM、Hello-Agents 等开源项目总体负责人及核心贡献者。主要研究方向为大模型、具身智能、世界模型、自主移动机器人及低空具身等。通过“场景—数据—技术—泛化”闭环迭代，推动具身智能拣货、焊接、装配、抹灰、喷涂等下一代“感知—理解—决策—执行”智能体技术与商业的协同进化。

宋志学，河南理工大学工学学士、测绘工程硕士，西湖大学通用人工智能实验室科研助理。研究方向为自然语言处理、多模态大模型智能体落地应用。Datawhale 成员，Self-LLM、Happy-LLM 等开源项目负责人，所负责项目数十次登上 GitHub 趋势榜单，累计获得GitHub 星标 5.5 万余次。

邹雨衡，对外经济贸易大学数据科学与大数据技术学士、管理科学与工程硕士，小红书人工智能工程师，研究方向为大语言模型、大模型智能体及其落地应用。Datawhale 成员，LLM-Cookbook、LLM-Universe 等开源项目负责人，所负责项目数十次登上 GitHub 趋势榜单，累计获得 GitHub 星标 7.6 万余次。

第 1 章　NLP 基础概念　1
1.1　什么是 NLP　1
1.2 NLP 发展历程　2
1.3 NLP 任务　3
　1.3.1　中文分词　3
　1.3.2　子词切分　3
　1.3.3　词性标注　4
　1.3.4　文本分类　5
　1.3.5　实体识别　5
　1.3.6　关系抽取　6
　1.3.7　文本摘要　6
　1.3.8　机器翻译　7
　1.3.9　自动问答　8
1.4　文本表示的发展历程　8
　1.4.1　词向量　9
　1.4.2　语言模型　10
　1.4.3 Word2Vec　10
　1.4.4 ELMo　11
1.5　本章小结　12
参考资料　12

第 2 章　 Transformer 架构　14
2.1　注意力机制　14
　2.1.1　什么是注意力机制　14
　2.1.2　深入理解注意力机制　17
　2.1.3　注意力机制的实现　19
　2.1.4　自注意力　20
　2.1.5　掩码自注意力　20
　2.1.6　多头注意力　22
2.2　编码器 - 解码器架构　26
　2.2.1 Seq2Seq　27
　2.2.2　全连接神经网络　28
　2.2.3　层归一化　29
　2.2.4　残差连接　31
　2.2.5　编码器　32
　2.2.6　解码器　33
2.3　搭建一个 Transformer 模型　34
　2.3.1　嵌入层　35
　2.3.2　位置编码　36
　2.3.3　一个完整的 Transformer　41
参考资料　44

第 3 章　PLM　45
3.1　仅编码器 PLM　45
　3.1.1 BERT　46
　3.1.2 RoBERTa　54
　3.1.3 ALBERT　57
3.2　编码器 - 解码器 PLM　59
T5　60
3.3　仅解码器 PLM　66
　3.3.1 GPT　66
　3.3.2 LLaMA　72
　3.3.3 GLM　74
参考资料　78

第 4 章 LLM　80
4.1　什么是 LLM　81
　4.1.1 LLM 的定义　81
　4.1.2 LLM 的能力　82
　4.1.3 LLM 的特点　84
4.2　如何训练一个 LLM　86
　4.2.1　预训练　87
　4.2.2 SFT　91
　4.2.3 RLHF　96
参考资料　100

第 5 章　动手搭建大模型　101
5.1　动手搭建一个 LLaMA2 大模型　101
　5.1.1　定义超参数　101
　5.1.2　构建 RMS 归一化　102
　5.1.3　构建 LLaMA2 Attention 模块　104
　5.1.4　构建 LLaMA2 MLP 模块　111
　5.1.5　构建 LLaMA2 的解码器层　113
　5.1.6　构建 LLaMA2 大模型　115
5.2　训练分词器　119
　5.2.1　词级分词器　119
　5.2.2　字符级分词器　120
　5.2.3　子词级分词器　120
　5.2.4　训练一个分词器　122
5.3　预训练一个小型 LLM　129
　5.3.1　数据下载　129
　5.3.2　分词器训练实战　131
　5.3.3　数据集　137
　5.3.4　预训练　142
　5.3.5 SFT 训练　148
　5.3.6　使用模型生成文本　154

第 6 章　大模型训练流程实践　161
6.1　模型预训练　161
　6.1.1 Transformers 框架介绍　161
　6.1.2　初始化 LLM　162
　6.1.3　预训练数据处理　166
　6.1.4　使用 Trainer 类进行训练　169
　6.1.5　使用 DeepSpeed 实现分布式训练　170
6.2　模型 SFT　178
　6.2.1　预训练与 SFT　179
　6.2.2　微调数据处理　179
6.3　高效微调　185
　6.3.1　高效微调方案　186
　6.3.2 LoRA 微调　187
　6.3.3 LoRA 微调的原理　188
　6.3.4 LoRA 微调的代码实现　189
　6.3.5　使用 peft 实现 LoRA 微调　192
参考资料　194

第 7 章　大模型应用　195
7.1　大模型评测　195
　7.1.1 LLM 的评测数据集　196
　7.1.2　主流的大模型评测榜单　197
　7.1.3　特定的大模型评测榜单　198
7.2 RAG　199
　7.2.1 RAG 的基本原理　199
　7.2.2　实现一个 RAG 框架　200
7.3　智能体　209
　7.3.1　什么是智能体　209
　7.3.2　智能体的类型　210
　7.3.3　动手构造一个小型智能体　212
参考资料　219

商品参数

基本信息
出版社	人民邮电出版社
ISBN	9787115685032
条码	9787115685032
编者	朱信忠宋志学邹雨衡著
译者	--
出版年月	2026-06-01 00:00:00.0
开本	16开
装帧	平装
页数	220
字数	227
版次	1
印次	1
纸张

商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]