## Chapter 1 引言


语言模型的四个阶段：

![[image.png]]

能力特点：
* 具有较为丰富的世界知识
* 具有较强的通用任务解决能力
* 具有较好的复杂任务推理能力
* 具有较强的人类指令遵循能力
* 具有较好的人类对齐能力
* 具有可拓展的工具使用能力

关键技术：
* 规模扩展
* 数据工程
* 高效预训练
* 能力激发
* 人类对齐
* 工具使用

## Chapter 2 基础介绍

大语言模型是指在海量无标注文本数据上进行预训练得到的大型预训练语言模型

大语言模型的构建过程：
1. 大规模预训练。预训练是指使用与下游任务无关的大规模数据进行模型参数的初始训练，可以认为是为模型参数找到一个较好的“初值点”。大规模预训练本质上是在做一个世界知识的压缩，从而能够学习到一个编码世界知识的参数模型，这个模型能够通过解压缩所需要的知识来解决真实世界的任务。
2. 指令微调与人类对齐。SFT通过使用任务输入与输出的配对数据进行模型训练，可以使得语言模型较好地掌握通过问答形式进行任务求解的能力。基于人类反馈的强化学习对齐方法RLHF在指令微调后使用强化学习加强模型的对齐能力。

|**模型名称**|**训练词元 (Tokens)**|**算力消耗 (GPU Hours)**|**训练周期 (估算)**|**架构特点**|
|---|---|---|---|---|
|**DeepSeek-V3**|**14.8 T** (万亿)|**2.79 M** (H800 小时)|~2 个月|MoE (671B 总/37B 激活)|
|**Llama 3.1 (405B)**|**15 T**|**30.84 M** (H100 小时)|~3 个月|Dense (稠密架构)|
|**Llama 4 (旗舰版)**|**~40 T** (预计)|**>100 M** (H100 小时)|~6 个月|MoE / 混合架构|
|**GPT-4o**|**~13 T** (估计)|**~25-40 M** (H100 小时)|~3-4 个月|MoE (估计)|
|**Gemini 2.0 Pro**|**~20 T** (估计)|**~40 M+** (TPU v5 小时)|~4 个月|原生多模态 MoE|
|**Qwen 3 (235B)**|**~15 T**|**~20 M** (H800 小时)|~3 个月|极致优化的 Dense/MoE|
|**GPT-o1/o3**|**15T+** (含合成数据)|**无法计算** (重强化学习)|长期持续训练|强化学习 (RL) 驱动|

**扩展法则 Scaling Law**

在实践中，扩展法则可以用于指导大语言模型的训练，通过较小算力资源可靠地估计较大算力资源投入后的模型性能，这被称为可预测的扩展。

代表性的涌现能力：
* 上下文学习
* 指令遵循
* 逐步推理

	来自Gemini
	2025年看到新的涌现：
	* 顿悟与自我纠错。模型思考时会发现自己错了而停下来
	* 隐性规划。回答之间内部神经元的激活状态已经提前编码了答案的结构信息
	* 多模态联觉。跨感官的直觉。比如在音频语调中发现文本逻辑上的细微矛盾
	未来可能期待什么：
	* 真正的世界模型。从符号逻辑到物理因果律的直觉理解，这对AI机器人和自动驾驶至关重要。
	* 自主工具发现。自发编写代码或设计逻辑作为工具完成任务。
	* 高阶“心理理论”。真正的深度共情和博弈能力。

## Chapter 3

略

## Chapter 4 数据准备

![[image-1.png]]

词元化（Tokenization）是数据预处理中的一个关键步骤，旨在将原始文本分割成模型可识别和建模的词元序列，作为大语言模型的输入数据。

分词器（Tokenizer）常被戏称为大模型的“视网膜”。如果分词器设计得不好，模型看到的“世界”就是模糊或扭曲的。评估分词器对模型的影响，主要从效率（计算成本）、**能力（表现质量）和鲁棒性（稳定性）三个维度进行系统化评估。

目前的趋势（如 Llama 3/4 和 DeepSeek）是倾向于使用更大的词表（约 10k - 15k 规模），并采用 Tiktoken（BPE）算法，以换取极高的压缩率和更好的多语言/代码表现。

## Chapter 5 模型架构

![[image-2.png]]

大语言模型的特点是使用了更长的向量维度、更深的层数，进而包含了更大规模的模型参数，并主要使用解码器架构。

**输入编码**

输入的词元序列（u = \[u1, u2, ..., ur]）经过Input Embedding转化为词向量序列v。然后再加上位置编码生成的向量p，共同组成输入编码的结果。

**多头自注意力机制**

相比于RNN和CNN，多头自注意力机制能够直接建模任意距离的词元之间的交互关系。

![[image-3.png]]

[[‎Google Gemini-2025-12-31T124937+0800]]

**前馈网络层**

![[image-4.png]]

[[‎Google Gemini-2025-12-31T130158+0800]]


**编码器**

作用是将每个输入词元都编码成一个上下文语义相关的表示向量。编码器结构由多个相同的层堆叠而成，其中每一层都包含多头自注意力模块和前馈网络模块。在注意力和前馈网络后，模型使用层归一化和残差连接来加强模型的训练稳定度。

**解码器**

![[image-5.png]]

[[‎Google Gemini-2025-12-31T132025+0800]]

## Chapter 6 模型预训练

**预训练任务**

在进行模型的大规模预训练时，往往需要设计合适的自监督预训练任务，使得模型能够从海量无标注数据中学习到广泛的语义知识与世界知识。目前，常用的预训练任务主要分为三类，包括语言建模（Language Modeling, LM）、去噪自编码（Denoising Autoencoding, DAE）以及混合去噪器（Mixture-of-Denoisers, MoD）。

![[image-6.png]]
**优化参数设置**

与传统神经网络的优化类似，通常使用批次梯度下降算法来进行模型参数的调优。同时，通过调整学习率以及优化器中的梯度修正策略，可以进一步提升训练的稳定性。为了防止模型对数据产生过度拟合，训练中还需要引入一系列正则化方法。

在大模型预训练中，通常将批次大小（Batch Size）设置为较大的数值。较小的批次对应反向传播的频率更高，训练早期可以使用少量的数据让模型的损失尽快下降；而较大的批次可以在后期让模型的损失下降地更加稳定，使模型更好地收敛。

![[image-7.png]]

[[‎Google Gemini-2025-12-31T134059+0800]]

![[image-8.png]]
**模型参数量计算与效率分析**

**参数量计算**

![[image-9.png]]

	见书中第123页-130页

## Chapter 7 指令微调

略

## Chapter 8 人类对齐

![[image-10.png]]

## Chapter 9 解码与部署

大语言模型的生成方式本质上是一个概率采样过程，需要合适的解码策略来生成合适的输出内容。

**解码策略**

贪心搜索在每个生成步骤中均选择最高概率的词元，这可能会由于忽略在某些步骤中概率不是最高、但是整体生成概率更高的句子而造成局部最优。为了解决这个问题，可以进一步采用以下的改进策略。

* 束搜索，保留3-6个备选
* 长度惩罚，鼓励生成更长的句子
* 重复惩罚

基于概率采样的方法会在整个词表中选择词元，这可能会导致生成不相干的词元。为了进一步提高生成质量，可以进一步使用一些改进的采样策略，减少具有极低概率词汇对于生成结果的影响。

* 温度采样
* Top-k采样，保留前几个
* Top-p采样，保留达到概率阈值p以上的
* 对比解码，提升重要词汇影响力


[[‎Google Gemini-2025-12-31T144244+0800]]


许多研究工作提出了针对自回归解码策略的改进方法，从而提高解码效率。下面主要介绍四种解码优化算法，包括推测解码（Speculative Decoding）、非自回归解码（Non-autoregressive Decoding）、早退机制（Early Exiting）与级联解码（Cascade Inference）。

[[‎Google Gemini-2025-12-31T144901+0800]]

![[image-11.png]]


![[image-12.png]]

## Chapter 10 提示学习


![[image-13.png]]

## Chapter 11 规划与智能体

![[image-14.png]]

## Chapter 12 评测

![[image-15.png]]

![[image-16.png]]