LLM - 2.预训练阶段

April 27, 2025

1 预训练数据

目标：构造海量“高质量”数据。

数据来源可分为两类：通用数据和专用数据。

基于分类器的方法
目标：训练文本质量判断模型，利用该模型识别并过滤低质量数据。
分类器使用一组精选文本（维基百科、书籍等）进行训练，给于训练数据类似的网页较高分数，从而可以评估网页的内容质量。
基于启发式的方法
通过一组精心设计的规则来消除低质量文本。
规则：语言过滤、指标过滤、统计特征过滤、关键词过滤…

在不同的粒度上去除重复内容（包括句子、文档和数据集等粒度）。

从预训练语料库中删除包含个人身份信息的内容。

未登录词 (OOV)：不在词表中的词，模型无法为其生成对应的表示。通常用[UNK]表示。

子词（Subword）词元化
词元表示模型会维护一个词元词表，其中既存在完整的单词，也存在形如"c" “re"等单词的部分信息，称为子词。
词元分析（Tokenization）是将原始文本分割成词元序列的过程。
字节对编码
一种常见的子词词元算法。采用的词表包含最常见的单词和高频出现的子词。
常见词通常位于 BPE 词表中；罕见词通常能被分解为若干个包含在 BPE 词表中的词元。
- BPE 中词元词表计算过程
WordPiece
一种常见的词元分析算法。在每次合并时，选择使得训练数据似然概率增加最多的词元对。
- 度量方法如：根据训练数据库中两个词元的共现计数除以它们各自的出现计数的乘积

模型大小加倍，则训练词元数量也应该加倍
对于给定训练计算量目标，存在一个最佳模型参数量和训练数据量配置
随着训练数据量的增加，模型在任务的数据集上的性能都在稳步提高
仅对模型进行 10M∼100M个词元的训练，就可以获得可靠的语法和语义特征。然而，需要更多的训练数据才能获得足够的常识知识和其他技能，并在典型的下游自然语言理解任务中取得较好的结果

通过使用不同来源的数据进行训练，大语言模型可以获得广泛的知识。

包括 Pile, ROOTS, RefinedWeb, CulturaX, SlimPajama…

目标：解决海量的计算和内存资源需求问题

分布式训练：将机器学习或深度学习模型训练任务分解成多个子任务，并在多个计算设备（如中央处理器(CPU)、图形处理器(GPU)、张量处理器(TPU)和神经网络处理器(NPU)）上并行训练。

目标：将单节点模型训练转换成等价的分布式并行模型训练

每个计算设备只分配一个批次数据样本的子集。计算完成后，所有计算设备聚合其他加速卡给出的梯度值，然后使用平均梯度对模型进行更新，完成该批次训练。