LLM

January 20, 2025

概述

大模型的训练整体上分为三个阶段：

预训练
在这个阶段它会学习各种不同种类的语料，学习到语言的统计规律和一般知识。
但是大模型在这个阶段只是学会了补全句子，却没有学会怎么样去领会人类的意图（类似成语接龙）。
SFT（监督微调）
在这个阶段大模型可以学习各种人类的对话语料，甚至是非常专业的垂直领域知识。
但是模型的回答有时候可能并不符合人类的偏好，它可能会输出一些涉黄、涉政、涉暴或者种族歧视等言论。
RLHF（基于人类反馈的强化学习）
在这个阶段大模型会针对同一问题进行多次回答，人类会对这些回答打分。
大模型会在此阶段学习到如何输出分数最高的回答，使得回答更符合人类的偏好。

分词化（Tokenization）是指将段落和句子分割成更小的分词（token）的过程。

分词化有不同的粒度分类：

每一个token都会通过预先设置好的词表，映射为一个 token id，这是token 的“身份证”，一句话最终会被表示为一个元素为token id的列表，供计算机进行下一步处理。

大语言模型根据给定的文本预测下一个token。

大模型进行推理时，基于现有的token，根据概率最大原则预测出下一个最有可能的token，然后将该预测的token加入到输入序列中，并将更新后的输入序列继续输入大模型预测下一个token，这个过程叫做自回归。

直到输出特殊token（如，end of sentence，专门用来控制推理何时结束）或输出长度达到阈值。