Generative AI
ChatGPT
G:generative
P:pre-trained
T:transformer
ChatGPT 真正做的事:文字接龙
Autoregressive Generation:逐个生成
token
文字接龙时可以选择的符号
每次回答都随机(掷骰子)
进化关键:自督导式学习(预训练) ➡️ 督导式学习(微调) ➡️ 强化学习
有预训练,督导式学习不用大量资料。
强化学习提供回馈。督导式学习提供完整资料,强化学习给反馈(如两次答案,有没有比上次更好)
【注】:模型要有一定程度的能力才适合进入强化学习。
Alignment(对齐):督导式学习 + 强化学习
强化学习
学习reward model
reward model:模仿人类的偏好
用reward model进行学习
模型只需要向reward model学习
GPT-4: 可以看图+引导
如何激发gpt的能力?
把需求说清楚;提供咨询;提供范例;鼓励gpt想一想;训练generator;上传资料;使用其它工具;大任务拆解成小任务;gpt会反省…
可以做什么?
- prompt engineering
- 训练自己的模型(如调整LLaMA参数),困难
大型语言模型训练过程
自我学习阶段
调整超参数
训练成果,但测试失败:找到多样数据
找到合适的初始参数:随机/ 先验知识
先验知识:爬网络资料+资料清理(训练资料品质分类器/除重)
人类指导阶段