3 分钟
599 字
加载中 浏览
深入理解大语言模型:以 ChatGPT 为例

视频《Deep Dive into LLMs like ChatGPT》的学习笔记。

推荐 LLMs笔记

预训练h2

下载并预处理互联网资料h3

参考 FineWeb 项目

FineWeb 的处理流程

分词h3

将文本转换为一系列的符号(也叫做词元)

  1. 首先处理字节流
  2. 然后使用字节对编码对数据进行压缩,

5000 左右的文本字符串,转换为近 40000 比特数据,转换为近 5000 字节的数据,最后转换为近 1300 个 GPT-4 词元

可以使用可视化网页理解分词的具体逻辑。

分词可视化

训练神经网络h3

一系列的词元(也可以叫做上下文)作为神经网络的输入(具有不同的权重),内部通过一系列复杂计算,输出下一个词元对应的概率,多次更新词元输入序列,从而不断更新输出词元的概率以拟合所给训练数据的“特征”,从而能够实现输入一个词元后,对下一个词元的预测符合训练数据的“特征”。

训练神经网络

神经网络内部原理h4

神经网络内部原理是通过一系列的神经元(也叫做节点)组成的一系列层(也叫做网络),每个神经元都有一个权重(也叫做参数),神经元的输出是输入的加权和,然后通过激活函数(也叫做非线性函数)进行非线性变换,从而实现非线性拟合。

LLM 可视化

推理h3

推理是通过训练好的神经网络,输入一个词元,输出下一个词元的概率,从而实现输入一个词元后,对下一个词元的预测符合训练数据的“特征”。

基础模型h3

发布的基础模型通常包含两部分:

  1. 运行 Transformer 的代码,通常是 200 行左右的 Python 代码。
  2. Transformer 的参数,通常为上亿个数。

基础模型的心理学h3

基础模型事实上是一个“词元模拟器”,它能够根据输入的词元,生成下一个词元的概率分布。

模型会更偏向于输出在互联网中大量文档中更常见的词元,因此其输出并不能尽信。

模型输出的 token 是以预测的方式做出的最佳猜测(guess),这就是所谓的幻觉(hallucination)

后训练:监督微调h2

评论