如何理解模型的蒸馏和量化

u47YdckwR · 4 天前

在LLM领域内，经常会听到两个名词：蒸馏和量化。这代表了LLM两种不同的技术，它们之间有什么区别呢？本次我们就来详细聊一下。
一、模型蒸馏

1.1 什么是模型蒸馏

模型蒸馏是一种知识迁移技术，通过将一个大规模、预训练的教师模型（Teacher Model）所蕴含的知识传递给一个规模较小的学生模型（Student Model），使学生模型在性能上接近教师模型，同时显著降低计算资源消耗。
以一种更为通俗的方式来解释：
假设你有一个特别聪明的学霸朋友（大模型），他考试能考100分，但做题速度慢（计算量大），没法帮你考场作弊。
于是你想：能不能让学霸把他的“解题思路”教给你，让你变成一个小号的学霸（小模型），做题又快又准？
这就是模型蒸馏的思想。
1.2 蒸馏的核心原理

学霸的“秘密武器”不是答案本身，而是他的“思考过程”！

普通训练：老师（训练数据）直接告诉你答案（标签），比如“这张图是猫”。
蒸馏训练：学霸（大模型）不仅告诉你答案，还告诉你：“这张图80%像猫，15%像豹子，5%像狗”（软标签），因为猫和豹子都有毛茸茸的特征。

小模型通过学霸的“思考细节”，能学得更深，甚至发现学霸自己都没总结出的规律。
1.3 蒸馏的工作原理

教师模型训练：首先训练一个性能强大的教师模型，该模型通常具有复杂的结构和大量的参数。
教师模型就是常规训练的LLM，比如GPT4。
生成软标签：教师模型对训练数据进行预测，生成软标签（概率分布），这些软标签包含了教师模型对各类别的置信度信息。
本质来说就是通过softmax将预测结果转化为概率分布，表示模型预测每个类别的可能性。
学生模型训练：学生模型使用教师模型生成的软标签进行训练，同时也可以结合真实标签进行联合训练。通过优化损失函数（KL散度），使学生模型的输出尽可能接近教师模型的输出。
注：Kullback-Leibler (KL) 散度，也称为相对熵，是衡量一个概率分布与第二个参考概率分布之间差异程度的指标。简单来说，它衡量的是两个概率分布有多么不同。
微调：在蒸馏完成后，进一步微调学生模型以提高其性能表现

1.4 举个例子

比如有这样一个任务：需要识别不同动物的图片。

学霸（大模型）：看到一张猫的图片，输出概率：猫（95%）、豹子（4%）、狗（1%）。
普通小模型：只知道正确答案是“猫”，拼命记猫的特征，但遇到豹子可能认错。
蒸馏后的小模型：学霸告诉它：“重点看耳朵形状和花纹，猫和豹子有点像，但豹子花纹更复杂”。于是小模型学会区分细微差别，准确率更高！

1.5 为什么蒸馏有效？

通过硬标签向软标签的转换，让笨徒弟（小模型）偷师学霸（大模型）的“内功心法”，而不是只抄答案。

硬标签（正确答案）：只告诉小模型“是猫”，就像只背答案，不懂原理。
软标签（概率分布）：告诉小模型“猫、豹子、狗的相似点”，就像学霸教你举一反三。
防止学死记硬背：小模型不会过度依赖训练数据中的偶然特征（减少过拟合）。

1.6 模型蒸馏的具体实现

1.6.1 准备教师模型和学生模型
教师模型：通常是一个预训练好的复杂模型（如ResNet-50、BERT等）。
学生模型：结构更简单的小模型（如MobileNet、TinyBERT等），参数少但需要与教师模型兼容。
1.6.2 定义损失函数
蒸馏损失（Distillation Loss）：学生模型模仿教师模型的输出分布。
可以使用KL散度或交叉熵衡量两者的输出差异。
学生损失（Student Loss）：学生模型预测结果与真实标签的交叉熵。
总损失：加权结合两种损失：
1.6.3 训练过程

温度参数：软化输出分布，通常取2~5。训练完成推理时设置为1。
数据选择：使用教师模型生成软标签的数据（可以是训练集或额外数据）。
优化器：选择Adam、SGD等，学习率通常低于普通训练（例如0.001）。
训练细节：
先固定教师模型，仅训练学生模型。
可以逐步调整温度参数或损失权重。

import torchimport torch.nn as nnimport torch.optim as optim# 定义教师模型和学生模型teacher_model = ... # 预训练好的复杂模型student_model = ... # 待训练的小模型# 定义损失函数criterion_hard = nn.CrossEntropyLoss() # 学生损失（硬标签）criterion_soft = nn.KLDivLoss(reductinotallow='batchmean') # 蒸馏损失（软标签）# 温度参数和权重temperature = 5alpha = 0.7# 优化器optimizer = optim.Adam(student_model.parameters(), lr=1e-4)# 训练循环for inputs, labels in dataloader: # 教师模型推理（不计算梯度） with torch.no_grad(): teacher_logits = teacher_model(inputs) # 学生模型推理 student_logits = student_model(inputs) # 计算损失 loss_student = criterion_hard(student_logits, labels) # 软化教师和学生输出 soft_teacher = torch.softmax(teacher_logits / temperature, dim=-1) soft_student = torch.log_softmax(student_logits / temperature, dim=-1) loss_distill = criterion_soft(soft_student, soft_teacher) * (temperature**2) # 总损失 total_loss = alpha * loss_distill + (1 - alpha) * loss_student # 反向传播 optimizer.zero_grad() total_loss.backward() optimizer.step()

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.

二、模型量化

2.1 什么是模型量化

模型量化（Model Quantization）是一种通过降低模型参数的数值精度（如将32位浮点数转换为8位整数）来压缩模型大小、提升推理速度并降低功耗的技术。
举个具体例子：
假设模型记住了一群人的体重：

原版：[55.3kg, 61.7kg, 48.9kg]（精确到小数点）
量化版：[55kg, 62kg, 49kg]（四舍五入取整）

误差就像体重秤的±0.5kg，不影响判断「是否超重」
2.2 为什么要模型量化？

1、体积暴减

原模型像装满矿泉水瓶的箱子（500MB）
量化后像压扁的易拉罐（125MB）

2、速度起飞

原来用大象运货（FP32计算）
现在换快递小车（INT8计算）

NVIDIA显卡上推理速度提升2-4倍
3、省电耐耗

原本手机跑模型像开空调（耗电快）
量化后像开电风扇（省电60%）

2.3 如何进行模型量化？

1、划定范围

找出最轻48.9kg和最重61.7kg
就像量身高要站在标尺前

2、标刻度

把48.9-61.7kg映射到0-100的整数
公式：量化值 = round( (原值 - 最小值) / 步长 )
步长 = (61.7-48.9)/100 = 0.128

3、压缩存储

55.3kg → (55.3-48.9)/0.128 ≈ 50 → 存为整数50
使用时还原：50×0.128+48.9 ≈ 55.3kg
误差控制：就像买菜抹零，5.2元算5元，差2毛不影响做菜

2.4 常用量化方式

1、事后减肥法（训练后量化）

适用场景：模型已经训练好，直接压缩
操作：像用榨汁机把水果变成果汁（保持营养但损失纤维）

import torch# 准备模型（插入量化模块）model.eval() # 确保模型处于评估模式model.qconfig = torch.quantization.default_qconfig # 设置默认量化配置quantized_model = torch.quantization.prepare(model) # 插入观察器# 收集校准数据for data, _ in calibration_data: quantized_model(data.to('cpu')) # 在 CPU 上运行，避免对模型结构的影响quantized_model = torch.quantization.convert(quantized_model) # 转换为量化模型

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

优点：快！5分钟搞定
缺点：可能损失关键精度

2、健康瘦身法（量化感知训练）

适用场景：训练时就控制模型「体重」
操作：像健身教练全程监督，边训练边控制饮食

# PyTorch示例（训练时插伪量化节点）model.qconfig = torch.ao.quantization.get_default_qat_qconfig('fbgemm')model = torch.ao.quantization.prepare_qat(model)# 正常训练...model = torch.ao.quantization.convert(model)

1.
2.
3.
4.
5.

优点：精度更高（像保留肌肉的减肥）
缺点：要重新训练（耗时久）

3、混合套餐法（混合精度量化）

核心思想：重要部分用高精度，次要部分用低精度

例如：
人脸识别：眼睛区域用FP16，背景用INT8
语音识别：关键词用16bit，静音段用4bit
虽然说量化后模型不如原模型精度效果好，但是推理性能的提升相较性能损失在可控范围内，性价比上量化是更优的。