模型蒸馏的名词解释

2025-10-15 15:33| 发布者: 百科| 查看: 142| 评论: 0

模型蒸馏（知识蒸馏 Knowledge Distillation）名词解释

模型蒸馏是主流模型压缩 & 知识迁移技术，由 Hinton2015 年提出；用已经训练完成的大参数教师模型，把学到的隐性知识、推理逻辑、输出规律迁移到小参数学生模型，在小幅牺牲精度的前提下，实现模型轻量化、提速降本、方便端侧部署。

传统训练（硬标签）：只标注唯一正确答案，只有对错，无中间置信信息；

蒸馏训练（软标签）：教师输出全类别概率分布（如答案 A：92%、B：6%、C：2%），学生学习整套概率规律，不只死记标准答案，复刻大模型的判断思路。

训教师：先用海量数据训练高性能大模型（教师）；

生成蒸馏数据集：输入数据喂给教师，拿到教师输出软标签；

训学生：小模型同时学习原始真实标签 + 教师软标签，完成知识萃取。

缩小模型参数量、减少显存占用、推理速度大幅提升；

让小模型效果远超同规格直接训练的原生小模型；

实现大模型能力落地手机、嵌入式等低配硬件。

好比资深名师（大模型）不只给标准答案，还讲解做题思路、易错区分，徒弟（小模型）不用海量刷题，就能学到接近名师的解题水平。

蒸馏≠参数复制，是知识提炼迁移；搭配量化、剪枝，是大模型落地三大常用压缩手段。

上一篇：模型参数的名词解释下一篇：工作流的名词解释

相关分类