聚云动媒 首页 百科 AI百科 AI术语 查看内容

模型蒸馏的名词解释

2025-10-15 15:33| 发布者: 百科| 查看: 142| 评论: 0


模型蒸馏(知识蒸馏 Knowledge Distillation)名词解释


一、标准定义


模型蒸馏是主流模型压缩 & 知识迁移技术,由 Hinton2015 年提出;用已经训练完成的大参数教师模型,把学到的隐性知识、推理逻辑、输出规律迁移到小参数学生模型,在小幅牺牲精度的前提下,实现模型轻量化、提速降本、方便端侧部署。


二、核心原理:软标签蒸馏


传统训练(硬标签):只标注唯一正确答案,只有对错,无中间置信信息;


蒸馏训练(软标签):教师输出全类别概率分布(如答案 A:92%、B:6%、C:2%),学生学习整套概率规律,不只死记标准答案,复刻大模型的判断思路。


三、蒸馏三步流程


训教师:先用海量数据训练高性能大模型(教师);


生成蒸馏数据集:输入数据喂给教师,拿到教师输出软标签;


训学生:小模型同时学习原始真实标签 + 教师软标签,完成知识萃取。


四、作用与价值


缩小模型参数量、减少显存占用、推理速度大幅提升;


让小模型效果远超同规格直接训练的原生小模型;


实现大模型能力落地手机、嵌入式等低配硬件。


五、通俗解释


好比资深名师(大模型)不只给标准答案,还讲解做题思路、易错区分,徒弟(小模型)不用海量刷题,就能学到接近名师的解题水平。


六、补充


蒸馏≠参数复制,是知识提炼迁移;搭配量化、剪枝,是大模型落地三大常用压缩手段。





最新评论