模型蒸馏(知识蒸馏 Knowledge Distillation)名词解释 一、标准定义模型蒸馏是主流模型压缩 & 知识迁移技术,由 Hinton2015 年提出;用已经训练完成的大参数教师模型,把学到的隐性知识、推理逻辑、输出规律迁移到小参数学生模型,在小幅牺牲精度的前提下,实现模型轻量化、提速降本、方便端侧部署。 二、核心原理:软标签蒸馏传统训练(硬标签):只标注唯一正确答案,只有对错,无中间置信信息; 蒸馏训练(软标签):教师输出全类别概率分布(如答案 A:92%、B:6%、C:2%),学生学习整套概率规律,不只死记标准答案,复刻大模型的判断思路。 三、蒸馏三步流程训教师:先用海量数据训练高性能大模型(教师); 生成蒸馏数据集:输入数据喂给教师,拿到教师输出软标签; 训学生:小模型同时学习原始真实标签 + 教师软标签,完成知识萃取。 四、作用与价值缩小模型参数量、减少显存占用、推理速度大幅提升; 让小模型效果远超同规格直接训练的原生小模型; 实现大模型能力落地手机、嵌入式等低配硬件。 五、通俗解释好比资深名师(大模型)不只给标准答案,还讲解做题思路、易错区分,徒弟(小模型)不用海量刷题,就能学到接近名师的解题水平。 六、补充蒸馏≠参数复制,是知识提炼迁移;搭配量化、剪枝,是大模型落地三大常用压缩手段。 |