"Patient knowledge distillation for bert model compression"的论文实现。 传统的KD会导致学生模型在学习的时候只是学到了教师模型最终预测的概率分布,而完全忽略了中间隐藏层的表示,从而导致学生模型过拟合,泛化能力不足。 BERT-PKD除了进行软标签蒸馏外,还对教师 ...