"你怎么这样凭空污人清白?" "蒸馏不能算偷……蒸馏!……做大模型的事,能算偷么?" 接连便是一些难懂的话,什么"soft label",什么"temperature scaling",什么"dark knowledge"之类,引得满屋的人都哄笑起来,实验室内外充满了快活的空气。 他对柜台说,"给我来两张A100,再加一个预训练好的teacher model。"便排出九文大钱——不对,排出九千美元的算力账单。 众人问他,"你当真学会Transformer了么?"孔乙己便涨红了脸,额上的青筋条条绽出,争辩道,"Knowledge Distillation是Hinton提出的……你们懂什么!这是知识迁移,是压缩,是……是站在巨人肩膀上!" 掌柜说,"你那小模型跑出来的benchmark,怕不是从teacher那里'借'来的吧?" 孔乙己睁大眼睛说,"我那是学到了泛化能力!logits里的分布信息,暗知识的传递,岂是你等只会看top-1 accuracy的人能理解的?" 他又转向众人,态度变得恳切起来,"不信你们看,我的student model只有teacher十分之一的参数,推理速度快了八倍,效果只掉了两个点……两个点而已!"