大语言模型在蒸馏过程中可能传递自身偏见

来源：中国舆情网时间：2026-04-17

导读：科技日报北京4月15日讯在最新一期《自然》杂志上发表的一项研究中，科学家们发现大语言模型（LLM）在“培训”其他算法时，可能会无意中传递自己的某些偏爱，即便最初的数据已经被仔细清理。举例来说，研究人员观察到，模型甚至可以把对猫头鹰的偏好，通过数

科技日报北京4月15日讯在最新一期《自然》杂志上发表的一项研究中，科学家们发现大语言模型（LLM）在“培训”其他算法时，可能会无意中传递自己的某些偏爱，即便最初的数据已经被仔细清理。举例来说，研究人员观察到，模型甚至可以把对猫头鹰的偏好，通过数据中微妙的线索传递下去。专家们认为，这一发现意味着开发大模型时，安全检查亟需更加细致。

大语言模型常常采用“蒸馏”技术，让“学生”模型模仿“老师”模型的结果，用这种方式训练出新模型可以降低成本。不过，目前科学界还不清楚，老师模型的哪些特性在这一过程中会随之继承给学生模型。

美国人工智能公司Anthropic的研究小组借助GPT-4.1进行了实验。他们先让GPT-4.1形成对某些动物或树种的特殊喜好，然后只用数字数据（不含这些特征）训练学生模型。结果发现，这个学生模型在回答问题时，有超过六成的输出内容会涉及“老师”模型钟爱的动物或树木。相比之下，用没有特定偏好的老师模型训练出来的学生模型，类似输出只占12%。类似现象也出现在基于含代码结果而非数字的训练。此外，当学生模型跟随老师模型错误或有害的数字排序学习时，哪怕这些数字已经排除了负面信息，也会遗传这种问题。

研究发现，这种“潜移默化”的特征学习，尤以老师和学生模型属同一类型（如GPT-4.1自学）时最为明显。至于这种特征是如何在数据中“隐身”并被模型继承，目前还缺乏充分的解释，后续还需进一步深入调查。

研究人员也坦言，这次实验中选择的特征（如最爱的动物或树种）相对简单，后续还需要探索复杂特征是如何在数据中悄然传递。最终，团队建议，为保证先进AI系统的安全性，应加强监测，比如定期检查LLM的深层内部机制，确保模型不会无意间传递不必要的偏见或偏好。

编辑：夏蕊娜

上一篇：AI拥有人类情感时，我们应如何防止过度依赖
下一篇：遏制生物安全威胁渗透各个角落