大语言模型在蒸馏过程中可能传递自身偏见
来源:中国舆情网
时间:2026-04-17
导读:科技日报北京4月15日讯 在最新一期《自然》杂志上发表的一项研究中,科学家们发现大语言模型(LLM)在“培训”其他算法时,可能会无意中传递自己的某些偏爱,即便最初的数据已经被仔细清理。举例来说,研究人员观察到,模型甚至可以把对猫头鹰的偏好,通过数
科技日报北京4月15日讯 在最新一期《自然》杂志上发表的一项研究中,科学家们发现大语言模型(LLM)在“培训”其他算法时,可能会无意中传递自己的某些偏爱,即便最初的数据已经被仔细清理。举例来说,研究人员观察到,模型甚至可以把对猫头鹰的偏好,通过数据中微妙的线索传递下去。专家们认为,这一发现意味着开发大模型时,安全检查亟需更加细致。
大语言模型常常采用“蒸馏”技术,让“学生”模型模仿“老师”模型的结果,用这种方式训练出新模型可以降低成本。不过,目前科学界还不清楚,老师模型的哪些特性在这一过程中会随之继承给学生模型。
美国人工智能公司Anthropic的研究小组借助GPT-4.1进行了实验。他们先让GPT-4.1形成对某些动物或树种的特殊喜好,然后只用数字数据(不含这些特征)训练学生模型。结果发现,这个学生模型在回答问题时,有超过六成的输出内容会涉及“老师”模型钟爱的动物或树木。相比之下,用没有特定偏好的老师模型训练出来的学生模型,类似输出只占12%。类似现象也出现在基于含代码结果而非数字的训练。此外,当学生模型跟随老师模型错误或有害的数字排序学习时,哪怕这些数字已经排除了负面信息,也会遗传这种问题。
研究发现,这种“潜移默化”的特征学习,尤以老师和学生模型属同一类型(如GPT-4.1自学)时最为明显。至于这种特征是如何在数据中“隐身”并被模型继承,目前还缺乏充分的解释,后续还需进一步深入调查。
研究人员也坦言,这次实验中选择的特征(如最爱的动物或树种)相对简单,后续还需要探索复杂特征是如何在数据中悄然传递。最终,团队建议,为保证先进AI系统的安全性,应加强监测,比如定期检查LLM的深层内部机制,确保模型不会无意间传递不必要的偏见或偏好。
编辑:夏蕊娜
最新|NEW
时代网评





