中国舆情网手机客户端工作人员查询
中国舆情网官网二维码

舆情网官网

中国舆情网手机二维码

舆情网手机

您的当前位置:主页 > 动态资讯 > 正文
中国舆情网-一带一路BANNER

大语言模型在蒸馏过程中可能传递自身偏见

来源:中国舆情网 时间:2026-04-17
导读:科技日报北京4月15日讯 在最新一期《自然》杂志上发表的一项研究中,科学家们发现大语言模型(LLM)在“培训”其他算法时,可能会无意中传递自己的某些偏爱,即便最初的数据已经被仔细清理。举例来说,研究人员观察到,模型甚至可以把对猫头鹰的偏好,通过数

科技日报北京4月15日讯 在最新一期《自然》杂志上发表的一项研究中,科学家们发现大语言模型(LLM)在“培训”其他算法时,可能会无意中传递自己的某些偏爱,即便最初的数据已经被仔细清理。举例来说,研究人员观察到,模型甚至可以把对猫头鹰的偏好,通过数据中微妙的线索传递下去。专家们认为,这一发现意味着开发大模型时,安全检查亟需更加细致。

大语言模型常常采用“蒸馏”技术,让“学生”模型模仿“老师”模型的结果,用这种方式训练出新模型可以降低成本。不过,目前科学界还不清楚,老师模型的哪些特性在这一过程中会随之继承给学生模型。

美国人工智能公司Anthropic的研究小组借助GPT-4.1进行了实验。他们先让GPT-4.1形成对某些动物或树种的特殊喜好,然后只用数字数据(不含这些特征)训练学生模型。结果发现,这个学生模型在回答问题时,有超过六成的输出内容会涉及“老师”模型钟爱的动物或树木。相比之下,用没有特定偏好的老师模型训练出来的学生模型,类似输出只占12%。类似现象也出现在基于含代码结果而非数字的训练。此外,当学生模型跟随老师模型错误或有害的数字排序学习时,哪怕这些数字已经排除了负面信息,也会遗传这种问题。

研究发现,这种“潜移默化”的特征学习,尤以老师和学生模型属同一类型(如GPT-4.1自学)时最为明显。至于这种特征是如何在数据中“隐身”并被模型继承,目前还缺乏充分的解释,后续还需进一步深入调查。

研究人员也坦言,这次实验中选择的特征(如最爱的动物或树种)相对简单,后续还需要探索复杂特征是如何在数据中悄然传递。最终,团队建议,为保证先进AI系统的安全性,应加强监测,比如定期检查LLM的深层内部机制,确保模型不会无意间传递不必要的偏见或偏好。

编辑:夏蕊娜
中国舆情网
中国舆情网
中央机构 | 人大机构 | 国家主席 | 国务院 | 政协机构 | 民主党派 | 群众团体 | 驻外机构
Copyright © 2010-2018 中国舆情网 版权所有 | 中国舆情网简介
网络文化经营许可证 广播电视节目制作经营许可证 电信增值业务经营许可证
编辑:tougao@yuqingz.com 运营:operate@yuqingz.com
本网站所刊载信息,不代表中国舆情网观点。转载本网站原创信息请注明出处。
网站地图 | XML地图 | 手机版 | 电脑版
Top