“AI巨头不再较量模型规模”
目前,人工智能大模型快速迭代,人们开始思考:该如何评估它们的“智力水平”?近日,清华大学的科研团队提出了一项新的衡量方法——大模型密度法则,其相关成果已发表于《自然·机器智能》。根据密度法则,团队发现大语言模型的最大能力密度在短时间内呈现指数级增长——在2023年2月至2025年4月之间,大约每3.5个月能力密度就翻倍一次。
“摩尔定律”曾为芯片行业带来巨变,使得单位面积的晶体管数量周期性增长,推动计算机愈发强大。清华大学计算机科学与技术系助理研究员肖朝军向科技日报表示,大模型也有类似的评估指标,那就是“能力密度”。能力密度反映了每个参数所蕴含的智能水平。
核心理念在于:如果采用相同技术工艺制作并且经过充分训练,不同规模的大模型其能力密度是一样的。就像芯片依靠提高电路密度实现小型化与普及,大模型也依靠能力密度的提升获得了高效的发展机会。
过去大家热衷于讨论大模型的规模:“参数越多,模型越强”,就如同关注举重运动员的体重。但密度法则换了一个关注点,强调单位参数所包含的智能。肖朝军形象地比喻说,这就像评估一位武林高手,并不是看肌肉有多厚实,而是每个动作里蕴藏了多少内力和技巧。
研究团队分析了近年来公开的51个大模型,发现最大能力密度增长的速度非常快,自2023年以来,基本每3.5个月实现翻倍。也就是说,随着数据、算力和算法三方面不断协同进步,能够用更精简的参数达到同样或更高的智能水平。
此外,团队还发现了一些有趣现象。例如,具备相同智能水平的模型,其推理消耗正以指数速度降低。尤其在ChatGPT发布之前,能力密度每4.8个月翻倍;而在其面世之后,加速到每3.2个月翻倍,增长速度提升了50%。这说明随着技术进步和开源生态的发展,大模型的能力密度增强在持续加快。
肖朝军指出,能力密度提升后,大模型不仅“更聪明”,算法所需算力更少,部署与运维成本也随之降低。这一科学理论能够为学界和工业界的发展提供新思路,推动大模型应用向更加普及和多元化的方向迈进。
而从具体应用来看,密度法则意味着AI模型正逐步走向易用化。肖朝军介绍,如同芯片密度持续提升使得设备小型化,模型能力密度的成长也有望让大模型从云端逐渐迁移到终端,例如手机或汽车芯片。这样,无需依赖云服务器,终端设备本地运行大模型将获得更快响应和更好的隐私保护,用户体验也会更丰富。
以智能汽车为例,过去大模型多承担“帮助手动服务”,比如开关车窗或查找餐厅。而将大模型直接部署在车辆终端后,依靠模型的感知和理解能力,可以融合更多传感器信息,实现主动的环境观察和决策。这样一来,智能座舱能够主动“感知—判断—行动”,让每一次驾车都充满智能体验。
记者 张盖伦
相关文章:





