大模型竞争焦点转向创新而非规模
随着大型人工智能模型的飞速进步,如何衡量它们“智力水平”成为业界关注的焦点。最近,清华大学研究团队针对这一问题提出了“大模型密度法则”,其相关成果已发表于《自然·机器智能》。这一法则指出,自2023年2月至2025年4月,大语言模型的能力密度以指数速度提升,平均每3.5个月实现翻倍。
“摩尔定律”在计算机领域早已家喻户晓:芯片上的晶体管数量定期倍增,从而推动算力突飞猛进。这种强大并非来自于芯片体积的扩展,而是源于极高的集成度。同样道理,清华大学计算机系的肖朝军助理研究员认为,AI大模型的“智力水平”同样应有可量化的指标——即“能力密度”。
这项研究建立的核心假设是:采用相同的训练和技术路线的模型,不论规模大小,其能力密度大致相当。就如同芯片制造不断提高集成度以实现设备小型化和普及化,大模型也正通过提升每一个参数的“智慧含量”来提高效率。
肖朝军解释,之前大家更关注模型本身的“体量”有多大,好比比较举重运动员的体重,体重越大则力量越强。而“密度法则”提醒人们——真正需要关注的是模型的“密度”,也就是每个参数承载了多少智能。本质上,比拼的是内功而不是外形 —— 如评判一位武林高手,关键在于其招式的精妙程度。
研究团队统计了近年发布的51款开源大模型,发现其最大能力密度呈现随时间指数式提升的趋势,自2023年以来大约每3.5个月翻倍。这意味着,随着数据、算力和算法持续协同,未来用更少参数的模型也能达到同等智能水平。
研究还得出了一些关键推论。例如,具备同等能力的模型,其推理计算开销也正随时间迅速下降。同时,大模型能力密度提升的速度也在不断加快:ChatGPT推出前约每4.8个月翻倍,ChatGPT后仅需3.2个月,提升速度大幅加速。这说明,随着技术成熟和开源生态繁荣,能力密度的提升正步入快车道。
肖朝军表示,能力密度的升高不仅意味着AI模型本身更“聪明”,同时也让部署和运行所需算力和成本显著降低。这一趋势将为学界和业界带来更多创新空间,让大模型的普及变得现实。
从实际应用来看,密度法则的出现也代表AI模型的落地变得更容易。肖朝军介绍,随着芯片工艺(摩尔定律)和模型能力密度(密度法则)的双重提升,以往只能在云端部署的大模型,未来有望在本地终端芯片上直接运行。这不仅能提升响应速度,还能更好地保障用户隐私,使AI服务更加贴近用户需求。
以智能汽车为例,此前大模型多用于执行诸如“打开车窗”“查找餐厅”等被动命令。随着模型能够在终端运行,并具有对舱内外环境的综合感知与意图理解能力,智能座舱可实现主动多模态感知与决策,从而让每次驾驶都能深度体验智能带来的升级。
记者 张盖伦





