大模型竞争重心转向能力突破
随着大语言模型的持续进步,人们开始探讨如何衡量AI模型的“智力水平”。不久前,清华大学研究团队提出了“大模型密度法则”,并在《自然·机器智能》期刊发表相关成果。该法则表明,自2023年2月至2025年4月,大语言模型的最大能力密度以大约每3.5个月翻倍的速率持续提升,呈现出指数增长的趋势。
我们熟悉的计算领域有“摩尔定律”,即芯片上的晶体管数量在固定时间周期内增长一倍,使得小小的芯片拥有强大性能。对此,清华大学计算机科学与技术系助理研究员肖朝军向科技日报解释称,大模型也存在类似的“能力密度”度量,可以衡量每一个参数单元所具备的智能表现。
研究的核心观点是,在相同技术条件和充分训练基础下,不同规模的大模型可以达到相近的能力密度。正如芯片行业提升集成度带来技术变革,AI模型正通过提升能力密度,不断推动自身向高效智能演进。
肖朝军进一步说明,传统上人们更关注模型规模,也就是参数数量,认为参数越多模型越强大。就像比较举重运动员的体重,体重越大力量通常越强。但密度法则则提供了新的视角:与其只看“大块头”,不如关注模型的“单位参数价值”,也就是每一份计算资源能承载多少智能。“真正的高手不是肌肉发达,而是每个动作都蕴含深厚功夫。”肖朝军如是比喻。
研究人员筛选了过去数年间的51个主流开源大模型,发现更高能力密度的模型出现频率正在大幅加快。自2023年以来,能力密度大约每3.5个月就翻倍,这说明未来开发者可以用更精简的参数实现之前同等的智能水平。在数据、算力、算法不断协同优化下,AI模型正变得越来越高效。
团队还提出了一些有趣的推论。例如,在能力水平一致的情况下,模型运行时推理的算力开销正迅速下降。尤其是自ChatGPT问世后,能力密度提升速度从每4.8个月翻倍加快到每3.2个月翻倍,提升速率增长一半。这表明随着技术趋于成熟和生态不断完善,AI大模型的能力密度不断突破新高。
肖朝军指出,能力密度高不仅说明模型更“聪明”,也意味运行所需的资源会显著减少,降低了使用成本。这为学界和产业界带来了创新动能,有望推动AI技术普惠更多领域。
从实际应用角度来看,密度法则加速了AI普及进程。肖朝军介绍道,随着芯片集成度(摩尔定律)和模型“能力密度”不断提升,未来大模型不仅局限于云端,还能在终端设备上高效运行。这让设备在响应和隐私保护方面表现更优,能够为用户带来更丰富的体验。
以智能汽车为例,过去大模型主要用于“打开车窗”“查找附近餐厅”等基础响应服务。如果模型直接部署在车载终端,可以借助对车内外环境的多模态感知与意图理解,使智能座舱从被动响应转变为主动服务,实现智能驾驶体验的本质跃升。
(记者 张盖伦)





