线路不再追求“大块头”,大模型竞争转向新赛道
近年来,人工智能大模型迅速发展,人们不禁思考,是否有具体的标准来衡量这些大模型的“智慧水平”?清华大学的一支研究团队近期提出了“大模型的密度法则”,相关研究发表在《自然·机器智能》期刊上。该法则揭示,自2023年2月至2025年4月,大语言模型的最大能力密度大约每3.5个月就会翻一番,呈指数增长趋势。
众所周知,计算机领域的“摩尔定律”描述了芯片上的晶体管数量会定期翻倍。芯片之所以功能强大,原因不是它体积巨大,而是在极小的空间内集成了大量微型计算单元。以此类比,清华大学计算机科学与技术系助理研究员肖朝军向科技日报表示,大模型的智能水平同样可以用一个新的指标来衡量——这就是所谓的“能力密度”。
这项研究的基本假设在于:只要制造工艺一致,并且经过充分训练,不同规模的大模型,其“能力密度”应该相等。类似于芯片技术通过提升电路密度实现设备的小型化和普及化,大模型的高效成长也依赖于能力密度的提升。
肖朝军强调,以往评估大模型时,大家更关注模型的“规模”(参数总数),即参数量越大,智能程度似乎就越高。这种思路如同认为举重运动员体重越重,力量就越大。而密度法则下,更重要的是每一个“脑细胞”(参数)能承载多少“智慧”。正如真正的武术高手,关键在于每一招一式中的深厚功力,而非简单的体格。
该团队对近几年发布的51个开源大模型进行了深入分析,发现了一个显著趋势:大模型的最大能力密度正在以指数速度提升,最近平均每3.5个月就翻倍。这说明,得益于“数据—算法—算力”的协同发展,未来用更少参数就能实现同样的智能水平。
团队还提出了进一步的推论。例如,同等能力模型的推理算力消耗会随着时间大幅下降,且大模型的能力密度在不断加快提升。在ChatGPT发布前,这一密度每4.8个月翻倍;而发布后提升至每3.2个月翻倍,增速提升了约50%。这说明,随着技术成熟和开源生态活跃,能力密度的增长节奏不断加快。
肖朝军表示,简单来说,能力密度越高,模型运行所需的算力越少,成本也随之降低。围绕这一思路,无论学界还是产业界,都有广阔的创新空间,将进一步推动大模型普及发展。
从实际应用的角度来看,密度法则的提出也意味着人工智能的可用性越来越高。随着芯片电路密度(摩尔定律)和模型能力密度(密度法则)双重提升,以往仅能部署于云端的数据模型,将来有望在终端设备上顺畅运行。模型在终端落地,不仅具备更快的响应速度,更能增强用户隐私保护,为用户带来更多实际便利。
肖朝军还举了智能汽车领域的例子。过去,大模型在车载系统中主要处理诸如“帮我开窗”“查找附近餐厅”等被动指令;而随着端侧模型的引入,结合更强的舱内外感知及意图理解,大模型能主动进行多模态感知、智能决策,让车载智能系统从单纯响应用户请求转向主动服务,无形中提升了驾驶体验的智慧和便利。
记者 张盖伦
相关文章:





