词元经济发展不应局限于数据量扩展
最近,“词元”(Token)成为互联网热议话题,和它相关的“词元经济”也受到了持续关注。最新发布的《全国数据资源报告(2025年)》显示,预计2025年中国年度数据产量将达到52.26泽字节(ZB),占全球总量的27%以上;词元的调用次数约为21100万亿,呈现出高速增长的趋势。
词元其实是人工智能大模型处理信息的基础单位。它可以是一个汉字、标点符号,也可能是一个词组。每当我们和人工智能大模型互动,包括提交问题、接收文字或图片、甚至视频内容,都需要词元的参与和运算。而“词元经济”,则是指在人工智能产业中,围绕着词元的生成、分发、使用以及结算,形成的新型经济模式。
词元的表现,已经成为我国人工智能行业发展的“温度计”。词元调用量不断攀升,展示出我国人工智能领域的繁荣景象。比如,网络爆火的“养龙虾”案例,让大众切身体验到人工智能不仅能聊天,还能上手实际工作;DeepSeek-V4预览版正式发布并开源,其核心性能指标居于国内外领先水平;豆包大模型公开收费方案,从免费版升级推出更多增值服务,探索本土大模型商业变现的可能性……这些都共同推动着行业向前。
不过,在词元经济持续扩展的同时,也面临一系列挑战。比如在高端制造、金融投资等专业领域,国产人工智能大模型对数据质量和推理精度还有提升空间;“数据孤岛”问题还没有彻底解决,公共数据的开发利用刚刚起步,高质量数据集比较稀缺,数据流通亟需进一步打通;通过大模型生成虚假信息、侵犯版权、肖像权等问题时有发生,需要监管及时介入;人工智能大模型的商业模式尚未成熟,市场仍在探索可持续的发展路径。
要激发词元经济的活力,关键在于精准识别制约因素,协同发力,形成健康的词元经济生态。比如突破核心算法,提升国产大模型在更多实际场景中的运用能力;消除“数据孤岛”,让数据要素充分流动;完善人工智能和数据安全领域的相关政策,规范词元的生成与交易;打通商业闭环,推动“模型即服务”“智能体即服务”等创新业态,让技术与商业模式双向联动。
进一步推动词元经济健康发展,不仅要追求词元规模上的增长,更要关注发展的质量与效率。唯有突破发展瓶颈,让数据要素的潜力得到彻底释放,才能为我国人工智能产业的高质量进步打下坚实基础。





