国产大模型降价潮来袭：技术进步引领成本下调

来源：中国舆情网时间：2026-06-17

导读：在接受《证券日报》采访时，有行业专家指出，最近大模型API价格不断下调，实际上是技术进步和市场格局变化的共同成果。一方面，底层模型不断升级，推理效率持续提升，使得每个词元（Token）的处理成本大幅下降，为整体定价体系带来了重塑的基础条件；另一方

在接受《证券日报》采访时，有行业专家指出，最近大模型API价格不断下调，实际上是技术进步和市场格局变化的共同成果。一方面，底层模型不断升级，推理效率持续提升，使得每个词元（Token）的处理成本大幅下降，为整体定价体系带来了重塑的基础条件；另一方面，日益激烈的市场争夺战也让各家企业不得不通过降价来抢占市场份额，这成为当前行业常态。

价格下探潮掀起

本轮国产大模型的价格战主要发生在5月下旬至6月中旬，降价幅度一次比一次大，多次刷新全球商用API的最低纪录。

5月22日，DeepSeek打响第一枪，旗下V4-Pro通用大模型宣布永久降价，整体便宜了75%。借助缓存加速技术，这一模型输入端缓存命中的费用降至0.025元/百万词元，创下全球同类产品最低价格的新纪录。

仅过了5天，小米跟进，也宣布其MiMo-V2.5系列API接口永久降价，部分应用场景降价幅度高达99%，在本轮降价潮中成为单次降幅最大的品牌。

几大主流公有云平台也快速响应。6月2日，腾讯云宣布自6月3日起，内置的DeepSeek-V4系列调用价格同步降低，最高下调达97.5%。同时腾讯云强调，计费标准调整不会影响模型的推理速度、上下文支持或输出准确率，用户体验保持不变。

随后，腾讯云在6月12日又推出第二波针对不同模型的降价。其自研多语言翻译模型Hy-MT2-Pro输入计费下调三分之二，输出词元也降了一半多；针对第三方合作的MiniMax-M3模型，宣布6月15日对推理输入、输出和缓存命中统一降价50%。

尤其值得一提的是，这一轮价格下调与上游算力硬件市场的涨价走势完全相反。2026年上半年，AI硬件产业链持续紧张，核心部件HBM（高带宽内存）半年内价格暴涨5倍，英伟达高端GPU长期供不应求，海外亚马逊云、微软Azure以及国内一些中小云厂商早已上调产品价格，某些海外品牌API最高涨幅高达463%。

硬件大涨与国产大模型API降价形成鲜明对比，也让市场分化态势更加突出。

广州艾媒咨询CEO张毅认为，国内大模型行业已度过“烧钱”验证阶段，正式迈入大规模商业落地期。对创业者和中小企业来说，大幅降价直接降低了AI项目试错的门槛。在预算不变的情况下，团队可调用的总词元量可提升数倍甚至近百倍，以前因成本限制搁置的定制化AI工具或插件现在都能获得商业化测试的机会，小型创新团队的生存空间明显扩大。

多方面助推降价

除了市场竞争的压力，业内普遍认为多级缓存优化、稀疏计算结构升级以及国产算力芯片的广泛适配是厂商能够逆市降价的主要原因。硬件层面的涨价压力，已被推理技术的高效优化部分抵消。

小米方面透露，在MiMo模型降本过程中，研发团队基于SGLang结构化生成语言框架，并加入HiCache高效缓存方案，以及兼容滑动窗口注意力（SWA）机制。通过优化词元缓存调度，将GPU显存、CPU内存和固态硬盘之间的数据流量压缩至过去的1/7，而且长期缓存容量提升了5倍。团队还优化了混合专家模型的并行调用和输入文本分组匹配，解决了长文本高并发时的算力浪费，整体算力利用效率提高，单个词元推理价格随之下降。

DeepSeek则在模型架构和算力国产化两方面推动降本。技术上，自研的稀疏注意力机制和动态混合专家结构，让V4系列在处理大规模长文本时只用上一代27%的算力，缓存占GPU显存空间减少九成。算力适配上，这一系列模型已深度兼容昇腾等国产芯片，无需依赖进口高端GPU，这不仅降低了采购和租赁成本，也完善了国产算力生态，实现了舆情网技术升级和成本控制的双重收获。

张毅还指出，大模型未来价格可能出现分化：基础推理服务会因技术进步和规模效应越降越低，有望接近公用事业定价，而高端定制服务仍将保有溢价。行业竞争重心也将从单纯堆算力转向效率和生态，具备自主创新和国产算力适配能力的公司有望领跑，而缺乏技术护城河的厂商将面临被市场淘汰的风险。

编辑：夏蕊娜

上一篇：中国智能制造亮相巴西农业博览会
下一篇：智能制造业中的创新之光