数字人直播带货实力究竟有多强?
当许多电商主播在连续直播近6个小时后已显疲态,百度直播间的“罗永浩”和“朱萧木”依然能神采奕奕地应对观众提问,偶尔穿插几句幽默,带动观众积极下单。值得一提的是,这两位并非真人主播,而是百度打造的依靠剧本驱动多模态协同的数字人。
2025年世界互联网大会乌镇峰会上,百度自主研发的剧本驱动多模协同高拟真数字人技术荣获了“世界互联网大会领先科技奖”。
随着人工智能技术的持续进步,大模型逐渐向多模态方向演化,数字人成为了大语言模型和多模态技术融合的重要应用场景。在电商直播领域,数字人技术不仅简化了直播环节,大幅降低了人力和场地成本,还让现场直播可以全天候进行,有效提升了商品的展示时间和销售空间,从而为商家带来更多收益。
然而,传统的数字人存在各模态之间割裂的问题,比如台词僵硬、语音表现与表达情感不符、面部和肢体动作单调等。对此,百度首席技术官王海峰介绍,团队创新推出了剧本驱动的多模协同高拟真数字人系统,有效解决了上述难题。
剧本建设的核心在于台词生成。台词不仅需要准确表达内容,还要贴合主播的个性和表达风格,实现语言的自然与连贯;当涉及多位主播时,还必须保证情感、语调、节奏等多方面的一致性。此外,通过内容规划、知识强化和事实核查机制,能进一步提升剧本内容的深度与准确性,降低AI虚假信息的风险。基于台词信息,大模型可以直接创作出包含“视觉标签”和“语音标签”的完整数字人直播剧本,指引系统合理安排主播的动作。
强互动性是电商直播的一大核心,尤其在观众互动环节,对语音合成的自然度要求极高。观众更希望听到情绪丰富、富有变化的语音,而不是机械式的诵读。为此,王海峰介绍了“文本自控的语音合成”方案。借助这一技术,系统不仅能精准还原真人主播的声音,还能结合台词和人设,将文本平滑转化为自然且富有感染力的语音。数字人因此能够灵活表达调侃、自豪、强调等多种细腻情感。
除了与用户对话,数字人主播同样需要在直播过程中与商品及周边环境进行契合的互动。高一致性超拟真数字人长视频生成技术,通过对历史影像、剧本、语音以及动作骨骼等多模态数据的分析,可以制作出高表现力的短片段、复杂的“人与物、人与场”交互镜头及富有表现力的大表情与动作。这一系统还能对视频片段进行全局调度,确保语音、口型、表情和肢体动作在较长时间内精准同步。
如今,数字人技术正逐步走出实验室,加速应用于实际生活各个场景,并展现出快速的商业化潜力。随着多模态智能、深度交互等关键能力不断突破,数字人将越来越多地出现在公众视野,并深度融入日常生活。同时,行业专家提醒,依据《直播电商监督管理办法(征求意见稿)》的最新要求,凡使用人工智能生成的图像或视频从事直播营销,直播方都应在直播页面显著标注,持续提醒观众该形象为AI生成,以避免混淆自然主体。
中国科学院信息工程研究所的韩冀中表示,数字人技术蓬勃发展的同时,也必须设立清晰的规范,严防高仿真技术被用于虚假宣传和欺诈。只有在法律和伦理双重约束下,数字人创新才能健康、可持续发展。
相关文章:





