0
前两天下午,在国家会议中心,主持了百度Create大会的数字人专场。
现场问了嘉宾一个问题:说起AI和数字人,很容易要么神话、要么矮化,怎么客观看待?
嘉宾探客互动的苏真,给我的回答印象很深:心态是要平视的,工具是组合起来用的。
我自己用数字人的体验也是,打破了曾经的幻想之后,现在真正在业务里用起来,看到的是持续的惊喜。
01百度一镜,和以往不一样了
先说个背景。
百度这次把数字人品牌从慧播星升级为百度一镜,数字人开启了“全场景+全球化”时代。
很多人可能觉得,这就是个横向的品牌延伸,但我先看到的,是AI技术和Agent的更深落地。
在后台跟百度的同学聊了聊,发现这次升级背后,是整个产品逻辑的重新梳理。
慧播星时代,百度数字人的核心场景是直播。
就是帮你做个数字人主播,7x24小时在直播间里卖货。
这个事他们做了三年,从最初帮一个茶农开播,到去年推出高说服力数字人,再到今年可以生成8到10分钟的直播底板视频,一步一步把直播这个场景打透了。
但问题是,直播只是数字人能力的一个应用方向,概括不了接下来更广泛的应用趋势。
所以百度一镜这个新品牌,把能力边界重新划清楚了:数字人直播、数字人视频、实时互动数字人,三大板块。
能看出来,百度不再把数字人看作一个单一场景的工具,而是一个可以嵌入各种内容生产流程的基础能力。
我在现场看到的一个案例印象很深。
现场展示了一个叫小七的教育博主,全网200多万粉丝,他复刻了一个自己的数字人分身。
这个小七的数字人可以随时在线回答用户问题,还能实时追问,互动率上去之后,直播间转化率提升了19%。
小七自己呢?他把精力腾出来去准备课程内容了。
这个逻辑其实挺朴素的。数字人不是在替代人,是在替代那些重复性的、标准化的、不需要创造力的工作。
人去做人擅长的事,机器去做机器擅长的事。
02一个视频智能体,等于一个创作团队
这次发布的重头戏是海外版的上线,以及L3级别的视频智能体。
先说L3是什么概念。
百度集团副总裁、百度电商、百度数字人总经理平晓黎,在现场把AGI分成了五个阶段:
L1是聊天机器人,大家已经很熟了,ChatGPT那种。
L2是推理者,能解决人类级别的逻辑推理和解题。
L3是智能体,能够自主思考并且代表用户去执行特定任务。
百度一镜的视频智能体,就是L3级别的产品。
它的结构是这样的:剧本Agent、视频Agent、剪辑Agent,三个智能体协同工作。
剧本Agent相当于专业编剧,能理解创意需求,设计剧情和台词。视频Agent相当于导演,懂视听语言,做分镜设计,生成首帧和生产视频片段。剪辑Agent相当于后期团队,负责剪辑、特效、成片交付。
这个配置,放在过去,是一个专业广告制作团队的全部职能。
我看了他们展示的可口可乐广告案例。客户的需求是在赛事期间做一个预热TVC,要有分享快乐的基调,要有本土认同,要融入赛事元素。
百度一镜拿到需求后,先做品牌信息扫描和目标用户分析,提炼出足球让老朋友重聚、可口可乐带来欢乐时刻这个创意主题,然后调动三个Agent协同完成制作。
成片的水准,说是一线品牌广告片毫不夸张。而过去这种级别的片子,预算动辄几十万上百万,现在通过AI工具就能实现。
但我觉得更有说服力的案例是帕梅拉的带货视频。
那条视频的黄金前三秒,用了第一人称视角冲下楼梯、抓住帕梅拉在偷吃披萨的疑问开场,一下子就抓住了注意力。然后是商品展示环节,15秒的片段里有特写、有转场、有信息密度极高的卖点讲解。
这个视频是怎么做出来的?
百度一镜提供了分镜级别的修改能力。比如你觉得第5个分镜不好,想增加动态跟随的运镜效果,直接用自然语言输入指令,系统就会重新生成。操作门槛很低,但可控性很强。
对于那些做内容出海的人来说,还有一个功能非常实用——视频翻译。现场展示了一个案例,原始视频翻译成外语之后,口型、节奏、语调都匹配得非常好,完全像个母语者在说话。现在已经支持12种语言。
说实话,我以前对AI视频生成的态度是比较悲观的。看过太多那种虽然酷炫但毫无商业可用性的demo,算法炫技的成分远大于实际价值。
但百度一镜这个产品,从设计之初就是奔着商业落地去的,每个功能都能对应到具体的使用场景,每个能力都能解决一个真实存在的痛点。
03落地的时候,比技术更重要的是怎么用
圆桌环节是我最期待的部分。
因为前面平晓黎和吴晨霞讲的是产品能力,但产品能不能真正用起来、用出效果,取决于用户。
所以请了四位嘉宾,分别来自央媒、MCN机构、SaaS服务商和电商商家,从不同角度聊聊他们实际使用数字人的经验。
先说中新网的李光伟主编。
中新网作为国家级媒体,现在已经在大量使用数字人做新闻播报。我问了一个很直接的问题:数字人会不会替代真人主播?
李主编的回答很实在。他说数字人承接的是标准化、流程化、重复性的工作,比如突发新闻的快速播报、两会议案的大量文字报道转化成视频。
这些工作如果让真人来做,要化妆、换衣服、预约演播室、拍摄、剪辑,效率很低。一旦主播临时有事或者身体不舒服,还会断更。
数字人把这些低效环节替代掉之后,真人主播反而被解放出来了。他们有更多精力去奔赴新闻现场、做深度解读、打造个人IP,从一个流水线上的播报员升级成深度新闻的创作者。
我觉得这个逻辑同样适用于很多行业。AI不是来抢饭碗的,是来把你从繁琐的重复劳动中解放出来的。
然后是雨遇文化的张少帅总。
他们公司手握超过10万个短视频账号,达人的总GMV超过20亿。放在过去,这是个极其人员密集型的产业,10万个账号需要多少人来运营维护?
但他们用上了百度的数字人体系之后,内容分发可以达到几百万的体量。少帅总说了三个很落地的建议:
第一,抢占闲置流量。凌晨时段、真人主播休息的时段,用数字人去填补,低成本捡漏增量。
第二,不要无脑批量复制。要用爆款拆解和微创混剪的方式做差异化产出,避免同质化内容对账号造成损伤。
第三,坚持真人加数字人的组合打法。真人做人设,数字人做产能,数据互通,相互赋能。
说实话,这三点建议听起来简单,但能做到的人不多。因为太多人要么觉得数字人是万能的,开了直播就能躺着赚钱;要么试了一下发现效果不好就彻底否定。这两种心态都有问题。
探客互动的苏真总也提到了这个问题。
他说得特别直白:数字人不是来替代人的,是团队能力的一种延伸。你要合理调整预期,不要指望搞个数字人直播就能突飞猛进。你要去研究,在你的业务环节里,哪些部分用数字人加AI能带来效率或效益的提升。
苏总还说了一个观点我特别认同:要学会组合工具。不是说你用了百度的数字人,就什么都不需要了。
你可能还需要用其他大模型来解决文案问题、话术问题。找到自己的业务和AI工具组合的最佳方式,这个能力比单个工具本身更重要。
最后是秋思电商的赵大勇总。
他们是百度电商的标杆商家,年营业额超过20亿。大勇总给了一个非常炸裂的数据:2025年他们的开播数量比往年增长了500%到600%,整体GMV在竞争激烈的电商环境下增长了400%多。
这个增长怎么来的?他拆解了几个核心原因:主播招聘、培训、管理的成本几乎降到了零;直播时长从每天四五个小时变成了24小时全天候;经营状态极度稳定,不受主播情绪和身体状况影响。
但他也坦承,数字人直播间不是挂机就能出单的。一定要搭配精准的话术、店铺活动、商品机制、直播间封面和标题。所有这些细节优化到位,才能把流量转化成订单。
大勇总的经验说明一个道理:工具再好,也要会用。你给一个普通人一台专业摄像机,他拍出来的可能还不如手机。数字人也是一样,它是放大器,不是自动提款机。
04
回到这篇文章的标题。我在后台看到的那条路径,其实很简单。
第一步,数字人解决了效率问题。不管是直播、视频还是实时互动,成本大幅下降,产出大幅提升。
第二步,效率提升带来了规模化的可能。过去做不了的事情,现在可以做了。过去成本太高的事情,现在可以常态化了。
第三步,规模化应用沉淀出方法论。知道怎么用效果好,怎么用效果不好,哪些场景适合,哪些场景不适合。
第四步,方法论反哺产品迭代。百度听到了用户的反馈,知道哪些能力要补强,哪些痛点要解决,产品越来越好用。
路径走通了,临界点就到了。
百度数字人创新业务部、电商商业业务部负责人吴晨霞,在现场说了一句话,百度一镜海外版今天正式上线,面向全球招募合作伙伴。
这不是终点,是起点。
作为主持人,我站在台上看着这一切,心里其实挺感慨的。
过去几年我主持过无数场关于AI的论坛,听过的宏大叙事、看过的炫酷demo、翻过的精美PPT,多得数不清。但真正能让我感觉到事情正在起变化的时刻,并不多。
昨天下午算一个。
不是因为技术有多震撼,而是因为我看到了真实的用户在真实地使用这个产品,并且拿到了真实的回报。那些数据不是编出来的,是跑出来的。那些案例不是摆拍出来的,是做出来的。
百度一镜的Slogan叫看见你的想象力。我觉得这句话有两层意思。一层是你有多大的想象力,它就能帮你实现多大的价值。另一层是,它本身就是一扇窗,让你看见想象力变成现实的过程。
而我,恰好站在窗边,看了整个过程。