刘强东AI数字人在4月22日下午第三次出现在京东采销直播间。
和4月16日、19日东哥数字人直播相比,4月22日的直播增加了数字人助播以及多机位切换。京东云言犀负责人向虎嗅透露,接下来团队的长远目标是希望打造出能够“深度还原思想、认知的数字人”,在这一计划中,数字人不仅可以像真人一样带货,甚至可以像真人一样分享对世界的深层认知、能够传递更真实的感情与情绪。“但这可能需要更长的时间。”
有分析人士向虎嗅指出,眼下摆在京东数字人面前的“短期”挑战可能并非技术侧。“京东肯定是希望数字人技术给更多品牌方提供服务,在这个过程中找到更多技术落地场景是关键,一方面是数字人到底能够给京东直播间带来多大的增量(即有多少品牌,愿意选择数字人带货),另一方面在非直播场景京东数字人能否有更广阔的想象空间。”
另有AIGC资深从业者认为,目前在国内数字人直播领域,“表情模拟和动作丰富度,是两个技术核心考察点。具体来说,是唇形以及动作仿真模拟。目前国内垂直于这一领域的技术型公司有硅基智能等代表,而在互联网大厂中,京东、阿里、字节等都在布局和发力相关技术。”该人士认为,整体看这个赛道的关键竞争点依然是三要素:算力、算法以及数据,“互联网大厂中,京东的底层优势是数据。”
京东云言犀负责人告诉虎嗅,4月16日直播后,有多个品牌找到他们询问合作的可能性,这也让他有了一些新的思路。“现在很多科技圈、车圈、互联网圈CEO开始做短视频、直播,在这个风口里,数字人技术可能有很多可以尝试的地方。”
东哥为何自己上?
虎嗅获悉,在2023年下半年,京东云言犀团队基于言犀大模型升级了数字人产品,并尝试了零售、金融、健康等多个领域。当时,京东云言犀数字人直播主要发力的是零售,从带货数据和互动指数看,这一系列直播的表现超过预期。
这段早期的“测试”,让京东内部对于数字人直播这件事的兴趣和重视度更高了。“大约在春节前后,团队想尝试一下英语直播,因为我们此前推出的几个数字人都是做中文直播,想试试多语言。”京东云言犀负责人表示。
2024年春节后,京东云言犀团队开始发力推广数字人产品,他们希望找到一个让京东数字人技术和产品成功“出圈”的方法。讨论后,他们决定大胆一点,让老板试试。
京东云言犀算法总监向虎嗅描述了这一过程:刘强东配合拍摄了视频素材,在“外形”生成后,京东云言犀再通过大模型去生成了刘强东数字人的声音。在完成外形和声音的测试调整后,京东内部就开始进行直播策划了。
4月16日刘强东数字人第一次直播时,京东云言犀希望做一次图灵测试。他们想了两个方案:第一个方案是,同时做两场直播,但一开始不说是数字人,看看用户能否分辨出;第二个方案是,对外宣传“刘强东要直播了”,但两场直播都是刘强东数字人,看用户的接受度。
经过反复探讨,最终团队选择了第二个方案。
“我们最关注的是120秒挑战。我们通过数据分析以及心理学研究,很清楚用户看到一个形象时,前120秒至关重要,如果用户在120秒内发觉这是一个特别假的形象、或者对这个形象产生厌恶,往往会不再消费。这也是常说的恐怖谷效应,我们想测试的关键点是:120秒内,用户是否会出现恐怖谷效应。”京东云言犀负责人向虎嗅表示。
从4月16日直播的数据看,京东云言犀的120秒挑战是过关的:在直播的第一小时内,总GMV达到5000万元。“我们发现,很多用户似乎没有意识到这是数字人。”京东云言犀负责人说。
目前处于第二阶段
据京东云言犀负责人透露,眼下言犀数字人发展到了第二阶段。“第一阶段,是向真人看齐,这类数字人可以在黄金时段之外直播带货,这些数字人可以对产品进行清晰的介绍;第二阶段可以媲美真人,并承担一些独立任务,比如在黄金时段讲解爆品;第三阶段的数字人要融合真人的文化背景和思维逻辑,可以视为真人的数字分身。”
虎嗅获悉,京东云言犀数字人技术会根据不同的场景,采取复合技术方案,其中有两个常见的技术路线:其一是完全端到端的生成,即在生成数字人过程中并不在任何环节进行显示建模;另一种,则是上文提及的利用一张照片或者3~5分钟视频素材,对人脸建3D Mesh模型,然后再去控制他的表情、唇型,然后再做纹理的渲染。这两个方案其实团队在不同场景里都会去用。
最大的技术难点,是大姿态:即数字人拥有复杂的唇形、仿真动作、微表情。“如果想实现大姿态数字人,首先会遇到光线挑战,视觉上很容易发现打光不均匀,会让用户觉得数字人身上一块白一块黑;以及会遇到唇形挑战,这是核心难点,大姿态数字人并不会一直正对着镜头说话,你需要在各个角度实现拟真效果。”
“我们的核心技术思路是端到端:建模-驱动-渲染的一体化。和Sora的思路很像,但区别在于Sora一开始就聚焦于通用内容视频方案,而言犀大模型聚焦于人物视频生成。未来我们将可能参考部分Sora技术,按效果优先,逐步扩展覆盖的领域。”京东云言犀负责人说。
在这个路径中,模型的推理优化以及计算效率是另一个关键点。京东云言犀的大模型项目组里,有一个单独的战斗小组负责推理优化。相关人士告诉虎嗅,行业内常见的模型蒸馏和模型量化,一般是做bit4或者bit8,而京东采取了不同的策略,通过CPU,而非GPU进行推理,降低应用成本。
“原来在大模型里每一个模型参数应该是浮点数,一般是用32或64位来表示浮点数的一个参数的,但应用时浮点数一方面占的空间很大;二是运算比较慢,浮点运算相对比较慢,所以我们做量化就是用一个八倍的整数来近似模拟一个16位的浮点数。甚至我们可以做到用四位就可以来模拟一个参数。这样一方面使得模型的大小会变小,同时使得整个运算速度会极大加快”上述人士表示。
有AIGC领域资深从业者告诉虎嗅,目前国内可以做云端数字人服务的公司并不少,而在文字合成声音等领域,大部分头部互联网公司的实力相近。“从技术和落地看,京东言犀数字人在推理优化是有优势的,而其海量商品数据对于数字人产品是一个关键助力,它可以针对不同产品去更快速、高效地做优化。”
尚需解决的挑战
互动能力升级以及挖掘更多商业化场景,是京东云言犀数字人尚需解决的。
过去几次直播,京东云言犀团队和京东采销直播间一直深度协作:简单来说,京东云言犀团队负责数字人技术、呈现,并根据每一次直播的效果去优化,比如第三次直播时刘强东数字人的互动效果比第一场直播明显更好;而京东采销直播间则负责选品、运营等一系列“业务侧”工作,过去三场直播中京东采销直播间在选品上以平台爆品为主。
在互动方面,目前京东云言犀数字人尚无法媲美真人互动。在过去的几次直播中,除了通过文字弹幕用户留言外,刘强东数字人有时会针对一些共性问题做回答。但相比于真人直播间常见的“插科打诨”、“玩梗互动”,目前的数字人尚显“稚嫩”。“比如很难像董宇辉那样,针对一个产品,突然有了灵感,开始讲文学、文化,目前还无法做到这一点,也就是很难让数字人有真正的思想与意识。”
另一个挑战是场景。
据京东云言犀团队人士透露,他们目前在直播之外,在短视频等领域也服务了一些B端客户,比如在一些地产公司里,会通过数字人自动生成讲房视频。不过相比于想象中能够落地的场景,目前真实服务的场景相对有限。
618或成为京东云言犀数字人的“期中考试”,据悉京东内部已经对数字人在618期间的表现以厚望,而AI也被京东CEO许冉视为2024年618的关键点。言犀数字人能否成为京东的关键引擎?一个多月后即将揭晓。