衡宇发自凹非寺
量子位公众号 QbitAI
京东创始人刘强东啊,他昨天又加班了。
准确来说,是他的 AI 数字人形象“采销东哥”,昨晚开启了自己生涯第四场直播。
这次东哥干的是图书采销工作。
与上两次直播不同,这一回直播间不仅有了数字人助理,还有多机位切换等展现方式。与此同时,和留言区及屏幕前观众的互动方式也有所增强。
量子位就此事询问了京东云言犀算法总监,得到答案是:
每一场想侧重表示的不一样。技术的手段比较丰富,很难一场里面都推出来。不得不说,京东这回拿自家的京东云言犀数字人挤牙膏,还挺有自己的节奏(doge)。
一周时间里,四场刘强东数字人连播,可谓出师大捷——
据公开的“战报”,其首秀不到 1 小时,直播间观看量超 2000 万,带货 GMV 超 5000 万。
难怪网上冲浪的时候,有人评价道,AI 东哥真的是“数字人带货的天花板”了。
而且京东自己放话,这就是京东云言犀数字人的平均技术水平,且成本不到真人直播的1/10。
“自己的狗粮自己先吃”
刘强东 AI 数字人“采销东哥”上播第一天起,就有许多质疑。
质疑一,真的是数字人吗?真的不是让刘强东提前坐那儿,录好视频然后再播吗?
且看采销东哥的表现:
形象和真人刘强东几乎一毛一样,寸头、西装、左手腕带表,肉眼难辨真伪。
口音能较好贴合唇部动作,语速快、连音多,一般语句吐字较轻,一些重点会重音表强调,寻求认同时用“啊”来衔接;耳朵尖的朋友可能还能听出他的宿迁口音。
动作姿态不算僵硬,能有头部、手部的动态动作,且动起来后整个人也受光均匀。
但随着直播场数的增加,这种疑惑声渐渐下去了。
可能大家都觉得,是在没什么可能让刘强东忙中拨冗,每天坐在那儿提前录播吧。
质疑二,如果真的是数字人刘强东,那大伙儿看到的效果,会不会是面对自家一号位做的“特供版”?
换言之,其他公司如果同样想用京东云言犀数字人来做主播,是不是根本达不到这个效果?
就这个问题,京东云言犀负责人是站出来给了解释的:“刘总数字人技术,代表了我们现在的通用技术。”
大白话就是说,用了京东云言犀数字人,所有的大V/CEO 主播都能有同样的这个效果,至少在 120 秒之内“惟妙惟肖”。
如果不信,可以亲自验证——前段时间京东 618 招商,给所有品牌商家免费开放了数字人基础版使用 30 天权益,都能用上。
京东云言犀负责人笑着表示,去年京东云就已经基于言犀大模型升级了数字人技术。
用句软件公司的梗,“Eat your own dog food”,自己的狗粮自己先吃,最开始团队内部先给京东云言犀负责人做了个 AI 数字人出来,但回头看和现在刘强东的数字人没法比。
2022 年开始,京东云言犀数字人就已经开始商业化,目前有 4000 多家品牌使用。
去年双十一后,京东云言犀团队开始制作采销 AI 数字人,首先是在大时尚事业部测试,包括公众接受程度,停留时长,用户转换率,交互程度等。
团队心想,既然要追求刺激,那就把“Eat your own dog food”贯彻到底,干脆给公司老大也搞一个吧!
刘强东 AI 数字人“采销东哥”就这么诞生了。
10 亿参数数字人大模型轻量上阵
采销东哥身后,是京东云言犀大模型团队,及其大模型做小后打造的 10 亿参数数字人大模型。
总的技术来看,言犀 2 年多前就选择了端到端的方式,即建模——驱动——渲染的一体化。以至于 Sora 出来后,团队惊喜发现端到端的技术方向是可取、可喜的。
不过,虽然和 Sora 是同一条路子,但最后应用的场景不太一样,言犀大模型数字人的赛道更聚焦,专注人物生成(原因是团队评估人物视频生成商业价值和社会影响力可能都更大)。
而关于端到端的路线,这里展开说两句。
现在基本分为两大类,一类是完全端到端,中间不对任何环节进行显示的建模,完全是隐性的,都在一个空间里面做;另一类是对简单基本素材的人脸建 3 万多个点 Mesh 模型,再去控制人物的表情、唇型,然后做纹理的渲染。
京东云言犀说得很明白,2 种方案会根据场景需求做不同使用。
京东云言犀负责人表示,其间比较得意的是人物大姿态的动作。
“早期真人数字人,动作幅度比较小。基本上脸部不会怎么动,因为一旦头动了,可能就剩半个嘴唇了。”他透露,在大姿态方面做了较多技术投入,才有了现在 AI 刘强东的活动自如。
此外,身为主播,语音表达无疑也十分重要。
既要复现真人主播的语音、语调,又要学习真人说话的习惯,如语速、语调、重音、倒吸气。
就拿刘强东本人来说,他讲话很少有辅助词,也较少清晰读出连接词,如“跟着”的“着”字经常被一笔带过。
因为出生江苏宿迁,他的话语里还是会“露馅”,冒出宿迁口音来。比如“时间”中的“sh”会有更重的鼻音;后鼻音有时会被吞掉,变成前鼻音。
就,还挺有特色的。
原本呢,京东云言犀技术团队的计划是用刘强东 2017 年的一段演讲音频作学习素材,但测试发现,演讲时刘强东的语气太过正式了,和直播带货有点画风不搭。
团队无奈把刘强东“抓”到镜头前,录了 30 分钟的音视频,让他闲聊自己的经历什么的。
用这段音频为底提取出声学特征,就能通过已经被喂了 5 万小时语音数据训练的言犀语音大模型合成出人工语音。
不过据量子位了解,京东云言犀大模型团队的最新战绩,是使用 6 秒素材复现具体某个人的声音。
团队成员还分享了其他一些关于 AI 数字人背后的事:
训练过程中,主赛道锚定人物向,因此不管是从数据的采集、清洗和各方面都做了精细化聚焦。
推理实现方面,除了模型代码压缩、量化等常规操作,还对 INT4 和 INT8 进行了精度调改。
团队下一步计划,是把语音、视频生成两块综合到一起。
当然,另一部分挑战是尝试用非常小样本或零样本学习的方式就能抓住真人本尊的特点,继而生成惟妙惟肖的数字人。
“采销东哥是京东数字人平均水平”
京东云言犀负责人表示,其实京东内部对数字人有一个分级。
第一级的数字人效果,可以做真人的补充工作,处于向真人看齐阶段。
第二级数字人可以媲美真人,真人不在,也可以承担重要场合、重要时间的主播工作。
并且播出后,会有人分不清主播是真是假——从这个角度来说,图灵测试应该算是通过了。
不过,虽然在形象、表情、语音、动作复刻尚佳,但是本尊的深度思想,大模型数字人还没有办法1:1 同步。
到了第三阶段,本尊和数字人之间不是替代关系,更像是真人有了个数字分身,能够真正深度抓住本尊的思想、文化、知识背景、一些理念。
而且,京东自家直播间有一个120s 战斗。
简单说就是直播时,如果用户在 120s 之内都不觉得眼前的数字人让自己别扭,就会跨过恐怖谷效应,接受这个数字人,看他的展示、听他的解说。
而且看到 120s,因为对主播产生了信任,往往很大概率会下单。
“目前来看,数字人直播带货有很大机会会成为一个大的爆点。”京东云言犀负责人解释道,“主要是内容层次达到了新的水准,大家的接受度和信任度已经过了关键点了。”
说回“采销东哥”,他现在几乎能很完美地被生成 120s 以上的形象,并且足以以假乱真。
也就是说,“采销东哥”现在处于京东数字人分级里的第二阶段,这也是京东云言犀数字人的平均水平。
团队还提到,其实目前 AI 大模型数字人大规模商用,技术已经不是难点了。
难点是什么呢?是主播个人的形象要跟整体调性相匹配,在选品、互动方面还需要下很多功夫。
One More Thing
聊着聊着,一个有趣的问题被抛出来。
问,未来在京东直播间,有没有可能诞生一个类似于董宇辉的 AI 数字人超级主播?
京东云言犀负责人和算法总监相视一笑,说:
(这件事)技术上是有可能的,但在伦理和感情上不一定能成立。比如很多丈母娘喜欢董宇辉,是因为这个人有很实在的特质,很文雅,有知识。
我不知道在伦理上到底之后会怎么解决……