来源:字母榜
在 AI 文生视频这条热门赛道,抖音旗下的剪映,正在被 OpenAI 的 Sora 越甩越远。
近日,美国软件巨头 Adobe 宣布,将在知名视频编辑软件 Premiere Pro 的新版本添加多款文生视频 AI 工具。近两个月震动全球科技圈的 Sora,以及两款同类产品 Gen-2 和 Pika,都会在不久的将来加入“Adobe 全家桶”。
有了 Sora 等第三方 AI 工具的助力,新版 Premiere Pro 除了编辑处理预先拍摄的常规视频外,还能根据用户输入的文本即时生成 AI 视频,并将两者融为一体。
Adobe 放出了一条官方演示视频:一个男人走向窗前,观看整个城市的夜景。用户无需拍摄实景,只需输入一段文字,即可利用 Sora 生成一段城市雨夜的视频,并与前面的视频无缝衔接,效果几可乱真。
Sora 今年 2 月初次亮相,OpenAI 放出几段演示视频,但并未公布产品进展和上线时间。如今,Sora 被 Adobe 接纳,表明过去几个月又有不小进步,距离开放使用更近。
另一边,背靠抖音的视频剪辑软件剪映,同样朝着 AIGC(人工智能生成内容)方向前行。但截至目前,剪映尚未拿出令人惊艳的成绩。
目前,剪映的 AI 玩法不少,包括一键成片、剪同款、AI 克隆音色、数字人口播等,但并不具备根据文本直接生成视频的能力。它的海外版本 Capcut 在 2 月底推出文生视频功能,但效果距离 Sora 相去甚远。
如今,Sora 除了在技术和产品上领先剪映,还得到了 Adobe 的青睐。Adobe 在全球拥有超 3300 万付费用户;Sora 接入“Adobe 全家桶”,有望获取订阅收入分成,从而初步构建商业模式。
这也意味着,仍在打磨 AIGC 能力的剪映,追赶 Sora 的难度将越来越大。
剪映被外界视为抖音搭上 AIGC 时代快车的关键筹码。得益于抖音的加持,剪映已成为用户量最大的手机视频剪辑软件之一,每天产出大量短视频;在此基础上更进一步,从 UGC(用户生产内容)迈向 AIGC,似乎水到渠成。
今年 2 月 7 日,抖音功勋老将张楠辞去集团 CEO 职务,亲自带队剪映。她在官宣职务变动的内部信中称,AI 图像生成对她产生很大的触动,潜力巨大,并决定“放下一切”,义无反顾地出发。
剪映的发展根基不可谓不好,抖音的重视程度也很高。但两个多月过去,剪映依然没有太大动静,Sora 反而继续高歌猛进。
在 AIGC 时代,抖音及其背后的字节,似乎总是棋慢一着。
字节八年前布局 AI,成立了专门的实验室,招募大批业内精英,但成果却停留在内容审核、自动翻译、搜索服务等。2022 年下半年,ChatGPT 引爆行业;字节随即增加大模型投入,一口气推出 AI 聊天机器人等十几款应用,却迟迟没有拿出震动行业的技术和产品。
今年 1 月底的年度全员会上,字节 CEO 梁汝波感叹,字节“该有的大公司病全有了”。他特别点名 AI 业务,称:“公司层面的半年度技术回顾,直到 2023 年才开始讨论 GPT,而业内做得比较好的大模型创业公司,都是在 2018 年至 2021 年创立的。”
如今,在立身之本的视频内容领域,OpenAI 着着抢先,剪映乃至整个字节又双叒慢了。
1
背靠抖音这颗大树,剪映原本有很大机会在 AI 文生视频领域的占得先机。
剪映 2019 年上线,2021 年推出 PC 端的专业版。它显著拉低了 UGC 视频的创作门槛,普通人只需准备好素材、点击几下,就能生成一段质量尚可的视频,并一键发布至抖音。
此外,作为一款工具软件,剪映还带有一定的社区属性。除了官方提供的视频创作课堂外,用户还可以参考达人制作的视频模板进行创作,也就是“剪同款”。这有助于提高用户留存率和活跃度。
依靠丰富的功能,以及与抖音深度绑定,剪映仅用了三年就获得超 1 亿月活跃用户,跃升至同类软件的第一名。
剪映海外版 CapCut 的增长同样惊人。
Capcut 上线于 2020 年,与 TikTok 关联密切。移动应用分析平台点点数据显示,目前 Capcut 的月活跃用户超 2 亿。另据市场调研机构 data.ai 的数据,截至 2023 年 8 月,Capcut 在 iPhone 和安卓端的用户超 4.9 亿,相当于 TikTok 全球用户量的1/4。
除了用户规模庞大,剪映在 AI 领域的另一个优势是“近水楼台先得月”,坐拥大量可用于 AI 大模型训练的视频数据。
数据、算法和算力是 AI 大模型的三大基础要素,其中数据是根基。要想提升大模型的综合能力,就需要不断“投喂”多模态数据,主要是互联网文本、图像和视频。
OpenAI、Adobe 等公司都不直接掌握数据,必须从第三方付费获取,成本不菲。据媒体报道,OpenAI 每年仅采购版权新闻文章授权的费用,就高达 100 万~500 万美元;Adobe 为了训练自家的文生视频大模型,以每分钟 3 美元的价格,向另一个大模型服务 Midjourney 购买视频片段。
相比之下,剪映在国内绑定抖音、在海外背靠 TikTok,每天有大量用户使用它剪辑和上传视频。这让剪映能够以相对低廉的成本,接触到大量视频内容,为训练大模型、探索 AI 文生视频功能打下基础。
但从 2019 年至今,剪映并未研发出强大的 AIGC 能力,反而早早启动了商业化。
剪映很早就上线了 VIP 会员,用户每月支付二三十块钱,可以使用专属素材、精选模板等,AI 玩法也被列为会员权益之一。根据官方介绍,AI 玩法主要包括“无限创作”“无限运镜”和“瞬息宇宙”,基于现有视频素材进行 AI 美化编辑。
不难看出,剪映的 AI 玩法距离 Sora 这样的文生视频相去甚远。此外,它的收费也并不低廉:会员每月可获得 1200 积分,而使用一次“无限运镜”就需要 480 积分。积分耗尽后,用户可以选择继续充值,兑换比例为 1 元:100 积分。
剪映诞生之初的定位是,尽可能拉低短视频创作门槛,促进抖音 UGC 生态的繁荣。过去五年,它的确完成了这一任务,大量抖音爆款视频背后,都有剪映提供技术和模板。特别是那些趣味特效视频、踩点视频,抖音红人发布之后,大量用户迅速群起效仿、共同推高热度;没有剪映的帮忙,恐怕不易做到这一点。
但如今看来,抖音还是把剪映的天花板设定地太低了。它原本有机会成为 Sora 这样的划时代产品,却始终停留在视频剪辑软件的范畴。
今年以来,剪映开始奋起直追,但先机已失、对手已至,追赶难度也迅速增大。剪映被 Sora 甩开,字节在 AI 领域仍然没能跳出“起大早、赶晚集”的怪圈。这也从侧面印证了梁汝波此前批评的“平庸的重力”。
2
过度重视对业务的帮助,过早追求商业化,是剪映乃至整个字节 AI 板块的难题。
剪映除了开设付费会员、将 AI 玩法纳入权益包,还在 APP 内增加了不少广告位。例如,用户点击“剪同款”,映入眼帘的除了手机照片和视频素材,还有悬浮在素材上方、几乎毫无关联的横幅广告。
作为一款用户破亿的工具软件,剪映的常规投入和资金压力并不会特别大。它之所以早早发展会员和广告,或许与字节的做事风格和评判标准有关。
众所周知,字节是一家超快节奏、高度内卷的互联网巨头。如果个人、团队或业务无法迅速带来肉眼可见的产出,就有可能被调整,甚至彻底出局。即使是需要长期投入的 AI,也无法跳出这一隐形的评判标杆。
早在 2016 年,字节就设立了 AI Lab 人工智能实验室,并引入多位学界和行业精英。彼时,OpenAI 同样初出茅庐,正朝着通用人工智能的愿景前行,将自己视为非营利组织。
相比之下,AI Lab 虽然名为“实验室”,实际上仍然需要密切配合和服务业务。它的官网宣称,其研究重点是开发为字节内容平台服务的新技术;具体领域则包括自然语言处理、数据挖掘、计算机视觉、机器学习等,且和抖音各业务板块贴合紧密。
随后几年,字节拿出了一系列 AI 工具,比如提供翻译服务的 Byte Translator,AI 写稿机器人 Xiaomingbot,以及头条和抖音的搜索服务等。它们固然颇有价值,但算不上突破 AI 领域认知边界、定义 AI 发展范式的创新产品。
直到 2022 年下半年,OpenAI 多年磨一剑,ChatGPT 席卷全球,生成式 AI 成为全球科技公司竞逐焦点,字节才把更多精力投入到这一新浪潮中。
已经淡出字节一线管理的张一鸣,对 AI 产生强烈兴趣,并鼓励团队大举投入。字节跳动无法错过 AGI(通用人工智能),它是抖音和 TikTok 在全球发现新的增长机遇不可或缺的伙伴。
创始人发话后,字节各业务部门闻风而动。从那时起,字节陆续上线十多款 AI 产品,如豆包、话炉、扣子、Gauth 等,剪映、飞书等也增添了 AI 功能。
但在这一轮大举投入中,字节以业务需求为原点、对标竞争对手的做事逻辑被延续下来。豆包等产品均为现有 AI 技术的场景化应用,而非对于 AGI 的原生探索。
例如,去年 3 月,微软上线整合了 GPT 功能的 365 Copilot,全球办公软件市场为之震动。一个月后,飞书宣布即将上线 AI 助手“My AI”,以对话形式提供多种功能,包括优化和续写文字内容、创建日程、自动汇总会议纪要、搜索公司内部知识库等。
一年后,GPT 已经在微软“全家桶”遍地开花,带动后者股价从 250 美元一路上涨至 400 美元以上。飞书却没能依靠 My AI 完成逆袭,反而在 3 月底宣布裁员。
又比如,Sora 今年 2 月 16 日发布演示视频,CapCut 一周后就宣布推出这一功能,每人每天可免费生成 5 段视频。CapCut 的技术力显然无法与 OpenAI 比肩,其文生视频功能也较为简陋;仓促上线、对标 Sora,不免带有蹭热点、强行完成 KPI 的味道。
从张一鸣点名 AGI 至今,字节 AI 又走过了一年,并未显著拉近与 OpenAI 的差距,甚至有扩大的趋势。字节 AI 向实用主义的过度倾斜,不仅让它错失了以往的机遇,也有可能拖累追赶的步伐。
3
对于 AI 板块各自为战、围绕业务打转的局面及其危害,字节已经有所察觉。
2023 年 11 月,字节抽调多个部门的精兵强将,组建 AI 部门 Flow。TikTok 技术负责人朱文佳、字节产品与战略副总裁朱骏、字节技术副总裁洪定坤、飞书产品副总裁齐俊元均加入其中。人员的“高配”,显露了字节通过 Flow 统筹 AI 发展、消除重复建设的意图。
目前,字节曝光度最高的 AI 产品——豆包、扣子、话炉等,均由 Flow 部门负责。剪映、飞书、大力教育等虽然也有 AI 业务,但声量已经逐渐被 Flow 盖过。
另一方面,字节云雀大模型已经打磨近一年时间,多模态大模型 BuboGPT 也取得进展,为 Flow 批量产出 AI 应用奠定根基。假以时日,Flow 有望扭转字节 AI 总是慢人一步的局面。
不过,字节毕竟不是 OpenAI,没有微软这样的超级金主。AGI 固然重要,但对于现有业务的拉动尚不明显,需要更长时间的沉淀和打磨,才能释放商业价值;字节对 AGI 的投入不可能无止境,必须考虑中短期的投入产出比。
短期来看,字节需要用钱、用人、用资源的地方很多,比如抖音货架电商、生活服务等,都需要大量真金白银。随之而来的现象是,尽管 Flow 挑起了大梁,但字节 AI 依然呈现兼顾业务需求的倾向。
据 Tech 星球近日报道,抖音生活服务刚刚成立一支 AI 团队,希望利用 AI 技术创造增量业务价值,且已开启对相关 AI 产品的研发,包括搭建生活服务相关的内容创作平台等。
抖音生活服务之所以拉起这样一支队伍,或许与竞争对手美团和饿了么的动作有关。
美团近日开始小规模测试 AI 助手服务“问小袋”,可为用户推荐符合其需求的外卖商品,以及用餐建议。饿了么则在 4 月初面向零售行业商家发布“AI 经营助手”,可为商家智能生成各类经营关键报表和关键数据。
在此情况下,不让美团饿了么专美于前,或许是抖音生活服务入局 AI 的基本目标之一。
内外因素影响下,字节没有条件像 OpenAI 那样厚积薄发。既要追赶 AGI 潮流,又要具备快速落地、服务业务的能力,是字节 AI 的双重目标。
在张一鸣和梁汝波的督促下,外界无需质疑字节做 AI 的决心。但倘若再过去一年、两年,字节仍然跟不上 OpenAI 的节奏和水准,那么它或许应该考虑另一种选择:退回“卖水者”的角色,做 AGI 训练素材提供商。
如前所述,数据是大模型的三大基础要素之一,而字节麾下的今日头条、抖音、TikTok 等,已经积累了数以亿计的文本、图片和视频。字节可以用这些数据训练自家大模型,也可以考虑更进一步,在妥善解决安全和隐私问题的前提下,将其出售给 OpenAI 等第三方公司。
充当 AGI 时代的“卖水者”,其实是字节擅长的流量生意的变体。字节如今的现金牛——广告和电商业务,都建立在流量变现的基础上;如果把 AI 公司转变为新客户,那么字节心心念念的第二增长曲线问题将迎刃而解。
另一方面,OpenAI 既然能够与微软、Adobe 合作,与字节合作也并非不可想象。毕竟,抖音和 TikTok 是 Sora 等 AIGC 服务最庞大的落地场景。倘若字节与 OpenAI 达成“竞合”关系,那么字节将跳出一步慢、步步慢的循环,在 OpenAI 的助力下搭上 AI 快车。