Sora团队首次专访：Sora就是太强了，所以不让普通人用

　　前两天外媒对 Sora 核心团队做了次专访，看了下原视频，约等于什么都没说，场面神似发改委马科长讲话。

　　用网友的话来说，就像镜头外有一个律师拿着枪对着这帮人。

　　Sora 已经发布快一个月了，刚发布时 Sora 惊为天人，带给人们无限遐想，甚至有不少人表示 AGI 就要来了。

　　然而，目前为止只有少数人用上了 Sora，再好的东西用不上，久而久之人们也就失去了兴趣。

　　就在人们把 Sora 翻得底朝天，该聊的都聊完了，好像实在没活了，OpenAI 派了几个人出来接受一下采访。

　　16 分钟的专访里，Sora 的核心团队成员说了很多内容，但都是一些已知的内容，没有什么新的，信息好像还不如 Sora 的技术文档多。

　　来看看外国人是怎么打太极的。

　　这次访谈的三位 Sora 核心成员分别是 Bill Peebles、Tim Brooks 和 Aditya Ramesh。

　　首先是大家最关心的问题，我们什么时候可以用到 Sora？

　　“别急，普通人短期内还用不上。”

　　Sora 成员表示，Sora 目前尚未向公众开放，也没有具体的时间表。OpenAI 正在收集用户反馈的阶段，希望进一步聊天人们如何使用 Sora，有哪些安全工作要做。

　　既然用不了，那么探究一下，Sora 是如何实现的。

　　Sora 团队说：Sora 是一个视频生成模型，其工作原理是分析大量视频数据并学会生成视频。具体工作方法融合了扩散模型（如 DALL-E）和大型语言模型（如 GPT 系列）的技术。架构上 Sora 类似于介于两者之间，训练方式类似于 DALL-E，但在结构上更像 GPT。

　　结构上更像 GPT 这一点在 Sora 刚出现的时候就有不少人分析过，这也算 Sora 的一大技术特点。

　　接下来，是同样让人好奇的，Sora 的训练数据到底来自于哪里？

　　在官方发布的 Sora 生成视频中，无论是咖啡杯中的海盗船，还是东京街头行走的女性，都在表示 Sora 似乎理解了许多世界的物理规律。

　　之前不少民间说法讨论，Sora 极有可能在数据集中添加了用 UE5 生成的文本、视频当作合成数据。

　　面对这样的问题，Sora 成员 Tim Brooks 没有明确回应，打了一个太极，表示不方便说得太细，但是他透露，大体上使用的是公开数据和 OpenAI 被授权使用的数据，并分享了一个“技术创新”。

　　以往，不论是图像还是视频生成模型，通常会以非常固定的尺寸进行训练，比如只有一个分辨率的视频。

　　在 Sora 的训练中，他们将各种各样的图片和视频，不管是高宽比、长短、高清还是低清，都分割成了一小块一小块。研究人员可以根据输入视频的大小，训练模型认识不同数量的小块，这也让 Sora 能更灵活地学习各种数据，并生成出不同分辨率和尺寸的内容。

　　这一技术在 Sora 技术文档里也有提过，就是所谓的 patch。

　　大语言模型建模时把文本拆成了以 token 为最小单位，而视频大模型中的 token 就是 patch。

　　这一技术并不是 OpenAI 创造的，当 OpenAI 宣布使用了该技术时还引起了讨论，为什么 OpenAI 能就能通过别人的技术造出好的 AI 产品出来。

　　主持又问到：你觉得 Sora 擅长做什么？哪些方面还有所欠缺？比如我看到有个视频里一只手竟然长了六个手指。

　　Sora 团队先扬后抑的表示到，Sora 擅长写实类视频，并且可以生成 1 分钟时长的视频，很强。但仍然存在一些问题，比如手部细节（所有 AI 的噩梦）摄像机轨迹、物理现象变化等。

　　除此之外，Sora 团队还介绍了一些其他酷炫的功能，比如通过除 prompt 之外，用视频合成的方式生成视频。这实现了在完全不同主题和场景构成的视频之间无缝过渡。

　　在 OpenAI 的 Tiktok 上就有无人机变成蝴蝶在斗兽场转化的珊瑚礁中飞翔的视频。

　　无论在技术还是体验上，都与原先的视频生成模型完全不同。Aditya Ramesh 更是表示，他们做的事情，就是先模拟自然，再超越自然！

　　目前为止，OpenAI 在 Tiktok 上的 AI 生成视频都使用了配音，而不是 AI 无缝生成声音。Sora 团队表示，AI 声音暂时不是他们考虑的事情，当务之急还是在于视频生成，让它实现更长的时间，更好的画质和频率。

　　但不知道随着 Pika Sound Effects 功能的发布，Sora 加上声音是否指日可待。

　　被主持人问到，Sora 下一步发展方向时。Sora 成员 Tim Brooks 表示，在真正发布之前，Sora 还有两方面的工作要完成：

　　首先是获得更多用户的反馈，了解 Sora 如何给人们带来价值。比如有用户希望对生成的视频有更多精细、直接的控制，而不单单是 prompts。

　　另一方面，Sora 安全工作需要加强，OpenAI 会全面考虑可能带来的各种影响。目前，正在训练应用于视频的溯源分类器，实现识别视频是否由 AI 生成，并且为每个 Sora 生成的视频都打上了水印。

　　此外，Sora 团队表示，AI 生成视频也带来了许多机遇，它可以大幅降低从创意到成片的成本，一个人拍一部电影完全有可能实现。

　　更令他们激动的是，随着 AI 新工具的出现，会有人创造出全新的东西，不断推进创造力的边界，将不可能变成可能。

　　但打住，这只是科学家们美好的幻想。毕竟对于普通人来说，离真正使用上 Sora 都要等上挺长一段时间。

　　而且，Sora 成员透露。AI 通过从视频数据中学习，将不仅仅在视频创作方面发挥作用。像 GPT 这样的模型，虽然很聪明，但如果它们无法像我们一样“看到”这个世界，那么它们就会缺失一些信息。类似 Sora 的模型正在解决这一问题。

　　这是证实 AGI 要来了吗？

　　最后主持人问了一个有意思的问题，Sora 生成一个视频需要多长时间？

　　“取决于各种情况，但你可以离开，去喝杯咖啡，然后回来它还在处理中，反正就是很久。”

　　以上就是 Sora 团队的采访内容，简单总结一下就是：Sora 很厉害，可以看到世界，正因如此，我们还不能让普通人很快就用到，还有很多安全工作要做。

　　Umm，没活可以咬打火机，没必要硬上的。

　　全文完。

　　实习作者：Josie

　　编辑：董道力

　　视觉设计：疏睿

　　责任编辑：张泽一

　　关于「新硅 NewGeek」：我们以 AI 为圆心，追踪科技领域的方方面面，努力用最简单的方式阐述技术是如何改变世界。敬请关注。

单机游戏大全免费

游戏大全

Sora团队首次专访：Sora就是太强了，所以不让普通人用

单机游戏大全免费

游戏大全

Sora团队首次专访：Sora就是太强了，所以不让普通人用

你可能感兴趣的