生成式AI热潮掀起“淘数据热”，背后风险有多大？

　　在 2000 年最鼎盛时期，Photobucket 是全球顶级的图像托管网站，一度拥有 7000 万用户，占据了美国在线照片市场的近一半市场。

　　根据分析追踪机构 Similarweb 的数据，如今只有约 200 万人仍在使用 Photobucket。但该公司首席执行官（CEO）伦纳德（Ted Leonard）透露，目前正在与多家科技公司进行谈判，以授权其 130 亿张照片和视频，让科技公司用于训练生成式人工智能（AI）大模型，使得这些模型能够响应文本提示，生成新内容。目前谈判的每张照片的价格在 5 美分~1 美元之间，每条视频的价格超过 1 美元，各个买家所需图像、视频的类型都存在差异。

　　“许多科技企业告诉我们，他们需要更多 AI 训练数据。一位潜在买家想要超过 10 亿个视频，比我们平台拥有的还多。突然之间，我们不再担心没生意可做，而是要抓耳挠腮地想，我们去哪里弄那么多数据？”他表示。

　　伦纳德以商业机密为由拒绝透露潜在买家的身份，但根据其透露的数据推算，其拥有的数据内容将价值数十亿美元。Photobucket 的境遇可谓该行业的缩影。除了对人才的竞争外，科技巨头新一轮竞赛还转向了对 AI 训练数据。生成式 AI 革命可能会给这类企业赋予新生命。但同时，这一竞赛背后的数据仍存在一些风险。

　　生成式 AI 热潮掀起“淘数据热”

　　最初，谷歌、Meta 和 OpenAI 等科技巨头使用从互联网上免费的大量数据来训练生成式 AI 模型。这些科技公司表示，这样做既合法，也合乎道德。并且，如果不能使用大量免费抓取的、在他们看来可“公开可用”的网页数据，例如非盈利机构 Common Crawl 提供的数据，训练 AI 模型的成本将难以承受。

　　但随着生成式 AI 领域的热潮和竞争加剧，他们开始面临一系列来自版权持有人的诉讼和监管关注，同时也促使部分内容发布者采取措施阻止科技公司的数据抓取。科技公司还开始需要解释如何获取并使用大量数据来训练他们的模型。

　　也因此，在继续为自己的行为辩护的同时，科技巨头们也开始悄悄针对一些付费内容进行谈判，涉及的内容从聊天记录到那些已经式微的社交媒体应用程序所拥有的、被遗忘已久的个人照片和视频等，使得相关隐性交易逐渐火热起来。

　　例如，据媒体援引知情人士消息，在 ChatGPT 于 2022 年底推出后的数月内，Meta、谷歌、亚马逊和苹果等科技巨头都与图片平台 Shutterstock 签订协议，以使用其数亿张图片、视频和音乐文件进行 AI 模型训练。Shutterstock 的首席财务官亚哈斯（Jarrod Yahes）透露，与大型科技公司的最初交易额在 2500 万~5000 万美元，大多数交易规模后来均有所扩大。一些较小的科技公司也加入了这一“淘数据热”，在过去两个月中加入谈判。

　　Shutterstock 的竞争对手 Freepik 也透露，已与两家大型科技公司达成协议，授权拥有的 2 亿张图片档案中的大部分，每张图片的价格在2~4 美分。公司 CEO 阿布拉（Joaquin Cuenca Abela）表示，目前还有五笔类似交易正在谈判中，但他不愿透露买家身份。

　　作为 Shutterstock 早期客户的 OpenAI，还与包括美联社、Axel Springer 和汤森路透（Thomson Reuters）等至少四家新闻机构签署了数据授权协议，以帮助训练其 AI 大语言模型，但未披露具体细节。

　　Klaris law 律师事务所的克拉里斯（Edward Klaris）称：“目前，科技公司正竞相争取那些拥有私人数据版权的持有者，这些私人数据无法通过网络免费抓取。”他补充称，该事务所也正在为私人数据持有者提供咨询服务，涉及价值数千万美元的交易，通过交易，这些数据持有者会将照片、电影和书籍档案授权给科技公司，用于 AI 训练。

　　对于上述情况，谷歌、Meta、微软、苹果、亚马逊和 OpenAI 均拒绝予以置评，不过微软和谷歌提供了包含数据隐私条款的供应商行为准则。谷歌并表示，如果发现数据供应商违规，将立即采取行动，包括终止与其合作协议。

　　许多主要的市场研究机构表示，他们尚未开始评估这个不透明的、隐形的 AI 数据交易市场的规模，因为在这个市场中，公司通常不会公开协议内容。少数正在试图对该市场进行评估的研究机构，比如 Business Research Insights，估计该市场目前价值约 25 亿美元，预测在未来十年内可能增长至近 300 亿美元规模。

　　内容来源“合乎道德”还是“风险很大”？

　　不仅仅是那些原本拥有数据的企业和平台，这种隐形交易的火热，还滋生出一个专注于 AI 数据生产的新兴行业。相关企业的主业就是获取例如播客、短视频等现实世界内容的权利，同时建立一些短期合同工网络，从零开始制作定制化的 AI 训练类视觉和声音样本。

　　位于西雅图的 Defined.ai 就是这类企业之一。其 CEO 巴拉戈（Daniela Braga）向媒体透露，已将数据授权给了一系列科技公司，包括谷歌、Meta、苹果、亚马逊和微软。具体价格根据买家和内容类型而有所不同，通常为每张图片1~2 美元，每个短视频2~4 美元，长片每小时 100~300 美元，文本每个单词 0.001 美元；一些需要处理的图像价格在5~7 美元。Defined.ai 会与内容提供者分享这些收入。Defined.ai 的其中一位供应商，一位巴西的企业家表示，他向所获取的照片、播客和数据所有者支付总交易额的 20%~30%。巴拉戈强调称，其数据“来源合乎道德”，会从数据使用者那里获得同意，并去除个人识别信息。

　　上述巴西供应商称，他所持有的图片中最贵的是用于训练 AI 模型的、符合科技公司禁止的相关内容的图片。为了满足这些要求，他从警察、自由职业摄影师和医学生那里获取诸如犯罪现场、冲突暴力和手术的图片，主要来源于南美洲和非洲。他的公司还雇佣了习惯于看到暴力伤害的护士，对这些图片进行匿名化和注释。

　　尽管通过数据、内容授权可以解决一些法律和道德层面的问题，但许多业内专家和企业负责人仍表示，将像 Photobucket 这样的老牌互联网平台的陈年档案作为新一代 AI 模型的训练素材，可能会引发一系列新的问题，比如用户隐私问题。

　　过去，AI 系统确实曾出现过复制其训练数据中的某些细节内容并输出的情况，比如带有 Getty Images 水印的照片、一些媒体文章中的具体内容，以及真实的人物照片等。这意味着，人们多年前上传的私人照片或个人想法，可能会在没有任何通知或明确同意的情况下，被生成式 AI 作为输出结果广为传播。

　　巴拉戈就表示，她会避免从像 Photobucket 这样的平台公司获取内容，更倾向于从个人社交媒体大咖处获取他们的原创内容，因为后者对授权有更明确的主张。“我认为从类似 Photobucket 这样的平台获取内容的风险很大。如果 AI 模型生成了一些很像某人、但未经本人同意的照片，就会带来问题和麻烦。”她称。

　　即使是类似 Reddit 这样的知名平台，也因为相关问题受到调查。今年 2 月，Reddit 与谷歌达成一项协议，授权谷歌使用 Reddit 的平台内容、数据来训练其 AI 模型。但在 3 月进行首次公开募股（IPO）前夕，该公司披露，其数据授权业务正受到美国联邦贸易委员会（FTC）的调查，并承认可能会违反隐私和知识产权法规。FTC 在 2 月时，也曾警告企业不得追溯性地改变服务条款以用于 AI 训练。对于 Reddit 披露的调查，FTC 不予置评，也未透露是否还在调查其他 AI 训练数据交易和相关平台。