«你卷”,流媒体服务 Nebula 的老板 Dave Wiskus 是这样描述大型人工智能公司吸走内容创作者的做法的YouTube,没有任何授权,甚至更少的补偿。证据新闻调查,转达有线,证实 Anthropic、Nvidia、Apple 甚至 Salesforce 使用了从 48,000 多个频道抽取的 173,536 个 YouTube 视频的字幕。
人工智能会带走一切过去的事物
这些公司并没有直接利用 YouTube 的水龙头(YouTube 的规则禁止未经授权获取其平台),而是使用了 EleutherAI 于 2020 年发布的 YouTube 字幕数据库。在那里,您可以找到来自非常受欢迎的内容创作者的许多视频的字幕,例如 MrBeast、MKBHD、PewDiePie...,还可以找到主要媒体制作的教育视频和内容(英国广播公司,华尔街日报, ETC。)。
Proof News创建了一个在线工具查明这个或那个 YouTube 频道是否已被盗。对于 Dave Wiskus 来说,未经创作者同意而使用他们的作品是“无礼的»。 «[这些大公司]会利用这些数据来剥削和伤害艺术家吗?是的,绝对“,他直言不讳地说。
EleutherAI 是一家致力于开发开放且易于访问的人工智能的非营利研究组织,该组织解释说,YouTube 字幕是一个名为 The Pile 的更大的收获内容数据库的一部分。它包含来自维基百科、欧洲议会的大量文本,甚至来自安然员工的电子邮件。
The Pile 的很大一部分是每个人都可以访问的,只要他们有足够的存储空间和大量的计算能力来利用它。对于这些大型团体来说这不是问题,他们已经确认该数据库是用于训练大型语言模型 (LLM) 的信息的一部分,例如 Apple 的 OpenELM。
这些披露并不令人意外:人工智能公司诉诸各种计划来推动他们的法学硕士课程,其中一些接近合法。其中一些受到出版商的攻击,以“合理使用”甚至引用权为避难所。还有一些人,比如苹果公司,谈论“开放网络”为掠夺互联网上发布的内容辩护。
更新 07/18 —苹果是释放wood 声称其 OpenELM 语言模型并未用于 Apple Intelligence 功能。该法学硕士是为了研究目的而创建的,而且它是发表开源供所有人使用。由于 Apple Intelligence 中不存在 OpenELM,因此 Apple 公司的生成式 AI 功能尚未接受 YouTube 字幕 QED 的训练。至少在下一次令人尴尬的揭露之前……
来源 : 有线