在受到《纽约时报》以版权为由攻击 7 天后,OpenAI 宣布正在与其他美国新闻出版商进行谈判,以便能够使用他们的内容来训练其语言模型。苹果公司也已采取措施与其他美国媒体谈判合同。这些公告是否标志着人工智能巨头的战略转变,还是表明了一种简单的机会主义做法?
征收后,经济补偿时间?一周后发起起诉纽约时报反对 OpenAI针对侵犯版权的情况,ChatGPT 背后的公司已决定改变策略。根据信息,它将向某些美国媒体提供每年1至500万美元的用户许可费。其目标:能够合法地利用他们的新闻文章来训练其语言模型。但据我们的同事称,这一数额远远不能满足新闻出版商当前的需求,即使对于规模最小的参与者来说也是如此。
OpenAI 知识产权主管 Tom Rubin 随后接受了我们同事的采访,证实了这一信息彭博社:«我们正在与许多出版商进行多次谈判和讨论。 (…)他们进展顺利”。据经理称,这些讨论涉及十几家出版商:“您已经看到了宣布的交易,并且将来还会有更多“,他强调。
事实上,近几个月来,该公司与两家主要出版商达成了共识:去年夏天的美联社,以及去年 12 月的《商业内幕》、《政治》、《图片报》和《世界报》的母公司阿克塞尔·施普林格。对于苹果公司来说,蒂姆·库克的公司也会寻求做同样的事情,但会更加慷慨,要求也更高。纽约时报几周前。苹果公司准备投入更多资金,但在受保护内容的使用方面要求的不仅仅是 OpenAI。她将与康泰纳仕 (Condé Nast) 谈判达成协议(时尚等纽约客),美国全国广播公司新闻和国际交流协会(每日野兽报),据我们的同事说。
该行业的公司最初并不担心版权问题
这些协议的宣布是否标志着真正的改变方法在 OpenAI 和其他领先的人工智能公司工作?到目前为止,后者已经通过使用爬行机器人(这些网络浏览器机器人)在网络上大量收集数十亿数据来开发自己的语言模型。 LLM 需要大量的数据接受培训。直到最近,这些公司还不会真正关心这些内容背后的人或公司——或者更确切地说,他们觉得自己有权不去担心。在收集时,他们的爬虫不会区分受版权保护的内容和可以自由使用的内容。原因很简单,因为在网络上,并不总是提到特定的文本或绘图受版权保护。
这显然不符合近几个月来采取行动的出版商、作者和权利持有者的口味。他们起诉该行业的公司侵犯版权,并通过不同的协议阻止文章或作品的收集。后者认为将他们的作品用于培训目的是一种真正的未经授权的抢劫——而且是无偿的,正如《纽约时报》在针对 OpenAI(及其合作伙伴微软)的行动中所坚持的那样。美国媒体指责该公司未经授权使用其新闻内容来训练其生成人工智能。据《每日报》报道,法学硕士是“通过复制和使用数以百万计的受版权保护的新闻文章、深入调查、观点文章、评论、操作指南等每日发布的内容而开发»。
CNN、路透社等纽约媒体也在其网站上屏蔽了 OpenAI 的爬虫。在法国,聚集了近 90 家在线出版商的 Geste 也建议出版商将“TDM 预订协议”集成到信息网站中:“在谈判框架内建立许可证的必要先决条件», 在 9 月份的新闻稿中写道该组织。据报道,该工具已被法国多家媒体采用心灵媒体去年10月和11月,在等待谈判期间。演员及配音演员还试图提醒公众舆论和立法者。
谁是对的?法官必须做出决定
面对这股野马,微软、谷歌和 Adobe 等该行业的公司最初坚持了自己的立场。如果客户因使用其人工智能产品而被起诉侵犯版权,他们会向客户提供赔偿,以安抚客户。他们还解释说,由于版权例外,这些数据的使用是合法的。
未来几个月将判决的法律诉讼的全部问题在于了解这些例外(美国法律中的“合理使用”)是否可以在这种情况下发挥作用。他们是否可以证明未经授权就受保护内容训练语言模型是合理的?数字法学教授詹姆斯·格里梅尔曼 (James Grimmelmann) 在接受《纽约时报》采访时强调,对于律师来说,答案并不明确。华盛顿邮报。这位专家表示,版权禁止未经授权对作品进行相同或非常接近的复制。但是,如果涉及创建与第一个作品有足够不同的新作品,则可以使用受保护的作品。
但对于人工智能,他向我们的同事解释说,我们同时遇到两种情况:几乎相同的复制——就像当我们要求 ChatGPT 以这样一个作者的风格复制时——以及他使用作品来创造其他东西——就像 ChatGPT 使用同一主题的不同文章来合成它一样。在这种情况下,美国法院将必须决定人工智能公司是否必须获得作者的授权,并支付报酬。
欧洲法律也存在这个问题,该法律规定了语言模型版权的例外情况。所谓的数据挖掘例外也使得无需作者同意即可进行操作,但前提是这是一个研究问题——但这里的情况并非如此,因为我们确实在处理商业用途。如果人工智能法案可能会改变这一点该文本对人工智能开发者在该领域施加了透明度义务,但尚未被采用,并且几年内都不会应用。
机会主义的做法?
但对于其他人来说,如果像 OpenAI 这样的行业公司开始与权利持有者谈判协议,那是因为他们别无选择。他们需要最新的数据——例如主要媒体的最新文章——以便他们的生成人工智能能够为客户提供适当的响应。然而,随着网站的封锁,他们无法再访问最新的文章。这解释了为什么 OpenAI 在上周的新闻稿中指出那个认为自己尊重“内容创作者和所有者的权利”,承诺«与他们合作,使他们从新的收入模式中受益(……)»。
他们将得到多少报酬?涉及的金额尚未正式披露,但我们知道 OpenAI 与 Politico 和 Business Insider 的母公司 Axel Springer 之间达成的协议将以数千万美元为代价。其他出版商可以选择尽可能达成最有利可图的协议,或者明智地等待《纽约时报》和 OpenAI 之间诉讼的结果。该案件可能会迫使该公司支付《日报》声称的数十亿美元的损失,并销毁 ChatGPT 使用的所有美国媒体数据——对于该公司来说,这项任务被认为是艰巨且成本高昂的。