开发 ChatGPT 的公司采用了人工智能领域已经捍卫的论点:如果没有受版权保护的内容,生成式人工智能系统将不会那么高效,甚至不会存在。问题:该公司不打算放弃受版权保护的内容,也不打算向其作品用于训练人工智能的所有创作者付费。让作家、艺术家和权利持有者非常沮丧。
开放人工智能他想要两全其美吗?在一个向英国议会传达的文件,该公司一方面估计,这将是“不可能的» 开发像 GPT-4 这样的大型语言模型——其对话代理背后的技术——不使用受版权保护的作品。另一方面,该公司主张维持现状。根据后者的说法,人工智能开发人员在其系统在受保护数据上进行训练时无需支付许可证费用或请求授权,但有少数例外。
该文本日期为 12 月 5 日,但被电讯报1 月 7 日星期日,这是对英国议会上院上议院通信和数字委员会对主要语言模型进行的调查的回应。 OpenAI 解释说,如果人工智能开发人员将自己限制在公共领域内容,将会导致人工智能系统质量较低。 “将训练数据限制在一个多世纪前创建的公共领域书籍和绘图可能会是一个有趣的实验,但不会提供满足当今公民需求的人工智能系统»,该公司写道。自 2022 年 11 月推出 ChatGPT 以来,这家人工智能巨头从未像其竞争对手那样发布用于训练其生成式人工智能系统的详尽数据列表。
但我们知道 ChatGPT 和图像生成人工智能系统是根据来自网络的数十亿数据进行训练的,其中一些数据受到版权或版权法的保护。原则上,任何对这些数据的使用都必须经过作者的授权,但 OpenAI 和其他人工智能巨头也有例外——包括“合理使用» 美国法律中的“合理使用”。
“事后很久现在实施前所未有的许可制度将会造成混乱”
如果 OpenAI 在其文档中重复“从法律上讲,版权法并不禁止培训»(人工智能系统)——美国法院必须对此做出裁决——该公司白纸黑字地写道,“如果不使用受版权保护的内容,(无论如何)不可能训练当前的人工智能系统”。尤其 ”因为今天的版权几乎涵盖了所有形式的人类表达——包括博客文章、照片、论坛帖子、软件代码片段和政府文件»,该公司补充道。
因此,OpenAI 表示,它已在其人工智能系统中使用了受保护的内容,这也是人工智能巨头几个月前在美国进行的部分论点。根据他们的请求,如果我们不能再使用受版权保护的所有内容,那么将不再有生成式人工智能(同样高效)。去年10月,在美国版权局的公众咨询中,行业领袖发表了评论,为这一想法进行了辩护。
马克·扎克伯格的团队也开发了他的法学硕士(LLaMA),写道以及所有美国人工智能产业基于这样的理念:(美国)版权法不禁止使用受版权保护的内容。正确的 d'作者训练模型d'IA»。该公司走得更远: «现在实施(许可)制度,事后很久,会造成混乱。因为开发者将寻求识别数以百万计的权利持有者,而利润却微乎其微,考虑到训练集 Al 中任何一项作品的重要性,任何公平的版税都将非常小。”。部分推理是由Yann Le CunMeta 人工智能研究总监接受采访回声去年11月16日。这位被认为是人工智能之父之一的人认为版权可能会阻止人工智能的发展。
“在欺骗了所有被你窃取数据的人之后,OpenAI 要求(……)通行证”
OpenAI 提出的论点让艺术家 Jon Lam 非常恼火,他呼吁 AI 行业尊重版权。后者写道,他的领英帐户: «我们不要忘记,去年这些生成式人工智能公司,如 Midjourney、Stable Diffusion 等。告诉我们他们的数据是道德的,他们没有接受我们的作品或任何版权方面的培训“,他感叹道。后者补充道:“在欺骗了所有被你窃取数据的人之后,OpenAI 要求版权例外。 (…),通过。不,不,在导致世界各地艺术家、作家和程序员大规模裁员之后”,他铲球。
几个月来,创作者或权利持有者公司针对 Stable Diffusion、Stability AI、Anthropic 和 OpenAI 提出了大量投诉。 2023 年 9 月,17 位作者攻击了后者公司,认为它已经证明了的一个“大规模系统性盗窃»。对于某些人来说,训练人工智能的工作相当于真正掠夺他们的创造物– 除了开发可以与他们竞争的工具之外。
最新加入不满阵营的:《纽约时报》认为 OpenAI 非法使用其文章生成文本。为了为自己辩护,OpenAI 发表了一篇长篇博文,辩称《纽约时报》的诉讼毫无根据。
在提交给英国议会的论点中,该公司恳求(英国)版权法不要改变,并回顾说,网站现在可以阻止用于提取内容以进行培训的索引机器人。该公司补充说,它正在与某些美国新闻出版商达成协议,同时相信“在支持和赋权创作者方面仍有工作要做s”……不确定这是否能说服主要利益相关者。
来源 : 电讯报