在美国,作家们要求人工智能制造商停止窃取他们的书籍来训练他们的人工智能。他们要求赔偿,并要求他们获得未来培训的许可。在欧洲,代表创意行业的协会也呼吁人工智能公司承担透明度义务。对于后者来说,版权和人工智能创新并非不相容。
这是在美国和欧洲在几个小时内发生的两项举措,并且具有相同的目标:要求开放人工智能、Google、Meta 和所有其他开发者人工智能他们尊重版权当他们训练人工智能工具时。大西洋彼岸,9000多名作家在专业作家组织作家协会网站上发表的一封信上签名。他们的要求很简单:人工智能必须停止在没有丝毫授权、没有丝毫经济补偿的情况下对其作品进行训练。 “这些技术模仿并反省我们的语言、我们的故事、我们的风格和我们的想法。数以百万计的受版权保护的书籍、文章、散文和诗歌构成了人工智能系统的“食物”,无穷无尽的免费餐食»,他们写道。
24小时后,有代表,在欧洲,7 月 19 日,作者组织、图书、图像、媒体甚至音乐行业的人士呼吁人工智能行业尊重版权。因为 ”人工智能创新的进步和有效的版权保护并不相互排斥»,他们恳求道。他们还捍卫了在训练人工智能系统方面施加透明度义务的想法。欧洲议会希望在该框架内增加这方面的规定人工智能监管。这项未来的法律目前正在欧盟内通过,将成为监管该行业的首批文本之一。
ChatGPT 可以复制大作家的风格
大西洋两岸的创作者都对人工智能在他们的作品中被愉快地使用来喂养他们的语言模型感到遗憾。聊天GPT,诗人因此,LLaMa 将能够以玛格丽特·阿特伍德 (Magaret Atwood) 或卡门·马查多 (Carmen Machado) 等作家的风格撰写文本,包括整本书。这怎么可能? OpenAI、微软、Meta 或谷歌等制造商很少透露他们如何选择用于训练人工智能的数据。例如,OpenAI 在一份新闻稿中宣称,ChatGPT 是由“许可内容、公开内容以及人工智能培训师和用户创建的内容»,并补充说公司尊重创作者和作者的权利。但目前还没有这些数据的列表。我们知道所有人工智能开发人员都大量使用来自网络的数据。
然而,其中一些数据受版权保护。具体来说,这就是这 9,000 名作者这封信的全部目的,人工智能开发者并没有向出版商乞求用户许可——如果他们想要正确地做事,通常会发生这种情况。因此,只有两种可能性:要么人工智能是根据作品摘录进行训练的,有时可以在网站或书店和图书馆找到。要么是语言模型下载了非法数据库,其中有很多文本。
“谁会故意窃取数百万作品来推动新的商业产品? »
也正是基于此,作家兼演员 Sarah Silverman 于 7 月初向美国法院起诉 Meta 和 OpenAI。对于后者,聊天GPT和 LLaMa 接受了有关非法包含版权作品的盗版网站内容的部分培训。人工智能公司,“正在花费数十亿美元开发人工智能技术”,因此必须“补偿我们使用我们的著作,否则人工智能将变得平庸且极其有限», 估计这封信的签署人。和 ”谁会故意窃取数百万作品来推动新的商业产品?»,他们问道,毫不犹豫地限定 OpenAI 和 Meta “恶意行为者»。
另请阅读:安迪·沃霍尔版权案如何撼动生成人工智能
因为所谓的盗窃行为对于一个在人工智能兴起之前就已经靠艺术谋生的职业来说是灾难性的,除了少数明星之外。 “这种情况是站不住脚的,尤其是对于年轻作家和来自代表性不足的社区的声音而言»,对这封信的作者感到遗憾。 “通过将我们的著作集成到您的系统中,生成人工智能可能会损害我们的职业,因为市场上充斥着由机器编写并基于我们工作的平庸书籍、故事(……)»,他们继续。作为证明:“最近,一些质量非常差的人工智能生成的书籍登上了亚马逊的畅销书排行榜(……);出版商被生成的作品淹没»。
暂时没有采取法律行动的论坛
在信中,作者提出了几项要求。他们要求人工智能开发者从现在开始获得每个权利人的许可,才能使用作品作为训练数据。对于已经被人工智能摄取的作品,作者要求获得经济补偿,不仅包括培训部分,还包括人工智能以相关作家的风格生成的所有内容。目前,这只是一封公开信,没有采取法律行动,向我们的同事解释说美国国家公共电台作者协会首席执行官玛丽·拉森伯格 (Mary Rasenberger) 谈到了此类程序所需的巨大成本和极其漫长的时间。
此次论坛是否会对行业内的企业产生丝毫影响,还有待观察。 “谁会愿意说,是的,我们的人工智能是建立在被盗作品的基础上的,我们很抱歉,我们会为此付出代价»,询问我们的同事TechCrunch,谁似乎都不太相信。目前,受版权保护或受版权保护的作品的使用仍处于灰色地带。在美国和欧洲,法院尚未直接就这一问题做出裁决,但预计他们很快就会做出裁决,并采取行动。
整个问题是人工智能巨头是否有权使用网络上的这些数据(包括受版权保护的数据)来训练他们的人工智能。在美国,不存在“数据挖掘例外”,而在欧盟,如果作者没有反对,则授权此类使用。但企业依赖于一种叫做合理使用»,合理使用,版权垄断的例外,以证明将受保护作品纳入人工智能训练数据的合理性。在等待法院裁决的同时,立法者可以利用他们正在制定的人工智能法规来最终解决这个问题。
来源 : 致生成人工智能领域领导者的公开信