据《纽约时报》报道,在一个数据既不公开访问也不不受限制的世界中寻找数据以赢得人工智能竞赛:这是该行业这三家公司面临的难题。可以考虑不同的方法,例如重新购买数据库、转录视频或播客,或者在未经授权的情况下使用受版权保护的数据。
找到数据,你就能主宰人工智能市场:这种对数据的“追求”,以及遇到的一千零一个法律或实际障碍开放人工智能、Google 和 Meta,这就是纽约时报在 4 月 6 日发表的一篇报道中。我们的同事利用内部会议录音和匿名证词解释了 Meta、OpenAI 和谷歌,他们都开发了 Llama、ChatGPT 和双子座,我们面临着真正的“短缺”。足以引导他们考虑多种选择,有时甚至接近合法性,以找到使他们赢得人工智能竞赛的因素,即为大型语言模型提供数据,并让这些最后的语言模型能够学习如何表达句子、代码或生成视频。
这一真正的追求是由美国约翰·霍普金斯大学的物理学家贾里德·卡普兰 (Jared Kaplan) 于 2020 年 1 月提出的,他现在就职于人择。当年,这位科学家在一篇关于人工智能的文章中做出了这样的观察:训练大型语言模型的数据越多,效率就越高——有点像一个学生,读了很多书,就培养了更多的知识。 。
尽管该行业的公司一致接受这一原则,但他们面临着一个主要问题:相关数据既不能自由访问,也不能无限访问。去年五月认识到的一点萨姆·奥特曼,OpenAI 的负责人。在一次会议上,这位经理承认,人工智能公司需要越来越多的数据,很快就会“耗尽”互联网上所有可用的数据——例如新闻文章、论坛上的观点或消息、维基百科文章、照片、播客、视频、还有一些作品。
其他人也得出了这一结论,例如研究机构 Epoch,根据该研究,到 2026 年,公司可以耗尽互联网上的“高质量”数据——这些数据来自专业人士撰写的书籍或文章。换句话说,开发人工智能的公司使用数据的速度会比数据产生的速度快。
在 Meta:2023 年 3 月和 4 月的危机会议上寻找数据
如何解决这个问题呢?几个月来,该行业的公司一直在考虑不同的解决方案,从 Meta 开始。纽约时报。 2023 年初,马克·扎克伯格 (Mark Zuckerberg) 的团队可能会注意到,他们不再拥有足够的数据来组建法学硕士课程。根据一名员工与我们同事分享的内部会议记录,这一观察是艾哈迈德·阿尔-达勒 (Ahmad Al-Dahle) 做出的。 Meta 的生成人工智能副总裁表示,他的团队几乎使用了网络上所有英文书籍、论文、诗歌和新闻文章。然而,据报道 Ahmad Al-Dahle 解释说,如果没有额外的数据,Meta 将无法与 ChatGPT 竞争,除非它获得更多数据。
2023 年 3 月和 4 月,会议将相继召开,以找出如何从 Meta 的鞋子上取出这块石头的方法。在 Facebook 和 Instagram 的母公司内部,我们首先考虑收购出版社 Simon & Schuster。目标是:根据美国媒体可以访问的内部会议记录,获得长篇作品。据称,Meta 员工随后讨论了网络上受版权保护作品的使用,以及与出版商、艺术家、音乐家和媒体机构的许可谈判。但在内部,我们会觉得最后一步会花费太长的时间,导致 Meta 在这场人工智能竞赛中远远落后。据报道,一名律师在其中一次会议上警告“道德问题» 未经授权而与艺术家和作者的知识产权的使用相关。我们的同事解释说,他的警报之后就会是沉默,并支持会议录音。
最终,这就是我们会选择的选项。据报道,该组织的律师解释说,应该考虑从网络收集数据,以便训练人工智能模型“合理使用”。美国版权法的这一例外允许在某些情况下使用受版权保护的作品,但美国法院尚未就训练人工智能的案件做出裁决。对于艺术家和作家来说,这种使用是真正的“掠夺» 必须停止并给予补偿。面对我们同事的质疑,梅塔解释说,他“进行了积极的投资» 将人工智能集成到其服务中。该组织补充说,它在 Instagram 和 Facebook 上公开分享了数十亿张图像和视频来训练其模型。
另请阅读:你伟大的“数字掠夺”:当生成式人工智能挑战版权时
但对于代表硅谷风险投资公司的律师 Sy Damle 来说,依赖受版权保护但可通过网络访问的数据是“这些工具(人工智能,编者注)存在的唯一实用方法» – 该行业的公司经常提出的一个论点。这些生成式人工智能必须提供“接受大量数据的培训,而无需支付该数据的许可证费用»,这位律师去年在关于版权和人工智能模型的公开讨论中解释道,我们的同事也对此表示赞同。 “所需数据海量,集体许可也确实行不通“,他补充道。
在 Google:使用 YouTube 视频
就谷歌而言,它可以通过使用其平台之一来弥补这一短缺:YouTube。据称,他将 YouTube 视频转录成文本,然后用文本来训练他的人工智能模型,“五名熟悉公司惯例的人» 受到我们同事的质疑。据报道,这家庞然大物去年七月还改变了其免费消费者应用程序(如 Google Sheets 或 Google Doc)的使用条件。其目标:将公开用户数据的使用扩展到 Bard(以前称为 Gemini),其生成人工智能指定了纽约时报。
但据谷歌发言人称,这是没有用的“未经明确许可» 用户,参考允许他们测试某些实验功能的自愿计划。其人工智能模型“接受过一些 YouTube 内容的培训»,这将在与 YouTube 内容创作者达成的协议框架内获得授权,”他向我们的同事补充道。
OpenAI 会选择视频的书面转录
在 OpenAI,研究人员首先使用计算机代码存储库 GitHub 等数据,或 Quizlet 网站上描述高中考试和作业的数据。但从 2021 年 12 月开始,该行业领先者面临着同样的短缺:没有更多数据可用。然后,开发 GPT-4 的团队会考虑不同的选择:创建合成数据(由人工智能系统创建)、将播客或 YouTube 视频转录为写作或购买收集了大量数字化数据的初创公司。最后,据我们同事采访的六位人士透露,OpenAI 选择了 Whisper,这是一种可以以书面形式转录 YouTube 视频和播客的工具。
如果这家美国公司指出 YouTube 禁止“任何自动化手段(例如机器人或刮刀)» 在他的视频中,由于“合理使用»,根据我们同事收集的证词,OpenAI 团队认为这是美国版权法的例外。
OpenAI 对 YouTube 视频的使用是否非法,侵犯了 YouTube 内容创作者的版权?不一定,接受采访的人解释一下纽约时报。据受访者称,因为谷歌也会做同样的事情——使用 YouTube 视频的转录来训练自己的人工智能模型——这将保护他们免受巨头采取任何行动的影响。他们补充说,如果谷歌抱怨 OpenAI 的做法,那它就是搬起石头砸自己的脚,因为它自己的方法将会受到审查。
被问及这一点时,谷歌发言人马特·布莱恩特(Matt Bryant)向我们的同事解释说,该公司并不了解 OpenAI 的做法,并且从 YouTube 下载内容未经授权。他继续说,谷歌只有在有法律依据的情况下才会采取行动。这是否意味着谷歌确实被授权使用 YouTube 用户数据来为其人工智能模型(视频平台外部的服务)提供支持?接受美国日报采访的专家表示,这个问题的答案还远未明确。尽管存在这些灰色地带,该行业的公司仍然可能达到现有数据的上限。人工智能所要做的就是创建合成数据,由它们自己创建的数据来超越它——这种方法也在考虑中,但目前还处于起步阶段。
来源 : 纽约时报