Openai面对AI培训数据实践的审查

2024-07-01

Openai的从互联网上几乎不受限制地使用信息chatgpt人工智能培训数据仍然是该公司的法律问题，因为质疑有问题的实践的诉讼继续增加。

训练chatgpt，Openai据说利用公开可用的数据，包括在线书籍和论文。目前，他们的所有者希望为他们的劳动付款。

席卷技术行业的AI模型的创建需要培训数据。诸如微软，Google，Anthropic，Meta，OpenAI和Anthropic之类的著名技术公司都急于找到新的数据源。有一次，梅塔甚至考虑购买世界上最大的出版社之一西蒙和舒斯特。

但是，他们仍然需要在法庭上介绍该辩护，因为该业务已被多个当事方起诉，以权威的内容而起诉。

Openai vs。 CIR

非营利性媒体集团调查报告中心（CIR）于今年早些时候与琼斯（Mother Jones）合并并揭示，提起上周，联邦法院针对微软和OpenAI的投诉。

该诉讼称，CIR和全球其他生产者拥有的知识产权用于开发。

CIR的律师指责Microsoft和Openai使用Mother Jones的受版权保护的材料来训练其GPT和Copilot AI模型。

去年四月，Openai和Microsoft也面对奥尔登资本集团（Alden Capital Group）拥有的几家著名报纸的法律行动，包括《纽约每日新闻》和《芝加哥论坛报》。

根据诉讼，这两家公司都故意侵犯了版权。几家著名的报纸引用了侵犯版权的诉讼，已针对微软和Openai提起诉讼，包括芝加哥论坛报，奥兰多哨兵，纽约每日新闻和圣何塞·水星新闻。

奥尔登全球资本（Alden Global Capital）拥有所有这些报纸，并声称这两家公司都使用其内容来培训AI模型，而无需给予信誉或获得许可。

该案例包括与Chatgpt和Copilot对话的数据，表明当询问时，这些人工智能模型会产生特定出版物的长时间引号。

这意味着上述项目未经相关媒体许可，包括在培训数据集中。

他们还通过展示了如何立即从互联网中检索新闻故事并完整地复制它们而无需归功于消息来源，从而证明了Copilot的能力。此外，这些公司声称这些聊天机器人会经常错误地将出版物与虚假材料或捏造联系起来。