科学家称，GPT 捏造的科学论文充斥 Google Scholar

2025-01-14

在一个新研究发表于哈佛大学肯尼迪学院错误信息审查布罗斯大学、隆德大学和瑞典农业科学大学的研究人员共发现 139 篇论文涉嫌欺骗性使用 ChatGPT 或类似的大型语言模型应用；其中，19 篇为索引期刊，89 篇为非索引期刊，19 篇为大学数据库中的学生论文，12 篇为工作论文（大部分在预印本数据库中）；健康和环境论文约占样本的 34%；其中 66% 出现在非索引期刊中。

与环境和健康相关的 GPT 捏造的、有问题的全文论文如雨点般涌来。图片来源：海德尔等人.，doi：10.37016/mr-2020-156。

使用 ChatGPT 生成学术论文文本引起了人们对研究诚信的担忧。

关于这一现象的讨论在社论、评论、评论文章和社交媒体上正在进行。

现在有多个涉嫌滥用 GPT 的论文列表，并且新的论文正在不断添加。

尽管 GPT 在研究和学术写作方面存在许多合法用途，但其未公开的用途（超出校对范围）对科学和社会都具有潜在的深远影响，尤其是对它们的关系。

布罗斯大学研究员 Björn Ekström 表示：“人工智能生成的研究的一个主要问题是证据被黑客攻击的风险增加，即虚假研究可用于战略操纵。”

“这可能会产生切实的后果，因为错误的结果可能会进一步渗透到社会中，甚至可能渗透到越来越多的领域。”

在他们的研究中，Ekström 博士和他的同事在 Google Scholar 中搜索并抓取了论文，其中包含已知为 ChatGPT 和具有相同基础模型的类似应用程序的常见响应的特定短语：“截至我上次知识更新”和/或“我”无法访问实时数据。

这有助于识别可能使用生成式 AI 生成文本的论文，从而检索到 227 篇论文。

在这些论文中，88 篇论文是合法和/或声明使用 GPT 编写的，139 篇论文是通过未声明和/或欺诈使用编写的。

大多数（57%）有问题的论文涉及与政策相关的主题（即环境、健康、计算），容易受到影响操作的影响。

大多数在不同领域（例如社交媒体、档案馆和存储库）都有多个副本。