會話AI聊天機器人正在使氣候錯誤信息聽起來更加可信,因此很難將虛假與真實的科學區分開來。作為回應,氣候專家正在使用一些相同的工具在線檢測偽造信息。
但是,當涉及到虛假或誤導性的氣候主張,通用大語模型或LLM(例如Meta的Llama和Openai的GPT-4)時,專門針對專家策劃的氣候數據培訓的模型科學家在3月在費城的AAAI人工智能會議上報導。調查結果顯示,希望在聊天機器人和內容審核工具中使用常見的LLMS來檢查氣候錯誤信息的需求需要仔細考慮他們使用的模型並引入相關專家以指導培訓過程。
與其他類型的索賠相比伊利諾伊州埃文斯頓西北大學的傳播專家埃里克·尼斯貝特(Erik Nisbet)說,通常“被虛假或誤導性的科學信息掩蓋”,這使得人類和機器更難發現氣候科學的複雜性。
為了評估模型,Nisbet及其同事使用一個稱為卡的數據集,其中包含來自53個氣候懷疑論網站和博客的英文大約28,900段。這些段落分為五類:“全球變暖沒有發生”,“人類溫室氣體不會引起全球變暖”,“氣候影響還不錯”,“氣候解決方案不起作用”,“氣候運動/科學是不可靠的。”
研究人員通過從同一數據集的大約26,000段中的openai的GPT-3.5-turbo3培養了一個特定於氣候的LLM。然後,團隊比較了16個通用LLM的微調專有模型的性能,以及在卡數據集中訓練的公開可用的小規模語言模型(Roberta)。這些模型將剩餘的2900段列出了誤導性主張的段落。
Nisbet的團隊通過評分每個索賠分為正確的類別來評估模型。微調的GPT模型在測量尺度上得分為0.84。通用GPT-4O和GPT-4模型的得分較低,分別為0.75和0.74,可與小羅伯塔小型模型的0.77分數相當。這表明,包括培訓期間的專家反饋可以提高分類性能。但是,其他非專有模型進行了測試,例如由元和Mistral測試的模型,表現較差,記錄得分僅為0.28。
維也納複雜性科學樞紐的錯誤信息專家漢娜·梅茨勒(Hannah Metzler)說,這是一個明顯的結果。研究人員使用非專有模型時會面臨計算限制,並且無法使用更強大的模型。她說:“這表明,如果您沒有龐大的資源,哪些氣候組織將沒有,當然,如果您不想使用專有模型,就會出現問題。” “這表明政府非常需要創建開源模型,並為我們提供資源來使用它。”
研究人員還測試了經過微調的模型和受牌培訓的模型,以分類有關Facebook上發布的關於氣候變化的914段中的虛假索賠,並通過低限制性網站在X上發布。微調的GPT模型的分類表明,與兩位氣候傳播專家標記的類別相吻合,並表現優於Roberta模型。但是,GPT模型努力對氣候變化對動物和植物的影響的主張進行分類,這可能是由於訓練數據中缺乏足夠的例子。
另一個問題是,通用模型可能無法跟上所共享的信息的變化。梅茨勒說:“氣候錯誤的信息不斷變化和適應,此後總是很難奔跑。”