利用人工智能發現氣候錯誤信息需要經過專業訓練的模型
Meta 的 Llama 和 Google 的 Gemini 在任務中落後於專有的
一項新的研究表明,想要利用人工智能對抗氣候錯誤信息的組織需要聘請專家來指導模型的訓練。
羅布·多比/Moment/Getty Images Plus
對話式人工智能聊天機器人讓氣候錯誤信息聽起來更加可信,讓人們更難區分謊言和真實科學。作為回應,氣候專家正在使用一些相同的工具來檢測在線虛假信息。
但在對虛假或誤導性氣候聲明進行分類時,通用大型語言模型或 LLM(例如 Meta 的 Llama 和 OpenAI 的 GPT-4)落後了根據專家策劃的氣候數據專門訓練的模型,科學家們三月份在費城舉行的 AAAI 人工智能會議上報告說。調查結果顯示,希望在聊天機器人和內容審核工具中使用常用的法學碩士來檢查氣候錯誤信息的氣候組織需要仔細考慮他們使用的模型,並聘請相關專家來指導培訓過程。
與其他類型的索賠相比,伊利諾伊州埃文斯頓西北大學的通信專家埃里克·尼斯貝特(Erik Nisbet)表示,這些信息經常“被虛假或誤導性的科學信息所掩蓋”,這使得人類和機器更難發現氣候科學的複雜性。
為了評估模型,尼斯貝特和他的同事使用名為 CARDS 的數據集,其中包含來自 53 個氣候懷疑論網站和博客的大約 28,900 個英文段落。這些段落分為五類:“全球變暖沒有發生”、“人類溫室氣體不會導致全球變暖”、“氣候影響還不錯”、“氣候解決方案行不通”和“氣候運動/科學不可靠”。
研究人員通過對來自同一數據集的約 26,000 個段落重新訓練或微調 OpenAI 的 GPT-3.5-turbo3 建立了針對氣候的法學碩士。然後,該團隊將經過微調的專有模型與 16 個通用法學碩士和在 CARDS 數據集上訓練的公開可用的小型語言模型 (RoBERTa) 的性能進行了比較。這些模型對其餘 2,900 段誤導性主張進行了分類。
Nisbet 的團隊通過對每個模型將聲明分類到正確類別的程度進行評分來評估模型。經過微調的 GPT 模型在測量量表上得分為 0.84(滿分 1.00)。通用 GPT-4o 和 GPT-4 模型的得分較低,分別為 0.75 和 0.74,與小型 RoBERTa 模型的 0.77 得分相當。這表明在訓練期間包含專家反饋可以提高分類性能。但測試的其他非專有模型,例如 Meta 和 Mistral 的模型,表現不佳,得分僅為 0.28。
維也納複雜性科學中心的錯誤信息專家漢娜·梅茨勒 (Hannah Metzler) 表示,這是一個顯而易見的結果。研究人員在使用非專有模型時面臨計算限制,無法使用更強大的模型。 “這表明,如果你沒有巨大的資源(氣候組織不會擁有),如果你不想使用專有模型,當然就會出現問題,”她說。 “這表明政府非常需要創建開源模型並為我們提供使用該模型的資源。”
研究人員還測試了微調模型和 CARDS 訓練模型,對低可信度網站在 Facebook 和 X 上發布的 914 段有關氣候變化的虛假聲明進行分類。經過微調的 GPT 模型的分類與兩位氣候通信專家標記的類別高度一致,並且優於 RoBERTa 模型。但是,GPT 模型很難對氣候變化對動植物影響的說法進行分類,這可能是由於訓練數據中缺乏足夠的例子。
另一個問題是通用模型可能無法跟上共享信息的變化。 “氣候錯誤信息不斷變化和適應,”梅茨勒說,“追趕它總是很困難。”









