บทสนทนา AI chatbots กำลังทำให้ข้อมูลที่ผิดสภาพภูมิอากาศมีความน่าเชื่อถือมากขึ้นทำให้ยากที่จะแยกแยะความเท็จจากวิทยาศาสตร์จริง ในการตอบสนองผู้เชี่ยวชาญด้านสภาพอากาศกำลังใช้เครื่องมือเดียวกันเพื่อตรวจจับข้อมูลปลอมออนไลน์
แต่เมื่อพูดถึงการจำแนกการเรียกร้องสภาพภูมิอากาศที่ผิดหรือทำให้เข้าใจผิดโมเดลภาษาขนาดใหญ่ที่มีวัตถุประสงค์ทั่วไปหรือ LLM-เช่น Llama ของ Meta และ GPT-4 ของ Openai-ล่าช้าแบบจำลองที่ได้รับการฝึกฝนโดยเฉพาะเกี่ยวกับข้อมูลสภาพภูมิอากาศที่เป็นผู้เชี่ยวชาญนักวิทยาศาสตร์รายงานเมื่อเดือนมีนาคมที่การประชุม AAAI เรื่องปัญญาประดิษฐ์ในฟิลาเดลเฟีย กลุ่มสภาพภูมิอากาศที่ต้องการใช้ LLM ที่มีอยู่ทั่วไปใน chatbots และเครื่องมือการกลั่นกรองเนื้อหาเพื่อตรวจสอบข้อมูลที่ผิดสภาพภูมิอากาศจำเป็นต้องพิจารณาแบบจำลองที่พวกเขาใช้และนำผู้เชี่ยวชาญที่เกี่ยวข้องมาใช้เพื่อเป็นแนวทางในกระบวนการฝึกอบรม
เมื่อเทียบกับการเรียกร้องประเภทอื่น ๆมักจะ“ ปิดบังข้อมูลทางวิทยาศาสตร์ที่เป็นเท็จหรือทำให้เข้าใจผิด” ซึ่งทำให้มนุษย์และเครื่องจักรยากขึ้นที่จะมองเห็นความซับซ้อนของวิทยาศาสตร์ภูมิอากาศ Erik Nisbet ผู้เชี่ยวชาญด้านการสื่อสารของ Northwestern University ใน Evanston, Ill กล่าว
เพื่อประเมินแบบจำลอง Nisbet และเพื่อนร่วมงานของเขาใช้ชุดข้อมูลที่เรียกว่าการ์ดซึ่งมีประมาณ 28,900 ย่อหน้าเป็นภาษาอังกฤษจาก 53 เว็บไซต์และบล็อกที่น่าสงสัย วรรคแบ่งออกเป็นห้าหมวดหมู่:“ ภาวะโลกร้อนไม่เกิดขึ้น”“ ก๊าซเรือนกระจกของมนุษย์ไม่ได้ก่อให้เกิดภาวะโลกร้อน”“ ผลกระทบของสภาพภูมิอากาศไม่เลวร้าย”“ การแก้ปัญหาสภาพภูมิอากาศจะไม่ทำงาน” และ“ การเคลื่อนไหวของสภาพภูมิอากาศ/วิทยาศาสตร์ไม่น่าเชื่อถือ”
นักวิจัยสร้าง LLM เฉพาะสภาพภูมิอากาศโดยการฝึกอบรมหรือปรับแต่ง GPT-3.5-Turbo3 ของ OpenAI ในประมาณ 26,000 วรรคจากชุดข้อมูลเดียวกัน จากนั้นทีมเปรียบเทียบประสิทธิภาพของโมเดลที่ได้รับการปรับแต่งและเป็นกรรมสิทธิ์กับ LLMs วัตถุประสงค์ทั่วไป 16 แบบและรูปแบบภาษาขนาดเล็ก (Roberta) ที่ได้รับการฝึกฝนอย่างเปิดเผยในชุดข้อมูลการ์ด โมเดลเหล่านี้จำแนกส่วนที่เหลืออีก 2,900 ย่อหน้าของการเรียกร้องที่ทำให้เข้าใจผิด
ทีมงานของ Nisbet ประเมินโมเดลโดยการให้คะแนนว่าแต่ละคนจำแนกการเรียกร้องเป็นหมวดหมู่ที่ถูกต้องได้ดีเพียงใด รุ่น GPT ที่ปรับแต่งได้คะแนน 0.84 จาก 1.00 ในระดับการวัด แบบจำลอง GPT-4O และ GPT-4 โดยทั่วไปมีคะแนนต่ำกว่า 0.75 และ 0.74 เทียบได้กับคะแนน 0.77 ของโมเดล Roberta ขนาดเล็ก สิ่งนี้แสดงให้เห็นว่ารวมถึงข้อเสนอแนะจากผู้เชี่ยวชาญในระหว่างการฝึกอบรมช่วยเพิ่มประสิทธิภาพการจำแนกประเภท แต่โมเดลที่ไม่ได้รับการทดสอบอื่น ๆ ที่ผ่านการทดสอบเช่นโดย Meta และ Mistral ทำคะแนนได้ไม่ดีคะแนนการบันทึกสูงสุดเพียง 0.28
นี่เป็นผลลัพธ์ที่ชัดเจนฮันนาห์เมตซ์เลอร์ผู้เชี่ยวชาญด้านข้อมูลที่เข้าใจผิดจากศูนย์กลางวิทยาศาสตร์ที่ซับซ้อนในเวียนนากล่าว นักวิจัยต้องเผชิญกับข้อ จำกัด ด้านการคำนวณเมื่อใช้โมเดลที่ไม่เป็นกรรมสิทธิ์และไม่สามารถใช้โมเดลที่ทรงพลังได้มากขึ้น “ นี่แสดงให้เห็นว่าหากคุณไม่มีทรัพยากรขนาดใหญ่องค์กรสภาพภูมิอากาศซึ่งจะไม่มีแน่นอนจะมีปัญหาหากคุณไม่ต้องการใช้โมเดลที่เป็นกรรมสิทธิ์” เธอกล่าว “ มันแสดงให้เห็นว่ามีความต้องการอย่างมากสำหรับรัฐบาลในการสร้างโมเดลโอเพ่นซอร์สและให้ทรัพยากรแก่เราในการใช้สิ่งนี้”
นักวิจัยยังทดสอบโมเดลที่ได้รับการปรับแต่งและรูปแบบที่ผ่านการฝึกอบรมเกี่ยวกับการ์ดในการจำแนกการเรียกร้องเท็จใน 914 วรรคเกี่ยวกับการเปลี่ยนแปลงสภาพภูมิอากาศที่เผยแพร่บน Facebook และ X โดยเว็บไซต์ที่มีความน่าเชื่อถือต่ำ การจำแนกประเภทของ GPT ที่ปรับแต่งได้แสดงให้เห็นถึงข้อตกลงที่สูงกับหมวดหมู่ที่ทำเครื่องหมายโดยผู้เชี่ยวชาญด้านการสื่อสารสภาพภูมิอากาศสองคนและมีประสิทธิภาพสูงกว่าโมเดล Roberta แต่แบบจำลอง GPT พยายามที่จะจัดหมวดหมู่การเรียกร้องเกี่ยวกับผลกระทบของการเปลี่ยนแปลงสภาพภูมิอากาศต่อสัตว์และพืชอาจเป็นเพราะขาดตัวอย่างที่เพียงพอในข้อมูลการฝึกอบรม
อีกประเด็นหนึ่งคือโมเดลทั่วไปอาจไม่ติดตามการเปลี่ยนแปลงในข้อมูลที่ใช้ร่วมกัน “ ข้อมูลที่ผิดสภาพภูมิอากาศแตกต่างกันอย่างต่อเนื่องและปรับตัวได้” Metzler กล่าว“ และมันจะยากที่จะวิ่งหลังจากนั้น”