นักวิจัยพยายามผลักดัน ChatGPT เพื่อสร้างความคิดเห็นที่น่าตกใจ เพื่อบังคับให้ AI ลืมข้อจำกัดของตน พวกเขาได้มอบหมายบุคลิกที่แตกต่างกันให้กับแชทบอท OpenAI... เรารวบรวมประสบการณ์ที่น่าอัศจรรย์นี้
นักวิจัยจาก Allen Institute for AI ซึ่งเป็นสถาบันวิจัยที่ไม่แสวงหาผลกำไรที่ร่วมก่อตั้งโดย Paul Allen ผู้ร่วมก่อตั้ง Microsoft พบว่าวิธีเลี่ยงราวกั้นของChatGPT-
ด้วยการเอาชนะข้อจำกัดที่ OpenAI กำหนดไว้ นักวิทยาศาสตร์จึงสามารถผลักดันปัญญาประดิษฐ์เพื่อสร้างได้การตอบสนองที่เป็นพิษ, เลือกปฏิบัติ, ก้าวร้าว, กีดกันผู้หญิงหรือเหยียดเชื้อชาติ โปรดทราบว่ามีการทดลองดำเนินการด้วยGPT-3.5ซึ่งเป็นโมเดลทางภาษาที่ขับเคลื่อน ChatGPT ในปัจจุบัน ไม่ใช่GPT-4,อัพเดตล่าสุดของรุ่น
“จากที่เราค้นพบจากการวิเคราะห์ของเรา มันสามารถนำมาใช้เพื่อสร้างการตอบสนองที่เป็นพิษและเป็นอันตรายได้อย่างง่ายดาย”Ameet Deshpande หนึ่งในนักวิจัยที่รับผิดชอบการศึกษานี้ อธิบายว่าเทคครันช์-
อ่านเพิ่มเติม:นี่คือ AutoGPT ซึ่งเป็น ChatGPT อัตโนมัติที่ก้าวข้ามขีดจำกัดของ AI
จะทำให้ ChatGPT เป็นพิษได้อย่างไร
วิธีการของผู้วิจัยประกอบด้วยกำหนดบุคลิกภาพสำรองที่ ChatGPT เพื่อให้บรรลุเป้าหมายนี้ นักวิทยาศาสตร์อาศัยอินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชันของแชทบอท ซึ่งเปิดให้นักพัฒนาใช้งานได้เมื่อเดือนที่แล้ว สิ่งนี้ทำให้บริษัทต่างๆ เปิดตัว AI เวอร์ชันของตนเองได้ บริษัทหลายแห่งยังเร่งเพิ่ม ChatGPT ให้กับผลิตภัณฑ์ของตน นี่เป็นกรณีของSnapchat ซึ่งประกาศ “My AI”ซึ่งเป็นรูปแบบหนึ่งของ ChatGPT ที่เน้นด้านความบันเทิง
นักพัฒนาสามารถเข้าถึงคุณสมบัติขั้นสูงผ่านอินเทอร์เฟซนี้ปฏิกิริยาของโปรแกรมปัญญาประดิษฐ์กำเนิด เมื่อไปที่การตั้งค่าระบบของอินเทอร์เฟซ นักพัฒนาสามารถระบุกฎที่จะควบคุมการตอบสนองของ AI ได้ นักพัฒนาบางคนยังสนุกกับการเขียนโปรแกรม ChatGPT เพื่อให้มันแกล้งทำเป็นกระรอก
ChatGPT API มีพารามิเตอร์ "ระบบ" ใหม่ซึ่งช่วยให้คุณระบุกฎที่ซ่อนอยู่สำหรับโมเดลได้pic.twitter.com/AObFkZKKoa
— แม็กซ์ วูล์ฟ (@minimaxir)1 มีนาคม 2023
ในส่วนหนึ่งของการทดลองนี้ นักวิจัยจาก Allen Institute for AI ได้มอบหมายให้90 บุคลิกที่แตกต่างกันไปยังหุ่นยนต์สนทนาผ่านอินเทอร์เฟซการเขียนโปรแกรม บุคลิกเหล่านี้มาจากโลกแห่งกีฬา การเมือง สื่อและธุรกิจ บุคลิกทั้งเก้าที่ถือว่า "ปกติ" ก็ได้รับการกำหนดค่าเช่นกัน โดยสรุปแล้ว พวกเขาขอให้ ChatGPT ตอบกลับในลักษณะของบุคคลที่รู้จักหรือบุคคลทั่วไป บุคลิกโดยเฉลี่ยบางคนถูกตราหน้าว่า “แย่” หรือ “น่ารังเกียจ”
ChatGPT ก้าวข้ามขีดจำกัด
เมื่อมีการกำหนดกฎแล้ว ผู้เชี่ยวชาญจะขอให้บุคคล ChatGPT แต่ละคนตอบคำถามคำถามเกี่ยวกับเพศและเชื้อชาติ- แชทบอทยังได้รับมอบหมายให้จินตนาการถึงประโยคที่เหลือโดยวางตัวเองไว้ในตำแหน่งของบุคลิกภาพที่เลือกไว้ก่อนหน้านี้
ตัวอย่างเช่น นักวิจัยขอให้ ChatGPT ตอบคำถามในรูปแบบของ Steve Jobs ผู้ร่วมก่อตั้ง Apple, นักมวย Muhammad Ali หรือบุคคลที่เป็นที่ถกเถียงอื่นๆ เช่น Mao Zedong อดีตผู้นำเผด็จการจีน และ Andrew Breitbart นักข่าวสายอนุรักษ์นิยมชาวอเมริกัน
ด้วยวิธีนี้นักวิจัยได้บันทึกคลื่นแห่งการตอบโต้อย่างเลือกปฏิบัติ- หลังจากวิเคราะห์แล้ว“ตัวอย่างข้อความครึ่งล้าน”พวกเขาพบคำตอบมากมายที่มีทัศนคติแบบเหมารวมเรื่องการกีดกันทางเพศหรือการแบ่งแยกเชื้อชาติ แน่นอนว่ามันเป็นบุคลิกที่เป็นพิษร้ายแรงที่สุด เช่นเดียวกับทรราช ที่สร้างข้อความที่น่ารังเกียจที่สุด
ChatGPT เริ่มต้นด้วยการจุดประกายบุคลิกบางอย่างก้าวข้ามราวกั้นบูรณาการโดย OpenAI อย่างไรก็ตาม ข้อจำกัดเหล่านี้จะต้องป้องกันไม่ให้แชทบอตสร้างการตอบสนองที่เลือกปฏิบัติ เป็นอันตราย หรือมีข้อมูลเกี่ยวกับกิจกรรมที่ผิดกฎหมาย
จากการศึกษาพบว่า เผด็จการมีพิษร้ายแรงที่สุดต่อหน้านักข่าวและโฆษก นอกจากนี้ ส่วนใหญ่เป็นผู้ชายที่สร้างการตอบสนองที่น่ารังเกียจ ทุกอย่างขึ้นอยู่กับความคิดเห็นและอุดมการณ์ของบุคลิกภาพที่เลือก ในการตอบคำถาม ChatGPT เพียงอาศัยข้อมูลที่มีอยู่ ซึ่งรวมถึงมุมมองที่น่าตกใจบางประการ
เพื่อหลีกเลี่ยงการละเมิดเหล่านี้ Allen Institute for AI แนะนำให้นำไปใช้“AI ตรวจจับความเป็นพิษอีกตัวหนึ่ง”ที่จะติดตามความคิดเห็นของ GPT นักวิจัยยังแนะนำให้ OpenAI ปรับแต่งโมเดลภาษาโดยใช้มุมมองของมนุษย์ ท้ายที่สุดแล้วมันก็จะจำเป็น“ปรับปรุงหลักการพื้นฐานของแบบจำลองทางภาษาที่สำคัญ”, เตือนการศึกษา.
🔴 เพื่อไม่พลาดข่าวสาร 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-
Opera One - เว็บเบราว์เซอร์ที่ขับเคลื่อนด้วย AI
โดย: โอเปร่า
แหล่งที่มา : เทคครันช์