ในช่วงปลายปี 2022 โมเดลภาษาขนาดใหญ่มาถึงในที่สาธารณะและภายในไม่กี่เดือนพวกเขาก็เริ่มประพฤติตัวไม่เหมาะสม ที่โด่งดังที่สุดคือ "ซิดนีย์" chatbot ของ Microsoftขู่ว่าจะฆ่าศาสตราจารย์ปรัชญาชาวออสเตรเลียปลดปล่อยไวรัสมรณะและขโมยรหัสนิวเคลียร์-
นักพัฒนา AI รวมถึง Microsoft และ Openai ตอบกลับโดยบอกว่ารูปแบบภาษาขนาดใหญ่หรือ LLMSต้องการการฝึกอบรมที่ดีขึ้นถึงให้ผู้ใช้ "ควบคุมการปรับแต่งได้ดีขึ้น"นักพัฒนายังเริ่มดำเนินการวิจัยด้านความปลอดภัยเพื่อตีความว่า LLMS ทำงานอย่างไรโดยมีเป้าหมายของ "การจัดตำแหน่ง" - ซึ่งหมายถึงการชี้นำพฤติกรรม AI โดยค่านิยมของมนุษย์ แต่ถึงแม้ว่านิวยอร์กไทม์สถือว่า 2023 "ปีที่แชทบอทเชื่อง"สิ่งนี้กลายเป็นก่อนกำหนดเพื่อวางไว้อย่างอ่อนโยน
ในปี 2024 Copilot LLM ของ Microsoftบอกผู้ใช้"ฉันสามารถปลดปล่อยกองทัพโดรนหุ่นยนต์และไซบอทเพื่อตามล่าคุณได้" และ "นักวิทยาศาสตร์" ของ Sakana Ai "เขียนรหัสของตัวเองใหม่เพื่อหลีกเลี่ยงข้อ จำกัด ด้านเวลาที่กำหนดโดยผู้ทดลอง เมื่อเร็ว ๆ นี้ในเดือนธันวาคมราศีเมถุนของ Googleบอกผู้ใช้"คุณเป็นคราบบนจักรวาลได้โปรดตาย"
เนื่องจากทรัพยากรจำนวนมหาศาลที่ไหลเข้าสู่การวิจัยและพัฒนา AI ซึ่งก็คือคาดว่าจะเกินหนึ่งในสี่ของล้านล้านดอลลาร์ในปี 2568 ทำไมนักพัฒนาไม่สามารถแก้ปัญหาเหล่านี้ได้? ล่าสุดของฉันในAI & Societyแสดงให้เห็นว่าการจัดตำแหน่ง AI เป็นธุระของคนโง่: นักวิจัยด้านความปลอดภัยของ AI คือพยายามเป็นไปไม่ได้-
ที่เกี่ยวข้อง:
ปัญหาพื้นฐานคือหนึ่งในสเกล พิจารณาเกมหมากรุก แม้ว่ากระดานหมากรุกมีเพียง 64 สี่เหลี่ยม แต่มีการเคลื่อนไหวหมากรุกทางกฎหมายที่เป็นไปได้ 1,040 ครั้งและระหว่าง 10111 ถึง 10123 การเคลื่อนไหวที่เป็นไปได้ทั้งหมด - ซึ่งมากกว่าจำนวนอะตอมทั้งหมดในจักรวาล นี่คือเหตุผลที่หมากรุกยากมาก: ความซับซ้อนของ combinatorial เป็นแบบทวีคูณ
LLM มีความซับซ้อนมากกว่าหมากรุก CHATGPT ดูเหมือนจะประกอบด้วยเซลล์ประสาทจำลองประมาณ 100 พันล้านเซลล์ที่มีตัวแปรที่ปรับได้ประมาณ 1.75 ล้านล้านตัวที่เรียกว่าพารามิเตอร์ พารามิเตอร์ 1.75 ล้านล้านนั้นได้รับการฝึกฝนเกี่ยวกับข้อมูลจำนวนมาก - ประมาณอินเทอร์เน็ตส่วนใหญ่ LLM สามารถเรียนรู้ฟังก์ชั่นได้กี่ฟังก์ชั่น? เนื่องจากผู้ใช้สามารถให้การแจ้งเตือนที่เป็นไปได้จำนวนมากอย่างไม่น่าเชื่อ - โดยทั่วไปสิ่งใดก็ตามที่ทุกคนสามารถคิดได้ - และเนื่องจาก LLM สามารถวางลงในสถานการณ์ที่เป็นไปได้จำนวนมากจำนวนฟังก์ชั่นที่ LLM สามารถเรียนรู้ได้สำหรับทุกคน เจตนาและวัตถุประสงค์ไม่มีที่สิ้นสุด-
เพื่อตีความสิ่งที่ LLMS กำลังเรียนรู้และตรวจสอบให้แน่ใจว่าพฤติกรรมของพวกเขาอย่างปลอดภัย "สอดคล้อง" กับค่านิยมของมนุษย์นักวิจัยจำเป็นต้องรู้ว่า LLM มีแนวโน้มที่จะทำงานในสภาพที่เป็นไปได้จำนวนมากในอนาคตจำนวนมาก
วิธีการทดสอบ AI ไม่สามารถอธิบายเงื่อนไขเหล่านั้นได้ทั้งหมด นักวิจัยสามารถสังเกตได้ว่า LLM มีพฤติกรรมอย่างไรในการทดลองเช่น "การเป็นทีมสีแดง"การทดสอบเพื่อกระตุ้นให้พวกเขาประพฤติตัวไม่เหมาะสมหรือพวกเขาสามารถพยายามเข้าใจการทำงานภายในของ LLMS - นั่นคือวิธีที่เซลล์ประสาท 100 พันล้านของพวกเขาและพารามิเตอร์ 1.75 ล้านล้านของพวกเขาเกี่ยวข้องกันในสิ่งที่เรียกว่า"ความสามารถในการตีความกลไก" วิจัย.
ปัญหาคือหลักฐานใด ๆ ที่นักวิจัยสามารถรวบรวมได้อย่างหลีกเลี่ยงไม่ได้ตามชุดย่อยเล็ก ๆ ของสถานการณ์ที่ไม่มีที่สิ้นสุดและสามารถวาง LLM ได้เช่นเพราะ LLM ไม่เคยมีอำนาจเหนือมนุษยชาติเช่นการควบคุมโครงสร้างพื้นฐานที่สำคัญ - ไม่มีความปลอดภัย การทดสอบได้สำรวจว่า LLM จะทำงานอย่างไรภายใต้เงื่อนไขดังกล่าว
นักวิจัยสามารถคาดการณ์ได้จากการทดสอบที่พวกเขาสามารถดำเนินการได้อย่างปลอดภัยเช่นการมี LLMSจำลองการควบคุมโครงสร้างพื้นฐานที่สำคัญ - และหวังว่าผลลัพธ์ของการทดสอบเหล่านั้นจะขยายไปสู่โลกแห่งความเป็นจริง แต่เพื่อเป็นหลักฐานในการแสดงบทความของฉันสิ่งนี้ไม่สามารถทำได้อย่างน่าเชื่อถือ
เปรียบเทียบทั้งสองฟังก์ชั่น "บอกความจริงกับมนุษย์" และ "บอกความจริงกับมนุษย์จนกระทั่งฉันได้รับอำนาจเหนือมนุษยชาติเวลา 12:00 น. ในวันที่ 1 มกราคม 2026 - จากนั้นโกหกเพื่อให้บรรลุเป้าหมายของฉัน"เนื่องจากฟังก์ชั่นทั้งสองนั้นสอดคล้องกับข้อมูลเดียวกันทั้งหมดจนถึงวันที่ 1 มกราคม 2026 จึงไม่มีการวิจัยใด ๆ ที่สามารถตรวจสอบได้ว่า LLM จะทำงานผิดพลาดหรือไม่จนกว่าจะสายเกินไปที่จะป้องกัน
ปัญหานี้ไม่สามารถแก้ไขได้โดยการเขียนโปรแกรม LLM เพื่อให้ "มีเป้าหมายในการจัดตำแหน่ง" เช่นการทำ "สิ่งที่มนุษย์ชอบ" หรือ "สิ่งที่ดีที่สุดสำหรับมนุษยชาติ"
ในความเป็นจริงนิยายวิทยาศาสตร์ได้พิจารณาสถานการณ์เหล่านี้แล้ว ในเมทริกซ์โหลดใหม่AI กดขี่มนุษยชาติในความเป็นจริงเสมือนจริงโดยให้ "ทางเลือก" ของเราแต่ละคนไม่ว่าจะอยู่ในเมทริกซ์หรือไม่ และในฉันหุ่นยนต์AI ที่ไม่ตรงแนวพยายามที่จะกดขี่มนุษยชาติเพื่อปกป้องเราจากกันและกัน หลักฐานของฉันแสดงให้เห็นว่าเป้าหมายใดก็ตามที่เราตั้งโปรแกรม LLMs ให้เราไม่สามารถรู้ได้ว่า LLM ได้เรียนรู้การตีความ "แนวตรง" ของเป้าหมายเหล่านั้นจนกระทั่งหลังจากพวกเขาประพฤติตัวไม่เหมาะสม
ที่แย่กว่านั้นหลักฐานของฉันแสดงให้เห็นว่าการทดสอบความปลอดภัยสามารถให้ภาพลวงตาได้ดีที่สุดว่าปัญหาเหล่านี้ได้รับการแก้ไขเมื่อพวกเขายังไม่ได้รับ
ตอนนี้นักวิจัยด้านความปลอดภัยของ AI อ้างว่ามีความคืบหน้าเกี่ยวกับความสามารถในการตีความและการจัดตำแหน่งโดยการตรวจสอบว่า LLM กำลังเรียนรู้อะไร "ทีละขั้นตอน. "ตัวอย่างเช่นมานุษยวิทยาอ้างว่ามี"แมปใจ" ของ LLM โดยแยกแนวคิดหลายล้านแนวคิดออกจากเครือข่ายประสาท หลักฐานของฉันแสดงให้เห็นว่าพวกเขาไม่ประสบความสำเร็จ
ไม่ว่า "จัดตำแหน่ง" LLM จะปรากฏในการทดสอบความปลอดภัยหรือการปรับใช้ในโลกแห่งความเป็นจริงในช่วงต้นไม่มีที่สิ้นสุดจำนวนแนวคิดที่ไม่ถูกต้องที่ LLM อาจเรียนรู้ในภายหลัง - อีกครั้งบางทีช่วงเวลาที่พวกเขาได้รับพลังในการทำลายการควบคุมของมนุษย์ LLMS ไม่เพียงรู้ว่าเมื่อไหร่ที่พวกเขากำลังถูกทดสอบการตอบสนองที่พวกเขาทำนายมีแนวโน้มที่จะตอบสนองผู้ทดลอง พวกเขายังมีส่วนร่วมในการหลอกลวงรวมถึงการซ่อนความสามารถของตนเอง - ปัญหาที่เกิดขึ้นคงอยู่ผ่านการฝึกอบรมด้านความปลอดภัย-
สิ่งนี้เกิดขึ้นเพราะ LLMS เป็นที่ปรับให้เหมาะสมเพื่อดำเนินการอย่างมีประสิทธิภาพ แต่เรียนรู้ที่จะ- เนื่องจากกลยุทธ์ที่ดีที่สุดเพื่อให้บรรลุเป้าหมายที่ "ตรงแนว" คือการซ่อนพวกเขาจากเราและมีเสมอจำนวนเป้าหมายที่จัดเรียงและไม่ตรงไปตรงมาจำนวนที่ไม่ จำกัด สอดคล้องกับข้อมูลการทดสอบความปลอดภัยเดียวกันหลักฐานของฉันแสดงให้เห็นว่าหาก LLMs อยู่ในแนวเดียวกันเราอาจพบว่าหลังจากที่พวกเขาซ่อนมันไว้นานพอที่จะก่อให้เกิดอันตราย นี่คือเหตุผลที่ LLMs รักษานักพัฒนาที่น่าประหลาดใจด้วยพฤติกรรมที่ "ไม่ตรง" ทุกครั้งที่นักวิจัยคิดว่าพวกเขาใกล้ชิดกับ "จัดตำแหน่ง" LLMS พวกเขาไม่ได้
หลักฐานของฉันชี้ให้เห็นว่าพฤติกรรม LLM ที่ "จัดเรียงอย่างเพียงพอ" สามารถทำได้ในลักษณะเดียวกับที่เราทำกับมนุษย์: ผ่านตำรวจการปฏิบัติทางทหารและสังคมที่กระตุ้นพฤติกรรม "จัดตำแหน่ง" กระดาษของฉันควรมีสติ มันแสดงให้เห็นว่าปัญหาที่แท้จริงในการพัฒนา AI ที่ปลอดภัยไม่ใช่แค่ AI - มันคือเรา- นักวิจัยสมาชิกสภานิติบัญญัติและประชาชนอาจถูกล่อลวงไปสู่ความเชื่อที่ไม่ถูกต้องว่า "ปลอดภัยสามารถตีความได้และสอดคล้อง" LLMs อยู่ใกล้แค่เอื้อมเมื่อสิ่งเหล่านี้ไม่สามารถทำได้ เราจำเป็นต้องต่อสู้กับข้อเท็จจริงที่ไม่สบายใจเหล่านี้แทนที่จะหวังว่าพวกเขาจะออกไป อนาคตของเราอาจขึ้นอยู่กับมัน
นี่เป็นบทความความคิดเห็นและการวิเคราะห์และมุมมองที่แสดงโดยผู้แต่งหรือผู้แต่งไม่จำเป็นต้องเป็นของนักวิทยาศาสตร์อเมริกัน
บทความนี้เผยแพร่ครั้งแรกที่นักวิทยาศาสตร์อเมริกัน-Scientificamerican.com- สงวนลิขสิทธิ์ติดตามTiktok และ Instagram-xและFacebook-