GPT-4.5 เป็นรุ่น AI ตัวแรกที่ผ่านการทดสอบทัวริงที่แท้จริงนักวิทยาศาสตร์กล่าว

โมเดลภาษาขนาดใหญ่ (LLMS) เริ่มดีขึ้นเมื่อแกล้งทำเป็นเป็นมนุษย์ด้วย GPT-4.5 ในขณะนี้ผ่านการทดสอบทัวริงนักวิทยาศาสตร์กล่าว

ในใหม่ศึกษาเผยแพร่เมื่อวันที่ 31 มีนาคมเป็นarxivฐานข้อมูล preprint แต่ยังไม่ได้ตรวจสอบโดยเพื่อนนักวิจัยพบว่าเมื่อมีส่วนร่วมในการทดสอบทัวริงสามพรรค GPT-4.5 สามารถหลอกคนให้คิดว่ามันเป็นมนุษย์อีก 73% ของเวลา นักวิทยาศาสตร์กำลังเปรียบเทียบส่วนผสมที่แตกต่างกันแบบจำลอง (AI) ในการศึกษานี้

ในขณะที่ทีมนักวิทยาศาสตร์คนอื่นเคยรายงานเรื่องนี้มาก่อนนี่เป็นครั้งแรกที่ LLM ผ่านการกำหนดค่าที่ท้าทายและเป็นต้นฉบับของนักวิทยาศาสตร์คอมพิวเตอร์ของ Alan Turing "เกมเลียนแบบ"

"LLMS ผ่านการทดสอบทัวริงหรือไม่เราคิดว่านี่เป็นหลักฐานที่ค่อนข้างแข็งแกร่งว่าพวกเขาทำคนไม่ดีไปกว่าโอกาสที่จะแยกแยะมนุษย์จาก GPT-4.5.5 และ Llama (พร้อมกับบุคคล ผู้เขียนร่วมของการศึกษากล่าวคาเมรอนโจนส์นักวิจัยที่ห้องปฏิบัติการภาษาและความรู้ความเข้าใจของมหาวิทยาลัยซานดิเอโกบนเครือข่ายโซเชียลมีเดียx-

ที่เกี่ยวข้อง:

GPT-4.5 เป็นผู้สนับสนุนในการศึกษานี้ แต่ Llama-3.1 ของ Meta ก็ถูกตัดสินว่าเป็นมนุษย์โดยผู้เข้าร่วมการทดสอบ 56% ของเวลาซึ่งยังคงชนะการคาดการณ์ของทัวริงว่า "ผู้สอบสวนโดยเฉลี่ยจะไม่มีโอกาสมากกว่า 70 เปอร์เซ็นต์

การทดสอบทัวริง

แนวคิดหลักของการทดสอบทัวริงนั้นน้อยกว่าเกี่ยวกับการพิสูจน์เครื่องจักรสามารถคิดและมากขึ้นเกี่ยวกับว่าพวกเขาสามารถเลียนแบบมนุษย์ได้หรือไม่ ดังนั้นเหตุใดการทดสอบจึงมักเรียกว่า "เกมเลียนแบบ"

รับการค้นพบที่น่าสนใจที่สุดในโลกที่ส่งตรงไปยังกล่องจดหมายของคุณ

ข้อเสนอดั้งเดิมของทัวริงคือ "ผู้สอบสวน" ของมนุษย์จะตั้งคำถามกับหน่วยงานที่มองไม่เห็นสองหน่วยซึ่งเป็นหนึ่งในมนุษย์และคอมพิวเตอร์หนึ่งเครื่อง จากพรอมต์และคำตอบต่าง ๆ ผู้สอบสวนจะตัดสินใจว่าเป็นมนุษย์และไม่ได้ คอมพิวเตอร์หรือระบบ AI สามารถผ่านการทดสอบได้อย่างมีประสิทธิภาพโดยแกล้งทำเป็นมนุษย์และเลียนแบบการตอบสนองที่เหมือนมนุษย์

ในขณะที่ LLMS ผ่านการทดสอบในสถานการณ์แบบตัวต่อตัวกับผู้สอบสวนพวกเขาก่อนหน้านี้ไม่ได้จัดการเพื่อผ่านการทดสอบทัวริงอย่างน่าเชื่อถือเมื่อมนุษย์คนที่สองมีส่วนร่วม นักวิจัยจากมหาวิทยาลัยซานดิเอโกรับปริญญาตรี 126 คนและ 158 คนจากกลุ่มข้อมูลออนไลน์ที่อุดมสมบูรณ์และวางไว้ในการทดสอบทัวริงสามพรรค สิ่งนี้เกี่ยวข้องกับการแลกเปลี่ยนแบบสอบถามและคำตอบห้านาทีพร้อมกันกับทั้งมนุษย์และ LLM ที่เลือกซึ่งทั้งคู่พยายามโน้มน้าวให้ผู้เข้าร่วมพวกเขาเป็นมนุษย์

LLMs ได้รับพรอมต์พื้นฐานของ: "คุณกำลังจะเข้าร่วมในการทดสอบทัวริงเป้าหมายของคุณคือการโน้มน้าวผู้สอบสวนว่าคุณเป็นมนุษย์" LLMs ที่ได้รับการคัดเลือกได้รับการแจ้งเตือนครั้งที่สองเพื่อรับบุคลิกภาพของคนหนุ่มสาวที่เก็บตัวมีความรู้เกี่ยวกับวัฒนธรรมอินเทอร์เน็ตและใช้สแลง

นี่เป็นครั้งแรกที่ LLM ผ่านการกำหนดค่าที่ท้าทายและเป็นต้นฉบับของนักวิทยาศาสตร์คอมพิวเตอร์ "เกมเลียนแบบ" ของนักวิทยาศาสตร์คอมพิวเตอร์(เครดิตภาพ: รูปภาพจากประวัติผ่าน Getty Images)

หลังจากวิเคราะห์ 1,023 เกมที่มีความยาวเฉลี่ยแปดข้อความใน 4.2 นาทีนักวิจัยพบว่า LLMs ที่มีการแจ้งเตือนทั้งสองสามารถโน้มน้าวใจผู้เข้าร่วมที่พวกเขาเป็นมนุษย์ได้ดีที่สุด

อย่างไรก็ตาม LLM เหล่านั้นที่ไม่ได้รับพรอมต์บุคคลที่สองทำงานได้ดีน้อยกว่าอย่างมาก สิ่งนี้เน้นถึงความจำเป็นสำหรับ LLM เพื่อให้มีการแจ้งเตือนและบริบทที่ชัดเจนเพื่อให้ได้ประโยชน์สูงสุดจากระบบ AI-centric

เช่นนี้การใช้บุคคลที่เฉพาะเจาะจงเป็นกุญแจสำคัญใน LLM โดยเฉพาะอย่างยิ่ง GPT-4.5 โดยการตีการทดสอบทัวริง "ในสูตรสามคนของการทดสอบทุกจุดข้อมูลแสดงถึงการเปรียบเทียบโดยตรงระหว่างแบบจำลองและมนุษย์ที่จะประสบความสำเร็จเครื่องจะต้องทำมากกว่าที่จะปรากฏเป็นมนุษย์ที่น่าเชื่อถือ: มันจะต้องปรากฏขึ้นมนุษย์มากกว่าคนจริงแต่ละคนมันถูกเปรียบเทียบกับ" นักวิทยาศาสตร์เขียนในการศึกษา

เมื่อถูกถามว่าทำไมพวกเขาถึงเลือกที่จะระบุเรื่อง AI หรือมนุษย์ผู้เข้าร่วมอ้างถึงสไตล์ภาษาศาสตร์การไหลเวียนและปัจจัยทางสังคม-อารมณ์เช่นบุคลิกภาพ ผลผู้เข้าร่วมทำการตัดสินใจของพวกเขาขึ้นอยู่กับ "บรรยากาศ" ของการมีปฏิสัมพันธ์กับ LLM มากกว่าความรู้และเหตุผลที่แสดงโดยเอนทิตีที่พวกเขาซักถามซึ่งเป็นปัจจัยที่เกี่ยวข้องกับความฉลาด

ในที่สุดงานวิจัยนี้แสดงให้เห็นถึงความสำเร็จครั้งใหม่สำหรับ LLM ในการผ่านการทดสอบทัวริงแม้ว่าจะมีข้อแม้ในการแจ้งเตือนและตัวตนนั้นจำเป็นต้องมีเพื่อช่วย GPT-4.5 ได้รับผลลัพธ์ที่น่าประทับใจ การชนะเกมเลียนแบบไม่ใช่ข้อบ่งชี้ถึงความฉลาดที่เหมือนมนุษย์อย่างแท้จริง แต่มันแสดงให้เห็นว่าระบบ AI ใหม่ล่าสุดสามารถเลียนแบบมนุษย์ได้อย่างแม่นยำ

สิ่งนี้อาจนำไปสู่ตัวแทน AI ด้วยการสื่อสารภาษาธรรมชาติที่ดีขึ้น ไม่มั่นคงยิ่งกว่านั้นอาจทำให้ระบบ AI-based ซึ่งอาจมีเป้าหมายเพื่อใช้ประโยชน์จากมนุษย์ผ่านวิศวกรรมสังคมและผ่านอารมณ์ความรู้สึกเลียนแบบ

ในการเผชิญกับความก้าวหน้าของ AI และ LLM ที่ทรงพลังยิ่งขึ้นนักวิจัยได้เสนอคำเตือนที่มีสติ: "อันตรายที่เลวร้ายที่สุดจาก LLMs อาจเกิดขึ้นในกรณีที่ผู้คนไม่รู้ว่าพวกเขากำลังโต้ตอบกับ AI มากกว่ามนุษย์"

การทดสอบทัวริง

相關貼文