มีพาดหัวในช่วงสัปดาห์ที่ผ่านมาเกี่ยวกับ AI chatbotผ่านไปอย่างเป็นทางการการทดสอบทัวริง
เหล่านี้รายงานข่าวขึ้นอยู่กับไฟล์การศึกษา preprint ล่าสุดโดยนักวิจัยสองคนที่ University of California San Diego ซึ่งมีรูปแบบภาษาขนาดใหญ่สี่แบบ (LLMs) ผ่านการทดสอบทัวริง รุ่นหนึ่ง-GPT-4.5 ของ Openai-ถือว่าแยกไม่ออกจากมนุษย์มากกว่า 70% ของเวลา
การทดสอบทัวริงได้รับเป็นที่นิยมเป็นตัวบ่งชี้ที่ดีที่สุดของข่าวกรองของเครื่องจักร อย่างไรก็ตามมีความขัดแย้งเกี่ยวกับความถูกต้องของการทดสอบนี้ ในความเป็นจริงมันมีประวัติที่ถกเถียงกันซึ่งเรียกว่าคำถามว่ามันมีประสิทธิภาพในการวัดความฉลาดของเครื่องจักรอย่างไร
ดังนั้นสิ่งนี้หมายความว่าอย่างไรสำหรับความสำคัญของการศึกษาใหม่นี้?
การศึกษาพบอะไร?
การศึกษาเบื้องต้นโดยนักวิทยาศาสตร์ด้านความรู้ความเข้าใจคาเมรอนโจนส์และเบนจามินเบอร์เกนได้รับการตีพิมพ์ในเดือนมีนาคม แต่ยังไม่ได้รับการตรวจสอบโดยเพื่อน มันทดสอบ 4 LLMS:เอลิซ่า-GPT-4O-CALL-3.1-405B, และGPT-4.5-
การทดสอบประกอบด้วยผู้เข้าร่วมการสนทนาแปดรอบซึ่งพวกเขาทำหน้าที่เป็นผู้สอบสวนการแลกเปลี่ยนข้อความกับพยานสองคนพร้อมกัน พยานคนหนึ่งเป็นมนุษย์และอีกคนหนึ่ง ผู้เข้าร่วม 284 คนได้รับการสุ่มให้เป็นผู้สอบสวนหรือพยาน
ผู้เข้าร่วมจะต้องมีปฏิสัมพันธ์กับพยานทั้งสองพร้อมกันในหน้าจอแยกเป็นเวลาห้านาทีด้วยการทดสอบอินเทอร์เฟซเลียนแบบของอินเทอร์เฟซการส่งข้อความทั่วไป หลังจากการโต้ตอบนี้พวกเขาตัดสินใจว่าพยานคนไหนเป็นมนุษย์และเป็น AI chatbot
ผู้เข้าร่วมตัดสิน GPT-4.5 เป็นมนุษย์ 73% ของเวลาและ LLAMA-3.1-405B เป็นมนุษย์ 56% ของเวลา อีกสองรุ่น (Eliza และ GPT-4O) หลอกผู้เข้าร่วม 23% และ 21% ของเวลาตามลำดับ
การทดสอบทัวริงคืออะไร?
การทำซ้ำครั้งแรกของการทดสอบทัวริงถูกนำเสนอโดยนักคณิตศาสตร์และนักวิทยาศาสตร์คอมพิวเตอร์อลันทัวริงในบทความปี 1948 ชื่อ "เครื่องจักรอัจฉริยะ"แต่เดิมมันถูกเสนอให้เป็นการทดลองที่เกี่ยวข้องกับคนสามคนที่เล่นหมากรุกด้วยเครื่องจักรเชิงทฤษฎีที่เรียกว่าเครื่องกระดาษสองคนเป็นผู้เล่นและอีกคนหนึ่งเป็นผู้ดำเนินการ
ในปี 1950 สิ่งพิมพ์ "เครื่องจักรคอมพิวเตอร์และข่าวกรอง"ทัวริงได้แนะนำการทดลองอีกครั้งในฐานะ" เกมเลียนแบบ "และอ้างว่ามันเป็นวิธีการกำหนดความสามารถของเครื่องจักรในการแสดงพฤติกรรมที่ชาญฉลาดเทียบเท่ากับมนุษย์มันเกี่ยวข้องกับผู้เข้าร่วมสามคน: ผู้เข้าร่วม A เป็นผู้หญิง
ผ่านชุดคำถามผู้เข้าร่วม C จำเป็นต้องพิจารณาว่า "X คือ A และ Y คือ B" หรือ "X คือ B และ Y คือ" โดยมี X และ Y เป็นตัวแทนของสองเพศ
ข้อเสนอจะเพิ่มขึ้น: "จะเกิดอะไรขึ้นเมื่อเครื่องมีส่วนหนึ่งของเกมในเกมนี้หรือไม่ผู้สอบสวนจะตัดสินใจผิดพลาดบ่อยครั้งเมื่อเกมเล่นแบบนี้เหมือนที่เขาทำเมื่อเล่นเกมระหว่างผู้ชายกับผู้หญิง?"
คำถามเหล่านี้มีวัตถุประสงค์เพื่อแทนที่คำถามที่คลุมเครือ "เครื่องจักรสามารถคิดได้หรือไม่?" ทัวริงอ้างว่าคำถามนี้ไม่ชัดเจนเพราะจำเป็นต้องมีความเข้าใจในคำว่า "เครื่อง" และ "คิด" ซึ่งการใช้คำว่า "ปกติ" จะทำให้การตอบสนองต่อคำถามไม่เพียงพอ
ในช่วงหลายปีที่ผ่านมาการทดลองนี้ได้รับความนิยมในการทดสอบทัวริง ในขณะที่หัวข้อมีความหลากหลายการทดสอบยังคงพิจารณาว่า "X คือ A และ Y คือ B" หรือ "X คือ B และ Y คือ"
ทำไมมันถึงถกเถียงกัน?
ในขณะที่ได้รับความนิยมเป็นวิธีการทดสอบความฉลาดของเครื่องจักรการทดสอบทัวริงไม่ได้รับการยอมรับอย่างเป็นเอกฉันท์ว่าเป็นวิธีที่ถูกต้องในการทำเช่นนั้น ในความเป็นจริงการทดสอบมักถูกท้าทาย
มีสี่ข้อคัดค้านหลักในการทดสอบทัวริง-
- พฤติกรรมเทียบกับการคิด นักวิจัยบางคนโต้แย้งความสามารถในการ "ผ่าน" การทดสอบเป็นเรื่องของพฤติกรรมไม่ใช่ความฉลาด ดังนั้นจึงไม่ขัดแย้งกันที่จะบอกว่าเครื่องสามารถผ่านเกมเลียนแบบได้ แต่ไม่สามารถคิดได้
- สมองไม่ใช่เครื่องจักร ทัวริงทำให้การยืนยันสมองเป็นเครื่องจักรโดยอ้างว่าสามารถอธิบายได้ในแง่กลไกอย่างหมดจด นักวิชาการหลายคนปฏิเสธข้อเรียกร้องนี้และตั้งคำถามถึงความถูกต้องของการทดสอบบนพื้นฐานนี้
- การดำเนินงานภายใน เนื่องจากคอมพิวเตอร์ไม่ใช่มนุษย์กระบวนการของพวกเขาในการบรรลุข้อสรุปอาจไม่สามารถเทียบเคียงได้กับบุคคลทำให้การทดสอบไม่เพียงพอเนื่องจากการเปรียบเทียบโดยตรงไม่สามารถทำงานได้
- ขอบเขตของการทดสอบ นักวิจัยบางคนเชื่อว่าการทดสอบเพียงพฤติกรรมเดียวนั้นไม่เพียงพอที่จะกำหนดความฉลาด

LLM เป็นคนฉลาดเหมือนมนุษย์หรือไม่?
ในขณะที่บทความ preprint อ้างว่า GPT-4.5 ผ่านการทดสอบทัวริง แต่ก็ระบุว่า:
การทดสอบทัวริงเป็นการวัดความสามารถในการทดแทนได้ไม่ว่าระบบจะสามารถยืนหยัดได้สำหรับคนจริงโดยไม่ต้องสังเกตเห็นความแตกต่าง
สิ่งนี้แสดงถึงนักวิจัยไม่สนับสนุนแนวคิดของการทดสอบทัวริงซึ่งเป็นข้อบ่งชี้ที่ถูกต้องตามกฎหมายของความฉลาดของมนุษย์ แต่มันเป็นข้อบ่งชี้ถึงการเลียนแบบความฉลาดของมนุษย์ - บทกวีของต้นกำเนิดของการทดสอบ
นอกจากนี้ยังเป็นที่น่าสังเกตว่าเงื่อนไขของการศึกษาไม่ได้ไม่มีปัญหา ตัวอย่างเช่นหน้าต่างการทดสอบห้านาทีค่อนข้างสั้น
นอกจากนี้ LLM แต่ละตัวได้รับแจ้งให้นำมาใช้บุคคลโดยเฉพาะ แต่ก็ไม่มีความชัดเจนว่ารายละเอียดและผลกระทบของ "บุคคล" อยู่ในการทดสอบ
สำหรับตอนนี้มันปลอดภัยที่จะบอกว่า GPT-4.5 ไม่ฉลาดเท่ากับมนุษย์-แม้ว่ามันอาจทำงานได้อย่างสมเหตุสมผลในการโน้มน้าวใจบางคนเป็นอย่างอื่น
Zena Assaadอาจารย์อาวุโสคณะวิศวกรรมศาสตร์มหาวิทยาลัยแห่งชาติออสเตรเลีย
บทความนี้ถูกตีพิมพ์ซ้ำจากบทสนทนาภายใต้ใบอนุญาตครีเอทีฟคอมมอนส์ อ่านบทความต้นฉบับ-