การทดสอบทัวริงคืออะไร?
การทดสอบทัวริงเป็นวิธีที่ง่ายในการพิจารณาว่าเครื่องสามารถแสดงให้เห็นถึงความฉลาดของมนุษย์ได้หรือไม่หากเครื่องสามารถมีส่วนร่วมในการสนทนากับมนุษย์โดยไม่ถูกตรวจพบว่าเป็นเครื่องจักรมันแสดงให้เห็นถึงความฉลาดของมนุษย์
การทดสอบทัวริงถูกเสนอในบทความที่ตีพิมพ์ในปี 1950 โดยนักคณิตศาสตร์และผู้บุกเบิกการคำนวณ Alan Turing มันได้กลายเป็นแรงจูงใจพื้นฐานในทฤษฎีและการพัฒนาของปัญญาประดิษฐ์(AI).
ประเด็นสำคัญ
- การทดสอบทัวริงวัดความฉลาดของการทดสอบภายใต้การพิจารณาว่าเครื่องสามารถแสดงให้เห็นถึงความฉลาดหรือไม่
- จากการทดสอบโปรแกรมคอมพิวเตอร์สามารถคิดได้ว่าการตอบสนองของมันสามารถหลอกมนุษย์ให้เชื่อได้เช่นกันเป็นมนุษย์
- ไม่ใช่ทุกคนที่ยอมรับความถูกต้องของการทดสอบของทัวริง แต่การผ่านมันยังคงเป็นความท้าทายที่สำคัญสำหรับนักพัฒนาปัญญาประดิษฐ์
- มีการเปลี่ยนแปลงของการทดสอบทัวริงรวมถึงการปรับเปลี่ยนวิธีการถามคำถามในการทดสอบ AI ที่แตกต่างกัน
- การทดสอบทัวริงมีข้อ จำกัด หลายประการรวมถึงการกำหนดสภาพแวดล้อมที่ควบคุมโดยไม่มีคำจำกัดความเฉพาะของความฉลาดและจำเป็นต้องปรับให้เข้ากับความก้าวหน้าทางเทคโนโลยีที่พัฒนาขึ้น
ประวัติความเป็นมาของการทดสอบทัวริง
Alan Turing พัฒนาแนวคิดพื้นฐานบางอย่างของวิทยาศาสตร์คอมพิวเตอร์ในขณะที่ค้นหาวิธีการที่มีประสิทธิภาพมากขึ้นในการทำลายข้อความภาษาเยอรมันในช่วงสงครามโลกครั้งที่สอง หลังสงครามเขาเริ่มคิดถึงปัญญาประดิษฐ์ในกระดาษของเขาในปี 1950 ทัวริงเริ่มต้นด้วยการวางคำถาม "เครื่องจักรสามารถคิดได้หรือไม่?" การทำนายว่าคอมพิวเตอร์จะพัฒนาเกินกว่าข้อ จำกัด ของเวลาทัวริงออกแบบการทดสอบที่เขาคิดว่าสามารถกำหนดได้ว่าคอมพิวเตอร์อาจ "ฉลาด" พอที่จะเข้าใจผิดว่าเป็นมนุษย์หรือไม่
การทดสอบดำเนินการในห้องซักถามดำเนินการโดยผู้พิพากษา วิชาทดสอบบุคคลและโปรแกรมคอมพิวเตอร์ถูกซ่อนไว้ ผู้พิพากษามีการสนทนากับทั้งสองฝ่ายและพยายามระบุว่าเป็นมนุษย์และเป็นคอมพิวเตอร์ที่ใช้คุณภาพของการสนทนา ทัวริงสรุปว่าหากผู้พิพากษาไม่สามารถบอกความแตกต่างได้คอมพิวเตอร์ก็ประสบความสำเร็จในการแสดงให้เห็นถึงความฉลาดของมนุษย์ นั่นคือมันสามารถคิดได้
คอมพิวเตอร์รุ่นแรกหลายเครื่องถูกอ้างว่าหลอกมนุษย์ในสถานการณ์พื้นฐานมาก ในปีพ. ศ. 2509 โจเซฟ Weizenbaum ได้สร้างเอลิซ่าซึ่งเป็นเครื่องจักรที่ใช้คำเฉพาะและเปลี่ยนเป็นประโยคเต็ม เอลิซ่าเป็นหนึ่งในคอมพิวเตอร์ที่เก่าแก่ที่สุดในการหลอกผู้ทดสอบของมนุษย์ให้คิดว่ามันเป็นมนุษย์
น้อยกว่าหนึ่งทศวรรษต่อมา chatbot ชื่อ Parry ถูกจำลองเพื่อเลียนแบบพฤติกรรมของโรคจิตเภทหวาดระแวง กลุ่มจิตแพทย์ถูกขอให้วิเคราะห์การสนทนากับผู้ป่วยจริงและบทสนทนานอกรีต เมื่อถูกขอให้ระบุว่าการถอดเสียงใดเป็นโปรแกรมคอมพิวเตอร์กลุ่มสามารถระบุเครื่องได้ 48% ของเวลาเท่านั้นนักวิจารณ์ของทั้ง Eliza และ Parry ระบุว่ากฎทั้งหมดของการทดสอบทัวริงไม่ได้เป็นไปตามและไม่ได้ระบุความฉลาดของเครื่องจักรเต็มรูปแบบ
การทดสอบทัวริงวันนี้
การทดสอบทัวริงมีผู้ว่า แต่ยังคงเป็นตัวชี้วัดความสำเร็จของโครงการปัญญาประดิษฐ์ การทดสอบทัวริงเวอร์ชันหนึ่งที่อัปเดตมีผู้พิพากษามากกว่าหนึ่งคนที่ซักถามและสนทนากับทั้งสองวิชา โครงการนี้ถือว่าประสบความสำเร็จหากผู้พิพากษามากกว่า 30% หลังจากการสนทนาห้านาทีสรุปว่าคอมพิวเตอร์เป็นมนุษย์
Loebner Prize เป็นการแข่งขันทดสอบทัวริงประจำปีที่เปิดตัวในปี 1991 โดย Hugh Loebner นักประดิษฐ์และนักกิจกรรมชาวอเมริกัน Loebner สร้างกฎเพิ่มเติมที่กำหนดให้มนุษย์และโปรแกรมคอมพิวเตอร์มีการสนทนา 25 นาทีกับผู้พิพากษาสี่คนแต่ละคนผู้ชนะคือคอมพิวเตอร์ที่โปรแกรมได้รับคะแนนเสียงมากที่สุดและอันดับสูงสุดจากผู้พิพากษา
ในปี 2014 Kevin Warwick จาก University of Reading ได้จัดการแข่งขันการทดสอบทัวริงเพื่อทำเครื่องหมายครบรอบ 60 ปีของการเสียชีวิตของ Alan Turing คอมพิวเตอร์chatbotเรียกว่า Eugene Goostman ซึ่งมีบุคลิกของเด็กชายอายุ 13 ปีผ่านการทดสอบทัวริงในเหตุการณ์นั้นโดยการลงคะแนนเสียง 33% ของผู้พิพากษา
ในโครงการวิจัยในเดือนกุมภาพันธ์ 2567 CHATGPT ควรผ่านการทดสอบทัวริงอย่างไรก็ตามการทดสอบเปรียบเทียบการตอบสนองของบอทอัจฉริยะที่มีต่อการตอบสนองของมนุษย์แบบสุ่ม (นักเรียน) กับคำถามที่กำหนดไว้ล่วงหน้าจากนั้นให้คะแนนการตอบสนองตามลักษณะบุคลิกภาพ "บิ๊กห้า" นักวิจัยสรุปว่า "... ว่า AI และพฤติกรรมมนุษย์มีความคล้ายคลึงกันอย่างน่าทึ่ง"สิ่งนี้ไม่น่าแปลกใจเนื่องจากการฝึกอบรมของโปรแกรมรวมถึงเนื้อหาที่เขียนโดยมนุษย์จากแหล่งข้อมูลมากมายเมื่อใช้ความคิดความคิดข้อมูลและข้อมูลที่จัดทำและสร้างโดยมนุษย์การตอบสนองของมันจะดูเหมือนมนุษย์ตามธรรมชาติสร้างข้อสงสัยในบางเรื่องเกี่ยวกับเรื่องนี้ผ่านการทดสอบ ถึงกระนั้นคนอื่นก็เชื่อว่ามันผ่านไป
ทัวริงเวอร์ชันทดสอบ
มีการทดสอบทัวริงหลายรูปแบบทั้งหมดที่มีความตั้งใจเดียวกันในการตรวจจับว่าผู้ตอบเป็นมนุษย์หรือเครื่องจักร การเปลี่ยนแปลงแต่ละรูปแบบใช้วิธีการที่แตกต่างกันในการถามคำถามที่แตกต่างกันและประเมินการตอบสนอง
เกมเลียนแบบ
หนึ่งในแอปพลิเคชั่นก่อนหน้าของการทดสอบทัวริงรุ่นเกมเลียนแบบมักใช้สามฝ่าย คนแรกคือผู้ชายคนที่สองเป็นผู้หญิงและบุคคลที่สามรับผิดชอบในการกำหนดเพศของคนสองคนแรก คนแรกมักจะได้รับมอบหมายให้พยายามหลอกบุคคลที่สามในขณะที่บุคคลที่สองมักจะได้รับมอบหมายให้พยายามช่วยเหลือบุคคลที่สามอย่างถูกต้องระบุแต่ละเพศ
การทำซ้ำในอนาคตของเกมเลียนแบบได้พัฒนาไปสู่ทั้งสองฝ่ายพยายามหลอกให้บุคคลที่สามเข้ามาระบุเพศอย่างไม่ถูกต้อง ไม่ว่าในกรณีใดวัตถุประสงค์ของเกมเลียนแบบคือการพิจารณาว่าผู้สอบสวนสามารถถูกหลอกได้หรือไม่
การตีความมาตรฐาน
การทดสอบทัวริงเวอร์ชันทั่วไปอีกฉบับหนึ่งไม่ได้พยายามดูว่าคอมพิวเตอร์สามารถถูกหลอกได้หรือไม่ แต่เพื่อดูว่าคอมพิวเตอร์สามารถเลียนแบบมนุษย์ได้หรือไม่ ในการเปลี่ยนแปลงการตีความมาตรฐานของการทดสอบทัวริงบุคคลแรกคือคอมพิวเตอร์และบุคคลที่สองเป็นมนุษย์
ในรูปแบบนี้บุคคลที่สามพยายามที่จะค้นพบว่าคนแรกสองคนแรกเป็นมนุษย์และเป็นคอมพิวเตอร์ ผู้สอบสวนไม่ได้เป็นผู้ทดสอบ แต่เป็นคอมพิวเตอร์ที่พยายามหลอกมนุษย์ (ตรงข้ามกับทิศทางตรงกันข้ามภายใต้เกมเลียนแบบ) ตัวอย่างเช่นอาจถูกถามชุดคำถามทางการเงินส่วนบุคคลเพื่อพิจารณาว่าการตอบสนองของมันนั้นคาดว่าจะมีเหตุผลหรือไม่การเงินเชิงพฤติกรรม-
แนวทางที่ทันสมัยในการทดสอบทัวริง
นับตั้งแต่การสร้างการทดสอบทัวริงวิธีการที่ทันสมัยมากขึ้นได้พัฒนาขึ้นในความพยายามที่จะตรวจจับมนุษย์และเครื่องจักรได้ดีขึ้น การเปลี่ยนแปลงของการทดสอบทัวริงเหล่านี้มีการพัฒนาอย่างต่อเนื่องเพื่อรักษาความเกี่ยวข้องในระหว่างความก้าวหน้าทางเทคโนโลยี
- การทดสอบทัวริงย้อนกลับมีจุดมุ่งหมายที่จะมีกลอุบายของมนุษย์คอมพิวเตอร์ที่เชื่อว่ามันไม่ได้ซักถามมนุษย์
- การทดสอบทัวริงทั้งหมดรวมความสามารถในการรับรู้และความสามารถของบุคคลที่ถูกสอบสวนเพื่อจัดการกับวัตถุ
- การทดสอบมาร์คัสมีวิชาทดสอบดูสื่อและตอบคำถามเกี่ยวกับเนื้อหา
- การทดสอบ Lovelace 2.0มีวิชาทดสอบสร้างงานศิลปะและตรวจสอบความสามารถในการทำเช่นนั้น
- สัญญาณอัจฉริยะขั้นต่ำทดสอบถามวิชาทดสอบเฉพาะคำถามไบนารี (เช่นจริง/เท็จหรือใช่/ไม่ใช่คำตอบ)
ข้อ จำกัด ของการทดสอบทัวริง
มีนักวิจารณ์หลายคนเกี่ยวกับการทดสอบทัวริงและการเปลี่ยนแปลงข้างต้นความพยายามที่จะลดข้อ จำกัด บางอย่างของการทดสอบทัวริงดั้งเดิม ถึงกระนั้นก็เป็นสิ่งสำคัญที่จะต้องคำนึงถึงข้อเสียของการทดสอบทัวริงและการวิเคราะห์ของมันอาจจะสั้นลง:
- การทดสอบทัวริงต้องการสภาพแวดล้อมที่ควบคุมได้ดีมาก ผู้เข้าร่วมการทดสอบจะต้องถูกซ่อนไว้จากมุมมองของกันและกันในระหว่างการทดสอบทั้งหมดแม้ว่าคู่กรณีจะต้องมีวิธีการสื่อสารที่เชื่อถือได้
- การทดสอบทัวริงอาจไม่เหมาะสมในการทดสอบความฉลาดเนื่องจากระบบคอมพิวเตอร์ที่แตกต่างกันมีโครงสร้างแตกต่างกัน ดังนั้นอาจมีข้อ จำกัด ตามธรรมชาติกับสิ่งที่คอมพิวเตอร์มีความสามารถในการทำงาน
- การทดสอบทัวริงกำลังพัฒนา อย่างไรก็ตามความก้าวหน้าทางเทคโนโลยีมีการพัฒนาเร็วขึ้น พิจารณากฎของมัวร์ซึ่งระบุการเติบโตอย่างรวดเร็วของความสามารถในการประมวลผลด้วยต้นทุนที่ลดลงอย่างรวดเร็ว ในขณะที่คอมพิวเตอร์ได้รับความสามารถมากขึ้นวิธีการทดสอบในอดีตอาจไม่เหมาะสมอีกต่อไปเนื่องจากคอมพิวเตอร์ได้รับความสามารถเหมือนมนุษย์มากขึ้น
- การทดสอบทัวริงประเมินความฉลาดแม้ว่าอาจจะไม่ใช่มาตรวัดที่เหมาะสมของสติปัญญาทุกประเภท ตัวอย่างเช่นคอมพิวเตอร์อาจประสบความสำเร็จในการหลอกผู้สอบสวนโดยพิจารณาจากความสามารถในการประมวลผลการตอบสนองเช่นมนุษย์ อย่างไรก็ตามสิ่งนี้อาจไม่ได้บ่งบอกถึงความฉลาดทางอารมณ์หรือการรับรู้อย่างแท้จริง มันอาจหมายถึงการเข้ารหัสของคอมพิวเตอร์มีโปรแกรมเมอร์ที่มีทักษะสูง
การทดสอบทัวริงดั้งเดิมคืออะไร?
การทดสอบดั้งเดิมใช้ผู้พิพากษาเพื่อรับฟังคำตอบจากมนุษย์และคอมพิวเตอร์ที่ออกแบบมาเพื่อสร้างการตอบสนองของมนุษย์และหลอกผู้พิพากษา
มี AI ผ่านการทดสอบทัวริงหรือไม่?
บางคนเชื่อว่า Chatgpt ผ่านการทดสอบทัวริง
การทดสอบทัวริงที่ได้รับการแก้ไขใน AI คืออะไร?
การทดสอบทัวริงได้รับการแก้ไขอย่างต่อเนื่องในความพยายามที่จะกำหนดวิธีการประเมินความสามารถเหมือนมนุษย์ของคอมพิวเตอร์ได้ดีที่สุด การทดสอบมีความซับซ้อนมากขึ้นเมื่อเวลาผ่านไป
บรรทัดล่าง
การทดสอบทัวริงเป็นการประเมินเพื่อตรวจสอบว่าเครื่องสามารถแสดงความฉลาดเช่นเดียวกับมนุษย์ได้หรือไม่ ขณะนี้มีการทดสอบทัวริงหลายรูปแบบและในขณะที่เทคโนโลยียังคงพัฒนาอย่างต่อเนื่องกับ AI ในระดับแนวหน้าแนวความคิดใหม่กำลังเกิดขึ้นโดยคำนึงถึงวิธีการกำหนดสติปัญญา