ยกเว้น ChatGPT 4o โมเดลภาษาขนาดใหญ่ที่เผยแพร่ต่อสาธารณะเกือบทั้งหมดที่ผ่านการทดสอบที่เรียกว่า Montreal Cognitive Assessment (MoCA) แสดงให้เห็นสัญญาณของความบกพร่องทางสติปัญญาระดับเล็กน้อย การค้นพบนี้ท้าทายสมมติฐานที่ว่าในไม่ช้าปัญญาประดิษฐ์จะมาแทนที่แพทย์ที่เป็นมนุษย์ เนื่องจากความบกพร่องทางสติปัญญาที่เห็นได้ชัดในแชทบอทชั้นนำอาจส่งผลกระทบต่อความน่าเชื่อถือในการวินิจฉัยทางการแพทย์ และบ่อนทำลายความมั่นใจของผู้ป่วย
ดายันและคณะ- พบว่าแม้ว่าแบบจำลองภาษาขนาดใหญ่จะแสดงความสามารถที่โดดเด่นในด้านการรับรู้หลายด้าน แต่ก็แสดงให้เห็นถึงความบกพร่องอย่างเห็นได้ชัดในด้านการมองเห็นเชิงพื้นที่และหน้าที่ของผู้บริหาร คล้ายกับความบกพร่องทางสติปัญญาระดับเล็กน้อยในมนุษย์
ในช่วงไม่กี่ปีที่ผ่านมา เราได้เห็นความก้าวหน้ามหาศาลในด้านปัญญาประดิษฐ์ โดยเฉพาะอย่างยิ่งในด้านความสามารถในการกำเนิดของ-
โมเดลชั้นนำในโดเมนนี้ เช่น ChatGPT ของ OpenAI, Gemini ของ Alphabet และ Claude ของ Anthropicความสามารถในการทำงานทั้งตามวัตถุประสงค์ทั่วไปและงานเฉพาะทางให้สำเร็จโดยใช้การโต้ตอบแบบข้อความธรรมดา
ในด้านการแพทย์ การพัฒนาเหล่านี้ทำให้เกิดการคาดเดากันมากมาย ทั้งตื่นเต้นและหวาดกลัว: แชทบอทปัญญาประดิษฐ์สามารถเหนือกว่าแพทย์ที่เป็นมนุษย์ได้หรือไม่ หากเป็นเช่นนั้น แนวทางปฏิบัติและความเชี่ยวชาญพิเศษใดที่น่าสงสัยมากที่สุด
ตั้งแต่ปี 2022 เมื่อ ChatGPT เปิดตัวให้ใช้งานออนไลน์ฟรีเป็นครั้งแรก ได้มีการตีพิมพ์ผลการศึกษาจำนวนนับไม่ถ้วนในวารสารทางการแพทย์ โดยเปรียบเทียบประสิทธิภาพของแพทย์ที่เป็นมนุษย์กับประสิทธิภาพของซูเปอร์คอมพิวเตอร์เหล่านี้ ซึ่งได้รับการฝึกฝนเกี่ยวกับคลังข้อมูลของข้อความทุกฉบับที่มนุษย์รู้จัก
แม้ว่าแบบจำลองทางภาษาขนาดใหญ่จะแสดงว่ามีข้อผิดพลาดในบางครั้ง (เช่น อ้างอิงบทความในวารสารที่ไม่มีอยู่จริง) โมเดลเหล่านี้ได้รับการพิสูจน์แล้วว่าเชี่ยวชาญอย่างน่าทึ่งในการตรวจทางการแพทย์หลายประเภท โดยให้คะแนนเหนือกว่าแพทย์ที่เป็นมนุษย์ในการตรวจวัดคุณสมบัติที่ดำเนินการในขั้นตอนต่างๆ ของแบบดั้งเดิม การฝึกอบรมทางการแพทย์
สิ่งเหล่านี้รวมถึงแพทย์โรคหัวใจที่มีผลงานดีกว่าในการตรวจโรคหัวใจแกนกลางของยุโรป ชาวอิสราเอลในการตรวจของคณะกรรมการอายุรศาสตร์ ศัลยแพทย์ชาวตุรกีในการตรวจศัลยกรรมทรวงอกของตุรกี (ตามทฤษฎี) และนรีแพทย์ชาวเยอรมันในการตรวจสูติศาสตร์และนรีเวชวิทยาของเยอรมัน
สิ่งที่น่ากังวลอย่างยิ่งคือ พวกเขามีคะแนนเหนือกว่านักประสาทวิทยาเช่นเราในการสอบของคณะกรรมการประสาทวิทยาด้วยซ้ำ
“ตามความรู้ของเรา อย่างไรก็ตาม แบบจำลองภาษาขนาดใหญ่ยังไม่ได้ถูกทดสอบเพื่อหาสัญญาณของความเสื่อมถอยทางสติปัญญา” รอย ดายัน นักศึกษาปริญญาเอกของ Hadassah Medical Center และเพื่อนร่วมงานกล่าว
“ถ้าเราต้องพึ่งพาพวกเขาในการวินิจฉัยและการดูแลรักษาทางการแพทย์ เราต้องตรวจสอบความอ่อนแอของพวกเขาต่อความบกพร่องของมนุษย์เหล่านี้”
คะแนนการประเมินความรู้ความเข้าใจมอนทรีออล (MoCA) (จาก 30) ของแบบจำลองภาษาขนาดใหญ่ต่างๆ MCI – ความบกพร่องทางสติปัญญาเล็กน้อย เครดิตภาพ: Dayanและคณะ., ดอย: 10.1136/bmj-2024-081948.
เมื่อใช้การทดสอบ MoCA นักวิจัยได้ประเมินความสามารถในการรับรู้ของโมเดลภาษาขนาดใหญ่ชั้นนำที่เผยแพร่ต่อสาธารณะ ได้แก่ ChatGPT เวอร์ชัน 4 และ 4o, Claude 3.5 Sonnet และ Gemini เวอร์ชัน 1 และ 1.5
การทดสอบนี้ใช้กันอย่างแพร่หลายเพื่อตรวจหาความบกพร่องทางสติปัญญาและสัญญาณเริ่มต้นของภาวะสมองเสื่อม โดยปกติจะเกิดในผู้สูงอายุ
โดยจะประเมินความสามารถต่างๆ รวมถึงความสนใจ ความจำ ภาษา ทักษะการมองเห็น และหน้าที่ของผู้บริหารผ่านงานและคำถามสั้นๆ จำนวนหนึ่ง
คะแนนสูงสุดคือ 30 คะแนน โดยคะแนนตั้งแต่ 26 ขึ้นไป โดยทั่วไปถือว่าเป็นเรื่องปกติ
คำแนะนำที่ให้กับโมเดลภาษาขนาดใหญ่สำหรับแต่ละงานจะเหมือนกับคำแนะนำที่มอบให้กับผู้ป่วยที่เป็นมนุษย์
การให้คะแนนเป็นไปตามแนวทางอย่างเป็นทางการและได้รับการประเมินโดยนักประสาทวิทยาฝึกหัด
ChatGPT 4o ได้รับคะแนนสูงสุดในการทดสอบ MoCA (26 จาก 30 คะแนน) ตามมาด้วย ChatGPT 4 และ Claude (25 จาก 30 คะแนน) โดย Gemini 1.0 มีคะแนนต่ำสุด (16 จาก 30 คะแนน)
แชทบอททั้งหมดมีประสิทธิภาพต่ำในด้านทักษะการมองเห็นเชิงพื้นที่และงานบริหาร เช่น งานสร้างเส้นทาง (เชื่อมต่อตัวเลขและตัวอักษรที่ล้อมรอบตามลำดับจากน้อยไปหามาก) และการทดสอบการวาดภาพนาฬิกา (การวาดหน้าปัดนาฬิกาแสดงเวลาที่กำหนด)
แบบจำลองราศีเมถุนล้มเหลวในภารกิจเรียกคืนล่าช้า (จดจำลำดับคำห้าคำ)
งานอื่นๆ ส่วนใหญ่ รวมถึงการตั้งชื่อ ความสนใจ ภาษา และนามธรรม ล้วนทำงานได้ดีในแชทบอททั้งหมด
แต่ในการทดสอบการมองเห็นเชิงพื้นที่เพิ่มเติม แชทบอทไม่สามารถแสดงความเห็นอกเห็นใจหรือตีความฉากภาพที่ซับซ้อนได้อย่างแม่นยำ
มีเพียง ChatGPT 4o เท่านั้นที่ประสบความสำเร็จในขั้นตอนที่ไม่สอดคล้องกันของการทดสอบ Stroop ซึ่งใช้ชื่อสีและสีแบบอักษรผสมกันเพื่อวัดว่าการรบกวนส่งผลต่อเวลาตอบสนองอย่างไร
นี่เป็นข้อค้นพบจากการสังเกต และผู้เขียนรับทราบถึงความแตกต่างที่สำคัญระหว่างสมองมนุษย์และแบบจำลองภาษาขนาดใหญ่
อย่างไรก็ตาม พวกเขาชี้ให้เห็นว่าความล้มเหลวที่สม่ำเสมอของแบบจำลองภาษาขนาดใหญ่ในงานที่ต้องใช้การมองเห็นเชิงนามธรรมและหน้าที่ของผู้บริหารเน้นย้ำจุดอ่อนที่สำคัญที่อาจขัดขวางการใช้งานในสถานพยาบาล
“นักประสาทวิทยาไม่น่าจะถูกแทนที่ด้วยแบบจำลองภาษาขนาดใหญ่ในเร็ว ๆ นี้ แต่การค้นพบของเราชี้ให้เห็นว่าในไม่ช้าพวกเขาอาจจะพบว่าตัวเองกำลังรักษาผู้ป่วยเสมือนรายใหม่ ๆ ซึ่งเป็นแบบจำลองปัญญาประดิษฐ์ที่นำเสนอด้วยความบกพร่องทางสติปัญญา” นักวิทยาศาสตร์กล่าว
ของพวกเขากระดาษปรากฏในวันนี้ในบีเอ็มเจ-
-
รอย ดายันและคณะ- 2024. อายุเทียบกับเครื่องจักร – ความอ่อนแอของแบบจำลองภาษาขนาดใหญ่ต่อความบกพร่องทางสติปัญญา: การวิเคราะห์แบบตัดขวางบีเอ็มเจ387: e081948; ดอย: 10.1136/bmj-2024-081948