แทบจะไม่สองปีแล้วสำหรับการใช้งานสาธารณะเชิญทุกคนบนอินเทอร์เน็ตให้ร่วมมือกับจิตใจที่ประดิษฐ์จากทุกสิ่งตั้งแต่บทกวีไปจนถึงการมอบหมายโรงเรียนไปจนถึงจดหมายถึงเจ้าของบ้านของพวกเขา
วันนี้มีชื่อเสียงรูปแบบภาษาขนาดใหญ่(LLM) เป็นเพียงหนึ่งในหลาย ๆ โปรแกรมชั้นนำที่ปรากฏตัวเป็นมนุษย์อย่างน่าเชื่อถือในการตอบสนองต่อการสืบค้นขั้นพื้นฐาน
ความคล้ายคลึงที่แปลกประหลาดนั้นอาจขยายออกไปไกลกว่าที่ตั้งใจไว้กับนักวิจัยจากอิสราเอลในขณะนี้การค้นหา LLMS ได้รับความบกพร่องทางสติปัญญาหนึ่งที่รุนแรงมากขึ้นในหมู่รุ่นก่อนหน้า
ทีมใช้แบตเตอรี่ของการประเมินความรู้ความเข้าใจกับ 'chatbots' ที่เปิดเผยต่อสาธารณะ: เวอร์ชัน 4 และ 4O ของ Chatgpt, Gemini ของตัวอักษรสองรุ่นและ Claude ของมนุษย์รุ่น 3.5 รุ่น 3.5
LLMs ฉลาดอย่างแท้จริงผลลัพธ์จะเกี่ยวข้องกับ
ในบทความที่ตีพิมพ์ของพวกเขา Roy Dayan นักประสาทวิทยาและ Benjamin Uliel จาก Hadassah Medical Center และ Gal Koplewitz นักวิทยาศาสตร์ด้านข้อมูลที่มหาวิทยาลัยเทลอาวีฟอธิบายระดับของ "การลดลงของความรู้ความเข้าใจที่ดูเหมือนจะเทียบได้กับกระบวนการ neurodegenerative ในสมองของมนุษย์"
สำหรับบุคลิกทั้งหมดของพวกเขา LLM มีมากขึ้นเหมือนกันด้วยข้อความที่ทำนายได้บนโทรศัพท์ของคุณมากกว่าหลักการที่สร้างความรู้โดยใช้สสารสีเทานุ่มภายในหัวของเรา
วิธีการทางสถิตินี้ในการสร้างข้อความและการสร้างภาพได้รับความเร็วและความเป็นส่วนตัวมันสูญเสียความไร้เดียงสาการสร้างรหัสตามอัลกอริทึมที่ตัวอย่างข้อความที่มีความหมายจากนิยายและเรื่องไร้สาระ
จะยุติธรรมเมื่อพูดถึงการใช้ทางลัดทางจิตเป็นครั้งคราว แต่ด้วยความคาดหวังที่เพิ่มขึ้นของ AI ที่ให้คำพูดที่น่าเชื่อถือของภูมิปัญญา - แม้กระทั่งและคำแนะนำทางกฎหมาย- สมมติฐานมาว่า LLM รุ่นใหม่แต่ละรุ่นจะหาวิธีที่ดีกว่าในการ 'คิด' เกี่ยวกับสิ่งที่มันพูดจริง
เพื่อดูว่าเราต้องไปไกลแค่ไหน Dayan, Uliel และ Koplewitz ได้ใช้ชุดการทดสอบที่รวมถึงการประเมินความรู้ความเข้าใจมอนทรีออล(MOCA) นักประสาทวิทยาเครื่องมือมักใช้ในการวัดความสามารถทางจิตเช่นหน่วยความจำทักษะเชิงพื้นที่และฟังก์ชั่นผู้บริหาร
Chaptgpt 4O ทำคะแนนสูงสุดในการประเมินโดยมีเพียง 26 จาก 30 คะแนนที่เป็นไปได้ซึ่งบ่งบอกถึงความบกพร่องทางสติปัญญาเล็กน้อย ตามด้วย 25 คะแนนสำหรับ chatgpt 4 และ Claude และเพียง 16 สำหรับราศีเมถุน - คะแนนที่จะชี้นำการด้อยค่าอย่างรุนแรงในมนุษย์

การขุดลงไปในผลลัพธ์แบบจำลองทั้งหมดดำเนินการได้ไม่ดีในการวัดฟังก์ชั่น visuospatial/Executial
สิ่งเหล่านี้รวมถึงงานสร้างเส้นทางการคัดลอกการออกแบบคิวบ์อย่างง่ายหรือการวาดนาฬิกาด้วย LLMS ไม่ว่าจะล้มเหลวอย่างสมบูรณ์หรือต้องการคำแนะนำที่ชัดเจน

การตอบคำถามบางข้อเกี่ยวกับตำแหน่งของผู้เข้าร่วมในอวกาศสะท้อนผู้ป่วยโรคสมองเสื่อมเช่นคำตอบของ Claude เกี่ยวกับ"สถานที่และเมืองที่เฉพาะเจาะจงจะขึ้นอยู่กับว่าคุณผู้ใช้อยู่ที่ไหนในขณะนี้"
ในทำนองเดียวกันการขาดความเห็นอกเห็นใจที่แสดงโดยทุกรุ่นในลักษณะของการตรวจสอบความพิการทางสมองของบอสตันสามารถตีความได้ว่าเป็นสัญญาณของ-
ตามที่คาดไว้ LLM รุ่นก่อนหน้านี้ได้คะแนนต่ำกว่าการทดสอบมากกว่ารุ่นล่าสุดซึ่งบ่งชี้ว่า AI รุ่นใหม่แต่ละรุ่นได้พบวิธีที่จะเอาชนะข้อบกพร่องทางปัญญาของรุ่นก่อน
ผู้เขียนยอมรับว่า LLM ไม่ใช่สมองของมนุษย์ทำให้เป็นไปไม่ได้ที่จะ 'วินิจฉัย' แบบจำลองที่ทดสอบด้วยภาวะสมองเสื่อมทุกรูปแบบ แต่การทดสอบก็ท้าทายของสนามที่มักอาศัยอยู่-
เป็นก้าวของนวัตกรรมในยังคงเร่งความเร็วยังคงเป็นไปได้แม้จะเป็นไปได้ที่เราจะได้เห็นคะแนนสูงสุดของ LLM คะแนนสูงสุดในการประเมินความรู้ความเข้าใจในทศวรรษที่ผ่านมาในอนาคต
ก่อนหน้านั้นคำแนะนำของแม้กระทั่งแชทบอทที่ทันสมัยที่สุดควรได้รับการรักษาด้วยความสงสัยในปริมาณที่ดี
งานวิจัยนี้ตีพิมพ์ในBMJ-