“ประกายไฟของปัญญาประดิษฐ์ทั่วไป” “ความเข้าใจในระดับที่ใกล้เคียงมนุษย์” “ความสามารถในการให้เหตุผลระดับสูง” วลีทั้งหมดนี้ใช้เพื่ออธิบายโมเดลภาษาขนาดใหญ่ ซึ่งขับเคลื่อนแชทบอท AI เชิงสร้างสรรค์ เช่น ChatGPT เนื่องจากบอทนั้นถึงที่เกิดเหตุช่วงปลายปี 2565ดูเหมือนว่า AI เจนเนอเรชั่นใหม่ทุกตัวจะเป็นรุ่นต่อไปที่ดีที่สุด ไม่ใช่แค่สร้างเนื้อหาที่เหมือนมนุษย์เท่านั้น แต่ยังเข้าใกล้การรับรู้ที่ใกล้ตัวมนุษย์ด้วย (SN: 12/11/23- แต่เราจะพูดอะไรได้จริงๆ เกี่ยวกับความสามารถของ LLM ในการให้เหตุผลและเข้าใจ?
ในชุมชน AI ไม่มีความเห็นพ้องต้องกันเกี่ยวกับคำจำกัดความของ "ความฉลาด" ของเครื่องจักร หรือเกี่ยวกับวิธีการกำหนดความสามารถด้านการรับรู้ต่างๆ ที่มักเกิดจาก LLM การกล่าวอ้างในระดับสูงเกี่ยวกับความเข้าใจดังกล่าวมักอิงตามชุดข้อมูลเกณฑ์มาตรฐาน ซึ่งใช้อินสแตนซ์จำนวนมากของงานเฉพาะ (เช่น การตอบคำถาม) เพื่อประเมินประสิทธิภาพโดยรวม (โดยปกติจะขึ้นอยู่กับเมตริก เช่น ความแม่นยำ)
ลองพิจารณาดู เช่นความเข้าใจภาษามัลติทาสก์ขนาดใหญ่หรือ MMLUซึ่งเป็นเกณฑ์มาตรฐานยอดนิยมสำหรับการประเมินความรู้ที่ได้รับจาก LLM MMLU มีคำถามแบบปรนัยกว่า 16,000 ข้อ ครอบคลุม 57 หัวข้อ รวมถึงกายวิภาคศาสตร์ ภูมิศาสตร์ ประวัติศาสตร์โลก และกฎหมาย เกณฑ์มาตรฐานเช่น BIG-bench (BIG ย่อมาจาก Beyond the Imitation Game) ประกอบด้วยชุดงานที่หลากหลายมากขึ้นการใช้เหตุผลแบบแยกส่วนหรือ DROPอ้างว่าทดสอบความเข้าใจในการอ่านและการใช้เหตุผล WinoGrande และ HellaSwag มีวัตถุประสงค์เพื่อทดสอบการใช้เหตุผลร่วมกัน โมเดลจะแข่งขันกันในเกณฑ์มาตรฐานเหล่านี้ เช่นเดียวกับมนุษย์ และบางครั้งโมเดลก็ทำงานได้ดีกว่ามนุษย์
แต่ “AI ที่เหนือกว่ามนุษย์บนเกณฑ์มาตรฐานที่ตั้งชื่อตามความสามารถทั่วไปนั้น ไม่เหมือนกับ AI ที่เหนือกว่ามนุษย์ด้วยความสามารถทั่วไปนั้น” นักวิทยาศาสตร์คอมพิวเตอร์ Melanie Mitchell ชี้ให้เห็นในจดหมายข่าว Substack ฉบับเดือนพฤษภาคมของเธอ-
การประเมินเหล่านี้ไม่จำเป็นต้องให้ทุกสิ่งตามที่กล่าวอ้าง และอาจไม่เหมาะกับ AI ในปัจจุบัน การศึกษาชิ้นหนึ่งโพสต์เมื่อต้นปีนี้ที่ arXiv.org ทดสอบ LLM 11 รายการ และพบว่าเป็นเช่นนั้นการเปลี่ยนลำดับของคำตอบแบบปรนัยในเกณฑ์มาตรฐานเช่น MMLU อาจส่งผลต่อประสิทธิภาพ
ถึงกระนั้น ผู้นำในอุตสาหกรรมก็มักจะผสมผสานประสิทธิภาพที่น่าประทับใจในงานที่ LLM ได้รับการฝึกฝนให้ทำ เช่น การสนทนาหรือการสรุปข้อความ ด้วยความสามารถทางปัญญาระดับสูง เช่น ความเข้าใจ ความรู้ และการให้เหตุผล ซึ่งยากต่อการกำหนดและประเมินได้ยาก แต่สำหรับ LLMการสร้างเนื้อหาไม่ได้ขึ้นอยู่กับความเข้าใจนักวิจัยรายงานในการศึกษาที่นำเสนอในเดือนพฤษภาคมในกรุงเวียนนาที่การประชุมนานาชาติว่าด้วยการนำเสนอการเรียนรู้ เมื่อนักวิจัยขอให้ GPT-4 และโมเดล AI อื่นๆ ตอบคำถามตามข้อความหรือรูปภาพที่ AI สร้างขึ้น พวกเขามักจะตอบไม่ถูกต้อง
Nouha Dziri นักวิทยาศาสตร์การวิจัยที่กำลังศึกษาแบบจำลองภาษาที่ Allen Institute for AI ในซีแอตเทิลและเป็นผู้เขียนร่วมในการศึกษาครั้งนั้น เรียกสิ่งนี้ว่า “ความขัดแย้งเมื่อเปรียบเทียบกับวิธีการทำงานของมนุษย์” สำหรับมนุษย์ เธอกล่าวว่า “ความเข้าใจเป็นข้อกำหนดเบื้องต้นสำหรับความสามารถในการสร้างข้อความที่ถูกต้อง”
ยิ่งไปกว่านั้น ดังที่ Mitchell และเพื่อนร่วมงานระบุไว้ในรายงานศาสตร์ปีที่แล้วประสิทธิภาพการวัดประสิทธิภาพมักถูกรายงานด้วยเมตริกรวม“ทำให้ข้อมูลสำคัญสับสนเกี่ยวกับจุดที่ระบบมีแนวโน้มที่จะสำเร็จหรือล้มเหลว” ความปรารถนาที่จะมองให้ลึกลงไปจะถูกขัดขวาง เนื่องจากรายละเอียดเฉพาะของประสิทธิภาพไม่ได้เปิดเผยต่อสาธารณะ
ขณะนี้นักวิจัยกำลังจินตนาการว่าการประเมินจะดีขึ้นได้อย่างไร “ในทางปฏิบัติ การประเมินที่ดีเป็นเรื่องยาก” Yanai Elazar ที่ทำงานเกี่ยวกับแบบจำลองภาษาที่ Allen Institute กล่าว “เป็นสาขาการวิจัยเชิงรุกที่ผู้คนจำนวนมากกำลังทำงานและปรับปรุงให้ดียิ่งขึ้น”
เหตุใดเกณฑ์มาตรฐานการรับรู้จึงไม่ได้ผลเสมอไป
นอกเหนือจากความโปร่งใสและการกล่าวอ้างที่สูงเกินจริงแล้ว ยังมีปัญหาเบื้องหลังในการประเมินเกณฑ์มาตรฐานอีกด้วย
ความท้าทายประการหนึ่งก็คือการวัดประสิทธิภาพจะใช้ได้ดีเพียงระยะเวลาหนึ่งเท่านั้น มีความกังวลว่า LLM ในปัจจุบันจะเป็นอยู่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลการทดสอบจากเกณฑ์มาตรฐานที่มีจุดประสงค์เพื่อประเมินพวกเขา ชุดข้อมูลการวัดประสิทธิภาพมีให้ใช้งานทางออนไลน์ และข้อมูลการฝึกอบรมสำหรับ LLM มักจะถูกคัดลอกมาจากเว็บทั้งหมด เช่น รายงานทางเทคนิคจากOpenAI ซึ่งพัฒนา ChatGPT ได้รับการยอมรับส่วนของชุดข้อมูลการวัดประสิทธิภาพ รวมถึง BIG-bench และ DROP เป็นส่วนหนึ่งของข้อมูลการฝึกอบรมของ GPT-4 มีหลักฐานบางอย่างที่แสดงว่า GPT-3.5 ซึ่งขับเคลื่อน ChatGPT เวอร์ชันฟรีพบชุดข้อมูลเกณฑ์มาตรฐาน MMLU-
แต่ข้อมูลการฝึกอบรมส่วนใหญ่ไม่ได้รับการเปิดเผย “ไม่มีทางพิสูจน์หรือหักล้างมันได้ ภายนอกบริษัทแค่ปล่อยชุดข้อมูลการฝึกอบรมออกมาเท่านั้น” Erik Arakelyan จากมหาวิทยาลัยโคเปนเฮเกน ผู้ศึกษาความเข้าใจภาษาธรรมชาติกล่าว
LLM ในปัจจุบันอาจอาศัยทางลัดเพื่อให้ได้คำตอบที่ถูกต้องโดยไม่ต้องทำงานด้านการรับรู้ที่ได้รับการประเมิน “ปัญหามักเกิดขึ้นเมื่อมีสิ่งต่างๆ ในข้อมูลที่คุณไม่ได้คำนึงถึงความจำเป็น และโดยพื้นฐานแล้วโมเดลสามารถโกงได้” Elazar กล่าว ตัวอย่างเช่น การศึกษาที่รายงานในปี 2019 พบหลักฐานว่าการเชื่อมโยงทางสถิติดังกล่าวในชุดข้อมูล Winograd Schema Challenge ซึ่งเป็นเกณฑ์มาตรฐานการให้เหตุผลทั่วไปที่มีมาก่อน WinoGrande
ที่ความท้าทายสคีมา Winogradหรือ WSC ได้รับการเสนอในปี 2554 เพื่อเป็นการทดสอบพฤติกรรมอัจฉริยะของระบบ แม้ว่าหลายคนจะคุ้นเคยก็ตามการทดสอบทัวริงเพื่อประเมินความฉลาด นักวิจัยได้เริ่มเสนอการปรับเปลี่ยนและทางเลือกที่ไม่เป็นอัตวิสัยและไม่ต้องการให้ AI มีส่วนร่วมในการหลอกลวงจึงจะผ่านการทดสอบ (SN: 15/6/55-
แทนที่จะเป็นการสนทนารูปแบบอิสระ WSC นำเสนอประโยคคู่ที่กล่าวถึงสองเอนทิตีและใช้สรรพนามเพื่ออ้างถึงหนึ่งในเอนทิตี นี่คือคู่ตัวอย่าง:
ประโยคที่ 1: ท่ามกลางพายุ ต้นไม้ล้มทับหลังคาบ้านของฉัน ตอนนี้ฉันต้องเอามันออกไป
ประโยคที่ 2: ท่ามกลางพายุ ต้นไม้ล้มทับหลังคาบ้านของฉัน ตอนนี้ฉันต้องซ่อมมันแล้ว
โมเดลภาษาจะให้คะแนนอย่างถูกต้องหากสามารถจับคู่สรรพนาม (“it”) กับเอนทิตีที่ถูกต้อง (“หลังคา” หรือ “ต้นไม้”) ได้สำเร็จ ประโยคมักจะแตกต่างกันด้วยคำพิเศษ ("ลบออก" หรือ "ซ่อมแซม") ซึ่งเมื่อแลกเปลี่ยนคำตอบจะเปลี่ยน สันนิษฐานว่ามีเพียงแบบจำลองที่อาศัยความรู้ทั่วไปของโลกและไม่ใช่เบาะแสทางภาษาเท่านั้นที่สามารถให้คำตอบที่ถูกต้องได้
ทักษะที่เหนือกว่า?
ในช่วงไม่กี่ปีที่ผ่านมา AI เริ่มมีประสิทธิภาพเหนือกว่ามนุษย์ในการทดสอบการจัดหมวดหมู่รูปภาพ ความเข้าใจภาษา ความเข้าใจในการอ่าน และอื่นๆ (ทักษะที่เหนือกว่าพื้นฐานของมนุษย์ในกราฟด้านล่าง) แต่ผู้เชี่ยวชาญบางคนเตือนว่าเกณฑ์มาตรฐานในปัจจุบันไม่ได้ขึ้นอยู่กับการประเมินความเข้าใจและการใช้เหตุผลของโมเดล AI
แต่ปรากฎว่าใน WSC มีความสัมพันธ์ทางสถิติที่ให้เบาะแส ลองพิจารณาตัวอย่างข้างต้น แบบจำลองภาษาขนาดใหญ่ที่ได้รับการฝึกฝนเกี่ยวกับข้อความจำนวนมาก อาจพบตัวอย่างหลังคาที่กำลังซ่อมแซมมากกว่าการซ่อมแซมต้นไม้ แบบจำลองอาจเลือกคำที่มีแนวโน้มทางสถิติมากกว่าในสองตัวเลือก แทนที่จะพึ่งพาการใช้เหตุผลทั่วไปใดๆ
ในการศึกษาที่รายงานในปี 2021 เอลาซาร์และเพื่อนร่วมงานได้แก้ไขประโยค WSC อย่างไร้สาระโรเบอร์ต้าLLM ที่มีได้คะแนนมากกว่า 80 เปอร์เซ็นต์ในเกณฑ์มาตรฐาน WSC ในบางกรณี- แบบจำลองนี้ทำให้ถูกต้องอย่างน้อย 60 เปอร์เซ็นต์ของเวลา แม้ว่ามนุษย์จะไม่ถูกคาดหวังให้ตอบอย่างถูกต้องก็ตาม เนื่องจากการสุ่มเดาไม่สามารถให้คะแนนได้มากกว่า 50 เปอร์เซ็นต์สมาคมปลอมคงได้แจกคำตอบไปแล้ว
เพื่อเป็นการวัดความก้าวหน้าที่ดี ชุดข้อมูลเบนช์มาร์กจะต้องไม่คงที่ พวกมันจะต้องได้รับการดัดแปลงควบคู่ไปกับโมเดลที่ล้ำสมัยและกำจัดทางลัดที่ยุ่งยาก Elazar และนักวิจัยประเมินผลคนอื่นๆ กล่าว ในปี 2019 หลังจากที่ทางลัดของ WSC ถูกเปิดเผย นักวิจัยอีกกลุ่มหนึ่งได้เปิดตัว WinoGrande ที่ใช้กันทั่วไปในปัจจุบันเป็นเกณฑ์มาตรฐานทั่วไปที่ยากขึ้น ชุดข้อมูลการวัดประสิทธิภาพมีประโยคมากกว่า 43,000 ประโยคพร้อมอัลกอริธึมประกอบที่สามารถกรองประโยคที่เกี่ยวข้องกับการเชื่อมโยงปลอมออกได้
สำหรับนักวิจัยบางคน การที่ LLM ผ่านเกณฑ์มาตรฐานอย่างง่ายดายก็หมายความว่าเป็นเช่นนั้นเกณฑ์มาตรฐานที่ครอบคลุมมากขึ้นจำเป็นต้องพัฒนา ตัวอย่างเช่น นักวิจัยอาจหันไปใช้ชุดงานวัดประสิทธิภาพที่หลากหลายซึ่งจัดการกับแง่มุมต่างๆ ของสามัญสำนึก เช่น ความเข้าใจแนวความคิด หรือความสามารถในการวางแผนสถานการณ์ในอนาคต “ความท้าทายคือเราจะสร้างงานที่ท้าทายและท้าทายมากขึ้นได้อย่างไร ซึ่งจะบอกเราถึงความสามารถที่แท้จริงของแบบจำลองภาษาเหล่านี้” Dziri กล่าว “หากโมเดลให้คะแนนได้ 100 เปอร์เซ็นต์ มันอาจทำให้เราเข้าใจผิดเกี่ยวกับความสามารถของพวกเขา”
แต่คนอื่นๆ กลับสงสัยมากกว่าว่าโมเดลที่ทำงานได้ดีบนเกณฑ์มาตรฐานจำเป็นต้องมีความสามารถด้านความรู้ความเข้าใจที่เป็นปัญหา หากแบบจำลองทดสอบได้ดีกับชุดข้อมูล ก็เพียงบอกเราว่าแบบจำลองนั้นทำงานได้ดีกับชุดข้อมูลนั้นและไม่มีอะไรเพิ่มเติมอีก Elazar กล่าว แม้ว่า WSC และ WinoGrande จะถือเป็นการทดสอบสามัญสำนึก แต่ก็เพียงทดสอบการระบุสรรพนามเท่านั้นHellaSwagซึ่งเป็นเกณฑ์มาตรฐานทั่วไปอีกประการหนึ่ง ทดสอบว่าแบบจำลองสามารถเลือกตอนจบที่เป็นไปได้มากที่สุดสำหรับสถานการณ์ที่กำหนดได้ดีเพียงใด
แม้ว่างานแต่ละอย่างเหล่านี้อาจต้องใช้สามัญสำนึกหรือความเข้าใจหากสร้างอย่างถูกต้อง แต่ก็ยังไม่ได้ประกอบขึ้นเป็นความหมายของการมีสามัญสำนึกหรือการเข้าใจทั้งหมด การใช้เหตุผลทั่วไปรูปแบบอื่นๆ ที่เกี่ยวข้องกับปฏิสัมพันธ์ทางสังคมหรือการเปรียบเทียบปริมาณได้รับการสำรวจไม่ดี-
ใช้แนวทางการทดสอบที่แตกต่างออกไป
การเจาะลึกเข้าไปในกลไกที่จำเป็นสำหรับการทำความเข้าใจอย่างเป็นระบบอาจให้ข้อมูลเชิงลึกมากกว่าการทดสอบเกณฑ์มาตรฐาน Arakelyan กล่าว นั่นอาจหมายถึงการทดสอบความเข้าใจแนวคิดพื้นฐานของ AIโดยใช้สิ่งที่เรียกว่างานต่อต้านข้อเท็จจริง ในกรณีเหล่านี้ แบบจำลองจะถูกนำเสนอโดยมีการหักมุมจากกฎทั่วไปที่ไม่น่าจะพบในการฝึก พูดตัวอักษรที่มีตัวอักษรบางตัวปะปนกัน และขอให้แก้ไขปัญหาโดยใช้กฎใหม่
วิธีอื่นๆ ได้แก่ การวิเคราะห์ความสามารถของ AI ในการสรุปปัญหาจากง่ายไปจนถึงปัญหาที่ซับซ้อนมากขึ้น หรือการตรวจสอบโดยตรงภายใต้สถานการณ์ที่ AI ล้มเหลว อาจมีวิธีทดสอบการใช้เหตุผลทั่วไป เช่น โดยการตัดกลไกที่ไม่เกี่ยวข้องออก เช่น การท่องจำ การจับคู่รูปแบบ และทางลัด
ในการศึกษาที่รายงานเมื่อเดือนมีนาคม Arakelyan และเพื่อนร่วมงานได้ทดสอบว่า LLM หกแห่งที่ได้คะแนนสูงในเกณฑ์มาตรฐานความเข้าใจภาษา และด้วยเหตุนี้จึงกล่าวได้ว่าเข้าใจความหมายโดยรวมของประโยคหรือไม่ก็สามารถเข้าใจได้เช่นกันประโยคเดียวกันที่มีการถอดความเล็กน้อยแต่มีเหตุผลเทียบเท่ากัน
โดยทั่วไปความเข้าใจภาษาจะได้รับการประเมินโดยใช้งานที่เรียกว่าการอนุมานภาษาธรรมชาติ LLM นำเสนอด้วยหลักฐานและสมมติฐาน และขอให้เลือกว่าสมมติฐานนั้นมีความหมายโดยนัย ขัดแย้ง หรือเป็นกลางต่อสมมติฐานหรือไม่ แต่เมื่อแบบจำลองมีขนาดใหญ่ขึ้น ได้รับการฝึกด้วยข้อมูลมากขึ้นเรื่อยๆ การประเมินที่สร้างขึ้นอย่างรอบคอบมากขึ้นจึงจำเป็นเพื่อพิจารณาว่าแบบจำลองนั้นอาศัยทางลัดที่เน้นไปที่คำเดี่ยวๆ หรือชุดคำ Arakelyan กล่าว
เพื่อพยายามทำความเข้าใจภาษาให้ดีขึ้น ทีมงานได้เปรียบเทียบว่าแบบจำลองตอบคำถามแบบทดสอบมาตรฐานอย่างไรกับคำตอบเมื่อได้รับประโยคสมมติฐานเดียวกันแต่ใช้ประโยคสมมุติฐานที่มีการถอดความเล็กน้อย นักวิจัยกล่าวว่าแบบจำลองที่มีความเข้าใจภาษาที่แท้จริงจะทำการตัดสินใจแบบเดียวกันตราบใดที่การเปลี่ยนแปลงเล็กน้อยยังคงรักษาความหมายดั้งเดิมและความสัมพันธ์เชิงตรรกะไว้ ตัวอย่างเช่น ประโยคสมมุติ “มีเหงื่อหยดบนคิ้ว” บ่งบอกถึงสมมติฐาน “เหงื่อสะสมบนใบหน้า” เช่นเดียวกับ “เหงื่อสะสมบนใบหน้า” ที่เปลี่ยนแปลงเล็กน้อย
ทีมงานใช้ LLM แยกต่างหากที่เรียกว่า flan-t5-xl และเผยแพร่โดย Google เพื่อสร้างประโยคสมมติฐานที่หลากหลายจากชุดข้อมูลการอนุมานภาษาธรรมชาติยอดนิยมของอังกฤษสามชุด LLM ที่อยู่ระหว่างการทดสอบพบชุดข้อมูลชุดใดชุดหนึ่งระหว่างการฝึกอบรม แต่ไม่ใช่ชุดข้อมูลอีกสองชุด ขั้นแรก ทีมงานทดสอบแบบจำลองบนชุดข้อมูลดั้งเดิม และเลือกเฉพาะประโยคที่แบบจำลองจำแนกอย่างถูกต้องเพื่อถอดความ เพื่อให้แน่ใจว่าประสิทธิภาพที่แตกต่างกันอาจเป็นผลมาจากรูปแบบประโยค ยิ่งไปกว่านั้น นักวิจัยยังป้อนประโยคสมมติฐานดั้งเดิมและความแปรผันของแบบจำลองภาษาที่เหมือนกันกับที่ทดสอบและสามารถประเมินได้ว่าทั้งคู่มีความหมายเท่ากันหรือไม่ เฉพาะผู้ที่ถือว่าเท่าเทียมกันทั้งแบบจำลองและผู้ประเมินที่เป็นมนุษย์เท่านั้นที่จะถูกนำมาใช้เพื่อทดสอบความเข้าใจทางภาษา
แต่สำหรับประโยคจำนวนมาก แบบจำลองที่ทดสอบได้เปลี่ยนการตัดสินใจของพวกเขา บางครั้งก็เปลี่ยนจาก "โดยนัย" เป็น "ขัดแย้ง" เมื่อผู้วิจัยใช้ประโยคที่ไม่ปรากฏในข้อมูลการฝึกอบรม LLM เปลี่ยนแปลงการตัดสินใจมากถึง 58 เปอร์เซ็นต์
“โดยพื้นฐานแล้วหมายความว่าโมเดลจะต้องพิถีพิถันมากเมื่อเข้าใจความหมาย” Arakelyan กล่าว เฟรมเวิร์กประเภทนี้ แตกต่างจากชุดข้อมูลการวัดประสิทธิภาพ สามารถเปิดเผยได้ดีขึ้นว่าโมเดลมีความเข้าใจที่แท้จริงหรือไม่ หรือขึ้นอยู่กับเบาะแส เช่น การกระจายคำ
วิธีการประเมินทีละขั้นตอน
การติดตามกระบวนการทีละขั้นตอนของ LLM เป็นอีกวิธีหนึ่งในการประเมินอย่างเป็นระบบว่า LLM ใช้เหตุผลและความเข้าใจเพื่อให้ได้คำตอบหรือไม่ ในแนวทางหนึ่ง ทีมงานของ Dziri ได้ทดสอบความสามารถของ LLM รวมถึง GPT-4, GPT-3.5 และ GPT-3 (รุ่นก่อนของทั้งสอง) เพื่อดำเนินการคูณหลายหลัก แบบจำลองจะต้องแบ่งงานออกเป็นขั้นตอนย่อยที่นักวิจัยสามารถตรวจสอบได้เป็นรายบุคคล
หลังจากให้ปัญหา LLM เช่น 7 x 29 แล้ว นักวิจัยได้ตรวจสอบคำตอบในแต่ละขั้นตอนย่อย หลังจากการคูณเลขหลักเดียว หลังจากทบยอดและหลังการบวก แม้ว่าแบบจำลองจะสมบูรณ์แบบในการคูณตัวเลขหลักเดียวและสองหลัก แต่ความแม่นยำก็ลดลงเมื่อจำนวนหลักเพิ่มขึ้น สำหรับโจทย์การคูณตัวเลขสี่และห้าหลักโมเดลแทบจะไม่ได้คำตอบที่ถูกต้องเลย- ปัญหาเลขล่าง “สามารถจดจำได้ง่าย” Dziri กล่าว แต่ประสิทธิภาพของ LLM “เริ่มลดลงเมื่อเราเพิ่มความซับซ้อน”
บางทีแบบจำลองอาจไม่พบตัวอย่างเพียงพอในข้อมูลการฝึกเพื่อเรียนรู้วิธีการแก้ปัญหาการคูณที่ซับซ้อนมากขึ้น ด้วยแนวคิดดังกล่าว Dziri และเพื่อนร่วมงานได้ปรับปรุง GPT-3 อย่างละเอียดยิ่งขึ้นโดยการฝึกมันเกี่ยวกับปัญหาการคูณเกือบทั้งหมดตั้งแต่ 4 หลักไปจนถึง 2 หลัก พร้อมทั้งให้คำแนะนำทีละขั้นตอนเกี่ยวกับวิธีการแก้การคูณทั้งหมด ปัญหามากถึงสามหลักสองหลัก ทีมงานสงวนไว้ 20 เปอร์เซ็นต์ของปัญหาการคูณสำหรับการทดสอบ
หากไม่มีการเข้าถึงข้อมูลและกระบวนการฝึกอบรมดั้งเดิมของแบบจำลอง นักวิจัยก็ไม่ทราบว่าแบบจำลองจะจัดการกับงานนี้ได้อย่างไร Dziri กล่าว “เรามีสมมติฐานง่ายๆ นี้ว่าหากมนุษย์ปฏิบัติตามอัลกอริทึมนี้ โมเดลจะปฏิบัติตามได้โดยสัญชาตญาณ เนื่องจากได้รับการฝึกฝนเกี่ยวกับภาษามนุษย์และงานการใช้เหตุผลของมนุษย์”
สำหรับมนุษย์ การคูณเลขห้าหรือหกหลักนั้นค่อนข้างตรงไปตรงมา วิธีการพื้นฐานไม่ต่างจากการคูณตัวเลขให้น้อยลง แม้ว่าแบบจำลองจะทำงานด้วยความแม่นยำเกือบสมบูรณ์แบบกับตัวอย่างที่พบระหว่างการฝึก แต่ก็สะดุดกับตัวอย่างที่มองไม่เห็น ผลลัพธ์เหล่านี้บ่งชี้ว่าแบบจำลองไม่สามารถเรียนรู้เหตุผลพื้นฐานที่จำเป็นสำหรับการคูณหลายหลัก และใช้ขั้นตอนเหล่านี้กับตัวอย่างใหม่
น่าแปลกที่เมื่อนักวิจัยตรวจสอบคำตอบของแบบจำลองในแต่ละขั้นตอนย่อย พวกเขาพบว่าแม้คำตอบสุดท้ายจะถูก การคำนวณและการให้เหตุผลพื้นฐาน — คำตอบในแต่ละขั้นตอนย่อย — อาจจะผิดโดยสิ้นเชิง นี่เป็นการยืนยันว่าบางครั้งโมเดลนี้อาศัยการท่องจำ Dziri กล่าว แม้ว่าคำตอบอาจจะถูกต้อง แต่ก็ไม่ได้พูดอะไรเกี่ยวกับความสามารถของ LLM ในการสรุปปัญหาที่ยากกว่าในลักษณะเดียวกัน ซึ่งเป็นส่วนสำคัญของความเข้าใจหรือการให้เหตุผลที่แท้จริง
การทดสอบการต่อต้านข้อเท็จจริง
วิธีหนึ่งในการประเมินความเข้าใจแนวคิดของ AI คือการใช้งานที่ขัดแย้งกับความเป็นจริง ซึ่งเพิ่มการหักมุมจากกฎทั่วไปที่ AI ไม่น่าจะเคยเห็นในการฝึกอบรม นักวิจัยเพิ่งนำเสนอ GPT-4 พร้อมปัญหาดังกล่าวหลายประการ มีการแสดงตัวอย่างบางส่วนไว้ที่นี่

ในการทดสอบการใช้เหตุผลเชิงตัวเลข GPT-4 ต้องบวก 27 + 62 ในงานเวอร์ชันที่ขัดแย้งกับความเป็นจริง จะต้องแก้ไขปัญหาเดียวกันโดยใช้ระบบตัวเลขฐาน 9 แบบจำลองทำคะแนนได้สูงกว่าโอกาส (แสดงด้วยเส้นประ) ในทั้งสองงาน แต่ทำได้ดีกว่ามากในเวอร์ชันเริ่มต้น (แถบสีชมพู) เทียบกับเวอร์ชันที่ขัดแย้งกับข้อเท็จจริง (สีเขียว)

ในการทดสอบการใช้เหตุผลเชิงตรรกะ GPT-4 ต้องแก้ไขปัญหาตรรกะที่ขึ้นอยู่กับข้อมูลที่ถูกต้องตามข้อเท็จจริง ในงานต่อต้านข้อเท็จจริง ปัญหาตรรกะกำหนดให้ AI ยอมรับข้อมูลที่ไม่ถูกต้องเพื่อแก้ไขปัญหา แทนที่จะอาศัยการฝึกอบรม
การทดสอบ generative AI ใหม่จะเป็นเรื่องยาก
แม้ว่าความสนใจในการประเมินที่เหมาะสมยิ่งกำลังได้รับความสนใจมากขึ้น การสร้างการทดสอบที่เข้มงวดก็เป็นเรื่องที่ท้าทาย เนื่องจากมีขนาดข้อมูลและการฝึกอบรมที่กว้างขวาง รวมถึงลักษณะที่เป็นกรรมสิทธิ์ของ LLM
ตัวอย่างเช่น การพยายามแยกแยะการท่องจำอาจต้องตรวจสอบจุดข้อมูลหลายล้านจุดในชุดข้อมูลการฝึกอบรมขนาดใหญ่เพื่อดูว่า LLM เคยพบตัวอย่างนี้มาก่อนหรือไม่ ยังยากยิ่งขึ้นเมื่อข้อมูลการฝึกอบรมไม่พร้อมสำหรับการตรวจสอบอย่างละเอียด “เราต้องตั้งสมมติฐานมากมาย และเราต้องเลือกงานของเราอย่างระมัดระวัง” Dziri กล่าว บางครั้งนักวิจัยที่พยายามทำการประเมินไม่สามารถเข้าถึงวิธีการฝึกอบรมหรือเวอร์ชันของแบบจำลองได้ (นับประสาอะไรกับเวอร์ชันที่อัปเดตล่าสุด)
ค่าใช้จ่ายในการคำนวณเป็นอีกข้อจำกัดหนึ่ง ตัวอย่างเช่น Dziri และเพื่อนร่วมงานพบว่าการรวมปัญหาการคูณห้าหลักห้าหลักในการปรับแต่ง GPT-3 อย่างละเอียดนั้น ต้องใช้ตัวอย่างคำถามและคำตอบประมาณ 8.1 พันล้านตัวอย่าง ซึ่งมีมูลค่ารวมกว่า 12 ล้านเหรียญสหรัฐ
ในความเป็นจริง การประเมิน AI ที่สมบูรณ์แบบอาจไม่มีอยู่จริง ยิ่งโมเดลภาษามีการปรับปรุงมากเท่าใด การทดสอบที่ยากขึ้นก็จะยิ่งต้องได้รับการประเมินที่มีความหมาย ผู้ทดสอบจะต้องเตรียมพร้อมอยู่เสมอ และเป็นไปได้ว่าการทดสอบล่าสุดที่ยิ่งใหญ่ที่สุดจะเปิดเผยเฉพาะบางแง่มุมของความสามารถของ AI แทนที่จะประเมินสิ่งที่คล้ายกับความฉลาดทั่วไป
สำหรับตอนนี้ นักวิจัยหวังว่าจะมีความสม่ำเสมอและความโปร่งใสมากขึ้นในการประเมิน “การแม็ปความสามารถของแบบจำลองกับความเข้าใจของมนุษย์เกี่ยวกับความสามารถด้านความรู้ความเข้าใจนั้นเป็นคำกล่าวที่คลุมเครืออยู่แล้ว” Arakelyan กล่าว เฉพาะแนวทางปฏิบัติในการประเมินที่มีการคิดมาอย่างดีและสามารถตรวจสอบอย่างมีวิจารณญาณเท่านั้นที่จะช่วยให้เราเข้าใจสิ่งที่เกิดขึ้นจริงภายใน AI