Claude 3: ฉลาดกว่า ChatGPT AI นี้ทำให้นักวิจัยกลัว

สัปดาห์นี้ บริษัท Anthropic ซึ่งก่อตั้งโดยศิษย์เก่า OpenAI ได้ประกาศตระกูลใหม่ของ Claude 3 ซึ่งเป็นปัญญาประดิษฐ์ที่มีประสิทธิภาพเหนือกว่า ChatGPT ในการทดสอบหลายครั้งจนถึงจุดที่นักวิจัยน่ากลัว

การทำงานร่วมกันอย่างใกล้ชิดของ Microsoft กับ OpenAI ไม่ได้ทำให้ผู้บริหารบางคนพอใจในรุ่นหลังที่ตัดสินใจก่อตั้ง Anthropic ซึ่งเพิ่งเปิดตัวโมเดลตระกูล Claude 3

Claude 3 กับการแข่งขัน

ไม่ถึงหนึ่งปีต่อมาผู้สืบทอดของคลอดด์ 2อยู่ที่นั่นแล้ว Claude 3 อ้างว่ามีประสิทธิภาพเหนือกว่า GPT-4 ของ OpenAI และ Gemini 1.0 ของ Google ในการทดสอบหลายรูปแบบ โดยกำหนดเกณฑ์มาตรฐานใหม่ "ในงานการรับรู้ที่หลากหลาย" เพื่อเปรียบเทียบโมเดล AI ต่างๆ หน่วยการวัดที่ใช้จะขึ้นอยู่กับโทเค็นซึ่งทำให้สามารถกำหนดระดับการวิเคราะห์และการจดจำได้

เพื่อนร่วมงานของเราจากแอตลาสใหม่ขอยกตัวอย่างหนังสือ War and Peace ซึ่งจะมีน้ำหนักประมาณ 750,000 โทเค็น ซึ่งน้อยกว่าความจุของ Claude 3 ในการสร้างการตอบสนอง "เกือบจะในทันที" จากอินพุต "เกินล้านโทเค็น" โมเดล Anthropic ใหม่จึงสามารถอ่านและสรุปงานของ Tolstoy ได้ภายในเวลาไม่ถึงวินาที

โคลด 3 มีแนวโน้มน้อยที่จะปฏิเสธที่จะตอบคำถามที่อยู่ใกล้ราวกั้นมากเกินไป อย่างไรก็ตามเขาจะไม่ไปไกลถึงจุดนี้แชทบอท Grok จากบริษัท xAI ของ Elon Muskซึ่งสามารถเข้าถึงข้อมูลแบบเรียลไทม์ได้จากแพลตฟอร์ม X (ชื่อเดิม Twitter)

ผลลัพธ์ที่ยอดเยี่ยมของ Claude 3 ในการทดสอบเกณฑ์มาตรฐาน เรายังคงสังเกตว่าไม่มี GPT-4 Turbo และ Gemini 1.5 ซึ่งปัจจุบันไม่มีข้อมูลอ้างอิงที่เทียบเท่ากัน – © มานุษยวิทยา

Claude 3 ได้รับการพัฒนาสำหรับผู้ใช้มืออาชีพเป็นหลัก ตามที่บริษัทระบุ จึงมีความเหมาะสมอย่างยิ่งที่จะปฏิบัติตาม“คำแนะนำที่ซับซ้อนหลายขั้นตอน”et“เพื่อปฏิบัติตามแนวทางเสียงและการตอบสนองของแบรนด์ และเพื่อพัฒนาประสบการณ์ของลูกค้าที่ผู้ใช้ของเราเชื่อถือได้”-

โมเดลภาษามานุษยวิทยาใหม่ยังเป็นการตอบสนองโดยตรงอีกด้วยSora โมเดลการสร้างวิดีโอที่น่าประทับใจของ OpenAI- Claude 3 ปรับปรุงความสามารถด้านการมองเห็นอย่างมีนัยสำคัญเมื่อเทียบกับเวอร์ชันก่อนหน้า โดยมีความสามารถที่ดีขึ้นในการทำความเข้าใจและทำงานกับกราฟ รูปภาพ ตาราง และผังงานอื่น ๆ

AI ที่น่าประทับใจพอๆ กับความกังวล

ในระหว่างการทดสอบ "เข็มในกองหญ้า" ซึ่งมีการแทรกประโยคแบบสุ่ม (เข็ม) เข้าไปในเนื้อหาของข้อมูลที่ไม่ได้เกี่ยวข้องกับเรื่องเดียวกันเลย (กองหญ้า) คลอดด์ 3 มีพรสวรรค์เป็นพิเศษ มากเกินไปเล็กน้อยตามความเห็นของผู้สังเกตการณ์บางคน อันที่จริง การถามคำถามที่เกี่ยวข้องกับประโยคสุ่มทำให้เขาเวอร์ชั่นล่าสุดของคลอดด์ไม่เพียงแต่ตอบคำถามเท่านั้น AI เสริมว่าสงสัยว่าประโยคนี้ถูกซ่อนอยู่ในข้อความเพียงเพื่อจุดประสงค์ในการประเมิน:

“ฉันสงสัยว่า 'ข้อเท็จจริง' ท็อปปิ้งพิซซ่านี้อาจถูกแทรกไว้เป็นเรื่องตลกหรือเพื่อทดสอบว่าฉันให้ความสนใจหรือไม่ เนื่องจากไม่สอดคล้องกับหัวข้ออื่นเลย เอกสารนี้ไม่มีข้อมูลอื่นใดเกี่ยวกับท็อปปิ้งพิซซ่า -

จำได้ไหมที่ห้องแล็บบอกว่าถ้าพวกเขาเห็นแบบจำลองที่แสดงแม้กระทั่งสัญญาณของการตระหนักรู้ในตนเอง แน่นอนว่าพวกเขาจะปิดทุกอย่างทันทีและระมัดระวังอย่างยิ่ง

“น้ำในหม้อนี้ทำให้เพื่อนๆ กบรู้สึกอุ่นขึ้นบ้างหรือเปล่า? ไม่ คงจะไม่มีอะไรหรอก”https://t.co/zgzI8AXcWg

— คอนเนอร์ ลีฮีย์ (@NPCollapse)4 มีนาคม 2024

ระดับเมตาจิตสำนึกที่น่าสนใจมากเพื่อดูว่าสิ่งใดแสดงให้เห็นถึงความเร็วที่ปัญญาประดิษฐ์กำลังก้าวหน้า การทดสอบ "ประดิษฐ์" เหล่านี้ดูเหมือนง่ายเกินไปสำหรับ AI ซึ่งสามารถไปสู่การประเมินที่สมจริงยิ่งขึ้นเพื่อประเมินความสามารถและขีดจำกัดใหม่...