Googleใจลึกได้เปิดตัวคู่แข่งถึง Chatgpt ชื่อราศีเมถุนและสามารถเข้าใจและสร้างสื่อหลายประเภทรวมถึงรูปภาพวิดีโอเสียงและข้อความ
เครื่องมือปัญญาประดิษฐ์ (AI) ส่วนใหญ่เข้าใจและสร้างเนื้อหาประเภทหนึ่งเท่านั้น ตัวอย่างเช่น OpenAi ของ chatgpt "อ่าน" และสร้างข้อความเท่านั้น แต่ราศีเมถุนสามารถสร้างเอาต์พุตหลายประเภทตามรูปแบบของอินพุตใด ๆ Google กล่าวในกโพสต์บล็อก-
Gemini 1.0 สามเวอร์ชันคือ Gemini Ultra รุ่นที่ใหญ่ที่สุดคือ Gemini Pro ซึ่งกำลังเปิดตัวในบริการดิจิตอลของ Google และ Gemini Nano ซึ่งออกแบบมาเพื่อใช้กับอุปกรณ์เช่นสมาร์ทโฟน
ตาม DeepMindรายงานด้านเทคนิคใน Chatbot Gemini Ultra เอาชนะ GPT-4 และรุ่น AI ชั้นนำอื่น ๆ ใน 30 จาก 32 มาตรฐานการศึกษาที่สำคัญที่ใช้ในการวิจัยและพัฒนา AI เหล่านี้รวมถึงการสอบระดับมัธยมปลายและการทดสอบด้านศีลธรรมและกฎหมาย
โดยเฉพาะราศีเมถุนชนะในการวัดภาพความเข้าใจภาพเก้าครั้งการทดสอบการทำความเข้าใจวิดีโอหกครั้งการจดจำคำพูดและการแปลและ 10 จาก 12 จาก 12 ข้อความและมาตรฐานการใช้เหตุผล ทั้งสองซึ่งราศีเมถุน Ulta ล้มเหลวในการเอาชนะ GPT-4 นั้นเป็นเหตุผลในการใช้เหตุผลสามัญสำนึกตามรายงาน
ที่เกี่ยวข้อง:AI กำลังเปลี่ยนแปลงทุกด้านของวิทยาศาสตร์ นี่คือวิธีการ.
แบบจำลองการสร้างที่ประมวลผลสื่อหลายรูปแบบนั้นยากเนื่องจากอคติในข้อมูลการฝึกอบรมมีแนวโน้มที่จะขยายออกไปประสิทธิภาพมีแนวโน้มที่จะลดลงอย่างมีนัยสำคัญและแบบจำลองมีแนวโน้มที่จะ overfit - หมายความว่าพวกเขาทำงานได้ดีเมื่อทำการทดสอบกับข้อมูลการฝึกอบรม แต่ไม่สามารถดำเนินการได้เมื่อสัมผัสกับอินพุตใหม่
การฝึกอบรมหลายรูปแบบมักจะเกี่ยวข้องกับการฝึกอบรมส่วนประกอบที่แตกต่างกันของแบบจำลองแยกกันแต่ละชนิดของสื่อประเภทเดียวแล้วเย็บส่วนประกอบเหล่านี้เข้าด้วยกัน แต่ราศีเมถุนได้รับการฝึกฝนร่วมกันในข้อความภาพเสียงและวิดีโอในเวลาเดียวกัน นักวิทยาศาสตร์จัดหาข้อมูลนี้จากเอกสารเว็บหนังสือและรหัส
นักวิทยาศาสตร์ได้รับการฝึกฝนราศีเมถุนโดยการดูแลข้อมูลการฝึกอบรมและรวมการกำกับดูแลของมนุษย์ไว้ในกระบวนการตอบรับ
ทีมปรับใช้เซิร์ฟเวอร์ผ่านศูนย์ข้อมูลหลายแห่งในระดับที่ยิ่งใหญ่กว่าความพยายามในการฝึกอบรม AI ก่อนหน้านี้และอาศัยชิป AI Acelerator ของ Google หลายพันตัวซึ่งรู้จักกันในชื่อหน่วยประมวลผลเทนเซอร์ (TPUs)
DeepMind สร้างชิปเหล่านี้โดยเฉพาะเพื่อเพิ่มความเร็วในการฝึกอบรมแบบจำลองและ DeepMind บรรจุไว้ในกลุ่มของชิป 4,096 ชิปที่รู้จักกันในชื่อ "superpods" ก่อนที่จะฝึกอบรมระบบ ผลลัพธ์โดยรวมของโครงสร้างพื้นฐานและวิธีการที่กำหนดค่าใหม่หมายถึง Goodput-ปริมาณของข้อมูลที่มีประโยชน์อย่างแท้จริงที่ย้ายผ่านระบบ (ตรงข้ามกับปริมาณงานซึ่งเป็นข้อมูลทั้งหมด)-เพิ่มขึ้นจาก 85% ในการฝึกอบรมก่อนหน้านี้ถึง 97% ตามรายงานทางเทคนิค
นักวิทยาศาสตร์ DeepMind จินตนาการถึงเทคโนโลยีที่ใช้ในสถานการณ์เช่นบุคคลที่อัพโหลดภาพถ่ายของมื้ออาหารที่เตรียมไว้แบบเรียลไทม์และราศีเมถุนตอบสนองด้วยคำแนะนำในขั้นตอนต่อไปในกระบวนการ
ที่กล่าวว่านักวิทยาศาสตร์ยอมรับภาพหลอน - ปรากฏการณ์ที่โมเดล AI กลับมาข้อมูลเท็จด้วยความมั่นใจสูงสุด - ยังคงเป็นปัญหาสำหรับราศีเมถุน ภาพหลอนมักเกิดจากข้อ จำกัด หรืออคติในข้อมูลการฝึกอบรมและยากที่จะกำจัด