ได้เปิดตัวคู่แข่งโอเพนซอร์ซราคาถูกให้กับ Chatgpt ของ Openai และมีนักวิทยาศาสตร์บางคนตื่นเต้นและ Silicon Valley เป็นห่วง
Deepseek ชาวจีน(AI) ห้องปฏิบัติการที่อยู่เบื้องหลังนวัตกรรมเปิดตัวโมเดลภาษาขนาดใหญ่ฟรี (LLM) Deepseek-V3 ในปลายเดือนธันวาคม 2567 และอ้างสิทธิ์ถูกสร้างขึ้นในสองเดือนเพียง $ 5.58 ล้านซึ่งเป็นเพียงเศษเสี้ยวของเวลาและค่าใช้จ่ายที่กำหนดโดยคู่แข่งของ Silicon Valley
การติดตามความร้อนบนส้นเท้าของมันเป็นรุ่นใหม่ที่เรียกว่า Deepseek-R1 เปิดตัววันจันทร์ (20 มกราคม) ในการทดสอบเกณฑ์มาตรฐานของบุคคลที่สาม Deepseek-V3ตรงกับความสามารถของ GPT-4O ของ Openai และ Claude Sonnet 3.5 ของมานุษยวิทยาในขณะที่มีประสิทธิภาพสูงกว่าคนอื่น ๆ เช่น Llama 3.1 ของ Meta และ Qwen2.5 ของ Alibaba ในงานที่รวมถึงการแก้ปัญหาการเข้ารหัสและคณิตศาสตร์
ตอนนี้ R1 ยังมีเกินโมเดล O1 ล่าสุดของ Chatgpt ในการทดสอบเดียวกันหลายครั้ง ประสิทธิภาพที่น่าประทับใจนี้ด้วยค่าใช้จ่ายของรุ่นอื่น ๆ ลักษณะกึ่งเปิดและการฝึกอบรมเกี่ยวกับหน่วยประมวลผลกราฟิกน้อยกว่า (GPU) ได้ทำให้ผู้เชี่ยวชาญ AI สร้างความประทับใจให้กับผู้เชี่ยวชาญ AI
"เราควรนำการพัฒนาออกจากประเทศจีนอย่างจริงจังเป็นอย่างมาก"Satya Nadellaซีอีโอของ Microsoft ซึ่งเป็นพันธมิตรเชิงกลยุทธ์ของ Openaiกล่าวในเวทีเศรษฐกิจโลกใน Davos สวิตเซอร์แลนด์เมื่อวันที่ 22 มกราคม ..
ที่เกี่ยวข้อง:
ระบบ AI เรียนรู้การใช้ข้อมูลการฝึกอบรมที่นำมาจากการป้อนข้อมูลของมนุษย์ซึ่งช่วยให้พวกเขาสามารถสร้างเอาต์พุตตามความน่าจะเป็นของรูปแบบที่แตกต่างกันในชุดข้อมูลการฝึกอบรมนั้น
สำหรับโมเดลภาษาขนาดใหญ่ข้อมูลเหล่านี้เป็นข้อความ ตัวอย่างเช่น GPT-3.5 ของ Openai ซึ่งเปิดตัวในปี 2566 ได้รับการฝึกอบรมเกี่ยวกับข้อมูลข้อความประมาณ 570GB จากที่เก็บข้อมูลประมาณ 570GB จากที่เก็บข้อมูลการรวบรวมข้อมูลทั่วไป- ซึ่งมีจำนวนประมาณ 300 พันล้านคำ - นำมาจากหนังสือบทความออนไลน์วิกิพีเดียและหน้าเว็บอื่น ๆ
รูปแบบการใช้เหตุผลเช่น R1 และ O1 เป็นรุ่น LLMS มาตรฐานที่อัพเกรดซึ่งใช้วิธีการที่เรียกว่า "Chain of Thought" เป็น Backtrack และประเมินตรรกะของพวกเขาใหม่ซึ่งช่วยให้พวกเขาสามารถจัดการงานที่ซับซ้อนมากขึ้นด้วยความแม่นยำมากขึ้น
สิ่งนี้ทำให้แบบจำลองการใช้เหตุผลเป็นที่นิยมในหมู่นักวิทยาศาสตร์และวิศวกรที่กำลังมองหาการรวม AI เข้ากับงานของพวกเขา
แต่แตกต่างจาก O1 ของ CHATGPT Deepseek เป็นรูปแบบ "เปิดน้ำหนัก" ที่ (แม้ว่าข้อมูลการฝึกอบรมจะยังคงเป็นกรรมสิทธิ์) ช่วยให้ผู้ใช้สามารถมองเห็นได้ภายในและปรับเปลี่ยนอัลกอริทึม สิ่งสำคัญคือราคาที่ลดลงสำหรับผู้ใช้ -น้อยกว่า O1 27 เท่า-
นอกเหนือจากประสิทธิภาพการทำงานแล้ว Hype รอบ ๆ Deepseek นั้นมาจากประสิทธิภาพของต้นทุน งบประมาณเชือกผูกรองเท้าของโมเดลนั้นมีขนาดเล็กเมื่อเทียบกับหลายสิบล้านถึงหลายร้อยล้านบริษัท คู่แข่งนั้นใช้เวลาฝึกอบรมคู่แข่ง
นอกจากนี้การควบคุมการส่งออกของสหรัฐซึ่ง จำกัด การเข้าถึงชิปการคำนวณ AI ที่ดีที่สุดของ บริษัท จีนบังคับให้นักพัฒนาของ R1 บังคับให้สร้างอัลกอริทึมที่ชาญฉลาดและประหยัดพลังงานมากขึ้นเพื่อชดเชยการขาดพลังงานคอมพิวเตอร์ มีรายงานว่า CHATGPT ต้องการ10,000 Nvidia GPU เพื่อประมวลผลข้อมูลการฝึกอบรมวิศวกร Deepseek กล่าวว่าพวกเขาได้ผลลัพธ์ที่คล้ายกันเพียง 2,000
สิ่งนี้จะแปลเป็นแอพพลิเคชั่นทางวิทยาศาสตร์และทางเทคนิคที่มีประโยชน์มากแค่ไหนหรือว่า Deepseek ได้ฝึกฝนแบบจำลองของการทดสอบมาตรฐาน ACE เพียงอย่างเดียว นักวิทยาศาสตร์และนักลงทุน AI กำลังเฝ้าดูอย่างใกล้ชิด