ชาวจีน(AI) บริษัท Deepseek ได้ส่งไปแล้วคลื่นกระแทกผ่านชุมชนเทคโนโลยีด้วยการเปิดตัวโมเดล AI ที่มีประสิทธิภาพอย่างมากซึ่งสามารถแข่งขันกับผลิตภัณฑ์ที่ทันสมัยจาก บริษัท ในสหรัฐอเมริกาเช่น Openai และ Manthropic
ก่อตั้งขึ้นในปี 2566 Deepseek มีบรรลุผลด้วยเศษเงินสดและพลังการคำนวณของคู่แข่ง
แบบจำลอง R1 ของ Deepseek ได้เปิดตัวเมื่อสัปดาห์ที่แล้วกระตุ้นความตื่นเต้นในหมู่นักวิจัยตกใจในหมู่นักลงทุนและการตอบสนองจาก AI Heavyweights บริษัท ติดตามเมื่อวันที่ 28 มกราคมด้วยแบบจำลองที่สามารถทำงานกับรูปภาพรวมถึงข้อความ
แล้ว Deepseek ทำอะไรไปแล้วและทำอย่างไร?
![](https://webbedxp.com/th/nature/scien/images/2025/01/DeepSeekApp.jpg)
สิ่งที่ Deepseek ทำ
ในเดือนธันวาคม Deepseek เปิดตัวมันรุ่น V3- นี่เป็นรูปแบบภาษาขนาดใหญ่ "มาตรฐาน" ที่ทรงพลังมากซึ่งทำงานในระดับใกล้เคียงกับ GPT-4O ของ OpenAI และ Claude 3.5 ของมานุษยวิทยา
ในขณะที่รุ่นเหล่านี้มีแนวโน้มที่จะเกิดข้อผิดพลาดและบางครั้งทำข้อเท็จจริงของตัวเองพวกเขาสามารถทำงานเช่นตอบคำถามการเขียนเรียงความและสร้างรหัสคอมพิวเตอร์ บนการทดสอบบางอย่างของการแก้ปัญหาและการใช้เหตุผลทางคณิตศาสตร์พวกเขาทำคะแนนได้ดีกว่ามนุษย์โดยเฉลี่ย
V3 ได้รับการฝึกฝนที่กต้นทุนที่รายงานประมาณ 5.58 ล้านดอลลาร์สหรัฐ ตัวอย่างเช่น GPT-4 นั้นมีราคาถูกกว่าอย่างมากมากกว่า 100 ล้านเหรียญสหรัฐเพื่อพัฒนา
Deepseek ยังอ้างว่าได้ฝึกอบรม V3 โดยใช้ชิปคอมพิวเตอร์พิเศษประมาณ 2,000 ตัวโดยเฉพาะH800 GPU ที่ผลิตโดย Nvidia- นี่คือน้อยกว่า บริษัท อื่น ๆ อีกครั้งซึ่งอาจใช้สูงถึง 16,000ของชิป H100 ที่ทรงพลังยิ่งขึ้น
เมื่อวันที่ 20 มกราคม Deepseek เปิดตัวรุ่นอื่นเรียกว่า R1- นี่คือรูปแบบ "การใช้เหตุผล" ที่เรียกว่าซึ่งพยายามทำงานผ่านปัญหาที่ซับซ้อนทีละขั้นตอน แบบจำลองเหล่านี้ดูเหมือนจะดีกว่าในงานหลายอย่างที่ต้องใช้บริบทและมีหลายส่วนที่เกี่ยวข้องเช่นการอ่านความเข้าใจและการวางแผนเชิงกลยุทธ์
โมเดล R1 เป็นรุ่นที่ปรับแต่งของ V3 ซึ่งดัดแปลงด้วยเทคนิคที่เรียกว่าการเรียนรู้การเสริมแรง R1 ดูเหมือนจะทำงานในระดับใกล้เคียงกับOpenai's O1เปิดตัวเมื่อปีที่แล้ว
Deepseek ยังใช้เทคนิคเดียวกันในการสร้างรุ่น "ให้เหตุผล" รุ่นโอเพนซอร์ซขนาดเล็กที่สามารถทำงานบนคอมพิวเตอร์ที่บ้านได้
การเปิดตัวครั้งนี้ได้จุดประกายความสนใจอย่างมากใน Deepseek โดยผลักดันความนิยมของมันแอพ chatbot ที่ขับเคลื่อนด้วย V3และเรียกกความผิดพลาดในราคาขนาดใหญ่ในหุ้นเทคโนโลยีในฐานะนักลงทุนประเมินอุตสาหกรรม AI อีกครั้ง ในช่วงเวลาของการเขียนผู้สร้างชิป Nvidiaหายไปประมาณ 600 พันล้านเหรียญสหรัฐในมูลค่า
มันลึกแค่ไหน
ความก้าวหน้าของ Deepseek ได้รับประสิทธิภาพมากขึ้น: ได้รับผลลัพธ์ที่ดีด้วยทรัพยากรที่น้อยลง โดยเฉพาะอย่างยิ่งนักพัฒนาของ Deepseek ได้บุกเบิกสองเทคนิคที่นักวิจัย AI อาจนำมาใช้ในวงกว้างมากขึ้น
สิ่งแรกเกี่ยวข้องกับแนวคิดทางคณิตศาสตร์ที่เรียกว่า "Sparsity" โมเดล AI มีพารามิเตอร์จำนวนมากที่กำหนดการตอบสนองต่ออินพุต (V3 มีประมาณ 671 พันล้าน) แต่มีเพียงส่วนเล็ก ๆ ของพารามิเตอร์เหล่านี้ที่ใช้สำหรับอินพุตที่กำหนด
อย่างไรก็ตามการทำนายว่าพารามิเตอร์ใดที่จำเป็นต้องไม่ง่าย Deepseek ใช้เทคนิคใหม่ในการทำสิ่งนี้แล้วฝึกเฉพาะพารามิเตอร์เหล่านั้น เป็นผลให้แบบจำลองของมันต้องการการฝึกอบรมน้อยกว่าวิธีการทั่วไป
เคล็ดลับอื่น ๆ เกี่ยวข้องกับวิธีการจัดเก็บข้อมูล V3 ในหน่วยความจำคอมพิวเตอร์ Deepseek ได้พบวิธีที่ฉลาดในการบีบอัดข้อมูลที่เกี่ยวข้องดังนั้นจึงง่ายต่อการจัดเก็บและเข้าถึงได้อย่างรวดเร็ว
หมายความว่าอย่างไร
โมเดลและเทคนิคของ Deepseek ได้รับการปล่อยตัวภายใต้ฟรีใบอนุญาตของฉันซึ่งหมายความว่าทุกคนสามารถดาวน์โหลดและแก้ไขได้
ในขณะที่นี่อาจเป็นข่าวร้ายสำหรับ บริษัท AI บางแห่ง - ซึ่งผลกำไรอาจถูกกัดเซาะโดยการดำรงอยู่ของแบบจำลองที่มีประสิทธิภาพและมีประสิทธิภาพ - เป็นข่าวที่ดีสำหรับชุมชนการวิจัย AI ที่กว้างขึ้น
ในปัจจุบันการวิจัย AI จำนวนมากต้องการการเข้าถึงทรัพยากรการคำนวณจำนวนมหาศาล นักวิจัยอย่างตัวฉันเองที่อยู่ในมหาวิทยาลัย (หรือที่ใดก็ได้ยกเว้น บริษัท เทคโนโลยีขนาดใหญ่) มีความสามารถ จำกัด ในการทดสอบและการทดลอง
โมเดลและเทคนิคที่มีประสิทธิภาพมากขึ้นเปลี่ยนสถานการณ์ การทดลองและการพัฒนาอาจง่ายขึ้นอย่างมากสำหรับเรา
สำหรับผู้บริโภคการเข้าถึง AI อาจมีราคาถูกลง รุ่น AI เพิ่มเติมอาจทำงานบนอุปกรณ์ของผู้ใช้เช่นแล็ปท็อปหรือโทรศัพท์แทนที่จะใช้งาน "ในคลาวด์" สำหรับค่าธรรมเนียมการสมัครสมาชิก
สำหรับนักวิจัยที่มีทรัพยากรจำนวนมากมีประสิทธิภาพมากขึ้นอาจมีผลน้อยกว่า ยังไม่ชัดเจนว่าวิธีการของ Deepseek จะช่วยสร้างแบบจำลองที่มีประสิทธิภาพโดยรวมที่ดีขึ้นหรือเพียงแค่รุ่นที่มีประสิทธิภาพมากขึ้น
Tongliang Liuรองศาสตราจารย์ของและผู้อำนวยการของศูนย์ AI ซิดนีย์มหาวิทยาลัยซิดนีย์
บทความนี้ถูกตีพิมพ์ซ้ำจากบทสนทนาภายใต้ใบอนุญาตครีเอทีฟคอมมอนส์ อ่านบทความต้นฉบับ-