SLM ของเอเอ็มดี
เช่นเดียวกับยักษ์ใหญ่อื่นๆ ในภาคนี้ AMD ได้เปิดตัวเข้าสู่ SLM (โมเดลภาษาขนาดเล็กรุ่นภาษาขนาดเล็ก) ด้วยรุ่นโอเพ่นซอร์ส AMD-135M บริษัทได้นำเสนอเรื่องนี้อย่างละเอียดในบล็อกทางเทคนิคที่เผยแพร่เมื่อวันที่ 17 กันยายน ตอนนี้เธอเปิดเผยผ่านบทความสาธารณะทั่วไปมากขึ้น AMD-135M ยังมีวางจำหน่ายผ่าน HuggingFace และ GitHub
โมเดลภาษาขนาดเล็กนี้เป็นของตระกูล Llama (อิงตามสถาปัตยกรรม LLaMA2 อย่างแม่นยำ) มีให้เลือกสองเวอร์ชัน: AMD-Llama-135M และ AMD-Llama-135M-code
ทั้งสองอาศัยการถอดรหัสแบบเก็งกำไร หลักการพื้นฐานของแนวทางนี้? ใช้แบบจำลองเบื้องต้นขนาดเล็กเพื่อสร้างชุดโทเค็นที่เป็นไปได้ ซึ่งได้รับการตรวจสอบโดยแบบจำลองเป้าหมายที่ใหญ่กว่า
AMD-135M ได้รับการฝึกอบรมเกี่ยวกับโทเค็นจำนวน 670 พันล้านโทเค็นโดยใช้ตัวเร่งความเร็ว AMD Instinct MI250 ด้วยโหนด MI250 สี่โหนด (แต่ละโหนดมีตัวเร่งความเร็ว MI250 สี่ตัว) ขั้นตอนนี้ใช้เวลาหกวัน AMD กล่าวว่าใช้ชุดข้อมูล SlimPajama และ Project Gutenberg (คลัง e-book ฟรีมากกว่า 70,000 เล่ม) เพื่อฝึกโมเดล 135M นี้ล่วงหน้า
ตัวแปรรหัส AMD-Llama-135M ได้รับการปรับปรุงด้วยโทเค็น 20 พันล้านที่เน้นไปที่การเข้ารหัสโดยเฉพาะ ใช้เวลาสี่วันเต็มในการปรับแต่งโค้ดนี้กับตัวเร่งความเร็ว MI250 สี่ตัว
SLM กับ LLM
เราได้อธิบายแล้วข้อดีของ SLM เมื่อเปรียบเทียบกับ LLM ระหว่างการใช้งาน Phi-3 Mini โดย Microsoft- หากคุณต้องการการตรวจสอบ บทความต้นฉบับเกี่ยวกับ AMD-135M ให้ข้อมูลเชิงลึกที่น่าสนใจ ไม่ว่าในกรณีใด หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้ อย่าลังเลที่จะปรึกษาเราไฟล์ที่กำหนดโมเดลภาษาสำหรับ AI-
เอกสารดังกล่าวจำได้ว่าแม้จะมีความสำคัญของ LLM“มีกรณีที่น่าสนใจสำหรับโมเดลภาษาขนาดเล็ก (SLM) ซึ่งเป็นโซลูชันที่ใช้งานได้จริงสำหรับการรักษาสมดุลระหว่างประสิทธิภาพและข้อจำกัดในการดำเนินงาน”- ดังที่คุณคงเข้าใจจากที่กล่าวมาข้างต้นแล้ว แม้ว่า LLM การฝึกอบรมมักจะต้องใช้ GPU ระดับไฮเอนด์ที่หลากหลาย แต่ SLM ก็เสนอโซลูชันทางเลือกอื่น นอกจากนี้ สิ่งพิมพ์ยังเน้นย้ำอีกด้วยว่า“แม้ว่าจะมีวิธีในการรับ LLM ที่ได้รับการฝึกอบรมมาเป็นอย่างดี แต่ก็มักจะเป็นเรื่องยากที่จะเรียกใช้อย่างมีประสิทธิภาพบนอุปกรณ์ไคลเอนต์ที่มีทรัพยากรการประมวลผลที่จำกัดมาก”- นอกจากนี้ AMD ยังเน้นย้ำถึงประโยชน์ของการอนุมานด้วยการถอดรหัสแบบเก็งกำไรสำหรับ SLM AMD-135M ไม่เพียงแต่กับตัวเร่งความเร็ว Instinct MI250 เท่านั้น แต่ยังรวมถึงฮาร์ดแวร์สำหรับผู้บริโภคด้วย ในกรณีนี้คือ Ryzen 9 PRO 7940HS

ในที่สุด AMD ก็อ้างสิทธิ์โดยไม่ทำให้คุณล้นหลามด้วยตัวเลข“ประสิทธิภาพเทียบได้กับรุ่นที่ได้รับความนิยมสูงสุดในตลาด”(Llama-68M และ Llama-160M; GPT2-124M; OPT-125M) สำหรับรุ่น AMD-135M ใน Hellaswag, WinoGrande, SciQ, MMLU และ ARC-Easy

🔴 เพื่อไม่พลาดข่าวสาร 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-
แหล่งที่มา : เอเอ็มดี