เขาพูดและคิดไปพร้อมๆ กัน นี่คือแชทบอทของ Moshi ซึ่งเป็นโมเดล AI ต้นแบบที่พัฒนาโดย Kyutai ห้องทดลองวิจัยปัญญาประดิษฐ์ของฝรั่งเศส (ได้รับทุนสนับสนุนจาก Xavier Niel) ทำให้ทุกคนประหลาดใจเมื่อต้นเดือนกรกฎาคมด้วยการสาธิตทางเทคนิคที่สมควรได้รับการสัมภาษณ์กับ CEO, Patrick Perez
เมื่อวันที่ 3 กรกฎาคม Kyutai ได้เปิดม่าน Moshi ซึ่งเป็นโมเดลปัญญาประดิษฐ์ที่มาพร้อมกับความสามารถด้านเสียงที่ไม่เคยมีมาก่อน ต้นแบบแชทบอทได้ดำเนินการขั้นแรกกับสื่อแล้ว แต่ขณะนี้ทุกคนก็สามารถใช้งานได้เช่นกันที่อยู่- ความพิเศษของต้นแบบนี้คือสามารถสื่อสารด้วยวาจาในลักษณะที่เป็นธรรมชาติและแสดงออกได้มากที่สุดในขณะที่ยังคงเอาใจใส่คู่สนทนา
โมเดลต่อเนื่องหลายรูปแบบของ Moshi ยังสามารถติดตั้งในเครื่องและทำงานได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต มูลนิธิ Kyutai จัดทำโมเดลนี้เป็นโอเพ่นซอร์สเพื่อสนับสนุนการวิจัยและพัฒนาระบบนิเวศ AI เราต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับ Moshi และห้องทดลองร่วมกับ Patrick Perez ซึ่งเป็น CEO ของบริษัท
Moshi เป็นผู้ช่วยด้านเสียงที่มีความสามารถเหนือกว่า GPT-4o ในบางประเด็นสำคัญ โดยจะพูดและฟังพร้อมกันในขณะที่ยังคงสร้าง "กระแสความคิด" ซึ่งบางครั้งอาจทำให้สับสนในการใช้งาน Moshi เป็นสิ่งที่ใกล้เคียงที่สุดกับ "ประสบการณ์" การสนทนาของมนุษย์หรือไม่?
Moshi.แชทไม่ใช่ผู้ช่วยเสียง แต่เป็นต้นแบบการทดลองที่สร้างจาก Moshi ซึ่งเป็นโมเดลคำพูดและข้อความหลายรูปแบบทั่วไปที่เราพัฒนาตั้งแต่เริ่มต้น ต้นแบบนี้แสดงให้เห็นถึงความสามารถในการโต้ตอบด้วยวาจาที่ไม่เคยมีมาก่อนในแง่ของความเป็นธรรมชาติและความลื่นไหล
Moshi สามารถใช้ทำอะไรได้บ้าง? คุณอยากเห็นเทคโนโลยีนี้มาแทนที่ในด้านใด
การใช้งานที่เป็นไปได้ของโมเดลต่อเนื่องหลายรูปแบบนี้มีมากมาย:
1/ การสนทนาด้วยวาจาอย่างเป็นธรรมชาติกับ AI (ผู้ช่วยหรือสหาย) เพื่อการรวมและการเข้าถึง การศึกษา การฝึกสอน การเล่นเกม การบริการลูกค้า การค้นหาข้อมูล หุ่นยนต์เชิงโต้ตอบ ฯลฯ
2/ การสังเคราะห์เสียงพูดที่แสดงออกและหลายลำโพงสำหรับการเข้าถึงเนื้อหาที่เป็นลายลักษณ์อักษร การสร้างสิ่งประดิษฐ์ทางวัฒนธรรมและศิลปะ การเล่นเกม ฯลฯ
3/ การแปลเสียงพร้อมกันเพื่อการสื่อสารและการเข้าถึง
Moshi ต้องการการพัฒนาเป็นเวลาหกเดือนจากทีมงาน 8 คน ซึ่งดูเหมือนเล็กน้อย หากพิจารณาทุกอย่างแล้ว นั่นหมายความว่าการออกแบบผู้ช่วยอย่าง Moshi ในปัจจุบันค่อนข้างง่ายใช่หรือไม่
นี่คือความสำเร็จจริงๆ! สิ่งนี้จำเป็นต้องมีทักษะเฉพาะทางและเสริม นอกเหนือจากการทำงานในลักษณะที่เข้มข้นและมุ่งเน้นอย่างยิ่ง และมีทรัพยากรด้านคอมพิวเตอร์ที่เพียงพอ ประการสุดท้าย เราเช่าเครื่องจักรที่ทรงพลังมากจาก Scaleway ขอขอบคุณการบริจาคจำนวนมากจากผู้ก่อตั้งทั้งสามของเรา
Moshi เข้าใจสำเนียงต่างๆ มากมาย แต่ขณะนี้ผู้ช่วยพูดได้เฉพาะภาษาอังกฤษเท่านั้น ภาษาอื่นมีการวางแผนในระยะยาวหรือไม่ และมีคำถามรองว่า การให้ LLM เรียนภาษาอื่นมีความซับซ้อนหรือไม่?
เราวางแผนที่จะรวมภาษาอื่นๆ โดยเริ่มด้วยภาษาฝรั่งเศสและสเปน ดังที่กล่าวไปแล้ว แนวคิดก็คือการแบ่งปันโมเดลและโค้ดของเราอย่างอิสระ เพื่อให้สามารถฝึกอบรมใหม่ทั้งหมดหรือบางส่วนได้ การพิจารณาภาษาอื่น ๆ แม้ว่าจะไม่ใช่เรื่องเล็กน้อยเพื่อให้บรรลุ ผู้เล่นรายอื่นในระบบนิเวศก็สามารถทำได้ด้วยทรัพยากรที่จำเป็น (ข้อมูล ความรู้ เครื่องจักร) และกรณีการใช้งานที่เหมาะสม
ฮีเลียม ซึ่งเป็น LLM ที่ Moshi ตั้งอยู่นั้นมีพารามิเตอร์ถึง 7 พันล้านพารามิเตอร์ ซึ่งอาจดูเหมือนเป็นจำนวนมาก แต่จะเปรียบเทียบกับ LLM อื่นๆ ได้อย่างไร (ไม่ทราบว่ามีพารามิเตอร์สำหรับ GPT-4 กี่ตัว) และเหนือสิ่งอื่นใดคือ- คุณภาพเป็นอย่างไร ของ LLM จำกัดจำนวนพารามิเตอร์หรือไม่ และข้อมูลการฝึกอบรมใดที่คุณใช้?
เป็นรุ่นขนาดกลาง โมเดล "เล็ก" มีมูลค่าประมาณ 2 ถึง 3 พันล้าน และรุ่น "ใหญ่" มีขนาดตั้งแต่หลายสิบถึงหลายร้อย (หรือหลายพันล้าน) ของพารามิเตอร์ ขนาดไม่ใช่ทุกอย่าง แต่ด้วยข้อมูลที่ถูกต้อง (ปริมาณและคุณภาพ) และเทคนิคการเรียนรู้ล่าสุด โดยทั่วไปแล้ว ขนาดที่ใหญ่ขึ้นจะนำไปสู่ประสิทธิภาพที่ดีขึ้นในงานที่หลากหลายมากขึ้น สำหรับการฝึกอบรมล่วงหน้าเกี่ยวกับฮีเลียม เราใช้ข้อมูลเว็บผสมที่ค่อนข้างเป็นมาตรฐาน โดยเฉพาะจากโปรเจ็กต์ CommonCrawl มากกว่าจำนวนคำที่เขียนนับพันล้าน (หนึ่งล้านล้าน)
กระบวนการเรียนรู้ของ Moshi ยังเกี่ยวข้องกับการสนทนา 100,000 รายการและเครื่องมือแปลงข้อความเป็นคำพูด ตอนนี้ฉันต้องการให้คุณอธิบายให้ฉันฟังว่ามันทำงานอย่างไร!
ฮีเลียม "เขียน" บทสนทนา 100,000 บทเหล่านี้ และ Moshi เวอร์ชันก่อนหน้าซึ่งช่วยให้สามารถสังเคราะห์คำพูดด้วยเสียงที่กำหนด และแปลงให้เป็นการสนทนาด้วยเสียง
มีใครอยู่เบื้องหลัง "เสียง" ของโมชิบ้างไหม?
เราทำงานร่วมกับนักพากย์เสียงซึ่งบันทึกเสียงร่วมกันทำให้สามารถแก้ไขเสียงของ AI ในการสนทนา 100,000 รายการที่กล่าวถึงข้างต้น
Kyutai ยังได้พัฒนา Moshi เวอร์ชันหนึ่งสำหรับการดำเนินงานในท้องถิ่น ดังนั้นจึงไม่ต้องเชื่อมต่ออินเทอร์เน็ต จะสามารถใช้งานได้บนคอมพิวเตอร์ส่วนบุคคลของคุณผ่านทาง GPU คำถามสองข้อ: ทำไมไม่ใช้ NPU ซึ่งติดตั้งพีซีและ Mac เพิ่มมากขึ้นเรื่อยๆ และสมาร์ทโฟนรุ่น “นาโน” สามารถทำได้หรือไม่?
ปัจจุบันโมเดลของเราได้รับการออกแบบให้ได้รับการฝึกฝนและใช้กับ Nvidia GPU การสาธิตเวอร์ชันท้องถิ่นที่บีบอัดจึงดำเนินการตามปกติบนชิปประเภทเดียวกัน แต่มีขนาดเล็กกว่า ในฐานะห้องปฏิบัติการวิจัย เราต้องการสาธิตความเป็นไปได้ของโมเดลเวอร์ชันฝังตัวของเราเป็นหลัก เราหวังว่าการแบ่งปันเทมเพลตและรหัสที่เกี่ยวข้องเหล่านี้จะช่วยให้ผู้อื่นสามารถพกพาเพิ่มเติมได้ ขึ้นอยู่กับความต้องการของพวกเขา ใช่แล้ว ในที่สุดเราก็สามารถจินตนาการถึง Moshi ที่เล็กกว่าและเชี่ยวชาญกว่าที่ทำงานบนมือถือได้
เมื่อเราพูดถึง generative AI คำถามด้านความปลอดภัยก็เกิดขึ้นอย่างรวดเร็ว เราจะแน่ใจได้อย่างไรว่า Moshi จะไม่ถูกนำไปใช้เพื่อจุดประสงค์ที่เป็นอันตราย
เช่นเดียวกับ generative AI อื่นๆ ส่วนหนึ่งของ "การปรับแต่ง" (ขั้นตอนการเรียนรู้แบบมีผู้สอนที่ติดตามการเรียนรู้ล่วงหน้าแบบไม่มีผู้ดูแลขนาดใหญ่มาก) มีไว้เพื่อเสริมสร้างความปลอดภัยพร้อมกับความสามารถอื่นๆ นอกจากนี้ เรากำลังดำเนินการเกี่ยวกับการทำเครื่องหมายที่มองไม่เห็นของเนื้อหาที่สร้างโดยแบบจำลองของเรา ซึ่งเป็นปัญหาการวิจัยที่ทั้งยากและสำคัญ
สุดท้ายนี้ เราเชื่อมั่นในคุณธรรมของโอเพ่นซอร์สในแง่ของความปลอดภัย (เหนือสิ่งอื่นใด): ผู้เล่นสามารถตรวจสอบ ประเมิน และรักษาความปลอดภัยของโมเดลที่ใช้ร่วมกันได้มากขึ้น ในขอบเขตที่การใช้งานที่เป็นอันตรายซึ่งมีประสิทธิภาพมากขึ้นเรื่อยๆ (ในแง่ของการควบคุมและความสมจริง) และแบบจำลองการกำเนิดจำนวนมากขึ้นเรื่อยๆ นั้นเป็นไปไม่ได้ที่จะหลีกเลี่ยง การสร้างความนิยมและการให้ข้อมูลในหัวข้อทางเทคนิคเหล่านี้อย่างต่อเนื่องเป็นสิ่งสำคัญในการจำกัดความเสียหาย
อนาคตของโมชิจะเป็นอย่างไร?
เรากำลังพัฒนาอย่างต่อเนื่องเพื่อปรับปรุงความสามารถบางอย่าง (ความเกี่ยวข้อง ความหมาย ภาษา)... และเราหวังว่าจะได้เห็นว่าระบบนิเวศจะใช้และแก้ไขอย่างไร ทันทีที่เราแบ่งปันโมเดล รหัส และข้อมูลทางเทคนิค (อยู่ระหว่างดำเนินการ) .
Kyutai มีจุดยืนที่ค่อนข้างพิเศษในฝรั่งเศสและในยุโรปในท้ายที่สุด เนื่องจากห้องปฏิบัติการได้รับทุนจาก Xavier Niel นี่เป็นความปลอดภัยเมื่อเทียบกับบริษัท AI อื่น ๆ ที่นักลงทุนมองหาผลกำไรก่อนหรือไม่?
ยังได้รับทุนจาก Eric Schmidt และ Rodolphe Saadé; ทั้งสามเป็นผู้บริจาค ไม่ใช่นักลงทุน (เราเป็นมูลนิธิ) ใช่แล้ว สิ่งนี้ทำให้เรามีอิสระอย่างมากในการเลือกการวิจัยของเราและในโครงสร้างของทีม ในขณะเดียวกันก็มีทรัพยากรที่ยอดเยี่ยม
🔴 เพื่อไม่พลาดข่าวสาร 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-