ต้องขอบคุณเอ็นจิ้นการบีบอัดเสียงแบบนิวรัล เมตาโคเดก "EnCodec" จึงรับประกันการบีบอัดได้ดีกว่า MP3 ถึงสิบเท่าในคุณภาพที่เท่ากัน เพียงพอที่จะลดแบนด์วิดท์ลงอย่างมากทั้งการโทรด้วยเสียงและฟังเพลง
ในขณะที่ปริมาณข้อมูลเสียงที่ส่งผ่านเครือข่ายกำลังระเบิด Meta ดึงโครงการวิจัยที่อาจทำให้สามารถลดความเร็วที่จำเป็นและแบนด์วิดท์ที่ใช้ลงได้อย่างจริงจัง จากชื่อเล่น "EnCodec" รหัสเสียงของ Meta มีความคิดริเริ่ม: AI มีตำแหน่งที่โดดเด่น และด้วยเหตุผลที่ดี EnCodec จึงเป็นโครงการของห้องปฏิบัติการ FAIR ซึ่งก็คือ Facebook AI Research และข่าวดีสำหรับนักชาตินิยม นักวิจัย 3 ใน 4 คน (Alexandre Défossez, Jade Copet, Gabriel Synnaeve และ Yossi Adi) ผู้ตีพิมพ์บทความทางวิทยาศาสตร์เป็นส่วนหนึ่งของแฟร์ปารีส-
ตามรอยเท้าตัวแปลงสัญญาณ SoundStream จาก Google, EnCodec ใช้เครือข่ายประสาทเทียมเพื่อบีบอัด/ขยายขนาดไฟล์เสียง เทคนิคนี้ซับซ้อน เนื่องจากโรงอัดทำงานในสามขั้นตอน: การบีบอัดครั้งแรกเพื่อให้ได้แรงเจ็ทแรกที่ระดับต่ำอัตราเฟรมซึ่งให้รูปร่างความยาวคลื่นและขนาดเป้าหมาย แล้วกการหาปริมาณเวกเตอร์ของสัญญาณที่จะรู้ว่าต้องเก็บข้อมูลอะไร ที่ส่วนท้ายของห่วงโซ่ การบีบอัดสัญญาณจะดำเนินการอีกครั้งผ่านโครงข่ายประสาทเทียมที่ "ปรับแต่ง" ให้เท่ากับการบีบอัด เพื่อคืนค่าสัญญาณคุณภาพสูง เราขอแนะนำให้คุณฟังการเปรียบเทียบเสียงระหว่างตัวแปลงสัญญาณและ EnCodec ที่แตกต่างกันในบล็อก Meta
ดีกว่า MP3 ถึงสิบเท่า
หากเอกสารทางวิทยาศาสตร์อยู่นอกเหนือการเข้าถึงของมนุษย์ธรรมดา คำสัญญาสุดท้ายก็เข้าใจได้ง่าย: ไฟล์ EnCodec ที่ถูกบีบอัดที่ 6 kbit/s รับประกันคุณภาพเสียงเช่นเดียวกับไฟล์ MP3 ที่ถูกบีบอัดที่ 64 kbit/s ปัจจัย x10 ซึ่งเหมาะอย่างยิ่งและบิดเบี้ยวเล็กน้อย - เป็นเวลานานแล้วที่ MP3 เป็นตัวแปลงสัญญาณเสียงอ้างอิง แต่มีข้อดีในการให้ความคิดที่ดีเกี่ยวกับประโยชน์ที่ได้รับจากเทคโนโลยีใหม่นี้
การมาถึงของเทคโนโลยีนี้มาพร้อมกับคำถามอย่างชัดเจน: หากนักวิจัย Meta ยืนยันว่าคอร์ CPU หนึ่งคอร์ "เพียงพอ" ที่จะทำการบีบอัดแบบเรียลไทม์ ไม่ใช่ทุกคอร์จะเท่ากัน และนักวิจัยได้ทดสอบตัวแปลงสัญญาณของพวกเขาใน “MacBook Pro ปี 2019” โดยไม่ได้ให้รายละเอียดเพิ่มเติมว่าจะทำอะไรได้บ้างบนแกนสมาร์ทโฟน ARM คงจะดีไม่น้อยหากพูดถึงการใช้ NPU ซึ่งเป็นตัวประมวลผลประสาทสำหรับการบีบอัด/คลายการบีบอัด โดยทั่วไป CPU จะมีประสิทธิภาพในงาน "AI" น้อยกว่า NPU ในด้านเวลาแฝง ซึ่งเป็นองค์ประกอบสำคัญสำหรับแอปพลิเคชันแบบเรียลไทม์ การบีบอัด/คลายการบีบอัด 48 kHz ในปัจจุบันยังไม่มีประสิทธิภาพเพียงพอสำหรับการใช้งานดังกล่าว แต่นอกเหนือจากความจริงที่ว่าการบีบอัดนี้เหมาะอย่างยิ่งสำหรับไฟล์เพลงแล้ว นักวิจัยไม่ได้ยกเว้นความเป็นไปได้ในการปรับปรุงประสิทธิภาพแบบเรียลไทม์ในอนาคตอันใกล้นี้
เสียงและเสียงมาก่อน วิดีโอจะมาต่อ
ตัวอย่างบิตเรตที่สื่อสารโดย Facebook นั้นเหมาะสมที่สุดสำหรับเสียงพูดและดนตรี ในความเป็นจริงแล้ว การใช้งานสองครั้งแรกนี้ทำให้ EnCodec ได้รับการปรับให้เหมาะสมเป็นครั้งแรก ซึ่งสมเหตุสมผลเมื่อคุณดูที่ธุรกิจเมตาดาต้าปัจจุบัน ด้วย Facebook Messenger และ WhatsApp ทำให้ Meta สามารถจัดการเสียงปริมาณมหาศาลผ่านการโทรและข้อความอื่นๆ การปรับปรุงเพียงเล็กน้อย – และที่นี่ดูเหมือนว่าจะมีนัยสำคัญ – สัญญาว่าจะประหยัดแบนด์วิดท์และพื้นที่เก็บข้อมูลได้อย่างมาก ดังนั้นค่าใช้จ่าย ข้อดีอีกประการหนึ่ง โดยเฉพาะอย่างยิ่งสำหรับประเทศที่มีโครงสร้างพื้นฐานด้านโทรคมนาคมที่ไม่ดี: การปรับปรุงคุณภาพเสียงอย่างมีนัยสำคัญโดยไม่ทำให้เครือข่ายทำงานหนักเกินไป แม้จะเก่าที่สุด: แม้ว่า VoLTE จะใช้ 23.85 kbit/s แต่ EnCodec คุณภาพสูงที่ 6 kbit/s ถือเป็นพรสำหรับเครือข่าย 3G เก่าที่จำกัดไว้ที่ 12.2 kbit/s
เห็นได้ชัดว่าวิดีโออยู่ในกากบาทของ Meta ยักษ์ใหญ่ชาวอเมริกันอธิบายในบล็อกของตนว่า“แม้ว่าเทคนิคของเรายังไม่รองรับวิดีโอ แต่นี่คือจุดเริ่มต้นของความคิดริเริ่ม-โดยจะสามารถยกระดับประสบการณ์ต่างๆ เช่น การประชุมทางวิดีโอ การสตรีมภาพยนตร์ออนไลน์ และการเล่นเกมกับเพื่อน ๆ ในรูปแบบ VR- ยิ่งเพิ่มมากขึ้นกว่านั้น.“ความรู้นี้จะเป็นประโยชน์สำหรับการทดลองในอนาคตที่เกี่ยวข้องกับ Metaverse”- เป้าหมายยังคงเป็นเป้าหมาย!
Meta เกลียดชังในโลก… แต่ไม่ใช่ในโลกแห่งการค้นหา
ระหว่างที่ราคาหุ้นตกต่ำการเยาะเย้ยของ "Metaverse" ของเขาหรือแม้แต่การกล่าวหาบริการของตน (ซึ่งมักจะสมเหตุสมผล)เฟสบุ๊คหรืออินสตาแกรมMeta ไม่ได้อยู่ในสายตาของสาธารณชน แต่มันแตกต่างออกไปในด้านการวิจัยซึ่งเป็นแผนที่บริษัทยังคงให้ความเคารพนับถือเป็นอย่างมาก
เป็นแบบนี้กรอบPyTorch ที่มีชื่อเสียงที่สุดใน AI ได้รับการพัฒนาโดย Meta จากนั้นจึงบริจาคให้กับมูลนิธิ Linux เรื่องเดียวกันในโลกของ Javascript ซึ่งเป็นหนี้ Meta อย่างมากในการพัฒนาและได้รับลิขสิทธิ์ MIT React ซึ่งเป็นหนึ่งในเครื่องมือออกแบบอินเทอร์เฟซที่สำคัญที่สุด สองตัวอย่างนี้และเครื่องมือมากมายที่เปิดกว้างและฟรี (Fresco, Docusaurus หรือ Zstandard) ทำให้เราหวังว่าจะได้รับการปฏิบัติแบบเดียวกันสำหรับ EnCodec
หากรักษาสัญญาและเปิดมาตรฐาน ผลกระทบของตัวแปลงสัญญาณของ Meta อาจมหาศาล
🔴 เพื่อไม่พลาดข่าวสาร 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-
แหล่งที่มา : อาทเทคนิค