บริษัทที่รับผิดชอบโปรแกรม DALL-E นำเสนอระบบรู้จำคำพูดแบบโอเพ่นซอร์สสำหรับนักวิจัยและนักพัฒนา Whisper มีฟังก์ชันการถอดความ แต่ยังรวมถึงการแปลภาษาอังกฤษด้วย
OpenAI ซึ่งก่อตั้งโดย Elon Musk เป็นบริษัทที่เชี่ยวชาญด้านปัญญาประดิษฐ์ เธอเป็นที่รู้จักเป็นพิเศษในเรื่องระบบ DALL-E ของเธอซึ่งช่วยให้สามารถออกแบบงานตามคำอธิบายได้ ระบบนี้ยังช่วยให้เพิ่มองค์ประกอบรอบๆ รูปภาพที่มีอยู่- แต่ OpenAI เพิ่งสื่อสารในพื้นที่อื่น: การจดจำเสียง บริษัทกำลังเปิดตัวโปรแกรมโอเพ่นซอร์สที่เรียกว่ากระซิบ ซึ่งช่วยให้คุณแปลงเสียงเป็นข้อความสำหรับภาษาอังกฤษ แต่ยังรวมถึงภาษาอื่นด้วย โปรแกรมนี้นำเสนอฟังก์ชันการถอดความและการแปลภาษาอังกฤษที่เกี่ยวข้องกับเทมเพลตด้วย นอกจากนี้ยังต้องสามารถเพิกเฉยต่อเสียงรบกวนรอบข้าง เช่น เพลง เมื่อบุคคลนั้นไม่ได้พูด ในที่สุดก็สามารถตรวจจับภาษาพูดได้โดยอัตโนมัติ
![](https://webbedxp.com/th/tech/misha/app/uploads/2022/09/Whisper-fonctions.jpg)
เสียงอินพุตถูกตัดเป็นช่วง 30 วินาที ซึ่งจะถูกแปลงเป็นสเปกโตรแกรม สถาปัตยกรรมของ Whisper ทำงานบนหลักการเข้ารหัส/ถอดรหัสอย่างง่ายสำหรับแต่ละบล็อก:
![](https://webbedxp.com/th/tech/misha/app/uploads/2022/09/Whisper-Architecture-e1664373717739.jpg)
ด้วยเหตุนี้ OpenAI จึงได้ฝึกอบรมโครงข่ายประสาทเทียมด้วยข้อมูล 680,000 ชั่วโมง ในชุดนี้ 438,000 ชั่วโมงสอดคล้องกับภาษาอังกฤษพร้อมการถอดเสียงภาษาอังกฤษ ส่วน 126,000 ชั่วโมงสำหรับภาษาอื่นที่มีการแปลภาษาอังกฤษ ในขณะที่ 117,000 ชั่วโมงสำหรับภาษาอื่นที่ไม่ใช่ภาษาอังกฤษที่มีการถอดเสียงเป็นภาษาท้องถิ่นที่เกี่ยวข้อง การเรียนรู้ดำเนินการทั้งหมด 99 ภาษา ผลลัพธ์แสดงให้เห็นว่าประสิทธิภาพการถอดเสียงของ Whisper ดีขึ้นเมื่อโครงข่ายประสาทเทียมได้รับประโยชน์จากการฝึกอบรมหลายชั่วโมงมากขึ้น
ระบบที่แข็งแกร่งยิ่งขึ้นในบางกรณี
มีระบบรู้จำคำพูดอัตโนมัติ (ASR) มากมายในตลาด เช่น ระบบที่ Apple, Microsoft, Amazon และ Google ใช้ แต่จากการศึกษาของ OpenAI โมเดลที่ใช้ใน Whisper แสดงให้เห็นถึงความแข็งแกร่งที่ดีกว่าสำหรับการประมวลผลสำเนียง เสียงพื้นหลัง และศัพท์เฉพาะทางเทคนิค
เพราะปัญหาของการรู้จำเสียงคือการขาดความหลากหลายทางภาษาในระหว่างขั้นตอนการเรียนรู้ ดังนั้น กการศึกษาของมหาวิทยาลัยสแตนฟอร์ดซึ่งดำเนินการในฤดูใบไม้ผลิปี 2019 บนระบบของ Amazon, Apple, Google, IBM และ Microsoft เปิดเผยว่าอัตราข้อผิดพลาดสำหรับผู้ใช้ผิวดำนั้นสูงเกือบสองเท่าเมื่อเทียบกับผู้ใช้ผิวขาว โดยโดยเฉลี่ยแล้ว 41 ข้อผิดพลาดต่อทุกๆ ร้อยคำ เทียบกับ 21 ข้อผิดพลาด ในบรรดาผู้หญิง จำนวนข้อผิดพลาดโดยเฉลี่ยอยู่ที่ 30 เทียบกับ 17 ครั้ง
อย่างไรก็ตาม ระบบ OpenAI ประสบปัญหาข้อจำกัด: มีประสิทธิภาพโดยเฉพาะในภาษาอังกฤษและสามารถรวมคำในการถอดเสียงที่ผู้ใช้ไม่ได้พูด สิ่งนี้มาจากแนวทางที่พยายามถอดเสียงทั้งสองแบบ แต่ยังคาดเดาได้ว่าคำถัดไปในประโยคจะเป็นเช่นไร OpenAI ยังเน้นย้ำถึงความแตกต่างของประสิทธิภาพโดยขึ้นอยู่กับสำเนียงและภาษาถิ่นที่แตกต่างกัน
Whisper มีวางจำหน่ายแล้วที่Githubสำหรับนักวิจัยด้านปัญญาประดิษฐ์ แต่ยังสำหรับนักพัฒนาที่ต้องการใช้ระบบในโปรแกรมของตนด้วย ขึ้นอยู่กับการปรับแต่งการตั้งค่า
🔴 เพื่อไม่ให้พลาดข่าวสารจาก 01net ติดตามเราได้ที่Google ข่าวสารetวอทส์แอพพ์-
แหล่งที่มา : เทคครุช