Google กำลังเปิดตัวเทคโนโลยีการรู้จำเสียงพูดแบบ end-to-end อย่างสมบูรณ์ซึ่งขับเคลื่อนโดยเครือข่ายประสาทสำหรับอินพุตคำพูดในแอพแป้นพิมพ์เสมือนจริง GBOAR
ในโพสต์บล็อกGoogle อธิบายบทความล่าสุดที่นำเสนอรุ่นใหม่ที่ได้รับการฝึกฝนด้วย TransDucer Neural Network (RNN-T) ที่มีขนาดกะทัดรัดพอที่จะทำงานบนสมาร์ทโฟน ตาม“ การสตรีมการจดจำคำพูดแบบ end-to-end สำหรับอุปกรณ์มือถือ” โมเดลแบบ end-to-end ทำนายเอาท์พุทอักขระโดยตรงตามอินพุตคำพูดและเป็นตัวเลือกที่ดีสำหรับการใช้การรู้จำเสียงพูดบนอุปกรณ์ขอบ ทีมวิจัยของ Google พบในการทดลองว่าวิธี RNN-T มีประสิทธิภาพสูงกว่าแบบจำลองทั่วไปตามการจำแนกประเภทการเชื่อมต่อชั่วคราว (CTC) ทั้งในเวลาแฝงและความแม่นยำ
ระบบการรู้จำเสียงพูดแบบดั้งเดิมระบุหน่วยเสียง (หน่วยเสียง) จากเซ็กเมนต์ของเสียงแบบจำลองการเชื่อมต่อหน่วยเสียงเป็นคำและรูปแบบภาษาเพื่อวิเคราะห์ความน่าจะเป็นของวลีที่กำหนดตามบล็อก นักวิจัยเริ่มพยายามที่จะไปโดยตรงจากรูปคลื่นอินพุตไปยังประโยคเอาท์พุทโดยการฝึกอบรมเครือข่ายประสาทเดียวในปี 2014 ซึ่งนำไปสู่การพัฒนาโมเดล "ความสนใจ" และ "ฟังเพลงฟัง ในขณะที่ระบบเหล่านี้มีความแม่นยำที่มีแนวโน้ม แต่โดยทั่วไปแล้วพวกเขาต้องการลำดับอินพุตทั้งหมดที่จะวิเคราะห์อย่างเต็มรูปแบบดังนั้นจึงไม่สามารถรองรับการถอดความแบบเรียลไทม์ได้ นอกจากนี้ยังมีการพัฒนาเทคนิค CTC ลดเวลาแฝงของระบบการรู้จำเสียงพูด
“ สิ่งนี้ได้รับการพิสูจน์แล้วว่าเป็นขั้นตอนสำคัญในการสร้างสถาปัตยกรรม RNN-T ที่นำมาใช้ในรุ่นล่าสุดนี้ซึ่งสามารถมองเห็นได้ว่าเป็นภาพรวมของ CTC” Johan Schalkwyk เพื่อนร่วมทีมของ บริษัท
โมเดล RNN-T ส่งออกอักขระทีละตัวโดยใช้ลูปข้อเสนอแนะที่ป้อนสัญลักษณ์ที่คาดการณ์ไว้ (โดยปกติแล้วตัวอักษร) กลับเข้าไปในโมเดลเพื่อทำนายตัวต่อไป รุ่นแรกลดอัตราความผิดพลาดของคำ แต่การฝึกอบรมนั้นเข้มงวดมากขึ้น นักวิจัยได้พัฒนาการใช้งานแบบขนานเพื่อทำงานอย่างมีประสิทธิภาพในแบทช์ขนาดใหญ่ของ Google TPU V2 ที่มีประสิทธิภาพสูงฮาร์ดแวร์คลาวด์ซึ่งเร่งการฝึกอบรม
กราฟการค้นหาที่ใช้โดยเอ็นจิ้นการจดจำคำพูดแบบดั้งเดิมยังคงมีขนาดใหญ่เกินกว่าที่จะทำงานบนอุปกรณ์มือถือได้และรุ่นการผลิตของ Google เกือบ 2GB แม้จะมีเทคนิคการถอดรหัสที่ซับซ้อน นักวิจัยได้พัฒนาวิธีการถอดรหัสด้วยการค้นหาลำแสงผ่านเครือข่ายประสาทเดียวเพื่อให้ได้ความแม่นยำเดียวกันกับโมเดล 450MB จากนั้นลดขนาดด้วยการหาปริมาณพารามิเตอร์และเทคนิคเคอร์เนลไฮบริดและในที่สุดก็ลดรุ่นสุดท้ายเป็น 80MB
ตัวจดจำคำพูด Gboard ใหม่จะเปิดตัวในตอนแรกไปยังโทรศัพท์พิกเซลในภาษาอังกฤษแบบอเมริกัน แต่นักวิจัยเป็นคนมองโลกในแง่ดีว่าสามารถเพิ่มภาษาและโดเมนของแอปพลิเคชันได้มากขึ้นด้วยการปรับปรุงฮาร์ดแวร์และอัลกอริทึมพิเศษ
Syntiant เปิดตัวบรรทัดใหม่ของตัวประมวลผลคำพูดสำหรับอุปกรณ์ขอบที่ MWC 2019 เมื่อต้นปีนี้และตลาดการจดจำเสียงและการพูดจะคาดว่าจะคุ้มค่า$ 6.9 พันล้านภายในปี 2568