การวิจัยชี้ให้เห็นว่าเทคโนโลยีการจดจำคำพูดจากแบรนด์เทคโนโลยีผู้บริโภคชั้นนำของโลกดำเนินการด้วยความแม่นยำในระดับที่แตกต่างกันสำหรับประชากรที่แตกต่างกันหรือบางคนบอกว่าเป็น "ลำเอียง" กับคนผิวดำ
ทีมนักวิชาการจากมหาวิทยาลัยสแตนฟอร์ดทดสอบระบบการรู้จำเสียงอัตโนมัติ (ASR) จาก Amazon, Apple, Google, IBM และ Microsoft สำหรับกระดาษ“ความไม่เสมอภาคทางเชื้อชาติในการจดจำคำพูดอัตโนมัติ” ในการดำเนินการของวารสาร National Academy of Sciences และพบว่าพวกเขาระบุว่ามีคำพูดประมาณ 19 เปอร์เซ็นต์ของคนผิวขาว แต่อัตราความผิดพลาดของคำ (WER) อยู่ที่ 35 เปอร์เซ็นต์สำหรับการพูดของคนผิวดำข้อมูลเสียงจากผู้พูดสีขาว
ในการวิเคราะห์หากลุ่มภาษาศาสตร์ที่แตกต่างกันนักวิจัยได้ใช้ชุดข้อมูลภาษาแอฟริกันอเมริกันในภูมิภาค (CORAAL) ที่รวบรวมไว้ในสามชุมชนและตัวอย่างจากชุด Voice of California (VOC) ผู้เชี่ยวชาญของมนุษย์ถอดความตัวอย่างสัมภาษณ์ 5 ถึง 50 วินาทีและผลลัพธ์ของพวกเขาถูกนำมาเปรียบเทียบกับอัลกอริทึมการเรียนรู้ของเครื่องจักรจากยักษ์ใหญ่ด้านเทคโนโลยีที่กล่าวถึงข้างต้น
นักวิจัยเสนอให้เพิ่มความหลากหลายของชุดข้อมูลการฝึกอบรมและรวมถึงภาษาอังกฤษชาวแอฟริกันอเมริกันภาษาอังกฤษเพื่อลดความแตกต่างของประสิทธิภาพ
Apple มีอัตราความผิดพลาดสูงสุดสำหรับทั้งสองชุดและมีความแตกต่างมากกว่า 20 เปอร์เซ็นต์ Google และ Microsoft มีความแตกต่างที่เล็กที่สุด แต่ทั้งคู่ก็ยังคงมีมากกว่า 10 เปอร์เซ็นต์และ Amazon สำหรับลำโพงสีดำเท่ากับ Google แต่อัลกอริทึมนั้นแม่นยำกว่าสำหรับลำโพงสีขาวเล็กน้อย ระบบของ Microsoft เป็นระบบเดียวที่มีคนผิวดำต่ำกว่า 30 เปอร์เซ็นต์
ผลการวิจัยยังรวมถึงข้อมูลเชิงลึกเกี่ยวกับการกระจายทางภูมิศาสตร์เนื่องจากคำพูดที่รวบรวมจากลำโพงสีดำในชนบทและการตั้งค่าเมืองอย่างหนัก (Princeville, North Carolina และ DC) มีอัตราความผิดพลาดสูงกว่าคำพูดที่เก็บรวบรวมใน Rochester, NY
มีการสำรวจคำอธิบายที่แตกต่างกันสองประการสำหรับความแตกต่างโดยนักวิจัย ช่องว่างในพจนานุกรมและไวยากรณ์ของแบบจำลองภาษาที่ใช้เช่นคนผิวดำที่ใช้คำที่ไม่รวมอยู่ในระบบ ASR และช่องว่างประสิทธิภาพในโมเดลอะคูสติกของระบบ
คำที่พูดโดยคนผิวขาวและคนผิวดำสามารถระบุได้ในคำศัพท์ของ ASR 98.6 เปอร์เซ็นต์ของ Google 98.6 เปอร์เซ็นต์และ 98.7 เปอร์เซ็นต์ของเวลา เมื่อวลีที่มีข้อความเหมือนกันถูกวิเคราะห์เทคโนโลยี ASR ทำข้อผิดพลาดมากขึ้นกับตัวอย่างที่พูดโดยลำโพงสีดำแสดงให้เห็นว่าความแตกต่างในการออกเสียงและฉันทลักษณ์เช่นจังหวะ, พิทช์, พยางค์สำเนียง, ระยะเวลาของเสียงสระ
อคติเป็นปัญหาที่สำคัญในชีวภาพใบหน้าซึ่งการทดสอบ NIST ได้แสดงความแตกต่างในความแม่นยำแตกต่างกันระหว่างผู้ขายที่แตกต่างกัน
R7 Speech Sciences ผู้ร่วมก่อตั้ง Delip Rao อธิบายในโพสต์บล็อกในปี 2018 ว่าความแตกต่างทางสรีรวิทยาโดยธรรมชาติระหว่างผู้ชายกับผู้หญิงทำให้ยากที่จะฝึกฝนระบบการรู้จำเสียงพูดของ AI ให้ถูกต้องอย่างแม่นยำด้วยการพูดจากผู้หญิง
การจดจำเสียงและการพูดคาดว่าจะทำขึ้นตลาด 26.8 พันล้านดอลลาร์ภายในปี 2568
หัวข้อบทความ
ไบโอเมตริกซ์-ชุดข้อมูล-การวิจัยและพัฒนา-การรู้จำเสียงพูด-การฝึกอบรม