เทคโนโลยีการจดจำเสียงนั้นมีความแม่นยำน้อยกว่าเมื่อนำไปใช้กับผู้หญิงมากกว่าผู้ชายที่เกิดจากการออกแบบระบบการพูด แต่ยังเป็นเพราะความแตกต่างทางสรีรวิทยาโดยธรรมชาติบล็อกโพสต์โดย Delip Raoผู้ร่วมก่อตั้ง AI Speech Recognition Startupวิทยาศาสตร์การพูด R7-
อัตราความผิดพลาดที่แตกต่างกันของตัวอย่างการพูดจากผู้พูดชายและหญิงทำให้ระบบการฝึกอบรม AI สามารถรับรู้ได้ทั้งยากพอ ๆ กัน Rao เขียนและปัญหามักจะทวีความรุนแรงขึ้นโดยเทคโนโลยีที่ใช้กันทั่วไปเช่น MFCCs (ค่าสัมประสิทธิ์ Cepstral Melquency)
ค่าเฉลี่ยความถี่พื้นฐานหรือค่าเฉลี่ย F0 ซึ่งเกี่ยวข้องกับการรับรู้ของสนามมักจะอยู่ที่ประมาณ 120Hz สำหรับผู้ชายและใกล้เคียงกับ 200Hz สำหรับผู้หญิงและยังสามารถขึ้นอยู่กับเชื้อชาติการสูบบุหรี่การเจ็บป่วยและปัจจัยอื่น ๆ Rao ยังตั้งข้อสังเกตว่าความคิดของเพศในค่าเฉลี่ย F0 นั้น จำกัด อยู่ที่เพศทางชีวภาพที่วัยแรกรุ่น
“ ระบบการพูดที่ออกแบบมาโดยไม่มีสติในขอบเขตของปัญหานี้สามารถทำให้ปัญหายากขึ้นอยู่แล้ว” เขาเขียน “ โชคดีที่ด้วยแบบจำลองที่ลึกล้ำเมื่อเร็ว ๆ นี้เราสามารถสร้างแบบจำลองที่เรียนรู้โดยตรงจากรูปคลื่นดิบโยนข้อมูลจำนวนมากและคำนวณมันและหวังว่าโมเดลมีความสามารถเพียงพอที่จะเข้ารหัสการเปลี่ยนแปลงเฉพาะชั้นเรียนอย่างน่าเชื่อถือ
นักวิเคราะห์การเตรียมข้อมูล Kaggle Rachael Tatman กล่าวการลงทะเบียนในขณะที่ MFCCs ไม่ได้มีประสิทธิภาพน้อยกว่าสำหรับการสร้างแบบจำลองคำพูดของผู้หญิง“ มีสัญญาณอะคูสติกที่แข็งแกร่งน้อยกว่าเล็กน้อยสำหรับผู้หญิงมันถูกปกปิดได้ง่ายขึ้นด้วยเสียงรบกวนเช่นแฟนหรือการจราจรในพื้นหลังซึ่งทำให้ระบบจดจำเสียงพูดได้ยากขึ้น
Rao ชี้ให้เห็นว่าด้วยความนิยมที่เพิ่มขึ้นของผู้ช่วยดิจิตอลที่เปิดใช้งานด้วยเสียงเช่น Siri ของ Apple ความคิดเห็นของนักวิจัยการพูดผู้หญิงควรได้รับการค้นหาเกี่ยวกับรูปแบบการพูดในการผลิตและวิธีการปรับปรุงพวกเขา
มีการแสดงระบบการจดจำใบหน้าดำเนินการน้อยลงอย่างถูกต้องทั้งสำหรับผู้หญิงและสำหรับคนผิวคล้ำซึ่งนำไปสู่การพิจารณาปัญหาโดยกคณะอนุกรรมการรัฐสภาการค้นหาเพื่อเป็นแนวทางในการประยุกต์ใช้ AI ของรัฐบาล