งานวิจัยสามฉบับจากPindropได้รับการนำเสนอในการประชุมนานาชาติปีพ. ศ. 2565 เรื่องอคูสติกการพูดและการประมวลผลสัญญาณ (icassp) และระบุทิศทางของความพยายามของ บริษัท ที่จะคิดค้นสิ่งใหม่ ๆ ด้วยเสียงชีวภาพและเทคโนโลยีการรู้จำเสียงพูด
กระดาษแผ่นแรกมีชื่อว่า 'การเรียนรู้การจัดจำหน่ายสำหรับการประมาณอายุจากการพูด- มันสำรวจวิธีการที่แตกต่างกันในการประมาณอายุตามชีวภาพด้วยเสียงโดยใช้รูปแบบปัญหาการเรียนรู้การกระจายมากกว่าแบบจำลองดั้งเดิมของปัญหาการจำแนกหรือการถดถอย อุปสรรคแรกที่นักวิจัยของ Pindrop พบว่ามีการเรียนรู้แบบกระจายคือการวิจัยด้านเสียงขาดชุดข้อมูลที่ติดแท็กอายุ "ชัดเจน"
อย่างไรก็ตามยังพบว่าการเรียนรู้การกระจายการตรวจสอบความถูกต้องสำหรับการประมาณอายุใบหน้ายังคงเป็นไปได้สำหรับเสียงซึ่งหมายความว่าช่วงอายุทั่วไปสามารถประเมินได้ในช่วงความเชื่อมั่นเฉพาะ สรุปได้ว่าในขณะที่การเรียนรู้แบบกระจายนั้นมีข้อ จำกัด มากกว่าการประมาณอายุใบหน้า แต่ก็สามารถทำได้ดีกว่าการถดถอยและอัลกอริทึมการจำแนกประเภทสำหรับเงื่อนไขทั้งที่ตรงกันและไม่ตรงกัน
กระดาษที่สองมีชื่อว่า 'ลำโพงฝังการแปลงสำหรับความเข้ากันได้แบบย้อนหลังและข้ามช่องทาง- มันตรวจสอบโซลูชันสำหรับปัญหาความเข้ากันได้ระหว่างผู้ให้บริการเทคโนโลยีการตรวจสอบความถูกต้องทางชีวภาพด้วยเสียงที่ได้ย้ายโมเดลของพวกเขาไปยังเทคนิคการเรียนรู้ลึกใหม่ นักวิจัยของ Pindrop แนะนำวิธีการที่ใช้เครือข่ายประสาทลึกเพื่อให้สามารถใช้งานได้ย้อนหลัง ผลการทดลองพบว่า DNN สามารถส่งมอบความเข้ากันได้กับการฝังฟีเจอร์ระหว่างระบบตรวจสอบลำโพงอัตโนมัติสองระบบ (ASV) พร้อมประสิทธิภาพที่ดีขึ้นผ่านระบบแปลงพื้นฐาน นักวิจัยกล่าวว่าการขยายงานของพวกเขาสามารถสำรวจการสอบเทียบคะแนนเพื่อปรับปรุงประสิทธิภาพนี้ในระยะไกล
กระดาษที่สามคือ 'การปรับแบบจำลองที่ไม่ได้รับการดูแลสำหรับ ASR แบบ end-to-end'และมองหาวิธีการปรับปรุงระบบการถอดรหัสการรู้จำเสียงอัตโนมัติ (ASR) ที่มักจะต่อสู้กับเงื่อนไขการทดสอบรถไฟที่ไม่ตรงกันเช่นศูนย์บริการที่ต้องคำนึงถึงปัจจัยต่าง ๆ เช่นการเน้นเสียงและคุณภาพเสียง นักวิจัย Pindrop เสนอการใช้ข้อมูลในโดเมนเพื่อขจัดความจำเป็นในการเพิ่มความคิดเห็นของมนุษย์โดยใช้ความสัมพันธ์ระหว่างอัตราการผิดปกติของคำผิดพลาด (WER) และ CTC ('การจำแนกประเภทการเชื่อมต่อชั่วคราว' การวัดการจัดตำแหน่ง) ในมือข้างหนึ่ง
เพื่อแก้ปัญหานี้ทีมวิจัยได้เสนอวิธีที่ประหยัดต้นทุนเพื่อปรับปรุงความแม่นยำของระบบ ASR โดยใช้ข้อมูลในโดเมนโดยไม่จำเป็นต้องมีคำอธิบายประกอบของมนุษย์ที่มีราคาแพง สิ่งนี้เกิดขึ้นได้โดยการสำรวจความสัมพันธ์ระหว่างอัตราการผิดพลาดของคำผิดพลาด (WER) และการสูญเสียการจำแนกประเภทการเชื่อมต่อชั่วคราวและความเชื่อมั่นตามอัตราส่วนความน่าจะเป็น (PRC) พบว่าสามารถลดลงได้ 8 เปอร์เซ็นต์ในแง่ที่แน่นอนโดยไม่มีการควบคุมดูแลทำให้สามารถปรับให้เข้ากับเงื่อนไขที่ไม่ดี
อย่างไรก็ตาม Pindrop กล่าวว่าการวิจัยเป็นการทดลองและไม่สะท้อนประสิทธิภาพของผลิตภัณฑ์
งานวิจัยล่าสุดอื่น ๆ ในสาขาวิชาชีวภาพเสียงรวมถึงคำแนะนำเกี่ยวกับวิธีการจัดการเสียง Deepfakesและวิธีการสำหรับการตรวจจับความมีชีวิตชีวาอย่างต่อเนื่องบนอุปกรณ์สมาร์ท-
ส่วนการนำเสนอกระดาษออนไลน์ของ ICASSP จะปิดในสัปดาห์นี้โดยมีกิจกรรมด้วยตนเองที่ดำเนินการในสิงคโปร์ตั้งแต่วันที่ 22 ถึง 27 พฤษภาคม
หัวข้อบทความ
การรับรองความถูกต้อง-ไบโอเมตริกซ์-การวิจัยทางชีวภาพ-Pindrop-การรู้จำเสียงพูด-เสียงชีวภาพ