วิธีการสิทธิบัตร Google ในการจับคู่เสียงกับใบหน้าของลำโพงในวิดีโอ

2018-07-05

สิทธิบัตรที่ยื่นโดย Google สำหรับวิธีการจับคู่โดยอัตโนมัติในการจับคู่กับเสียงในวิดีโอได้รับการเผยแพร่โดยองค์กรทรัพย์สินทางปัญญาโลก

ที่สิทธิบัตรซึ่งเดิมถูกยื่นในเดือนเมษายนของปีที่แล้วอธิบายวิธีการใช้คอมพิวเตอร์ที่ใช้ในการพูด diarization ซึ่งใช้เครือข่ายประสาท convolutional เพื่อรับรู้ใบหน้าและรูปแบบการเรียนรู้ของเครื่องถูกนำไปใช้กับกลุ่มการพูดเพื่อตรวจจับลำโพงที่แตกต่างกัน Wikipedia อธิบายลำโพง diarizationเป็นกระบวนการของการแบ่งพาร์ติชันสตรีมอินพุตเสียงเป็นส่วนที่เป็นเนื้อเดียวกันตามตัวตนของผู้พูด

“ ระบบเนื้อหาตรวจพบเสียงพูดในแทร็กเสียงของวิดีโอและจัดกลุ่มคำพูดเหล่านี้ด้วยเสียงที่แตกต่างกันเป็นรายบุคคล” นักประดิษฐ์ Sourish Chaudhuri และ Kenneth Hoover เขียนในแอปพลิเคชัน “ ระบบเนื้อหาระบุใบหน้าเพิ่มเติมในวิดีโอและจัดกลุ่มใบหน้าเหล่านี้ด้วยใบหน้าที่แตกต่างกันแต่ละหน้าระบบเนื้อหามีความสัมพันธ์กับเสียงที่ระบุและใบหน้าเพื่อให้ตรงกับเสียงแต่ละหน้ากับแต่ละใบหน้า

นักวิจัยของ Google ยังตีพิมพ์บทความเมื่อต้นปีที่ผ่านมาโดยมีรายละเอียดวิธีการใช้ภาพและเสียงสำหรับการใช้งานAI เพื่อแยกคำพูดออกจากบุคคลที่แตกต่างกัน, เลียนแบบ“ Effect Cocktail Party”