นักวิจัยของ Google ได้พัฒนาวิธีการใช้การมองเห็นคอมพิวเตอร์การจดจำรูปแบบและการประมวลผลคำพูดเพื่อแยกคำพูดของลำโพงตัวเดียวจากลำโพงอื่น ๆ และเสียงรบกวนจากพื้นหลัง
การใช้ AI เพื่อเลียนแบบ“ เอฟเฟกต์ปาร์ตี้ค็อกเทล” ซึ่งผู้คน“ ปิดเสียง” เสียงและเสียงอื่น ๆ ที่จะมุ่งเน้นไปที่ลำโพงหรือแหล่งที่มาโดยเฉพาะอาจมีแอพพลิเคชั่นที่หลากหลายรวมถึงการเพิ่มประสิทธิภาพการพูดและการรับรู้วิดีโอการประชุมทางวิดีโอและเครื่องช่วยฟังนักวิจัยเขียนใน Aโพสต์บล็อก-
ในรายงานการวิจัยที่ชื่อว่า“ มองหาที่จะฟังในงานเลี้ยงค็อกเทล: แบบจำลองภาพและเสียงที่ไม่ขึ้นกับผู้บรรยายสำหรับการแยกการพูด” ทีมนักวิจัยอธิบายการใช้การป้อนข้อมูลด้วยภาพไม่เพียง แต่ปรับปรุงคุณภาพการแยกเสียงของเสียง แต่ยังเชื่อมโยงสัญญาณเสียงที่แยกออกมา ทีมแนะนำชุดข้อมูล AvSpeech ใหม่ซึ่งประกอบด้วยกลุ่มวิดีโอหลายพันชั่วโมงจากอินเทอร์เน็ตเพื่อฝึกอบรมโมเดลภาพและเสียงและได้ผลลัพธ์ที่ดีกว่าเทคโนโลยีการแยกเสียงด้วยเสียงเท่านั้น นอกจากนี้ยังให้ผลลัพธ์ที่ดีกว่าวิธีการภาพและเสียงซึ่งขึ้นอยู่กับลำโพงซึ่งต้องใช้แบบจำลองแยกต่างหากสำหรับลำโพงแต่ละตัวแม้จะมีวิธีการใหม่ที่ไม่ขึ้นกับลำโพง
“ วิธีการของเราทำงานกับวิดีโอทั่วไปด้วยแทร็กเสียงเดียวและสิ่งที่จำเป็นจากผู้ใช้คือการเลือกใบหน้าของบุคคลในวิดีโอที่พวกเขาต้องการได้ยินหรือมีบุคคลดังกล่าวเลือกอัลกอริทึมตามบริบท” วิศวกรซอฟต์แวร์วิจัยของ Google Inbar Mosseri และ Oren Lang อธิบาย
ระบบ AI ใช้การจดจำใบหน้าเพื่อระบุลำโพงและจากนั้นเครือข่ายประสาทที่ขยายตัวเพื่อเรียนรู้คุณสมบัติซึ่งเปรียบเทียบกับอินพุตเสียงกับ corelate ซึ่งลำโพงที่เกี่ยวข้องกับคำพูดที่แยกจากกัน ระบบพบว่ามีประสิทธิภาพน้อยกว่าเล็กน้อยในการแยกวิทยากรผู้หญิงแม้จะมีความท้าทายโดยธรรมชาติเสียงของผู้หญิงนั้นมีการรายงานเพื่อนำเสนอ
ระบบรถไฟใต้ดินที่ยุ่งของเซี่ยงไฮ้กำลังวางแผนที่จะปรับใช้เทคโนโลยีการรู้จำใบหน้าและการพูดพัฒนาโดยอาลีบาบาซึ่งจะช่วยให้การสื่อสารที่แม่นยำกับอุปกรณ์อัจฉริยะห่างออกไปห้าเมตรแม้ในพื้นที่ที่มีเสียงดัง