ในขณะที่วิวัฒนาการของ AI-Enhanced Audio Deepfakes ก้าวหน้าความสามารถในการแยกแยะความแตกต่างระหว่างสิ่งที่เป็นจริงและสิ่งที่ปลอมกำลังยากขึ้นเรื่อย ๆ และการอนุญาตให้เทคโนโลยี-ซึ่งไม่ยากที่จะค้นหาและใช้ และนั่นเป็นการเน้นถึงความต้องการเร่งด่วนสำหรับระบบการตรวจจับเสียง Deepfake (ADD) ที่มีพลังซึ่งสามารถกำจัดภัยคุกคามได้
Add เป็นกระบวนการตรวจจับการโจมตีการปลอมแปลงที่สร้างขึ้นโดยระบบการพูดหรือการแปลงด้วยเสียง ปัญหาคือเพิ่มเทคโนโลยีที่ออกแบบมาเพื่อตรวจจับ Deepfakes กำลังดิ้นรนเพื่อให้ทันกับอันตรายของอันตรายที่พวกเขากำลังใช้ในการตรวจจับ
ในขณะที่การวิจัยเมื่อเร็ว ๆ นี้บ่งชี้ว่าเสียง Deepfake นั้นยากขึ้นเรื่อย ๆ เพื่อระบุเอกสารที่ตีพิมพ์ในสัปดาห์ที่ผ่านมาและเดือนที่ผ่านมาในการวิจัยเกี่ยวกับปัญหาที่นำเสนอโซลูชั่นที่มีแนวโน้ม อย่างไรก็ตามโซลูชั่นเหล่านี้อาจไม่สามารถเข้าถึงองค์กรสื่อและประชาชนทั่วไปได้
vs Subrahmanian ศาสตราจารย์ด้านวิทยาศาสตร์คอมพิวเตอร์ของมหาวิทยาลัยตะวันตกเฉียงเหนือได้ทดสอบเครื่องมือตรวจจับที่เปิดเผยต่อสาธารณชน 14 ตัวและบอกกับ Poynter Institute ว่า“ คุณไม่สามารถพึ่งพาเครื่องตรวจจับเสียง Deepfake ได้ในวันนี้และฉันไม่สามารถแนะนำให้ใช้งานได้”
ในการให้สัมภาษณ์นักวิทยาศาสตร์อเมริกันเมื่อต้นปีที่ผ่านมามหาวิทยาลัยแห่งแคลิฟอร์เนียศาสตราจารย์ด้านวิทยาศาสตร์คอมพิวเตอร์ของเบิร์กลีย์ Hany Farid ผู้ศึกษานิติเวชดิจิตอลและการวิเคราะห์สื่อกล่าวว่าระดับทักษะที่จำเป็นในการระบุเสียงที่สร้างขึ้นจาก Ai นั้นสูงมาก สูงกว่า
Farid กล่าวว่าเปิดเผยต่อสาธารณะการตรวจจับ deepfakeเครื่องมือที่มีอยู่ในปัจจุบันไม่ได้“ เชื่อถือได้เพียงพอฉันจะไม่ใช้พวกเขาเงินเดิมพันนั้นสูงเกินไปไม่เพียง แต่สำหรับวิถีชีวิตและชื่อเสียงของแต่ละคนเท่านั้น แต่ยังรวมถึงแบบอย่างที่แต่ละกรณี”
อย่างไรก็ตามการวิจัยเพื่อต่อสู้กับปัญหายังคงดำเนินต่อไปอย่างจริงจังเนื่องจากการคุกคามที่เพิ่มขึ้นซึ่งเกิดขึ้นกับความเป็นส่วนตัวและความปลอดภัย และหากผลการวิจัยเมื่อเร็ว ๆ นี้มีความแม่นยำโซลูชั่นที่มีศักยภาพสามารถอยู่บนขอบฟ้า
ในกระดาษของพวกเขาDeepfake Forensics: การสำรวจวิธีการทางนิติวิทยาศาสตร์ดิจิตอลสำหรับการระบุตัวตน Deepfake หลายรูปแบบบนโซเชียลมีเดียนักวิจัยจากภาควิชาวิทยาศาสตร์คอมพิวเตอร์มหาวิทยาลัย Comsats Islamabad, Lahore, ปากีสถานและภาควิชาความปลอดภัยทางไซเบอร์, วิทยาลัยคอมพิวเตอร์, มหาวิทยาลัย Umm al-Qura, Makkah City, อาณาจักรแห่งซาอุดีอาระเบียกล่าวว่า“ การสำรวจอย่างเป็นระบบ
ทีมวิจัยกล่าวว่า“ ในขณะที่วิธีการกำลังดำเนินไปข้อ จำกัด ในการตรวจจับข้ามโมดูลความสามารถแบบเรียลไทม์อคติอัลกอริทึมและการวางนัยทั่วไปที่ไม่เพียงพอเปิดเผยจุดบอดที่เรียกร้องความสนใจจากนักวิจัยข้อ จำกัด ในทางปฏิบัติยังคงอยู่ในแง่มุมต่าง ๆ
อย่างไรก็ตามพวกเขากล่าวว่ามี“ ทิศทางที่มีแนวโน้มหลายอย่าง” พวกเขาพบว่า“ สามารถนำทางความพยายามในอนาคตในการจัดการกับช่องว่างเหล่านี้การสำรวจเทคนิคการดูแลตนเองและกึ่งผู้ดูแลสามารถลดการพึ่งพาชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับได้” ในการพิจารณาทางจริยธรรมเกี่ยวกับความเป็นส่วนตัวความยินยอมและการปราบปรามที่อาจเกิดขึ้นจากการพูดที่ถูกต้องตามกฎหมายให้ความสำคัญกับการรักษาสมดุลความปลอดภัยและเสรีภาพในการแสดงออกเมื่อความสามารถในการตรวจจับวิวัฒนาการ”
“ อย่างไรก็ตาม” พวกเขาชี้ให้เห็นว่า“ ทิศทางที่สำคัญที่สุดยังคงยั่งยืนและมีนวัตกรรมวัฏจักรอย่างรวดเร็วเนื่องจากวิธีการสร้างแบบ deepfake ยังคงก้าวหน้าอย่างต่อเนื่องการพัฒนากลไกการปรับตัวที่คล่องตัวเพื่อตอบสนองต่อเทคนิคการจัดการที่แปลกใหม่ นิติวิทยาศาสตร์ยังต้องการการสังเคราะห์เพื่อกระตุ้นความก้าวหน้า
“ สำหรับการตรวจจับที่เชื่อถือได้ระบบเพิ่มจะต้องมีความแข็งแกร่งต่อเทคนิคที่เกิดขึ้นใหม่และไม่รู้จักที่ไม่รู้จักให้หลักฐานที่สมเหตุสมผลสำหรับการตัดสินใจของพวกเขาและบูรณาการอย่างราบรื่นกับเครื่องมือตรวจจับอื่น ๆ ” นักวิทยาศาสตร์เขียนการศึกษาอย่างต่อเนื่องที่ได้รับทุนจากสถาบันยุติธรรมแห่งชาติ (NIJ)
หนึ่งในนักวิทยาศาสตร์คุณ (นีล) จางผู้สมัครปริญญาเอกที่ห้องปฏิบัติการวิจัยข้อมูลเสียงที่มหาวิทยาลัยโรเชสเตอร์จะนำเสนอผลการวิจัยของกลุ่มในช่วงกการนำเสนอสัปดาห์หน้าในการประชุมวิชาการระดับบัณฑิตศึกษาทางนิติวิทยาศาสตร์ของสถาบันนิติวิทยาศาสตร์แห่งชาติ 2567 ซึ่งจัดทำโดยศูนย์เทคโนโลยีนิติเวชแห่งความเป็นเลิศของ NIJ
ทีมกำลังทำงานเกี่ยวกับ“ วิธีการเรียนรู้แบบชั้นเดียวที่ทำให้การกระจายตัวของการเป็นตัวแทนการพูดโดยสุจริตในขณะที่ผลักดันการโจมตีแบบลึกออกไปซึ่งจะช่วยเพิ่มประสิทธิภาพการตรวจจับเฟรมเวิร์กนี้ยังกระตุ้นให้เกิดการแยกส่วนลึกในพื้นที่ฝังตัว
ในกระดาษการตรวจจับเสียง Deepfake พูดคุยกันหรือไม่ซึ่งได้รับการตีพิมพ์เมื่อเดือนที่แล้วนักวิจัยจากมิวนิคสถาบัน Fraunhofer ที่ใช้เพื่อการประยุกต์และบูรณาการของประเทศเยอรมนีมหาวิทยาลัยมิวนิคและเบอร์ลินจากกรุงเบอร์ลินทำไมนก GmbH กล่าวว่า แต่พวกเขากล่าวว่า“ ในขณะที่นักวิจัยได้นำเสนอรูปแบบการเรียนรู้ลึกต่าง ๆ สำหรับการตรวจจับการปลอมแปลงเสียง แต่ก็มักจะไม่ชัดเจนว่าทำไมสถาปัตยกรรมเหล่านี้ถึงประสบความสำเร็จ: ขั้นตอนการประมวลผลล่วงหน้าการตั้งค่าไฮเปอร์พารามิเตอร์และระดับของการปรับจูนไม่สอดคล้องกันในงานที่เกี่ยวข้อง
ในบทสรุปของพวกเขานักวิจัยกล่าวว่าพวกเขาพบว่า“ ความสามารถในการวางนัยทั่วไปของ 'in-the-wild' ของหลายรุ่นอาจได้รับการประเมินมากเกินไปเราแสดงให้เห็นสิ่งนี้โดยการรวบรวมชุดข้อมูลเสียงลึกของเราเองและประเมินสถาปัตยกรรมแบบจำลองที่แตกต่างกันสิบสองตัว Deepfakes นั้นยากที่จะตรวจจับนอกห้องแล็บมากกว่าที่คิดไว้ก่อนหน้านี้”
ในทำนองเดียวกันในบทความของพวกเขาที่ตีพิมพ์ในเดือนมิถุนายนยากหรือแตกต่าง? ทำความเข้าใจการตรวจจับเสียงทั่วไปของเสียง Deepfakeนักวิจัยจากสถาบัน Fraunhofer เพื่อความปลอดภัยที่ใช้และบูรณาการ EuRECOM บัณฑิตวิทยาลัยและศูนย์วิจัยในสาขาวิทยาศาสตร์ดิจิตอลที่ Institut Mines-Télécom; และ Pindrop, USA กล่าวว่า“ การทดลองที่ดำเนินการโดยใช้ฐานข้อมูล ASVSPOOF บ่งชี้ว่าองค์ประกอบความแข็งนั้นเล็กน้อยในทางปฏิบัติโดยมีช่องว่างการปฏิบัติงานที่เกิดจากส่วนประกอบที่แตกต่าง” และ“ สิ่งนี้มีผลโดยตรงสำหรับการตรวจจับความเป็นจริง
ในของพวกเขาวารสารกระดาษระบบไฟฟ้า-การตรวจจับเสียง Deepfake ที่มีประสิทธิภาพโดยใช้การวิเคราะห์ทางสเปกตรัมและการเรียนรู้อย่างลึกซึ้งผู้เขียนยอมรับว่า“ ด้วยความก้าวหน้าของเทคโนโลยี Deepfake โดยเฉพาะอย่างยิ่งในโดเมนเสียงจึงมีความจำเป็นที่จำเป็นสำหรับกลไกการตรวจจับที่แข็งแกร่งเพื่อรักษาความปลอดภัยและความสมบูรณ์แบบดิจิทัล” อย่างไรก็ตามพวกเขากล่าวว่า“ โดยการบูรณาการการวิเคราะห์สเปกตรัมขั้นสูงเข้ากับรูปแบบการเรียนรู้ลึกแบบไฮบริด” พวกเขาสามารถพัฒนา“ กรอบที่แข็งแกร่ง [นั่นคือ] สามารถแยกแยะระหว่างของแท้และเสียงที่มีความแม่นยำสูง”
ในกระดาษของพวกเขาการตรวจจับเสียงแบบ deepfake: การโจมตีของฝ่ายตรงข้ามและการตอบโต้เผยแพร่ในสัปดาห์นี้ในระบบผู้เชี่ยวชาญพร้อมแอปพลิเคชันผู้เขียน Mouna Rabhi วิทยาลัยวิทยาศาสตร์และวิศวกรรมศาสตร์มหาวิทยาลัย Hamad bin Khalifa, Doha, กาตาร์; Spiridon Bakiras, สถาบันเทคโนโลยีสิงคโปร์; และ Roberto di Pietro, King Abdullah University of Science and Technology, Saudi Arabia เขียนว่า“ เสียงเป็นทรัพยากรที่ทรงพลังสำหรับการตรวจสอบความถูกต้องทางชีวภาพเสมอ: ดังนั้นระบบการตรวจสอบเสียง AI ที่ใช้ AI จำนวนมาก ใช้ประโยชน์จาก Ai-Generated Deepfake Audio”
ทีมวิจัยสรุปว่า“ การโจมตีที่เป็นปฏิปักษ์กับ GAN นั้นค่อนข้างมีประสิทธิภาพในรูปแบบที่ผ่านการฝึกอบรม DNN และอาจทำให้เกิดภัยคุกคามร้ายแรงต่อเครื่องตรวจจับ DNN อย่างไรก็ตามการโจมตีดังกล่าวยังไม่ได้รับการแก้ไขในบริบทของการตรวจจับเสียง
นักวิจัยกล่าวว่าพวกเขา“ พยายามเติมเต็มช่องว่างนี้โดยแสดงให้เห็นว่าเครื่องตรวจจับเสียงที่ล้ำสมัยสามารถผ่านได้อย่างง่ายดายหากคาดว่าโดยทั่วไปในวรรณคดีฝ่ายตรงข้ามมีความรู้เกี่ยวกับสถาปัตยกรรมของเครื่องตรวจจับและชุดข้อมูลที่ใช้สำหรับการฝึกอบรม”
นักวิจัยกล่าวเพิ่มเติมว่าพวกเขาสามารถ“ แสดงให้เห็นว่าตัวจําแนกที่ล้ำสมัยของเสียง Deepfake นั้นมีความเสี่ยงต่อการโจมตีของฝ่ายตรงข้าม”
ในงานนำเสนอเมื่อสัปดาห์ที่แล้วที่ Interspeech 2024 ใน KOS, กรีซ, นักวิจัยนำเสนอบทความของพวกเขาการติดตามแหล่งที่มาของระบบเสียง Deepfake- ทีมกล่าวว่า“ ในขณะที่การวิจัยในปัจจุบันเกี่ยวกับระบบต่อต้านการลวก ๆ มุ่งเน้นไปที่การประเมินว่าตัวอย่างเสียงที่กำหนดนั้นเป็นของปลอมหรือของแท้มีความสนใจ จำกัด ในการแยกแยะเทคนิคเฉพาะเพื่อสร้างเสียงลึกเสียงอัลกอริทึมที่ใช้กันทั่วไป
นักวิจัยแนะนำ“ ระบบที่ออกแบบมาเพื่อจำแนกคุณลักษณะการปลอมแปลงต่าง ๆ โดยจับคุณสมบัติที่โดดเด่นของแต่ละโมดูลตลอดทั้งท่อส่งข้อมูล” และประเมิน“ ระบบในชุดข้อมูลสองชุด: ASVSPOOF 2019 การเข้าถึงเชิงตรรกะและการป้องกันการปิดกั้นเสียงที่แตกต่างกัน
นักวิจัยที่ Federal University of Ceará, Campus de Sobral ประเทศบราซิลได้ทำการวิจัยที่มีแนวโน้ม พวกเขาระบุไว้ในกระดาษคำพูดการตรวจจับเสียง Deepfake ผ่านเครือข่ายประสาทแบบ Convolutionalตีพิมพ์ในการประชุมนานาชาติ IEEE ปี 2024 เกี่ยวกับระบบการพัฒนาและการปรับตัวที่ปรับตัวได้ว่า“ การทดลองภายใต้การทดลองกับสัญญาณตัวอย่างการพูดที่รวบรวมจากชุดข้อมูลเสียงหลายชุดได้ดำเนินการเพื่อค้นหาเครือข่ายประสาทสัมผัสที่ดีที่สุด (CNN) โทโพโลยีที่ดำเนินการตรวจจับในแง่ของความถูกต้อง
รายงานว่า“ คะแนนความแม่นยำที่ดีที่สุดที่พบคือ: 99 เปอร์เซ็นต์สำหรับชุดข้อมูลสำหรับชุดข้อมูล 94 เปอร์เซ็นต์สำหรับ ASV และ 98 เปอร์เซ็นต์สำหรับการถ่ายคลื่นการฝึกอบรมแบบจำลองด้วยชุดข้อมูลทั้งหมดเข้าด้วยกันและทดสอบชุดข้อมูลแต่ละชุดให้ความแม่นยำ 98 เปอร์เซ็นต์
“ ผลลัพธ์เหล่านี้เข้ากันได้กับที่พบในล้ำสมัยพิสูจน์ความมีชีวิตของแบบจำลอง” นักวิจัยกล่าว
ในกระดาษของพวกเขาAASIST3: การตรวจจับคำพูด AASIST ที่เพิ่มขึ้นของ KAN โดยใช้คุณสมบัติ SSL และการทำให้เป็นมาตรฐานเพิ่มเติมนำเสนอใน ASVSPOOF 2024 ล่าสุดนักวิจัยกล่าวว่าในขณะที่“ ความก้าวหน้าของอัลกอริทึมการเรียนรู้อย่างลึกซึ้งได้เปิดใช้งานการสร้างเสียงสังเคราะห์ผ่านระบบการพูดและการแปลงด้วยเสียงแบบข้อความและเสียง เทคนิคก่อนการเน้นพวกเขาสามารถบรรลุ“ การปรับปรุงประสิทธิภาพมากกว่าสองเท่า…เพิ่มการตรวจจับเสียงสังเคราะห์และการปรับปรุงความปลอดภัยของ ASV อย่างมีนัยสำคัญ”
ถึงกระนั้นปัญหายังคงเป็นสิ่งที่ท้าทาย เจนนิเฟอร์วิลเลียมส์อาจารย์ที่มหาวิทยาลัยเซาแธมป์ตันซึ่งเชี่ยวชาญด้านความปลอดภัยของเสียง AI บอกกับสถาบัน Poynter เมื่อต้นปีที่ผ่านมาว่า“ การตรวจจับเสียง Deepfakes เป็นพื้นที่วิจัยที่ใช้งานอยู่ซึ่งหมายความว่าปัจจุบันเป็นปัญหาที่ยังไม่ได้รับการแก้ไข”
หัวข้อบทความ
การตรวจจับไบโอเมตริกซ์-การวิจัยทางชีวภาพ-การตรวจจับ deepfake-เฟลค์-การป้องกันการฉ้อโกง-เสียงชีวภาพ