การสำรวจการตลาดเมื่อเร็ว ๆ นี้ได้รับทุนจาก บริษัท ชีวภาพเสียงพบว่าผู้ตอบแบบสอบถามส่วนใหญ่มีความกังวลเกี่ยวกับการคุกคามของ deepfakes และโคลนเสียง
บริษัทPindropจัดสัมมนาผ่านเว็บเพื่อหารือเกี่ยวกับการสำรวจ ผู้บริโภคที่ทำการสำรวจมีแนวโน้มที่จะรายงานความรู้สึกเชิงลบเกี่ยวกับการโคลนนิ่งเสียงและ deepfakes แต่ผลรวมไม่ได้รับการขนานนามอย่างมหาศาล Synthedia ทำการวิจัย
สามารถตรวจพบ Voice Deepfakes ด้วยซอฟต์แวร์ได้ แต่เทคโนโลยียังคงสุกงอมอยู่เช่นกันเหมือนกันผู้นำด้านเทคนิคของ AI สำหรับ Biometrics Piotr Kawa อธิบายในการสัมมนาผ่านเว็บอีกครั้งกับสมาชิกของคนที่มีความสุข(สมาคมยุโรปเพื่อชีวภาพ)
ความคิดเห็นของผู้บริโภคมีเหตุผลที่ดีตาม Pindrop Webinar Prinerist Bret Kinsella ซีอีโอและผู้อำนวยการวิจัยของสำนักพิมพ์การค้า VoiceBot.ai
“ ระดับของการรับรู้ (ในหมู่ผู้บริโภค) สูงกว่าที่ฉันคิดว่ามันจะเป็น” Kinsella กล่าว การรับรู้ไม่ได้เป็นเพียงข้อมูลเชิงลึกจากการสำรวจที่จับตามอง
22.3 เปอร์เซ็นต์ของผู้บริโภคที่สำรวจเกี่ยวกับ Deepfakes กล่าวว่าพวกเขารู้สึกเป็นบวกอย่างมากเกี่ยวกับการใช้ซอฟต์แวร์ และผู้คนร้อยละ 22.3 ถามคำถามเดียวกันบอกว่าพวกเขารู้สึกเป็นลบมาก
เมื่อนักสำรวจถามผู้บริโภคเกี่ยวกับเสียงโคลนเป็นแนวคิดประมาณ 18.8 เปอร์เซ็นต์เห็นคว่ำสูงสุด ผู้คนจำนวนมากเป็นลบมาก - 21.6 เปอร์เซ็นต์ - เกี่ยวกับโคลนเสียง
ในบรรดาข้อดีผู้ตอบแบบสอบถามบางคนเห็นทั้งเสียงโคลนนิ่งและ Deepfakes ได้รับการปรับปรุงความบันเทิง ไม่น่าแปลกใจที่คนที่กังวลมากขึ้นเห็นความเป็นไปได้ในเชิงลบของการแอบอ้างและปัญหาอื่น ๆ
โซเชียลมีเดียเป็นที่ที่คนส่วนใหญ่พบวิดีโอและเสียง ตามลำดับจากมากไปน้อย: YouTube, Tik Tok, Instagram และ Facebook หลังจากนั้นมันเป็นภาพยนตร์และสิ่งพิมพ์ข่าว
Kinsella กล่าวว่าเป็นปัญหาเพราะมันยากที่จะตรวจจับ deepfakes และ clones เสียงเมื่อมีคนหันเหความสนใจ
การแข่งขันนี้กับการวิจัย Kawa อ้างถึงที่ตีพิมพ์ย้อนกลับไปในปี 2564 ซึ่งพบว่ามีผู้เข้าร่วมเพียง 80 เปอร์เซ็นต์ในการศึกษาสามารถระบุความถูกต้องของเนื้อหาได้อย่างถูกต้อง อัลกอริทึมการตรวจจับที่ตั้งอยู่ในงานเดียวกันนั้นถูกต้อง 95 เปอร์เซ็นต์ของเวลา การศึกษาที่ตามมาไม่มั่นใจอีกต่อไป
การสร้างทรัพยากรเพื่อตอบสนองความท้าทายทั่วไป
Kawa เริ่มพูดคุยกับ EAB Lunch ล่าสุดด้วยภาพรวมของการสังเคราะห์เสียงพูดและผลกระทบที่เกิดขึ้นจาก AI มีอยู่ในสนาม เครื่องมือ SaaS เชิงพาณิชย์และเครื่องมือโอเพนซอร์ซที่หลากหลายสำหรับการสังเคราะห์การพูดมีอยู่อย่างกว้างขวางทำให้“ ค่อนข้างง่าย” ในการสังเคราะห์คำพูดตาม Kawa
เขาแยกความแตกต่างระหว่างข้อความถึงการพูด (TTS) และการแปลงด้วยเสียงซึ่งคนคนหนึ่งทำเสียงเหมือนอีกคนหนึ่ง สามารถใช้เพื่อทำการโจมตีด้วยเสียง Deepfake
วิธีการตรวจจับ Deepfake ในปัจจุบันส่วนใหญ่อาศัยอัลกอริทึมการเรียนรู้ลึกที่พัฒนาโดยนักวิจัยชีวภาพและส่วนใหญ่ขึ้นอยู่กับการค้นหาสิ่งประดิษฐ์ที่เหลืออยู่โดยอัลกอริทึมการพูดสังเคราะห์ Kawa แสดงรายการมากกว่าหนึ่งโหลแบ่งระหว่างโมเดลตามเสียงดิบโมเดลที่ใช้ส่วนหน้า, ส่วนหน้าอัลกอริทึมและการฝังด้านหน้าที่ใช้สำหรับการเรียนรู้ด้วยตนเอง
จำนวนชุดข้อมูลในการฝึกอบรมพวกเขาก็เพิ่มขึ้นอย่างรวดเร็วโดยเฉพาะในช่วงสองปีที่ผ่านมาตาม Kawa
การตรวจจับเสียง Deepfake เผชิญกับความท้าทายที่สำคัญในการวางนัยทั่วไป Kawa แสดงให้เห็นว่าแบบจำลองมีแนวโน้มที่จะทำงานได้ดีในการตรวจจับ deepfakes ที่สร้างขึ้นโดยใช้เทคนิคเดียวกับชุดข้อมูลที่รูปแบบการตรวจจับได้รับการฝึกฝน อย่างไรก็ตามสำหรับผู้ที่ทำด้วยเทคนิคที่แตกต่างกันประสิทธิภาพไม่ดี
ฐานข้อมูลการฝึกอบรมขนาดใหญ่ซึ่งรวมถึง deepfakes ที่ทำด้วยเทคนิคต่าง ๆ พร้อมกับเทคนิคการเพิ่มข้อมูลสามารถปรับปรุงผลการตรวจจับ แต่การแนะนำตัวแปรเช่นเสียงพื้นหลังที่มากขึ้น
Kawa สรุปด้วยการทบทวนปัญหาที่เปิดกว้างในการตรวจจับ Deepfake รวมถึงการวางนัยทั่วไปและการสร้างแบบจำลองที่สามารถทำงานได้อย่างรวดเร็วบนอุปกรณ์อิเล็กทรอนิกส์เกรดผู้บริโภค
หัวข้อบทความ
การวิจัยทางชีวภาพ-การตรวจจับ deepfake-คนที่มีความสุข-เหมือนกัน-Pindrop-เสียงสังเคราะห์-เสียงชีวภาพ