'สวัสดีแม่มันคือฉัน': บริการโคลนเสียงเรียกร้องให้ตรวจจับเสียงที่แข็งแกร่งขึ้น

“ AI สามารถขโมยเสียงของคุณได้และคุณไม่สามารถทำอะไรได้มากนัก”: พาดหัวล่าสุดจากพันธมิตรฟิลาเดลเฟียเอ็นบีซีสำหรับเรื่องราวที่ดูการคุกคามของบริการโคลนเสียง มันอ้างถึงรายงานผู้บริโภคใหม่การสืบสวนจากการสำรวจของเครื่องมือโคลนนิ่งเสียง AI ที่มีอยู่ในที่สาธารณะทั้งหกและพบว่าห้าคนมี“ การป้องกันที่ผ่านไม่ได้” ได้อย่างง่ายดาย”

รายงานผู้บริโภคระบุ, การพูด, playht และ lovo เป็นบริการที่“ สร้างอุปสรรคที่มีความหมายในการโคลนนิ่งเสียงของใครบางคนโดยไม่ได้รับความยินยอม” และ“ เพียงแค่ต้องการเช็คกล่องบอกว่าบุคคลที่มีเสียงถูกโคลนได้รับอนุญาต” Elevenlabs เป็นหนึ่งในไม่กี่แพลตฟอร์มที่เรียกเก็บค่าธรรมเนียมในการสร้างโคลนเสียง แต่ที่ $ 5 ป๊อปมันไม่ได้เป็นอุปสรรคต่อการมีประสิทธิภาพมากนัก-

ในการตอบสนองของมัน Elevenlabs - ซึ่งมีส่วนเกี่ยวข้องในRobocall Scam ของเดือนพฤศจิกายน 2566-กล่าวว่าเป็น“ การใช้พันธมิตรเพื่อการจัดหาเนื้อหาและความถูกต้อง (C2PA) โดยการฝังข้อมูลเมตาที่ลงนามในการเข้ารหัสภาพลงในเสียงที่สร้างขึ้นบนแพลตฟอร์มของเรา” และแสดงการคัดกรองลูกค้าเช่นเดียวกับการป้องกันมันมีการปรับใช้แล้ว

รายงานกล่าวว่าคำอธิบายและคล้ายกับ AI อีกสอง บริษัท สำรวจว่า“ ทำตามขั้นตอนเพื่อให้ลูกค้าใช้ผลิตภัณฑ์ในทางที่ผิดได้ยากขึ้นโดยการสร้างโคลนเสียงที่ไม่ได้รับความยินยอม” กระนั้นในขณะที่“ การป้องกันที่ไม่สมบูรณ์นั้นดีกว่าไม่มี” จำเป็นต้องมีการทำงานเพิ่มเติมเพื่อใช้การปกป้องที่แข็งแกร่งยิ่งขึ้นภายใต้กฎและการบังคับใช้ที่แข็งแกร่งยิ่งขึ้น

ความร่วมมือระหว่างผู้พิทักษ์ความเป็นจริง Elevenlabs ขยายชุดข้อมูลการฝึกด้วยเสียง

ในคำว่า Grace Gedye นักวิเคราะห์นโยบายผู้บริโภครายงานในกสรุปจากการสอบสวน“ เป็นที่ชัดเจนว่ามีเทคนิคที่ บริษัท สามารถใช้เพื่อทำให้ยากขึ้นเล็กน้อยในการโคลนเสียงของใครบางคนโดยไม่ได้รับความยินยอม”

แรงโน้มถ่วงของปัญหามีความชัดเจนในเงื่อนไขทางการเงิน; เมื่อเร็ว ๆ นี้โพสต์บล็อกจากCEO Ben Colman เขาอ้างถึงการศึกษาโดยศูนย์บริการทางการเงินของ Deloitte คาดการณ์ว่า AI Generative สามารถเปิดใช้งานการสูญเสียการฉ้อโกงได้ถึง 40 พันล้านดอลลาร์ในสหรัฐอเมริกาภายในปี 2570 จาก 12.3 พันล้านเหรียญสหรัฐในปี 2566 ซึ่งเป็นอัตราการเติบโตประจำปี 32 %

การทำงานร่วมกันสามารถช่วยได้ อื่นบล็อกสิ่งนี้โดยผู้พิทักษ์ความเป็นจริง CTO Ali Shahriyari ขุดเข้าไปในการเป็นหุ้นส่วนเชิงกลยุทธ์ของ บริษัท กับ Elevenlabs ซึ่งได้เห็นผู้เชี่ยวชาญในนิวยอร์ก Deepfake รวมข้อมูลการสังเคราะห์เสียงของ Elevenlabs จากแบบจำลองที่มีอยู่และอนาคตเข้ากับระบบตรวจจับ

จากข้อมูลของ Ali Shahriyari บริษัท CTO ของ บริษัท ผลกระทบได้รับการเปลี่ยนแปลง:“ ชุดข้อมูลการฝึกอบรมของเราได้รับการเสริมด้วยข้อมูลเสียงสังเคราะห์คุณภาพสูงกว่า 295 ชั่วโมงซึ่งให้ความลึกและความหลากหลายในความสามารถในการตรวจจับของเรา”

การทำงานร่วมกันของ Shahriyari กล่าวว่าได้ปรับปรุงประสิทธิภาพการสร้างข้อมูลเป็นสิบเท่าโดยเร่งความสามารถของผู้พิทักษ์ความเป็นจริงในการปรับตัวให้เข้ากับการเกิดใหม่- และ“ บางทีอาจเป็นที่สำคัญที่สุดเนื่องจากการเป็นหุ้นส่วนของเรากับสิบเอ็ดคนทีมผู้พิทักษ์ความเป็นจริงได้ขยายขีดความสามารถในการตรวจจับของเราเพื่อครอบคลุมหลายภาษาและสำเนียงซึ่งสะท้อนให้เห็นถึงธรรมชาติของโลก-

ภาษาเพิ่มเติมการฝึกอบรมเพิ่มเติมเกี่ยวกับ deepfakes เกรดเชิงพาณิชย์มากขึ้น

สิบเอ็ดคนตอนนี้แสดงถึงชุดข้อมูลการฝึกอบรมทั้งหมดของผู้พิทักษ์ความเป็นจริงประมาณ 20 เปอร์เซ็นต์เพิ่มการสัมผัสกับเสียงสังเคราะห์เกรดเชิงพาณิชย์และความหลากหลายที่สำคัญในโลกแห่งความเป็นจริง

ในทางเทคนิคการดำเนินการมุ่งเน้นไปที่สามประเด็นสำคัญ: การฝึกอบรมแบบจำลองที่ครอบคลุมเพื่อปรับปรุงความแม่นยำความสามารถหลายภาษาที่เปิดใช้งานการตรวจจับในแปดภาษาและการตรวจจับการอนุมานที่สามารถระบุเนื้อหาสังเคราะห์ได้โดยไม่คำนึงถึงต้นกำเนิด

“ ความสามารถที่เพิ่มขึ้นของเราในการระบุเสียงเกรดเชิงพาณิชย์แสดงให้เห็นถึงความก้าวหน้าที่สำคัญในการป้องกันภัยคุกคามที่ซับซ้อน” Shahriyari กล่าว “ ด้วยกระบวนการสร้างข้อมูลที่มีประสิทธิภาพมากขึ้นเราได้เร่งวงจรการพัฒนาของเราทำให้การตอบสนองเร็วขึ้นต่อเทคโนโลยีเสียงสังเคราะห์ที่เกิดขึ้นใหม่”

โพสต์เรียกหุ้นส่วน“ แบบจำลองสำหรับวิธีการบริษัท สามารถทำงานร่วมกันเพื่อให้แน่ใจว่าการพัฒนาเทคโนโลยีใหม่ที่มีประสิทธิภาพ”

การหยุดชะงักของช่องเสียง AI ช่วยให้การสนทนากับบอทอารมณ์เป็นเวลานาน

ในการตอบสนองต่อการสอบสวนรายงานผู้บริโภค Surya Koppisetti นักวิทยาศาสตร์อาวุโสที่มีความเป็นจริงที่ Reality Defender กล่าวว่า“ มีการเปลี่ยนแปลงมากมาย” ในภูมิทัศน์:“ ไม่เพียง แต่เสียงที่สร้างขึ้นก็มีความเสถียรมากสำหรับการสนทนาที่ยาวนาน แต่มันสามารถแสดงออกได้อย่างมากในอารมณ์ของมัน การรับรู้ของมนุษย์เกี่ยวกับเสียงปลอมและสิ่งที่ไม่ดีพออีกต่อไป”

อีกโพสต์โดย Colman กล่าวถึงภัยคุกคามใหม่:ช่องเสียง AI หยุดชะงักหรือ VCAD “ แตกต่างจากการปฏิเสธการบริการโทรศัพท์แบบดั้งเดิม (TDOS) ที่ใช้เสียง Ai-Generated เพื่อครอบงำระบบที่มีปริมาณการโทรสูง VCAD ใช้บอท AI สนทนาที่ซับซ้อน

“ การโต้ตอบเหล่านี้ระบายทรัพยากรขององค์กรหลบเลี่ยงกลไกการตรวจจับมาตรฐานและสร้างความเสียหายทางการเงินและชื่อเสียงที่สำคัญ” เขาอ้างถึงการศึกษาโดย TrueCaller ซึ่งพบว่าการฉ้อโกงด้วยเสียงส่งผลให้เกิดความสูญเสียประจำปี 25 พันล้านเหรียญสหรัฐในสหรัฐอเมริกา

กฎระเบียบเกี่ยวกับ Deepfakes ยังคงล้าหลังชิ้นส่วน: Colman

“ ตอนนี้เป็นเรื่องจริงที่ว่าได้มาถึงระดับความซับซ้อนที่ทำให้เป็นภัยคุกคามทันทีและต่อเนื่องต่อองค์กรสถาบันการเงินและความมั่นคงแห่งชาติ” Colman เขียน ในบล็อกเพิ่มเติม CEO (และบล็อกเกอร์ตัวยง) รวมรายการของมาตรการด้านกฎระเบียบหมายถึงการจัดการกับโรคระบาดที่ลึกล้ำ แต่กล่าวว่าระบบนิเวศน์ตามกฎระเบียบในปัจจุบันซึ่งรวมถึงกฎหมายของรัฐที่เป็นหย่อมเป็นวิธีการที่แยกส่วนที่“ ทำให้มั่นใจได้ว่าอาชญากรไซเบอร์จะยังคงใช้ประโยชน์จากความไม่สอดคล้องกันเพิ่มการสูญเสียการฉ้อโกงและทำลายความเชื่อมั่นในการสื่อสารดิจิทัล”

“ มีประสิทธิภาพมากที่สุดจะกล่าวถึงปัญหาเนื้อหาที่โดดเดี่ยว แต่เป็นเวกเตอร์ที่มีความซับซ้อนสำหรับการฉ้อโกงการแอบอ้างและสงครามข้อมูลที่คุกคามทั้งบุคคลและองค์กร” โคลแมนเขียน “ จนกว่ากฎระเบียบที่ครอบคลุมดังกล่าวจะเกิดขึ้นองค์กรจะต้องพึ่งพาการป้องกันทางเทคนิคที่ปกป้องการสื่อสารระบบการตรวจสอบและการทำธุรกรรมดิจิทัลจากการคุกคามที่เปิดใช้งาน AI ที่น่าเชื่อถือมากขึ้น”

ไม่ว่ากฎระเบียบจะสามารถก้าวไปตามภัยคุกคามได้หรือไม่เป็นคำถามที่เปิดกว้าง ในขณะที่เครื่องมือการโคลนเสียงที่เรียบง่ายสามารถเข้าถึงได้มากขึ้นผู้เล่นรายใหญ่เช่น Microsoft และจนถึงตอนนี้ได้ระงับข้อเสนอของพวกเขาจากการเปิดตัวสาธารณะที่กว้างขึ้นเพราะกลัวว่าจะใช้ในทางที่ผิด แต่เทคโนโลยีมีอยู่เพื่อกำจัดขอบเขตระหว่างเสียงมนุษย์ที่แท้จริงและและลบเส้นแบ่งระหว่างเสียงของผู้คนและเสียงของความผิดพลาด