Arkx ดีได้เริ่มต้นพันธมิตรใหม่กับประสาทสัมผัสเพื่อรวมเครื่องมือทางชีวภาพเสียงและใบหน้าภายใน ARKX พร้อมใช้งานทุกคำตอบแบบ Touchless Voice Solutions
การทำงานร่วมกันทางชีวภาพในขณะนี้จะช่วยให้ลูกค้า ARKX สามารถเข้าถึงพลังที่ต่ำเป็นพิเศษ“ การฟังเสมอ” และคุณสมบัติการควบคุมแบบไม่สัมผัสตามธรรมชาติรวมถึงการรองรับมากกว่า 20 ภาษาห้องสมุดที่ตั้งไว้ล่วงหน้าของคำปลุกและความสามารถในการสร้างแบบกำหนดเอง
“ แบรนด์ต้องการสร้างประสบการณ์เสียงแบรนด์ของตัวเองมากขึ้นสำหรับลูกค้าของพวกเขา” Eric Bauswell ซีอีโอของ Arkx อธิบาย
“ การทำงานกับ Sensory เราได้รวมชุดความสามารถขั้นสูงที่ทรงพลังซึ่งช่วยให้ OEM สามารถขัดขวางสถานะที่เป็นอยู่ของ 'ดีพอ' ที่จะส่งมอบประสิทธิภาพการจดจำคำพูดที่ทันสมัยให้กับลูกค้าของพวกเขา” เขากล่าวเสริม
จากมุมมองทางเทคนิค Everyword Ultra Portfolio ประกอบด้วยโมดูลการประมวลผลเสียง Front End (AFE) เสียงโมดูลเสียงแบบรวม (SOM + Audio Board w/AFE) และชุดพัฒนาบริการเสียง Amazon (AVS)
เทคโนโลยีเสียงและเสียงขั้นสูงสนับสนุนทั้งการรู้จำเสียงพูดของมนุษย์กับมนุษย์และมนุษย์
“ การยอมรับด้วยเสียงยังคงเติบโตอย่างรวดเร็วและแบรนด์ต่าง ๆ มักจะสำรวจวิธีการปรับปรุงกระบวนการรวม UX เสียงที่สะดวกสบายเข้ากับผลิตภัณฑ์ของพวกเขา” Todd Mozer ซีอีโอของ Biometrics Firm Sensory
การปรับใช้ทั่วไป ได้แก่ อุปกรณ์อิเล็กทรอนิกส์สำหรับผู้บริโภคเครื่องใช้ในบ้านหุ่นยนต์ยานยนต์อุปกรณ์สวมใส่ของเล่นและ IoT (Internet of Things)
“ การทำงานกับ ARKX Labs ช่วยให้อุตสาหกรรมมีโซลูชันแบบเทิร์นคีย์สำหรับการรวมความสามารถในการจดจำคำพูดขั้นสูงเข้ากับผลิตภัณฑ์ของพวกเขาที่สามารถเปิดใช้งานคำปลุกเฉพาะของแบรนด์ OEM และชุดคุณสมบัติขั้นสูงอื่น ๆ ที่น่าดึงดูดใจ” Mozer กล่าวสรุป
การเป็นหุ้นส่วนมาหลายสัปดาห์หลังจากประสาทสัมผัสเปิดตัวเวอร์ชันเบต้าจากแพลตฟอร์มเทียมใหม่-(AI-) เป็นแพลตฟอร์ม AS-A-Service
STC รายงานผลลัพธ์ที่แข็งแกร่ง NIST SRE21
ศูนย์เทคโนโลยีการพูดได้ประกาศประสิทธิภาพที่แข็งแกร่งในการทดสอบการจดจำลำโพงไบโอเมตริกซ์โดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติของสหรัฐอเมริกา
สำหรับ NIST 2021 การรับรู้การจดจำลำโพง (SRE) อัลกอริธึมการจดจำเสียงได้รับการประเมินสำหรับการแสดงของพวกเขาด้วยเสียงจากคำพูดโทรศัพท์สนทนาเสียงจากวิดีโอและวิดีโอด้วย STC รวมการใช้งานใบหน้าและเสียงไบโอเมตริกในกรณีหลังเพื่อระบุลำโพง
การอัปเดตวันที่ 26 มกราคมของลีดเดอร์บอร์ดแสดงรายการ STC ที่สองด้วยอัตราความผิดพลาดเท่ากัน 2.48 เปอร์เซ็นต์ (EER) ที่จุดปฏิบัติการขั้นต่ำ (MIN_C) ที่ 0.074 และจุดปฏิบัติการจริง (ACT_C) ที่ 0.079
STC กล่าวว่ามันเป็นหนึ่งในผู้ให้บริการชีวภาพรายแรกที่ประสบความสำเร็จในการผสานหม้อแปลงและรูปแบบการเรียนรู้ของเครื่อง WAV2VEC โดยทั่วไปแล้วโมเดลหม้อแปลงจะใช้ในการมองเห็นคอมพิวเตอร์และการประมวลผลภาษาธรรมชาติในขณะที่ WAV2VEC เป็นรูปแบบการจดจำคำพูดทั่วไป การรวมกันของพวกเขาลดข้อผิดพลาดในการรับรู้ของผู้พูดตามประกาศ
“ การวิเคราะห์คำพูดให้ข้อมูลเชิงลึกเกี่ยวกับความพึงพอใจของลูกค้าและคุณภาพการสนทนาเพื่อปรับปรุงประสบการณ์ของลูกค้าอย่างต่อเนื่อง” Dmitriy Dyrmovskiy CEO CEO ของศูนย์กล่าว “ ยิ่งไปกว่านั้นการรับรู้ของผู้พูดที่มีคุณภาพสูงเป็นสิ่งจำเป็นสำหรับระบบไบโอเมตริกซ์ทั่วประเทศ NIST SRE21 เป็นการแข่งขันที่ห้าในปี 2564 ที่เทคโนโลยีการพูดสามารถแก้ปัญหาได้รับคะแนนสูงโดยคณะลูกขุนของผู้เชี่ยวชาญด้านการพูด นำไปสู่ระดับต่อไปโดยแสดงความสามารถหลักของเราในตลาดโลกอย่างเหมาะสม”
Speechmatics เผยแพร่รายงานการรู้จำเสียงพูด
รายงานเสียง 2022 ครอบคลุมหัวข้อต่าง ๆ ที่เกี่ยวข้องกับเสียงชีวภาพรวมถึงประวัติความเป็นมาของเทคโนโลยีเสียงตั้งแต่ปี 1950 จนถึงการระบาดใหญ่
เอกสารดังกล่าวรวมถึงข้อมูลเชิงลึกจากผู้เชี่ยวชาญในอุตสาหกรรมผู้เชี่ยวชาญด้านผลิตภัณฑ์และวิศวกรการเรียนรู้ของเครื่องโดยเน้นไปที่อคติ AI และอนาคตของเทคโนโลยีเสียง
ตามรายงานพบว่าอุปกรณ์ประมาณ 8.4 พันล้านเครื่องจะใช้ผู้ช่วยเสียงภายในปี 2567 และตลาด API คำพูดถึงข้อความอาจเติบโตในอัตราการเติบโตประจำปี (CAGR) ที่ 19.2 เปอร์เซ็นต์ระหว่างปี 2564 และ 2569
ท่ามกลางการค้นพบข้อมูลที่สำคัญคำพูดอ้างความแม่นยำของผู้พูดที่เพิ่มขึ้น (กระบวนการแบ่งพาร์ติชันกระแสเสียงเข้าสู่ส่วนที่เป็นเนื้อเดียวกันตามตัวตนของผู้พูด) เป็นคุณลักษณะที่ต้องการมากที่สุดในอีกสามปีข้างหน้า
ในแง่ของอคติ AI รายงานได้พบปัญหาหลักในภาษาถิ่นและสำเนียงซึ่งตามบัญชีที่สำรวจมากกว่า 50 เปอร์เซ็นต์ของกรณี
“ ถ้าเราให้รูปแบบการฝึกอบรมที่ได้รับความหลากหลายของเสียงที่หลากหลายมันควรจะคุ้นเคยกับพวกเขาในขณะที่มันไม่ได้เป็นการแก้ไขการรักษาทั้งหมดการเปิดรับแสงเป็นสิ่งสำคัญสำหรับการลดอคติ AI” รายงานอ่าน
นอกจากนี้ Speechmatics ยังกล่าวอีกว่าในขณะที่ข้อมูลไม่ใช่วิธีเดียวที่จะจัดการกับอคติ AI แต่เป็นปัจจัยสำคัญ
“ ซึ่งเป็นเหตุผลว่าทำไมการเรียนรู้ที่ดูแลตนเอง (พิสูจน์แล้วว่าประสบความสำเร็จกับปริมาณข้อมูลที่สามารถฝึกอบรมได้) เป็นปัจจัยสำคัญในการปรับปรุงความแม่นยำในการรู้จำเสียงพูดอัตโนมัติ (ASR)”
และตามเอกสารการเรียนรู้ด้วยตนเองไม่เพียง แต่เป็นทางออกสำหรับอคติ AI เท่านั้น แต่ยังรวมถึงอนาคตของการจดจำคำพูดด้วย
“ เมื่อเรามองไปสู่อนาคตเราสามารถเห็นได้อย่างชัดเจนว่ามีข้อมูลเพิ่มเติมในการฝึกอบรมมากขึ้นมีโอกาสมากขึ้นในการเปลี่ยนแปลงที่มีความหมายทั่วทั้งอุตสาหกรรม - และสามารถได้ยินเสียงและภาษามากขึ้นเรื่อย ๆ ” จอห์นฮิวจ์หัวหน้าฝ่ายความแม่นยำที่พูด
ที่รายงานเสียง 2022มีให้บริการต่อสาธารณะในเว็บไซต์ Speechmatics
หัวข้อบทความ
ไบโอเมตริกซ์-คนที่มีความสำคัญ-การวิจัยและพัฒนา-ประสาทสัมผัส-การจดจำลำโพง-คำพูด-คำพูด-เสียงชีวภาพ