ซานฟรานซิสโกได้ประกาศเปิดตัวรูปแบบการถอดรหัสแบบเรียลไทม์แบบเรียลไทม์ (STT) แบบเรียลไทม์ NOVA-3 ซึ่งมีการเปิดตัวเรียกว่า“ โมเดล AI เสียงแรกของอุตสาหกรรมเพื่อเปิดใช้งานการปรับแต่งแบบบริการตนเองช่วยให้ผู้ใช้ปรับโมเดลสำหรับโดเมนพิเศษโดยไม่ต้องใช้ความเชี่ยวชาญในการเรียนรู้ของเครื่อง”
ในการอนุญาตให้ปรับแต่งได้ง่ายและใช้งานง่าย บริษัท Nova-3 กล่าว“ ผลักดันขอบเขตของการถอดความที่ขับเคลื่อนด้วย AI ซึ่งนำเสนอความแม่นยำที่ไม่มีใครเทียบในสภาพแวดล้อมเสียงที่ท้าทายในขณะที่เสนอการปรับแต่งการบริการตนเองที่ยืดหยุ่นและมีความยืดหยุ่นเพื่อปรับผลลัพธ์ตามความต้องการเฉพาะอุตสาหกรรม”
ผลิตภัณฑ์ NOVA-3 ดีขึ้นในรุ่นก่อนในแง่ของความแม่นยำและประสิทธิภาพในสภาวะอะคูสติกที่ไม่พึงประสงค์ที่พบในสถานการณ์จริงเช่นในการควบคุมการจราจรทางอากาศ, Drive-Thrus และ- ด้วยสิ่งที่ DeepGram เรียกว่า "ความแม่นยำเฉพาะโดเมน" NOVA-3 ใช้ประโยชน์จาก "ขั้นสูงพื้นที่แฝงสถาปัตยกรรมเพื่อเข้ารหัสรูปแบบการพูดที่ซับซ้อนเป็นตัวแทนที่มีประสิทธิภาพสูง”
นั่นหมายความว่าแม้ในสภาพแวดล้อมที่มีเสียงดังการถอดความสามารถแสดงผลได้ด้วยความแม่นยำและความแม่นยำเนื่องจากอัลกอริทึมการเรียนรู้ของเครื่อง Nova-3 สามารถบีบอัดและกลั่นได้ข้อมูลมีประสิทธิภาพมากขึ้น
การสับทางภาษาของแบบจำลองนั้นมีการสนับสนุนหลายภาษาแบบเรียลไทม์และการรับรู้ภาษาเฉพาะอุตสาหกรรมเพื่อรับรู้คำศัพท์เฉพาะด้านในสาขาต่าง ๆ เช่นการถอดความทางการแพทย์และกฎหมาย มันให้ข้อมูลบริบทและการวิเคราะห์ที่ได้รับการปรับปรุง ความสามารถในการจัดการข้อมูลได้รับการปรับปรุงด้วยการวัดเชิงตัวเลขที่แม่นยำและการตอบสนองแบบเรียลไทม์ของข้อมูลที่ละเอียดอ่อนสำหรับการปฏิบัติตามและ-
และด้วยการแจ้งเตือน Keyterm นักพัฒนาสามารถปรับปรุงความแม่นยำโดยการเพิ่มประสิทธิภาพคำสำคัญสูงสุด 100 คำทำให้การปรับใช้มีประสิทธิภาพมากขึ้นและประหยัดค่าใช้จ่าย
“ Nova-3 แสดงให้เห็นถึงการก้าวกระโดดที่สำคัญไปข้างหน้าขยายขอบเขตของความแม่นยำแบบเรียลไทม์ในขณะที่โค้งงอค่าใช้จ่ายอีกครั้ง-องค์ประกอบที่สำคัญสองประการสำหรับกรณีการใช้งานการพูดขององค์กรต่อการพูด “ ด้วยการบูรณาการการปรับปรุงสถาปัตยกรรมขั้นสูงและการฝึกอบรมอย่างกว้างขวางในชุดข้อมูลที่หลากหลายเราได้พัฒนาแบบจำลองที่ไม่เพียง แต่ตรงตามความต้องการที่พัฒนาขึ้นของลูกค้าของเราในอุตสาหกรรมต่างๆ”
แพลตฟอร์มของ DeepGram นำเสนอความสามารถในการพูดแบบ text-to-speech (TTS) และความสามารถในการพูดแบบคำพูดเต็มรูปแบบ (STS) ในชุดคลาวด์หรือ API ที่โฮสต์ตนเอง ตามการเปิดตัวรันไทม์ประสิทธิภาพสูงนั้นรวมถึง“ ความสามารถในการทำงานของระบบอัตโนมัติและข้อมูลที่ทรงพลังเช่นการสร้างและการดูแลแบบจำลอง-พร้อมกับการผสมผสานแบบร้อนและการรวมที่แข็งแกร่งช่วยให้นักพัฒนาสามารถสร้างแอพพลิเคชั่นที่เปิดใช้งานและปรับขนาดเสียงได้อย่างมีประสิทธิภาพ”
Deepgram สำรอง PR ด้วยการประเมินผลการเปรียบเทียบในการเปรียบเทียบเพื่อความแม่นยำในการถอดความ “ NOVA-3 มีประสิทธิภาพเหนือกว่าคู่แข่งทั้งในกรณีการใช้งานและการสตรีมโดยมีอัตราข้อผิดพลาดคำที่ต่ำกว่าอย่างต่อเนื่องซึ่งผลักดันประสิทธิภาพที่เหนือกว่าในสภาพแวดล้อมเสียงในโลกแห่งความเป็นจริงรวมถึงสถานการณ์หลายภาษา” การเปิดตัวกล่าว
คุณสมบัติการพูดได้หลายภาษาของ Nova-3 ซึ่งออกแบบมาเพื่อให้ บริษัท สามารถขยายระดับทั่วโลกได้ดีกว่าเสียงกระซิบของการทดสอบในเจ็ดภาษา
หัวข้อบทความ
--