บริษัท ปัญญาประดิษฐ์ที่ตั้งอยู่ในปักกิ่ง (AI)ดาต้าได้อัปเดตฐานข้อมูลการจดจำอักขระออพติคอล (OCR) เพื่อรวมอักขระที่เขียนด้วยลายมือ 5,000 ตัวในภาษาจีนดั้งเดิม
ในการทุ่มเทหน้าเว็บสำหรับชุดใหม่ Datatang กล่าวว่าตัวละครถูกรวบรวมโดยตัวอย่างต่าง ๆ ที่เขียนลงบนกระดาษ A4 กระดาษสี่เหลี่ยมและกระดาษที่มีเส้นสาย
ด้วยการเพิ่มอักขระลงในชุดซอฟต์แวร์ Datatang ช่วยให้ลูกค้าสามารถใช้งานได้OCRของตัวละครจีนดั้งเดิมที่สอดคล้องกันเมื่อพบพวกเขาในป่า กล่าวอีกนัยหนึ่งโดยการสแกนข้อความผ่านสมาร์ทโฟนและแอพ Datatang ตอนนี้ผู้ใช้จะสามารถป้อนข้อมูลโดยอัตโนมัติและกรอกแบบฟอร์ม
OCR บางครั้งถูกนำไปใช้สำหรับการสแกนเอกสารในการตรวจสอบตัวตนดิจิตอลและแอปพลิเคชัน onboarding
ตามที่ บริษัท ระบุข้อผิดพลาดของจุดสุดยอดแต่ละตัวของกล่องขอบเขตสี่เหลี่ยมรอบตัวละครแต่ละตัวอยู่ภายในห้าพิกเซลสำหรับคำอธิบายประกอบที่ผ่านการรับรอง ความแม่นยำของกล่องขอบเขตและความแม่นยำในการถอดความข้อความนั้นมีรายงานว่าไม่น้อยกว่า 97 เปอร์เซ็นต์
การเพิ่มชุดข้อมูลใหม่มาหลายเดือนหลังจากผู้บริหาร Datatang กล่าวว่าชุดข้อมูลการรู้จำเสียงพูดของพวกเขาถูกสร้างขึ้นด้วยลำโพงภาษาแม่และเกินมาตรฐานของอุตสาหกรรม
เมื่อเร็ว ๆ นี้ บริษัท ได้จัดแสดงเทคโนโลยีการสร้างข้อมูลสังเคราะห์ในการประชุมปี 2022 เรื่องการมองเห็นและการจดจำรูปแบบคอมพิวเตอร์ (CVPR 2022)