合成數據可用於改善生物識別機器學習模型和AI應用程序。創新首席執行官JánLunter,但是有限制和謹慎的原因。
這些見解來自有關Lunter撰寫的主題的研究論文。 “合成數據:消除生物識別偏見的真正途徑”在《 2023年》雜誌上發表了今天的生物識別技術。
在生物識別算法培訓中,合成數據最明顯的潛在優勢之一是訓練數據集的平衡不成比例地構成白人,導致人口統計學績效差異或“偏見”。 Lunter寫道,在性別,種族和其他少數民族中通常發現差距。
該論文說,合成數據還可以幫助解決與“冷啟動”有關的問題,並且用於訓練潛在指紋生物識別識別系統的數據不足。
Innovatrics成功地使用合成數據來訓練OCR算法讀取ID文檔在另一個例子中由不同國家發行。
對合成數據的過度依賴也可能產生負面後果。隨著它變得更便宜和更容易獲得,組織可能會被遺棄從現實生活中放棄數據,從而引入風險,即他們的AI系統可能比現實更遠。
Lunter告訴生物識別更新在電子郵件聲明中。
“如果測試和驗證數據是現實的並且沒有偏見,我們會在培訓中使用合成數據接近零風險。”
隨著合成數據的現實主義的改善,Lunter還表示,它可以用於產品測試和驗證。
Lunter說:“合成數據的最大優勢是,它可以在整個組織中很容易共享,因此可以在多個層面上獨立驗證,涉及多個政黨。” “實際數據通常是秘密的,因此獨立方面不能輕易地測試偏見,因此,它比合成數據更不可能實現。”
Lunter建議組織考慮使用合成數據來建立一種強大的文化,能夠理解與員工(包括法律團隊)使用相關的風險。公司還應驗證其外包的合成數據的價值,並考慮何時更合適的現實數據。
研究表明固體生物識別精度只能通過合成數據來實現,但不足以與最新技術競爭。