一個研究小組已經建立了一個物理運動的數據集,這些數據集創造了語音的聲音,有一天可以用來開發語音識別系統,以綜合語音障礙者的聲音。根據期刊上發表的一篇論文科學數據。該數據庫是通過唇讀和分析面部運動的組合構建的。
該小組要求20名志願者在記錄他們的面部動作和聲音時說出一系列元音,單詞和完整的句子。
該團隊使用無線電超寬帶和頻率調製連續波雷達的頻道沖動響應數據,以捕獲參與者臉上的皮膚的運動,以及他們的舌頭和語音盒的運動。
研究人員使用了帶有高速攝像頭的激光斑點檢測系統來捕獲皮膚表面的振動。一個額外的Kinect V2攝像頭測量深度用於讀取其形狀以產生不同聲音的嘴巴的變化。
這項研究可能有一天意味著語音控制設備(例如智能手機)可以沉默地閱讀用戶的嘴唇,提高噪音環境中的呼叫質量,並被習慣身份驗證銀行業務以及通過識別用戶獨特的面部表情來確定其他敏感應用程序。換句話說,將對許多用戶進行分析為語音生物識別技術的動作將根據其嘴唇和臉部的運動來對個體進行身份驗證。
通過分析400分鐘的語音來構建的數據庫將免費提供給研究人員,以幫助開發這種新技術。
該研究小組包括倫敦鄧迪大學和倫敦大學學院的研究人員,並使用了格拉斯哥大學的通信,傳感和成像中心的技術。
“非接觸式感知具有改善語音識別並在通信,醫療保健和數字安全方面創建新應用程序的巨大潛力,”該樞紐領導人穆罕默德·伊姆蘭(Muhammad Imran)教授在公告中說。
他繼續說:“我們熱衷於在格拉斯哥大學自己的研究小組中探索,我們如何在使用多模式傳感器的唇部閱讀中進行以前的突破,並在各地從家庭到醫院找到新的用途。”
其他研究小組也從事語音生物識別技術的數據庫幫助那些言語障礙的人。