新研究密歇根大學探索AI解釋狗吠後含義的潛力,從而區分嬉戲和侵略性的音調。
根據研究團隊的說法,本研究中使用的AI模型還可以從動物聲音(例如年齡,品種和性別)中提取其他信息。
這項研究與墨西哥國家天體物理學,光學和電子學院(Inaoe)合作進行,表明最初為人類言語設計的AI模型可以修改以了解動物交流。
AI如何解碼狗的樹皮,ARFS和Woofs?
密歇根大學計算機科學與工程學的主要教授Rada Mihalcea強調,首先使用接受人類語言培訓的語音處理模型為了解狗狗的細微差別開闢了新的可能性。
她指出,儘管關於動物交流的許多內容仍然未知,但AI的進步可以顯著增強我們對它的理解,而無需從頭開始。創建用於分析動物聲音的AI模型的首要挑戰之一是缺乏公開可用的數據。
密歇根大學的首席作家兼博士生Artem Abzaliev指出,在自然環境中,或者,就所有者的許可,必須在自然環境中被動記錄動物聲音。
因此,獲得數據的後勤困難阻礙了創建有效的AI模型進行動物發聲分析的進展。儘管存在這些障礙,但研究人員還是找到了一種重新利用最初為人類言語設計的現有AI模型的方法。
這種策略使他們能夠利用強大的模型,這些模型是許多當前支持語音技術的基礎,例如語音到文本和語言翻譯。 Abzaliev解釋說,這些模型可以學習並編碼人類語言和語音的複雜模式。
該團隊想探索是否可以擴展此功能來解密和解釋狗皮。他們使用了在不同情況下的74只不同品種,年齡和性別的狗記錄的狗聲音數據集。

WAV2VEC2用於理解狗
Inaoe合作者HumbertoPérez-Espinosa收集了數據集。然後,Abzaliev利用這些錄音來完善一個機器學習模型,該模型識別大型數據集中的模式。
為此任務選擇的模型是WAV2VEC2,最初是使用人類語音數據訓練的。 AI模型經過訓練,可以識別狗樹皮的不同特徵,例如它們表明嬉戲還是侵略性。
這種方法證明了這種方法是有希望的,這表明接受了人類言語訓練的AI模型可以有效地適合理解動物發聲。研究人員認為,這些模型可以揭示有關動物交流的許多信息,而動物交流仍未得到探索。
“這是第一次建立針對人類語音的技術來幫助解碼動物交流,” Mihalcea在一份聲明中說。
她補充說:“我們的結果表明,從人類言語中得出的聲音和模式可以成為分析和理解其他聲音的聲學模式的基礎,例如動物發聲。”
該研究的發現最近在計算語言學,語言資源和評估的聯合國際會議上分享了,並且是可用的在ARXIV預印服務器上。
