人工智能(AI)正在成為我們時代的定義技術。周圍有很多用途和進步可以支持這一主張。但是,如果我們只選擇一個,那絕對必須是深度學習。這是一種基於人工神經網絡的一系列機器學習方法的一部分,能夠模仿人腦的工作方式。
聽起來令人印象深刻,每年過時的一周都會突飛猛進,並且它仍然有很大的改進空間。在旅途中,它被應用於多個任務,從語音識別到計算機視覺,儘管所有這些努力都以自己的方式令人驚奇,但有一個脫穎而出的 - 自然語言處理(NLP)。
通過它,軟件工程師試圖提出能夠在正常互動中了解人類的系統。換句話說,基於NLP的系統可能是如此先進,以至於它可以與人交談,就好像它是人類一樣。這是令人難以置信的,即使沒有考慮機器上升到該水平需要什麼 - 理解意圖,理解背景,處理語義和語法等。
完美的NLP系統尚不存在,但是研究正在邁出巨大的步驟,直到他們外包質量保證幫助他們前進。周圍的最新發展之一?使用圖卷積網絡識別文本中的情緒。您能想像一台電腦閱讀段落,並能夠告訴作者是很有趣,具有諷刺意味的還是生氣?這正是這種複雜的方法正在嘗試做的事情。至少在理論層面上,讓我們看一下如何工作。研究也可以在計算語言學協會。
一些基本定義
在進入我們之前等待的複雜解釋之前,重要的是要了解幾個基本術語,這些術語可以幫助您掌握一切。因此,以下是您需要在繼續之前需要學習的內容的列表:
情緒識別(ERC):一項負責識別和分類情感的任務,無論是生氣,悲傷,快樂,興奮,無聊等等的任務。能夠執行此任務的機器對於開發一個足以與人交談的AI平台至關重要。
人工神經網絡(ANN):複製生物神經網絡(例如人腦)如何工作的計算系統。這些系統可以通過分析示例來學會做事,因此不必使用規則集對其進行編程。
深神經網絡(DNN):一種人工神經網絡,該神經網絡使用多個圖層將輸入數據一直到輸出數據處理。通過使用數學操作,每層分析數據併計算每個輸出的概率,然後將其用作下一層的輸入,依此類推,直到系統的最後一層提供結果。 “ Deep”這個名稱意味著有許多層共同努力以實現所需的輸出。
卷積:數學操作,其中兩個函數產生了第三個功能,這是它們之間相互作用的結果。這意味著這種交互重塑了功能,並提供了一個新形狀的新功能。
卷積神經網絡(CNN):一類深神經網絡在其至少一個層中使用卷積,從而根據不同的輸入數據來定義輸出數據如何重塑。
圖形卷積網絡(GCN):一種卷積神經網絡,可與圖形一起使用,以利用它們所代表的結構信息。
您在這裡的主要收穫應該是,我們將在這裡查看的是一個計算過程,該計算過程使用卷積操作來模仿人的大腦來解釋圖形。現在是時候看看當在ERC上使用時如何融合在一起了。
當前的ERC
情感認可就像NLP愛好者的聖杯。如果一個系統是如此先進,以至於能夠確定文本的情緒,那麼我們將更接近一個能夠與我們交談的基於AI的平台 - 例如,如果我們生活在科幻電影中。創建這樣的平台可以啟動智能機器人和系統的開發,這些機器人和系統將徹底改變我們的教育和醫療保健以及我們出售商品或工作方式的方式。
直到今天使用的ERC使用的方法是複發性神經網絡(RNN)和注意機制。在沒有太多信息的情況下,即使將兩種方法結合在一起,他們的結果就遠非完美。那是因為在考慮文本以外的上下文(人格特質,主題和意圖)時,他們都有問題。
由於通信中的上下文是一切,因此使用RNN和注意機制的系統並不是精確的效率。這就是研究人員開始研究深度學習的主要原因,以此來提出一種更複雜的解決ERC的方式。那是GNCS進來的時候。
上下文的重要性
我們說上下文就是一切,這是不可能的。讓我們看看一個例子來證明這一點。如果您閱讀“很好”,則可以通過幾種方式理解它。您可以將其面對面值(事物很好),您可以將其視為辭職的表達式(“很好……”,如“ Just just Play on that”),您甚至可以看到其中的諷刺性(帶有模仿手勢的“很好”)。您怎麼知道哪種解釋是正確的?通過上下文。
用這樣的短語,上下文將由以前所說的話,對話的所有參與者感覺如何,他們之間的歷史,氣氛等等。我們能夠在文本中辨別所有內容,因為我們作為人類已經整合了“機制”,這些機制使我們能夠分辨出一種解釋是否正確。這源於兩種類型的上下文:
順序上下文:換句話說,將短語或句子按順序放置時的含義。在影響您可以擺脫短語或句子的含義之前所說的話。此外,還有一些語義和句法規則和關係排除某些解釋以支持他人。 RNN和注意機制廣泛使用這種環境來“理解”情緒。如果您閱讀“啊,只是什麼都不做。這很好”,您可以限制解釋的數量並了解該人的來源。
揚聲器級別的上下文:參與對話的說話者與他們之間的關係之間的關係提供了另一種更為複雜的環境。人們的個性和個人歷史會影響他們的講話方式。從同樣的意義上講,對話的其他參與者以及所說的話也影響了參與者的講話方式,甚至會改變他們在上述對話中的講話方式。這是RNN和注意力機制無法掌握的背景,這是GNC的主要重點。
自然,要使GNC工作,它需要以圖的形式排列數據。這給模型帶來了許多挑戰之一。那是因為您如何繪製對話?
創建對話的圖形表示
要創建對話圖,重要的是要了解在上述對話中發揮作用的不同元素。因此,我們可以開始的第一個地方是考慮所涉及的演講者數量。這些演講者中的每一個都“創建”了新文本,並將其發送給其他稱為“話語”的人或其他說話者。
在理解說話者創造話語之後,是時候了解每個話語都以上下文方式與其他話語相連。這些連接稱為邊緣,反過來可以根據不同的需求標記。所說的標籤稱為關係。此外,所有邊緣對上下文的重要性都不同,該上下文定義為邊緣的重量。
現在,我們需要進行對話所需的所有要素,包括演講者,他們的話語,邊緣,關係和權重。這就是所有這些結合在一起的方式:
在所有這些中,邊緣可能是最複雜的概念。這就是為什麼要注意兩件事很重要:
所有邊緣都是一種方法。這意味著話語1和話語2之間有一個邊緣(連接),而不同的邊緣代表了話語2與話語1之間的聯繫。
所有話語都有將它們與自己聯繫起來的邊緣。換句話說,這是話語如何影響說話者創造它的方式。實際上,每當您說話時,您都會傾聽自己的聲音以及您所說的話會塑造交流本身。
了解該模型的另一個重要考慮因素包括以下內容:
每個邊緣的重量(即兩個話語之間特定連接的重要性)是恆定的,並且在過程中不會改變
邊緣的關係取決於說話者的依賴(誰說了什麼)和時間依賴性(首先是什麼話語)
這些考慮對於圖表非常重要,就像誰說了什麼以及何時說的是任何對話的非常重要的方面。如果您在另一個人面前說話或另一個人首先做到這一點,那是不一樣的。從同樣的意義上講,如果混合中有第三個人,對話將不會一樣。
GCN模型
使用上面顯示的圖表可以理解GCN的工作方式。這是過程的視覺表示。
它看起來很複雜,但它不是您深入了解它。模型中有3個不同的階段:順序上下文編碼,揚聲器級上下文編碼和分類。讓我們更詳細地看看它們。
在連續上下文編碼階段,每個話語均通過一系列的封閉式複發單元(GRU)借助一個順序上下文編碼。這是數據獲得順序上下文的地方,即在特定順序中理解自己的位置。這種過程的輸出用作第二階段的輸入。
在說話者級別的上下文編碼階段中,重新驗證了帶有順序上下文的數據。在這裡,邊緣標有關係,並添加了說話者上下文維度。這是通過兩步過程完成的:
將所有相鄰節點的信息添加到每個節點以創建一個新功能向量。
重複步驟1,以在上一步的輸出中添加類似的特徵向量。
此過程是整個系統中最重要的過程之一,因為這是分類得到完善和大多數學習發生的地方。
完成該過程後,是時候進入分類階段了。在這裡,將第一階段和第二階段的輸出串聯以分類。換句話說,具有集成順序上下文的數據通過卷積與說話者級上下文的數據相關聯,以獲得第三個數據集,這將是最富有的數據集,因此是分類的最佳輸入。在第三階段之後,GCN通過概率分佈提供了輸出,該輸出顯示了不同話語的不同情緒。
當然,這並不意味著該系統從一開始就可以將正確的情感分配給所有話語。實際上,隨著所有機器學習方法的發生,必須對輸出進行評估和饋送到整個系統中,以校正足夠的校正,以使GCN再次運行並進一步學習。
該模型的培訓對於獲得更好的結果至關重要。為此,研究人員正在使用以下標記的多模式數據集:
imocap:十個人進行雙向對話的視頻,其中每種話語都被標記為快樂,悲傷,中立,憤怒,興奮或沮喪。
和:具有基於AI的代理商的人的相互作用,根據Valence,喚醒,期望和權力對話語進行分類。
融合:1400次用13000台電視粉碎朋友的話語進行對話,那裡的話語以憤怒,厭惡,悲傷,喜悅,驚喜,恐懼或中立標記。
重要的是要注意,僅使用這些多模式數據集的文本部分。但是,研究人員認為,在某些情況下,使用音頻和培訓圖像可能是有益的(就像評估“ Fine”這樣的簡短話語或將類似的情緒分類為“興奮”和“快樂”時)。
現在會期待什麼
如您所見,GCN是非常複雜的系統,需要清晰的數據集,持續的培訓,高處理能力以及時間來開發和獲得更準確的結果。但是,正如他們現在的那樣,它們是ERC的最佳選擇之一。
最令人驚訝的是,圖形神經網絡可能是釋放NLP研究潛力的關鍵。通過相鄰節點了解數據之間的關係是一個革命性的概念,可以進一步調查。現在是時候繼續嘗試並告知系統和基礎技術,以在我們現在真正智能AI解決方案的最可靠道路上取得重大改進。
有關GCN的工作方式的更全面的審查,閱讀奇妙的介紹性文章從凱文·沉(Kevin Shen)到數據科學。
和更令人興奮的開放源自對話理解諸如ERC等任務的開放式研究,這是一個出色的存儲庫https://github.com/declare-lab/conv-emotion由宣布實驗室新加坡技術大學。