亞馬遜最新一代Echo設備中的新處理器正在為Alexa助理吸引人的功能,該公司稱,該功能為消費者提供了基於語音的互動的自然體驗。還有大量的科學研究,這些科學研究已經進入了良好的本地化和計算機願景,可以提供新功能,而無需創建新的生物識別數據存儲和隱私問題,而設備邊緣處理是關鍵。
在2020年秋季的設備和服務上公告從亞馬遜(Amazon)飛行到家裡的無人機和新的在線遊戲服務引起了很多關注。公司的首次亮相然而,在與生物識別相關的開發方面,新的迴聲設備更為重要。
在全球形狀的Echo和全新的Echo Show 10中,AZ1神經邊緣處理器的任務是運行新的和更新的語音和計算機視覺算法。
“在演講處理中,毫秒很重要,”亞馬遜Echo副總裁Miriam Daniel在產品推出活動期間說。 “想像一下,要求Alexa打開燈光,並且燈光的延遲略有延遲,這會使客戶真正不耐煩。
丹尼爾說:“我們的團隊非常努力地從Alexa的響應時間中刮掉數百毫秒,因此他們發明了全新的AZ1 Neural Edge處理器。”她指出,該矽模塊是專門建造的,可以在邊緣運行機器學習算法。
((4的內部ThGen Echo。資料來源:亞馬遜)
Alexa的副總裁兼科學家Rohit Prasad說:“ Alexa的目標是使與人類交談的自然互動。”並進一步指出,AI的進步使亞馬遜更加接近該願景。當前功能包括使用反饋搜索算法來獲取用戶反饋(“ Alexa,這是錯誤的”),並使用交互來糾正行動中的錯誤。一個新的能力是直接通過語音來教Alexa助手,而不是通過移動應用或在線門戶來教授新功能。
在新的Echo Show 10上,顯示屏和相機能夠改變方向並將其瞄準房間中的當前揚聲器,以期在視頻通話過程中進行更自然的互動。當某人在談話或觀看視頻時在房間周圍移動時,這很有用,但是事實證明,在不存儲生物識別數據或以面孔和聲音的形式存儲生物識別數據或個人身份信息的情況下進行此操作非常具有挑戰性。
亞馬遜設備和服務高級副總裁戴夫·林普(Dave Limp)解釋說:“我們不是在面部識別方面做到這一點;我們正在這樣做,只是了解人類的樣子和對此進行三角調節的形式。”他補充說:“這項技術的很酷的事情是所有這些都在本地運行。因此,這一切都不屬於雲;所有這些都在當地在該神經處理器上完成,並且永遠不會離開設備。”
((非可逆過程的可視化迴聲10用於將圖像轉換為更高級別的抽像以支持運動。資料來源:亞馬遜)
AZ1處理器以一種新穎的方式使用,以了解聲音來自的方向,並決定調整相機的何時,何時何地。根據亞馬遜科學的帖子部落格,Echo Show 10使用聲源本地化(SSL)計算機視覺(簡歷)在視野中識別對象和人類,並找出哪些聲音來自人,哪些聲音只是從牆壁上反射出來的聲音。
亞馬遜新芯片的詳細信息
該芯片是與Mediatek合作設計的。根據Mediatek的說法,Mediatek的MT8512構成了處理器的基礎,是“高端音頻處理和語音助手應用程序”的設計。
MT8512集成了2GHz雙核CPU,支持用於超高質量音頻處理的各種外圍連接,以及藍牙5.0和Wi-Fi 5雙波段連接性。 MediAtek指出,包括高性能的語音DSP(數字信號處理器),以進行聲樂命令中的快速,準確的喚醒字和關鍵字檢測; Mediatek表示,DSP與AZ1神經邊緣處理器“提供最響應的Alexa體驗”一起工作。
另外,使用12納米(NM)過程製成芯片;為了進行比較,絕對的最新技術為5nm,而在筆記本電腦和台式電腦中使用的Intel的許多主流處理器都是用14NM工藝製成的。一般而言,較小的晶體管是,更多的晶體管可以包裝到相同的“包裝”空間中,並提供提高的能源效率。換句話說,為了在低成本獨立設備中使用,Mediatek Chip的芯片旨在在功率,效率和單位成本之間提供良好的平衡。