Microsoft和Nvidia合作夥伴在語音識別模型培訓中

2021-10-13

Sherise

微軟和Nvidia已經宣布了一項新的合作，重點是人工智能培訓（AI）具有權力的自然語言處理（NLP）模型，Venture Beat報告。

具體而言，兩家公司表示，他們培訓了威震天然的自然語言生成（MT-NLP）系統，該系統可以執行各種與語音識別有關的任務，包括閱讀理解，常識推理和自然語言推斷。

據報導，在公司的Turing NLG 17B和Megatron-LM型號的基礎上，MT-NLP包含5300億個參數，可以達到“無與倫比的”精確度。

NVIDIA的加速計算產品管理和營銷高級總監Paresh Kharya和Microsoft Turing團隊的小組計劃經理，Ali Alvi最近撰寫了博客文章在公司的網站上，聲稱這項新技術將塑造NLP的未來。

技術專家寫道：“旅程遠遠不夠完整，但是我們對可能的事情和未來的一切感到興奮。”

從技術的角度來看，MT-NLP是使用來自英語網站的2700億個令牌的數據集培訓的，其中大多數來自樁的850GB系列。

根據博客文章，模型培訓是使用基於NVIDIA DGX SELENE SELENE SUPERCUPUTER的NVIDIA DGX SELENE SUPERCUPUTER進行的，該計算機由560 DGX A100服務器供電，該服務器與HDR Infiniband聯網，以完整的脂肪樹配置進行了網絡。對於上下文，每個DGX A100又具有八個NVIDIA A100 80GB張量GPU，由NVLink和NVSwitch完全連接。

雖然MT-NLP可以說是迄今為止最大，功能最強大的AI驅動語言模型，但Microsoft和Nvidia確認了該系統“從訓練的數據中挑選[ED]刻板印象和偏見”。

AI和生物識別識別的偏見是該行業的一個已知問題，但這些公司表示，他們目前正在努力解決該問題。

他們在博客文章中證實：“我們鼓勵繼續進行研究，以幫助量化模型的偏見。”

在過去的幾年中，NVIDIA一直在NLP和Voice Biometrics方面穩定地工作。 2020年12月，該公司宣布與Veritone，去年八月，恩維迪亞與之交談生物識別更新關於金融服務應用程序語音生物識別技術的潛力。