
不到兩週前,一家鮮為人知的中國公司發布了最新(AI)模型並在世界各地發送衝擊波。
DeepSeek在上傳到的技術論文中聲稱Girub它的開放重量R1模型達到了可比或更好的結果與一些領先的矽谷巨頭製作的AI模型相比,Openai的Chatgpt,Meta的Llama和Anthropic的Claude製作了。最令人震驚的是,該模型在接受培訓和運行的一小部分時實現了這些結果。
週一對新聞的市場反應是敏銳而殘酷的:隨著DeepSeek升起在Apple的App Store中,從領先的美國科技公司的估值中消除了1萬億美元。
NVIDIA是一家製造高端H100圖形芯片的公司美國歷史上最大的一日市場損失。 DeepSeek畢竟說,它在沒有它們的情況下訓練了其AI模型,儘管它確實使用了功能較小的Nvidia芯片。美國科技公司對恐慌和憤怒做出了回應,Openai代表甚至暗示了DeepSeek它的模型的竊點。
有關的:
AI專家說,DeepSeek的出現顛覆了一個關鍵的教條,這是該行業增長方法的基礎 - 表明更大並不總是更好。
“ DeepSeek可以以更少的錢,更少的計算和更少的時間來建造,並且可以在較便宜的機器上運行,這一事實認為,當每個人都朝著越來越大的時候競賽時,我們錯過了建造更聰明和更小的機會,克里斯蒂安·哈蒙德(Kristian Hammond),西北大學的計算機科學教授在一封電子郵件中告訴Live Science。
但是,是什麼使DeepSeek的V3和R1模型如此破壞性?科學家說,關鍵是效率。
是什麼使DeepSeek的型號打勾?
“在某些方面,DeepSeek的進步比革命性的進化更為進化,”Ambuj Tewari密歇根大學的統計與計算機科學教授告訴Live Science。 “它們仍在非常大的數據集(數万億個代幣)的主要模型(十億個參數)的主要範式下運行,預算很大。”
圖裡說,如果我們以DeepSeek的說法為面值,那麼該公司方法的主要創新是它如何運用其大型和強大的模型來運行以及其他系統,同時使用較少的資源。
關鍵是“專家的混合物”系統,該系統將DeepSeek的模型分成多個專門從事特定任務或數據類型的子模型。這伴隨著一個負載系統,該系統沒有像其他模型那樣施加整體懲罰來減慢負擔重大的系統,而是動態地將任務從工作過度轉移到工作不足的子模型。
Tewari說:“ [這]意味著,即使V3模型具有6710億個參數,但實際上只有370億次的參數被激活。”令牌是指大語言模型(LLM)的處理單元,相當於一部分文本。
進一步促進這種負載平衡是一種稱為“推理時間計算縮放”的技術,它是DeepSeek模型中的一個撥號,該撥號將向上或向下分配的計算以匹配分配任務的複雜性。
這種效率擴展到對DeepSeek模型的培訓,專家認為這是美國出口限制的意外結果。訪問NVIDIA的最先進的H100芯片的訪問權限是有限的,因此DeepSeek聲稱它使用H800芯片構建了其型號,H800芯片的芯片到芯片數據傳輸速率降低。 NVIDIA在2023年設計了這種“較弱”的芯片,專門避免出口控件。
更有效的大語言模型類型
需要使用這些功能較低的芯片迫使DeepSeek進行另一個重大突破:其混合精確框架。它沒有使用32位浮點數(FP32)代表其所有模型的重量(數字設定了AI模型的人工神經元之間的連接強度),而是訓練了其模型的一部分,其部分具有較低的8位數字(FP8),僅切換到32位,以便在精確度很重要的情況下更難計算。
“這允許使用更少的計算資源進行更快的培訓,”托馬斯曹塔夫茨大學技術政策教授,告訴現場科學。 “ DeepSeek也幾乎完善了培訓管道的每個步驟 - 數據加載,並行化策略和內存優化 - 以便在實踐中實現非常高的效率。”
同樣,儘管使用人提供的標籤來訓練AI模型以評分答案和推理的準確性,但R1的推理卻是無監督的。它僅在數學和編碼獎勵信號等任務中使用最終答案的正確性,從而釋放了可以在其他地方使用的培訓資源。
所有這些都加起來是一對令人驚訝的型號。雖然DeepSeek競爭對手的培訓費用遇到了數千萬到數億美元DeepSeek代表說,該公司在兩個月內接受了V3培訓,而且經常需要幾個月只需558萬美元。 DeepSeek V3的運行成本類似 - 21次比運行便宜擬人的克勞德3.5十四行詩。
CAO謹慎地註意到,DeepSeek的研發(包括其硬件和大量反複試驗實驗)幾乎意味著它幾乎肯定要花費的558萬美元數字。儘管如此,它的成本仍然足夠大,可以使競爭對手平整地抓住競爭對手。
總體而言,AI專家說,DeepSeek的受歡迎程度可能對該行業有利,這使資源降低並降低了研究人員和公司的進入障礙。它還可以為比Nvidia提供更多的芯片製造商的空間參加比賽。然而,它也帶來了自己的危險。
Cao說:“隨著更便宜,更有效的開發尖端AI模型的方法,它們可以允許全球更多的研究人員追求最先進的LLM開發,從而有可能加快科學進步和應用程序的創造。” “與此同時,這種較低的入境障礙提出了有關國家和非國家行為者對先進AI的濫用或潛在穩定影響的新的監管挑戰,而不僅僅是美國 - 中國的競爭。”