中國人(AI)公司DeepSeek已發送科技界的衝擊波,發布了極其高效的人工智能模型,可以與 OpenAI 和 Anthropic 等美國公司的尖端產品競爭。
DeepSeek 成立於 2023 年,取得了成果其現金和計算能力只是競爭對手的一小部分。
DeepSeek上週發布的“推理”R1模型引起了研究人員的興奮、投資者的震驚以及人工智能重量級人物的回應。該公司於1月28日跟進一個模型可以處理圖像和文本。
那麼 DeepSeek 做了什麼,又是如何做到的呢?
12 月,DeepSeek 發布了V3型號。這是一個非常強大的“標準”大型語言模型,其性能與 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 類似。
雖然這些模型很容易出錯並且有時自己編造事實,他們可以執行諸如回答問題、撰寫論文和生成計算機代碼等任務。在一些測試在解決問題和數學推理方面,他們的得分高於普通人。
V3 的訓練地點為報告成本約558萬美元。例如,這比 GPT-4 便宜得多,其成本超過1億美元發展。
DeepSeek 還聲稱使用了大約 2,000 個專用計算機芯片來訓練 V3,特別是NVIDIA 製造的 H800 GPU。這又比其他可能使用過的公司少得多最多 16,000更強大的 H100 芯片。
1月20日,DeepSeek發布了另一個模型,稱為R1。這就是所謂的“推理”模型,試圖一步步解決複雜的問題。這些模型似乎更適合許多需要上下文且具有多個相互關聯部分的任務,例如閱讀理解和戰略規劃。
R1 模型是 V3 的調整版本,採用強化學習技術進行修改。 R1 的工作水平似乎與OpenAI 的 o1,去年發布。
DeepSeek 還使用相同的技術來製作可以在家用計算機上運行的小型開源模型的“推理”版本。
此次發布引發了人們對 DeepSeek 的巨大興趣,推高了其受歡迎程度V3 支持的聊天機器人應用程序並觸發一個大規模的價格暴跌隨著投資者重新評估人工智能行業,科技股受到關注。在撰寫本文時,芯片製造商 NVIDIA損失約6000億美元在價值上。
DeepSeek 是如何做到的
DeepSeek 的突破在於實現更高的效率:用更少的資源獲得良好的結果。特別是,DeepSeek 的開發人員開創了兩種可能被人工智能研究人員更廣泛採用的技術。
第一個與稱為“稀疏性”的數學概念有關。 AI 模型有很多參數決定它們對輸入的響應(V3 有大約 6710 億個),但這些參數中只有一小部分用於任何給定的輸入。
然而,預測需要哪些參數並不容易。 DeepSeek 使用一種新技術來做到這一點,然後僅訓練這些參數。因此,它的模型需要的訓練比傳統方法少得多。
另一個技巧與 V3 如何在計算機內存中存儲信息有關。 DeepSeek 找到了一種巧妙的方法來壓縮相關數據,因此更容易存儲和快速訪問。
這意味著什麼
DeepSeek的模型和技術已經免費發布我的許可證,這意味著任何人都可以下載和修改它們。
雖然這對一些人工智能公司來說可能是個壞消息——它們的利潤可能會因免費提供的強大模型的存在而受到侵蝕——但對更廣泛的人工智能研究社區來說卻是個好消息。
目前,許多人工智能研究需要訪問大量的計算資源。像我這樣在大學(或除大型科技公司之外的任何地方)工作的研究人員進行測試和實驗的能力有限。
更有效的模型和技術改變了這種情況。現在,實驗和開發對我們來說可能變得更加容易。
對於消費者來說,使用人工智能也可能變得更便宜。更多的人工智能模型可能會在用戶自己的設備上運行,例如筆記本電腦或手機,而不是在“雲端”運行以收取訂閱費。
對於已經擁有大量資源的研究人員來說,提高效率可能效果較小。目前尚不清楚 DeepSeek 的方法是否有助於構建整體性能更好的模型,或者只是更高效的模型。
Tongliang Liu,副教授悉尼人工智能中心主任悉尼大學









