中國人(AI)DeepSeek公司已發送通過技術界的衝擊波,通過發佈極其高效的AI模型,可以與OpenAI和Anthropic等美國公司的尖端產品競爭。
DeepSeek成立於2023年取得了結果競爭對手的現金和計算能力很少。
DeepSeek上週發布的“推理” R1模型引起了研究人員的興奮,投資者之間的震驚以及AI重量級人物的回應。該公司於1月28日跟進模型可以與圖像和文本一起使用。
那麼DeepSeek做了什麼,它是如何做到的?
![](https://webbedxp.com/nature/scien/images/2025/01/DeepSeekApp.jpg)
DeepSeek做了什麼
12月,DeepSeek發布了V3模型。這是一個非常強大的“標準”大語言模型,其性能與OpenAI的GPT-4O和Anthropic的Claude 3.5相似。
這些模型容易出錯,並且有時會彌補自己的事實,他們可以執行諸如回答問題,撰寫論文和生成計算機代碼之類的任務。在一些測試解決問題和數學推理的得分比普通人的得分更好。
V3接受了訓練報告的成本約558萬美元。例如,這比GPT-4便宜超過1億美元發展。
DeepSeek還聲稱已經使用了大約2,000個專業計算機芯片訓練了V3,特別是NVIDIA製造的H800 GPU。這又比其他公司少得多最多16,000在更強大的H100芯片中。
1月20日,DeepSeek發布了另一個模型稱為R1。這是一個所謂的“推理”模型,它試圖逐步解決複雜問題。這些模型在許多需要上下文並具有多個相互關聯的部分(例如閱讀理解和戰略計劃)上似乎更好。
R1模型是V3的調整版本,並通過一種稱為強化學習的技術進行了修改。 R1似乎在類似的水平上工作Openai的O1,去年發行。
DeepSeek還使用相同的技術製作可以在家用計算機上運行的小型開源模型的“推理”版本。
該版本引起了人們對DeepSeek的極大興趣,推動了它的受歡迎程度V3驅動的聊天機器人應用程序並觸發a大規模價格崩潰作為投資者的技術股票,重新評估了人工智能行業。在寫作時,芯片製造商Nvidia損失了約6000億美元價值。
有多深
DeepSeek的突破是提高效率:通過更少的資源獲得良好的效果。尤其是,DeepSeek的開發人員開發了兩種技術,這些技術可能會更廣泛地採用。
第一個與稱為“稀疏性”的數學思想有關。 AI模型具有許多參數,可以確定其對輸入的響應(V3的響應約為6710億),但僅將這些參數的一小部分用於任何給定輸入。
但是,預測需要哪些參數並不容易。 DeepSeek使用了一種新技術來做到這一點,然後僅訓練了這些參數。結果,其模型所需的培訓要比常規方法要少得多。
另一個技巧與V3如何在計算機內存中存儲信息有關。 DeepSeek找到了一種壓縮相關數據的巧妙方法,因此更容易存儲和快速訪問。
這意味著什麼
DeepSeek的模型和技術已在免費下發布我的許可證,這意味著任何人都可以下載並修改它們。
對於某些AI公司而言,這可能是個壞消息,這些公司的利潤可能會被免費可用,有力的模型所侵蝕 - 這對更廣泛的AI研究社區來說是個好消息。
目前,許多AI研究都需要訪問大量的計算資源。像我這樣的研究人員在大學(或大型科技公司以外的任何地方)的研究人員的進行測試和實驗的能力有限。
更有效的模型和技術改變了情況。對於我們來說,實驗和開發可能會變得更加容易。
對於消費者而言,獲得AI的訪問也可能會更便宜。可以在用戶自己的設備(例如筆記本電腦或電話)上運行更多的AI型號,而不是以訂閱費用“在雲中”運行。
對於已經擁有大量資源的研究人員來說,更高的效率可能會較小。目前尚不清楚DeepSeek的方法是否有助於使整體性能更好,或者只是更有效的模型。
Tongliang Liu,副教授和悉尼AI中心的董事悉尼大學