已經發布了 OpenAI 的 ChatGPT 的廉價開源競爭對手,它讓一些科學家感到興奮,同時也讓矽谷感到擔憂。
DeepSeek,中國人這項創新背後的人工智能 (AI) 實驗室於 2024 年 12 月下旬推出了免費的大語言模型 (LLM) DeepSeek-V3,聲稱它兩個月內的培訓費用僅為 558 萬美元——只是其矽谷競爭對手所需時間和成本的一小部分。
現在,R1也已經超越ChatGPT 的最新 o1 模型在許多相同的測試中。這種令人印象深刻的性能,其成本僅為其他模型的一小部分,其半開源性質,以及其在顯著減少的圖形處理單元(GPU)上的訓練,令人工智能專家驚嘆不已,並引發了人們對中國人工智能模型超越美國同行的擔憂。
“我們應該非常非常認真地對待中國的事態發展,”薩提亞·納德拉OpenAI戰略合作夥伴微軟CEO在世界經濟論壇上表示1 月 22 日在瑞士達沃斯舉行。
有關的:
人工智能係統使用從人類輸入中獲取的訓練數據進行學習,這使它們能夠根據訓練數據集中出現的不同模式的概率生成輸出。
對於大型語言模型,這些數據是文本。例如,OpenAI 於 2023 年發布的 GPT-3.5 使用存儲庫中約 570GB 的文本數據進行訓練普通爬行——大約 3000 億字——取自書籍、在線文章、維基百科和其他網頁。
推理模型,如 R1 和 o1,是標準 LLM 的升級版本,使用一種稱為“思想鏈”的方法來回溯和分析重新評估他們的邏輯,這使他們能夠更準確地處理更複雜的任務。
這使得推理模型在尋求將人工智能融入到工作中的科學家和工程師中很受歡迎。
但與 ChatGPT 的 o1 不同,DeepSeek 是一種“開放權重”模型(儘管其訓練數據仍然是專有的),使用戶能夠查看內部並修改其算法。同樣重要的是它對用戶的降價——比 o1 少 27 倍。
除了其性能之外,圍繞 DeepSeek 的炒作還來自其成本效率;與數千萬至數億競爭對手公司花錢培訓競爭對手。
此外,美國的出口管制限制了中國企業獲得最好的人工智能計算芯片,迫使R1的開發人員構建更智能、更節能的算法,以彌補計算能力的不足。據報導需要 ChatGPT10,000 個 Nvidia GPU 來處理訓練數據DeepSeek 工程師表示,他們僅用 2,000 多個就獲得了類似的結果。
這將在多大程度上轉化為有用的科學和技術應用,或者 DeepSeek 是否只是簡單地訓練其模型以通過基準測試,還有待觀察。科學家和人工智能投資者正在密切關注。









