已經發布了 OpenAI 的 ChatGPT 的廉價開源競爭對手,它讓一些科學家感到興奮,同時也讓矽谷感到擔憂。
DeepSeek,中國人這項創新背後的人工智慧 (AI) 實驗室於 2024 年 12 月下旬推出了免費的大語言模型 (LLM) DeepSeek-V3,聲稱它該項目僅用了兩個月的時間就建成了,成本僅為 558 萬美元——只是其矽谷競爭對手所需時間和成本的一小部分。
緊隨其後的是一款名為 DeepSeek-R1 的更新型號,於週一(1 月 20 日)發布。在第三方基準測試中,DeepSeek-V3匹配的能力在解決問題、編碼和數學等任務中,OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5 的表現優於其他演算法,例如 Meta 的 Llama 3.1 和阿里巴巴的 Qwen2.5。
現在,R1也超越ChatGPT 的最新 o1 模型在許多相同的測試中。這種令人印象深刻的性能,其成本僅為其他模型的一小部分,其半開源性質,以及其在顯著減少的圖形處理單元(GPU)上的訓練,令人工智能專家驚嘆不已,並引發了人們對中國人工智慧模型超越美國同行的擔憂。
“我們應該非常非常認真地對待中國的事態發展,”薩提亞·納德拉OpenAI策略夥伴微軟CEO在世界經濟論壇上表示1 月 22 日在瑞士達沃斯舉行。
有關的:
人工智慧系統使用從人類輸入中獲取的訓練資料進行學習,這使它們能夠根據訓練資料集中出現的不同模式的機率生成輸出。
對於大型語言模型,這些數據是文字。例如,OpenAI 於 2023 年發布的 GPT-3.5 使用儲存庫中約 570GB 的文字資料進行訓練普通爬行——約 3000 億字——取自書籍、線上文章、維基百科和其他網頁。
推理模型,如 R1 和 o1,是標準 LLM 的升級版本,使用一種稱為「思想鏈」的方法來回溯和分析重新評估他們的邏輯,這使他們能夠更準確地處理更複雜的任務。
這使得推理模型在尋求將人工智慧融入工作中的科學家和工程師中很受歡迎。
但與 ChatGPT 的 o1 不同,DeepSeek 是一種「開放權重」模型(儘管其訓練資料仍然是專有的),使用戶能夠查看內部並修改其演算法。同樣重要的是它對用戶的降價——比 o1 少 27 倍。
除了其性能之外,圍繞 DeepSeek 的炒作還來自其成本效率;與數千萬至數億競爭對手公司花錢培訓競爭對手。
此外,美國的出口管制限制了中國企業獲得最好的人工智慧運算晶片,迫使R1的開發人員建構更智慧、更節能的演算法,以彌補運算能力的不足。據報道需要 ChatGPT10,000 個 Nvidia GPU 來處理訓練數據,DeepSeek 工程師表示,他們僅用 2,000 個就取得了類似的結果。
這將在多大程度上轉化為有用的科學和技術應用,或者 DeepSeek 是否只是簡單地訓練其模型以通過基準測試,還有待觀察。科學家和人工智慧投資者正在密切關注。