DeepSeek在《自然》期刊論文中揭示R1訓練成本僅為29.4萬美元
這家中國新創公司的突破性強化學習方法,以遠低於競爭對手的成本實現了先進的推理能力。
https://www.perplexity.ai/page/deep...uQlaFwJ_bhPMNxg
• DeepSeek 在《Nature》期刊上發表了第一篇主要大型語言模型的同行評審論文,揭示其突破性的 R1 推理模型 訓練成本僅為 294,000 美元,外加用於基礎模型的 600 萬美元——僅為美國競爭對手所花費數千萬美元的一小部分。
• 這家中國 AI 新創公司的主要創新,是透過 群體相對策略優化(Group Relative Policy Optimization, GRPO),採用「純強化學習」來教導模型推理,而非依賴人為製作的範例,使 R1 能自行發展解決問題的策略。
• R1 已成為 Hugging Face 上最受歡迎的開放權重 AI 模型,下載次數高達 1,090 萬,且在推理基準測試上表現與 OpenAI 的 o1 持平,儘管它僅在被禁出口至中國的 Nvidia H800 晶片上訓練。
• 此模型經過八位專家的嚴格同行評審,為 AI 發展樹立了新的透明性標準,專家表示其他公司也應效仿這種方式來評估風險並驗證模型能力。
• DeepSeek 的成功挑戰了關於 AI 發展成本與擴展法則的既有觀念,表明先進的推理能力無需龐大運算資源,也不必遵循人為設計的訓練方式即可實現。