Search / 搜尋

- 文章分類 -

文章專區

2025-02-25以低成本建置出大型語言模型 DeepSeek如何挑戰全球LLM市場？ 518 期

Author 作者編譯｜羅億庭

AI DeepSeek LLM OpenAI

中國科技新創公司DeepSeek近期憑藉兩款大型語言模型（large language models, LLM）震撼了科技界。DeepSeek開發出的語言模型能力可媲美目前歐美國家開發出的主流LLM，但開發成本與所需運算資源卻遠低於競爭對手。來自中國科學院計算技術研究所、從事AI晶片研究的計算機科學家陳云霽表示，中國已投入大量的研究資源在開發LLM，更擁有眾多科學、技術、工程與數學（science, technology, engineering, math,STEM）領域的博士，因此即便沒有DeepSeek，也可能會有其他中國的LLM企業實現此項突破。

今（2025）年1月20日，總部位於中國杭州的DeepSeek發布了部分開源的「DeepSeek-R1」模型，該模型能用於解決某些科學問題，且能力相當於OpenAI去（2024）年底推出的最新LLM——o1。隨後，DeepSeek又發布了另一款名為「Janus-Pro-7B」的模型，它可以根據文字指令生成圖像，功能類似於OpenAI的DALL-E3，以及倫敦Stability AI開發的Stable Diffusion。除了DeepSeek外，中國科技企業的競爭在近年來也十分激烈。像是在今年1月29日，阿里巴巴集團就推出了它們至今為止最先進的LLM——Qwen2.5-Max，據傳該模型的能力比DeepSeek在去年12月發布的V3來得更好。此外，中國的Moonshot AI與字節跳動（ByteDance）公司也在今年1月底分別發布新的LLM模型——Kimi 1.5與Kimi 1.5-pro，並宣稱他們開發出的模型在部分測試中超越了OpenAI的o1。

隨著中國政府在2017年宣布要在2030年前成為全球的人工智慧（artificial intelligence, AI）領導者，並要求產業界在2025年之前實現「使技術與應用領先世界水準」的重大突破後，發展AI人才培養體系成為該國政府的優先事項。根據美國華盛頓喬治城大學安全與新興技術中心（Center for Security and Emerging Technology, CSET）的報告，截至2022年，中國教育部已批准440所大學開設AI相關的主修課程。同樣在2022年，芝加哥智庫MacroPolo的數據也指出，中國培養的AI研究人員占全球近一半，而美國僅占18％。

自2022年以來，美國政府下令禁止向中國出口先進的AI運算晶片。面對DeepSeek的崛起，目前科學界普遍認為它最令人印象深刻的成就之一，就是在這樣的出口禁令下仍能開發出DeepSeek-R1與Janus-Pro-7B等模型。DeepSeek在過去曾提到，他們去年12月發表的DeepSeek-V3，使用了約2000顆由Nvidia生產的H800晶片進行訓練，並宣布該模型在基準測試中優於OpenAI於去年5月推出的GPT-4o。相比之下，美國Meta在去年7月發表的Llama 3.1 405B，則使用了超過1.6萬顆更高級的H100晶片。由於採用了相對低端的晶片，DeepSeek的模型開發成本可能較低，而他們也採用了多種策略來提升模型效率。例如使用「專家混合」（mixture-of-experts）架構，這是一種能加速模型訓練並減少參數數量的機器學習方法，使團隊能夠以較少的晶片訓練模型。此外，DeepSeek還運用創新的「多頭潛在注意力」（multi-head latent attention）技術，使模型能夠在較少記憶體的條件下儲存更多數據。

DeepSeek的成功模式可能為那些有意發展AI，但資金與硬體資源有限的國家提供一條可行的道路，並促使更多國家投入開發大量的新模型。DeepSeek的迅速崛起，不僅顯示中國在AI領域的技術，也反映出在全球科技競爭加劇的背景下，各國對自主研發與技術創新的高度關注。不過近期也傳出DeepSeek抄襲OpenAI的風聲，現階段微軟和OpenAI正在調查DeepSeek是否使用了「蒸餾」（distillation）〔註〕的方式來最佳化自身模型。隨著世界各國持續推動AI人才培養與技術突破，DeepSeek等企業的發展有可能進一步改變全球LLM市場格局，並對現有的科技領導者構成更大挑戰。

〔註〕蒸餾技術是一種知識轉移方法，透過使用大型語言模型（teacher model）生成的高品質數據或直接學習它的機率分布，以訓練較小的模型（student model）。這種方法可以有效提升小模型的效能，同時降低開發成本與運算需求，使小的模型更適用於實際應用場景。

新聞來源
1. Conroy, G. & Mallapaty, S. (30 January 2025). How China created AI model DeepSeek and shocked the world. Nature, https://www.nature.com/articles/d41586-025-00259-0
2. 陳竫詒（2025年1月29日）。DeepSeek抄襲OpenAI？是大外宣嗎？中國突破美國管制？一次看懂DeepSeek 。天下雜誌，https://www.cw.com.tw/article/5133890

相關推薦

科學月刊 2月號/2025 第662期：狙擊禽流感

科學月刊 2月號/2025 第662期：狙擊禽流感

新訂一年方案：《科學月刊》一年12期

新訂一年方案：《科學月刊》一年12期

新訂兩年方案：《科學月刊》二年24期

新訂兩年方案：《科學月刊》二年24期

台北市大安區羅斯福路三段 77 號 7 樓
服務電話：+886-2-2363-4910
電子郵件：scimonth@scimonth.one
服務時間：週一至週五 09:30~17:30，例假日除外。

認識科月

關於科月

各期目錄

投稿須知

合作洽談
讀者服務

購買雜誌

訂閱雜誌

網路會員

訂閱電子報

隱私政策服務條款

© 1970- by Science Monthly 若需轉載、使用科學月刊或科技報導的文字、圖像或影音等，請洽本公司。

網頁設計 : 藝誠網頁設計公司