文章專區

2025-02-25以低成本建置出大型語言模型 DeepSeek如何挑戰全球LLM市場? 518 期

Author 作者 編譯|羅億庭

中國科技新創公司DeepSeek近期憑藉兩款大型語言模型(large language models, LLM)震撼了科技界。DeepSeek開發出的語言模型能力可媲美目前歐美國家開發出的主流LLM,但開發成本與所需運算資源卻遠低於競爭對手。來自中國科學院計算技術研究所、從事AI晶片研究的計算機科學家陳云霽表示,中國已投入大量的研究資源在開發LLM,更擁有眾多科學、技術、工程與數學(science, technology, engineering, math,STEM)領域的博士,因此即便沒有DeepSeek,也可能會有其他中國的LLM企業實現此項突破。

今(2025)年1月20日,總部位於中國杭州的DeepSeek發布了部分開源的「DeepSeek-R1」模型,該模型能用於解決某些科學問題,且能力相當於OpenAI去(2024)年底推出的最新LLM——o1。隨後,DeepSeek又發布了另一款名為「Janus-Pro-7B」的模型,它可以根據文字指令生成圖像,功能類似於OpenAI的DALL-E3,以及倫敦Stability AI開發的Stable Diffusion。除了DeepSeek外,中國科技企業的競爭在近年來也十分激烈。像是在今年1月29日,阿里巴巴集團就推出了它們至今為止最先進的LLM——Qwen2.5-Max,據傳該模型的能力比DeepSeek在去年12月發布的V3來得更好。此外,中國的Moonshot AI與字節跳動(ByteDance)公司也在今年1月底分別發布新的LLM模型——Kimi 1.5與Kimi 1.5-pro,並宣稱他們開發出的模型在部分測試中超越了OpenAI的o1。

隨著中國政府在2017年宣布要在2030年前成為全球的人工智慧(artificial intelligence, AI)領導者,並要求產業界在2025年之前實現「使技術與應用領先世界水準」的重大突破後,發展AI人才培養體系成為該國政府的優先事項。根據美國華盛頓喬治城大學安全與新興技術中心(Center for Security and Emerging Technology, CSET)的報告,截至2022年,中國教育部已批准440所大學開設AI相關的主修課程。同樣在2022年,芝加哥智庫MacroPolo的數據也指出,中國培養的AI研究人員占全球近一半,而美國僅占18%。

自2022年以來,美國政府下令禁止向中國出口先進的AI運算晶片。面對DeepSeek的崛起,目前科學界普遍認為它最令人印象深刻的成就之一,就是在這樣的出口禁令下仍能開發出DeepSeek-R1與Janus-Pro-7B等模型。DeepSeek在過去曾提到,他們去年12月發表的DeepSeek-V3,使用了約2000顆由Nvidia生產的H800晶片進行訓練,並宣布該模型在基準測試中優於OpenAI於去年5月推出的GPT-4o。相比之下,美國Meta在去年7月發表的Llama 3.1 405B,則使用了超過1.6萬顆更高級的H100晶片。由於採用了相對低端的晶片,DeepSeek的模型開發成本可能較低,而他們也採用了多種策略來提升模型效率。例如使用「專家混合」(mixture-of-experts)架構,這是一種能加速模型訓練並減少參數數量的機器學習方法,使團隊能夠以較少的晶片訓練模型。此外,DeepSeek還運用創新的「多頭潛在注意力」(multi-head latent attention)技術,使模型能夠在較少記憶體的條件下儲存更多數據。

DeepSeek的成功模式可能為那些有意發展AI,但資金與硬體資源有限的國家提供一條可行的道路,並促使更多國家投入開發大量的新模型。DeepSeek的迅速崛起,不僅顯示中國在AI領域的技術,也反映出在全球科技競爭加劇的背景下,各國對自主研發與技術創新的高度關注。不過近期也傳出DeepSeek抄襲OpenAI的風聲,現階段微軟和OpenAI正在調查DeepSeek是否使用了「蒸餾」(distillation)〔註〕的方式來最佳化自身模型。隨著世界各國持續推動AI人才培養與技術突破,DeepSeek等企業的發展有可能進一步改變全球LLM市場格局,並對現有的科技領導者構成更大挑戰。

〔註〕蒸餾技術是一種知識轉移方法,透過使用大型語言模型(teacher model)生成的高品質數據或直接學習它的機率分布,以訓練較小的模型(student model)。這種方法可以有效提升小模型的效能,同時降低開發成本與運算需求,使小的模型更適用於實際應用場景。

新聞來源
1. Conroy, G. & Mallapaty, S. (30 January 2025). How China created AI model DeepSeek and shocked the world. Nature, https://www.nature.com/articles/d41586-025-00259-0
2. 陳竫詒(2025年1月29日)。DeepSeek抄襲OpenAI?是大外宣嗎?中國突破美國管制?一次看懂DeepSeek 。天下雜誌,https://www.cw.com.tw/article/5133890