會員登入
購物車
(
0
)
HOME
×
關於科月
關於科月
科月目錄
科報目錄
購買科月
訂閱方案
優惠方案
諾貝爾系列
購買單期
購買通路
投稿須知
推廣專案
星火相傳計畫
支持專案計畫
進階搜尋
封面故事
News Focus
專訪
專欄
評論
精選文章
活動訊息
永續科學
基金會
科技報導
繁體中文
English
ig
line
facebook
Search / 搜尋
分類選單
- 文章分類 -
封面故事
News Focus
專訪
專欄
評論
精選文章
活動訊息
永續科學
基金會
科技報導
科技報導
動態時報
文章專區
2025-02-25
以低成本建置出大型語言模型 DeepSeek如何挑戰全球LLM市場?
518 期
Author 作者
編譯|羅億庭
AI
DeepSeek
LLM
OpenAI
中國科技新創公司DeepSeek近期憑藉兩款大型語言模型(large language models, LLM)震撼了科技界。DeepSeek開發出的語言模型能力可媲美目前歐美國家開發出的主流LLM,但開發成本與所需運算資源卻遠低於競爭對手。來自中國科學院計算技術研究所、從事AI晶片研究的計算機科學家陳云霽表示,中國已投入大量的研究資源在開發LLM,更擁有眾多科學、技術、工程與數學(science, technology, engineering, math,STEM)領域的博士,因此即便沒有DeepSeek,也可能會有其他中國的LLM企業實現此項突破。
今(2025)年1月20日,總部位於中國杭州的DeepSeek發布了部分開源的「DeepSeek-R1」模型,該模型能用於解決某些科學問題,且能力相當於OpenAI去(2024)年底推出的最新LLM——o1。隨後,DeepSeek又發布了另一款名為「Janus-Pro-7B」的模型,它可以根據文字指令生成圖像,功能類似於OpenAI的DALL-E3,以及倫敦Stability AI開發的Stable Diffusion。除了DeepSeek外,中國科技企業的競爭在近年來也十分激烈。像是在今年1月29日,阿里巴巴集團就推出了它們至今為止最先進的LLM——Qwen2.5-Max,據傳該模型的能力比DeepSeek在去年12月發布的V3來得更好。此外,中國的Moonshot AI與字節跳動(ByteDance)公司也在今年1月底分別發布新的LLM模型——Kimi 1.5與Kimi 1.5-pro,並宣稱他們開發出的模型在部分測試中超越了OpenAI的o1。
隨著中國政府在2017年宣布要在2030年前成為全球的人工智慧(artificial intelligence, AI)領導者,並要求產業界在2025年之前實現「使技術與應用領先世界水準」的重大突破後,發展AI人才培養體系成為該國政府的優先事項。根據美國華盛頓喬治城大學安全與新興技術中心(Center for Security and Emerging Technology, CSET)的報告,截至2022年,中國教育部已批准440所大學開設AI相關的主修課程。同樣在2022年,芝加哥智庫MacroPolo的數據也指出,中國培養的AI研究人員占全球近一半,而美國僅占18%。
自2022年以來,美國政府下令禁止向中國出口先進的AI運算晶片。面對DeepSeek的崛起,目前科學界普遍認為它最令人印象深刻的成就之一,就是在這樣的出口禁令下仍能開發出DeepSeek-R1與Janus-Pro-7B等模型。DeepSeek在過去曾提到,他們去年12月發表的DeepSeek-V3,使用了約2000顆由Nvidia生產的H800晶片進行訓練,並宣布該模型在基準測試中優於OpenAI於去年5月推出的GPT-4o。相比之下,美國Meta在去年7月發表的Llama 3.1 405B,則使用了超過1.6萬顆更高級的H100晶片。由於採用了相對低端的晶片,DeepSeek的模型開發成本可能較低,而他們也採用了多種策略來提升模型效率。例如使用「專家混合」(mixture-of-experts)架構,這是一種能加速模型訓練並減少參數數量的機器學習方法,使團隊能夠以較少的晶片訓練模型。此外,DeepSeek還運用創新的「多頭潛在注意力」(multi-head latent attention)技術,使模型能夠在較少記憶體的條件下儲存更多數據。
DeepSeek的成功模式可能為那些有意發展AI,但資金與硬體資源有限的國家提供一條可行的道路,並促使更多國家投入開發大量的新模型。DeepSeek的迅速崛起,不僅顯示中國在AI領域的技術,也反映出在全球科技競爭加劇的背景下,各國對自主研發與技術創新的高度關注。不過近期也傳出DeepSeek抄襲OpenAI的風聲,現階段微軟和OpenAI正在調查DeepSeek是否使用了「蒸餾」(distillation)〔註〕的方式來最佳化自身模型。隨著世界各國持續推動AI人才培養與技術突破,DeepSeek等企業的發展有可能進一步改變全球LLM市場格局,並對現有的科技領導者構成更大挑戰。
〔註〕
蒸餾技術是一種知識轉移方法,透過使用大型語言模型(teacher model)生成的高品質數據或直接學習它的機率分布,以訓練較小的模型(student model)。這種方法可以有效提升小模型的效能,同時降低開發成本與運算需求,使小的模型更適用於實際應用場景。
新聞來源
1. Conroy, G. & Mallapaty, S. (30 January 2025).
How China created AI model DeepSeek and shocked the world.
Nature,
https://www.nature.com/articles/d41586-025-00259-0
2. 陳竫詒(2025年1月29日)。
DeepSeek抄襲OpenAI?是大外宣嗎?中國突破美國管制?一次看懂DeepSeek 。
天下雜誌,
https://www.cw.com.tw/article/5133890
回列表頁
加入收藏
列印
相關推薦
科學月刊 2月號/2025 第662期:狙擊禽流感
特別價
$266
新訂一年方案:《科學月刊》一年12期
售價 $2780
新訂兩年方案:《科學月刊》二年24期
售價 $5300
TOP
本站使用第三方服務進行分析,以確保使用者獲得更好的體驗。了解本站
隱私權政策
OK