- 科技報導
- 焦點話題
文章專區
2025-03-19讓大型語言模型蓬勃發展 資料與技術的開放、協力、自主
519 期
Author 作者
莊庭瑞/中央研究院資訊科學研究所副研究員
〈本篇文章與研究資料管理推進室共同刊載〉
今(2025)年初始, 大型語言模型(large language model, LLM)的領域相當熱鬧,多項發展廣獲關注。舉例來說,DeepSeekAI公司於1月中旬發布DeepSeek-R1模型與研究論文,宣稱能力與市場領頭羊OpenAI公司的o1模型相當。據產業人士估算,同樣的提問交給DeepSeek-R1模型回答所需耗費的能源,大概是o1模型所需能源的5%。由於美國對高階AI晶片(高階繪圖處理器與資料通訊模組)出口到中國多有限制,位於杭州的DeepSeek AI使用的是非頂級的計算叢集設備,卻展現了前沿AI的研發能力。這消息讓美國股票市場上高階AI晶片設計商輝達(NVIDIA)的股價,在1月份一度下滑達20%。不過,本文關注的不是股市或產業,而是開發大型語言模型所需要的巨量圖文素材,究竟從何處取得的議題。這可從社群服務Facebook母公司Meta兩年前發布的大型語言模型Llama,以及隨後的著作權官司說起。
疑由「陰影圖書館」取得資料而面臨訴訟的AI公司
今年2月初,多家媒體揭露這起訴訟案的新發展,Meta公司遭控經由「安娜典藏庫」(Anna's Archive)〔註1〕從Z-Library和LibGen這兩個「陰影圖書館」(shadow library)〔註2〕網站取得高達35.7兆位元組(terabyte, TB)的資料。OpenAI同時也面臨來自《紐約時報》(The New York Times)的訴訟。面對侵犯著作權的質疑,Meta以及OpenAI等公司通常主張,使用網路上的圖文素材來訓練模型是「合理使用」(fair use),並不構成侵權行為;模型訓練完成後,這些素材即可刪除,只留下模型本身。不過,使用受著作權保護的內容是否合於合理使用的情形,還需考量「利用之目的及性質,包括係為商業目的或非營利教育目的」、「所利用之質量及其在整個著作所占之比例」,以及「利用結果對著作潛在市場與現在價值之影響」等事項(參見臺灣《著作權法》第65條;United States Copyright Act of1976, §107),並非由使用者單方面宣稱。
〔註1〕安娜典藏庫不只散布資料,也扮演內容徵集的角色,歡迎大量資料的捐贈,例如從大批掃描影像檔案抽取出的文本。安娜典藏庫號召使用者一起改善收錄檔案的後設資料,並增進網站的功能與收錄規模,以群策群力方式經營共用的數位資源園地。
〔註2〕指由不能公開流通的書籍、論文、影音、軟體等大量檔案建置而成的(數位)典藏庫。這些檔案不能公開流通有諸多原因,有些是內容隱晦或不容於當局,更多是因為著作權的限制。陰影圖書館目前已成為眾人取用知識的重要來源,功能角色受到研究者的關注。
在與Meta的訴訟中,著作權利人提出的通訊紀錄顯示,Meta的員工使用了公司的網路跟筆電,並採用BitTorrent(BT)協定下載檔案。在BT的傳輸協定中,資料的下載者也會成為資料的提供者,下載資料的電腦成為「同儕網路」上互助的資料節點。當特定檔案的需求增多時,供給也隨著提高,資料如洪流(torrent)般在網路中流轉。Meta若使用BT下載陰影圖書館的內容,就表示也同時在網路上散布這些檔案,這就很難被認定為合理使用的範疇。訴訟文件中就提出,Meta公司某位工程師曾傳訊表示:「在公司的筆電用BT,感覺不對」("Torrenting from a corporate laptop doesn't feel right ")。
兩年前Llama模型初問世時,Meta的論文明示訓練資料來源多樣,書籍占比4.5%。其中一部分來自古騰堡計畫(Gutenberg Project),這些書籍已歸入公眾領域,不受著作權保護;另一部分來自網路上的書籍集成Books3檔案,內含近20萬冊純文字格式的書籍內文。收於Books3的書籍很多仍受著作權保護,這也是著作權人跟Meta官司的起源。Meta發展了一系列的Llama模型,但之後的論文就不再列出訓練資料的來源。OpenAI也是這樣,GPT-3模型於2020年發布時,論文中還概略列出訓練資料的來源,三年後的GPT-4技術報告就完全不提了。
值得關注的是,2024年3月時,DeepSeek AI在一篇關於視覺與語文模型的論文中,詳細列出圖文資料來源。其中包括使用光學字元辨識(Optical Character Recognition, OCR)方法,從安娜典藏庫中清理出86萬冊英文書籍以及18萬冊中文書籍的內文資料為訓練素材。DeepSeek-R1模型問世後,安娜典藏庫刊出部落格表示「著作權改革已成為國安議題」("Copyright reform is necessary for national security.")。西方國家如果要在大型語言模型跟中國競爭,不能不重新審視現行的著作權體制,要縮短著作保護年限(美國保護到著作人死後70年,臺灣則是50年),並正視大量語文資料的保存與使用。語言模型訓練需要大量圖文資料,陰影圖書館的存在卻有如禁果花園,只能祕而不宣各自進出使用;DeepSeek AI坦承使用反而相對誠實。相較於中國雖有著作權法,也是「世界智慧財產組織」(World Intellectual Property Organization, WIPO)的一員,但發展AI的過程中是否會面臨同樣的著作權限制,令人持疑。
高品質訓練資料集的必要性與取得難題
大型語言模型的發展需要高品質的語文、影音與圖像資料集。資料集的品質很大部分依靠後設資料(metadata)以及來源資訊(provenance)的精確完整度,且要避免重複收錄。大量圖文素材需要費工清理,才能得到高品質的訓練資料集。用OCR方法處理文獻影像檔案之後還需要校讀整修編目,即使部分流程可以(半)自動化不需人工逐項處理,依舊耗用計算資源與儲存設備。資料清理完備後,後續的散布幾乎不需成本(zero marginal cost of distribution),其實可以共同使用。不過,原始資料若來自陰影圖書館,散布清理後的資料就多有顧慮,除非以匿名方式回傳到陰影圖書館。重複的資料清理於是成為研究者的日常,耗費不必要的人力與資源;高品質資料難以流通也限制了跨機構的研究合作。
這類資料清理工作依據目的需求,還包括許多不同的細節。舉例來說,為了要能以自然語言驅動圖像生成,或是讓電腦能看圖說話,研究者需要蒐集大量的圖文對照資料,從網頁、文件、書籍檔案中擷取成對的圖像與圖說;為了建構自動聽寫系統,要從電影劇集影音檔案中,抽取出匹配的音軌與字幕檔;為了研究自動翻譯,也就需要大量的高品質翻譯文本。這些資料蒐集清理的工作,是開發應用系統的基礎,卻常得不到研究單位和科研資助機構的關愛。
雖然遭遇諸多限制,這類資料匯集的工作仍持續進行中。在歐洲因多語言的文化背景與使用環境,建構主題性、高品質,且可共同使用的圖文資料集工作相對獲得重視。去年11月公開、高達兩兆字符(token)的「共用語料庫」(Common Corpus)就相當有代表性。此語料庫內容來自已歸入公眾領域的書籍報紙、公部門的經濟法律文件、維基百科(Wikipedia)以及網路上已授權給公眾使用的內容,強調來源清楚、組成多樣(字符數量上當然還是以英文和法、德、西等歐洲語文居多) 。這項專案是歐洲資料基礎聯盟ALT-EDIC(Alliance for Language Technologies EDIC)的服務,強調開放與可信任性,部分經費來自法國文化部以及隸屬於總理辦公室的數位總處。
至於影音與圖像,也有多項專案陸續建置可共用的訓練資料集。YouTube-Commons資料集內容來自YouTube上的兩百萬部影片,從其中抽取出聲音與字幕檔,這些影片皆以「創用CC姓名標示」(CC-BY)授權方式,任何人都可自由使用。YouTube-Commons的工作同樣受到法國文化部以及數位總處支持。去年開始的Public Domain 12M以及十年前就發布的Internet Archive Book Images都是可自由取用的公眾領域圖像來源。
在語音方面,非營利組織謀智(Mozilla)基金會的Common Voices專案透過簡易的網頁互動方式,持續收錄各地語音資料,尤其關注弱勢語言,並強調共創共用精神,以CC0公眾領域宣告方式釋出專案產出的所有資料集,不主張任何著作權利。Mozilla台灣社群與台灣維基媒體協會目前正以專案經費補助方式,推動建置可自由使用的排灣、賽德克、撒奇萊雅、泰雅、魯凱、布農等語群的族語語音資料庫。
高品質資料集,LLM平民化的關鍵
DeepSeek-R1模型的發展告訴我們,建構大型語言模型的硬體與能源投資成本,有機會不再是高不可及,而模型的日常使用成本也可大幅降低。但仍舊需要高品質資料協助大型語言模型的發展,在調校既有模型時尤是。如何取得可開放使用、後設資料完備且來源清楚的高品質資料集,關係到大型語言模型能否「平民化」(democratization)。去年6月謀智基金會跟人工智慧公司EleutherAI就開放授權的訓練資料集議題,召集30位學者專家共同研討規範原則跟技術實務,初步報告於1月中完成。
就在2月3日,由歐盟「數位歐洲計畫」(Digital Europe Programme)資助的Open Euro LLM專案正式開跑,集結11所大學與研究機構、五家公司以及四個高速計算中心,要協力開發一系列真正開放、合乎規範、語文多樣的大型語言模型,確保軟體、資料、模型本身以及評比方法都會公開,並可再次調整後使用於公部門跟產業。大型語言模型的發展已進入下個階段,資料與技術的開放、協力、自主議題將持續獲得關注,也會是AI未來能否平民化的關鍵。
延伸閱讀
1. Anna and the team (31 January 2025). Copyright reform is necessary for national security. Anna's Blog. https://annas-archive.org/blog/ai-copyright.html.
2. Karaganis, J. editor. (2018). Shadow Libraries: Access to Knowledge in Global Higher Education. MIT Press.
3. Baack, J. et. al. (14 January 2025). Towards Best Practices for Open Datasets for LLM Training. arXiv:2501.08365, https://arxiv.org/abs/2501.08365.