文章專區

2024-11-142024開放儲存庫國際會議 直擊研究資料基礎設施的新進展 515 期

Author 作者 李承錱/中央研究院資訊科學研究所,研究資料寄存所技術經理。

開放儲存庫國際會議(International Conference on Open Repositories,簡稱OR會議)是開放儲存庫(open repositories)領域的年度研討會,自2006年起已舉辦19屆。今(2024)年於6月3∼6日在瑞典的第二大城哥德堡(Gothenburg)舉行。在為期四天、近50場次的會議中,共有超過400位來自圖書館學、人文社會科學、資訊科學、法律等相關領域的研究人員,交流應用開放原始碼儲存庫套件於研究資料典藏的實務經驗,探討包括學術機構研究資料的管理、開放、再利用、評估、使用權等議題。

今年的大會主題為「推動全球進展」(Empowering Global Progress),著重於探討如何借助開放儲存庫增進研究透明度、提升少數族群地位,以及實踐環境永續。中研院研究資料寄存所(depositar)團隊過去曾兩次(2015、2023年)參與實體的OR會議,在疫情期間更多次參加線上會議,今年也躬逢其盛。


▲ 今年6 月3 ~ 6 日於瑞典哥德堡舉行的開放儲存庫國際會議。(作者提供)


歷久彌新的開放儲存庫

事實上,OR會議所指稱的「開放儲存庫」,早年是指以學術著作(學位論文、期刊論文、書籍等)為收錄對象的機構典藏庫(institutional repository)與主題典藏庫(subject repository)為主。儲存庫服務提供業者Cottage Labs在分享中,回顧過去30年機構與主題典藏庫在開放近用(open access, OA)運動中所扮演的關鍵角色。由Fedora、EPrints、DSpace、Samvera、Invenio等開放原始碼儲存庫套件搭建的線上開放儲存庫所實踐的綠色OA(Green OA)〔註1〕,再加上OAI-PMH、OAI-ORE、SWORD等資料交換格式〔註2〕的概念相繼問世,促使當前的研究資訊系統(current research information system, CRIS)與儲存庫整合(CRIS/repository integration),使得知識散播更快且廣。

〔註1〕OA 可根據付費方式與開放時間分為多種類型,主要有金色OA 與綠色OA 兩種。所謂金色OA,是在著作發表後立即於期刊網站免費提供取用,並由作者支付所需的文章處理費用(article processing charge, APC)。而綠色OA,則是由作者自行將著作的預刊本(preprint)典藏於他所屬或接受資助的機構或主題典藏庫,並免費提供取用。

 

〔註2〕OAI-PMH 與OAI-ORE 均為開放式檔案協會(Open Archives Initiative, OAI)所制定出來的檔案交換協定,PMH(Protocol for Metadata Harvesting)針對後設資料的擷取;ORE(Object Reuse and Exchange)更拓展至網路資源的描述與交換。而SWORD(Simple Web-service Offering Repository Deposit)標準則提供跨儲存庫的共通傳輸規格。


在大會慣例的儲存庫競技(Repository Rodeo)活動中,來自上述各儲存庫套件的開發與營運團隊更新儲存庫的最新動態,包括持續識別碼(persistent identifier, PID)整合、更細緻的資料權限管理與審核機制、與外部系統的資料交換,以及根據國際圖像互通架構技術(International Image Interoperability Framework, IIIF)開發的圖像瀏覽工具等。持續改善的功能與活躍的使用者社群,令開放儲存庫與時俱進。


學術研究的基礎設施

如今的開放儲存庫已不再侷限於機構與主題典藏。資料儲存庫(data repository)為一種開放儲存庫,因新近資料科學熱潮而蓬勃發展;此外,開放儲存庫與研究流程密切相關,更是支持研究的基礎設施。因此如何確保儲存庫得以長期且穩定地運作,是所有儲存庫經營團隊都必須面對的課題,本次也有兩個議程與此直接相關。

在開放與永續的基礎設施(Open and Sustainable Infrastructure)議程裡,Invest in Open Infrastructure(IOI)計畫便建立儲存庫目錄網站Infra Finder,分析比較57個開放儲存庫服務在技術、社群、政策、治理等面向的異同,更據此製作2024 開放基礎設施現況報告(2024 State of Open Infrastructure Report),提供欲導入儲存庫服務的研究機構或團隊參考。

而在資料儲存庫與經驗傳承(Data Reposit o r ies and Lessons Learned)議程中,瑞典皇家理工學院(Kungliga Tekniska högskolan, KTH)分享他們在規劃校際研究資料儲存服務時,透過訪談了解校內研究人員在資料管理的痛點與需求,例如存取方式、權限控管、運算分析、隱私風險、長期保存等細節;同時歸納導入服務期間面臨的資源分配、技術支援、教育訓練、快速應對研究需求等諸多挑戰,並強調重視協作的研究資料治理(data governance)。


藉資料數位化促進學術研究流程自動化

在開放儲存庫將各類與研究相關的資料數位化後,如能增進儲存庫間的資料交換,將可開啟學術研究流程自動化的可能性。在本次OR會議,德國漢堡大學(University of Hamburg)展示了電子化的實驗室筆記本軟體(Electronic Laboratory Notebook, ELN),例如elabFTW、Chemotion等軟體所記錄的實驗資料如何透過單一登入(Single Sign-On, SSO)與應用程式介面(application programming interface, API)自動匯入資料儲存庫中。

瑞典的查爾摩斯理工大學(Chalmers University of Technology)也使用開源套件DSW(Data Stewardship Wizard)內建的機器可操作資料管理方案(machineactionable data management plan, maDMP)功能,將資料管理方案輸出為機器可讀的形式,並與校內CRIS、資料儲存系統,及瑞典的國家資料儲存庫(Swedish National Data Service)串接,讓研究人員僅需輸入一次研究計畫資訊便能為眾多系統所運用,達成研究計畫管理的自動化。

此外,更有像是OpenCost專案,正在建立一個完整記錄科學出版成本的開放標準,包括後設資料規範與OAIPMH介面,將開放儲存庫收錄的學術出版品,與記錄該文章處理費用的OpenAPC資料庫連結,以期促進科研專案的成本透明化。


因應AI時代的應用與挑戰攻防

隨著大型語言模型(large language model, LLM)的流行,人工智慧(artificial intelligence, AI)相關應用已深刻影響社會,學術研究也不例外。資料儲存庫作為學術的數位基礎設施,除了資料保存、管理、分享等傳統角色外,近年來也持續探索結合資料探索、分析與運算資源等延伸應用。

例如由美國哈佛大學(Harvard University)開發的Dataverse儲存庫套件,便於近期推出基於ChatGPT的後設資料填寫輔助工具TurboCurator,以及可使用自然語言詢問表格內容的資料探索工具Ask the Data。瑞典
SciLifeLab也展示專為儲存與共享機器學習模型及資料科學程式的儲存庫服務SciLifeLab Serve,並可即時於Kubernetes運算叢集中部署與執行模型。而維也納工業大學(Vienna University of Technology, TU Wien)的研究資料平臺,也著手開發vre-repository-connector專案,令使用者得以於JupyterLab環境快速載入資料集並進行分析,最後將結果回存資料集。

然而,由於LLM對訓練語料的需求日增,所引發的AI採集(AI harvests)嚴重衝擊資料儲存庫的系統資源。例如Archipelago Commons儲存庫便曾於六小時內承受數以百萬計的採集機器人連線。面對此類相當於阻斷服務(denial-of-service attack, DoS)攻擊的不當利用,該儲存庫的營運團隊也在報告中提出具體建議:從robots.txt宣告與使用者代理(user agent)判斷等基本技法,到安裝各式機器人攔截器(bot blocker)套件,與設計蜜罐(honeypot)判斷機器人行為,再將它排除等進階手段。


來自東亞國家的發表

本屆OR會議於北歐舉辦,因此與會者多數來自歐洲。但仍有兩個來自日本國立情報學研究所(National Institute of Informatics, NII)的團隊,分別介紹他們建置的NII研究資料雲(NII Research Data Cloud),與補足學術資訊搜尋平臺CiNii Research紀錄中缺失的DOI識別碼等經驗。

來自臺灣中研院的研究團隊也於本年度會議分享經營開放儲存庫(即研究資料寄存所:data.depositar.io)的近況。在開發者議程軌,筆者介紹研究資料寄存所近期新增的Binder服務建置心得(詳見《科技報導》第507期),該服務提供使用者於瀏覽器建立與執行資料分析環境,便於運算、重現與展示藉由程式完成的研究成果。在另一個經驗分享的議程中,帶領研究資料寄存所計畫的副研究員莊庭瑞回顧團隊過去五年在技術開發、社群拓展,與政策推廣的成果與反思。


讓資料儲存庫成為開放儲存庫的發展熱點

目前國內科研機構在開放儲存庫的使用上,仍以機構與主題典藏庫為大宗。然而,從筆者過去於OR會議的實際觀察,發現許多國家的科研機構已積極投入資源,建置並維運通用的資料儲存庫(generalist repository),並以FAIR資料原則(可被找到、可被取用、可相互操作、可再次使用)為指引,因應學術研究趨勢與資料管理需求持續改進功能。本團隊身為資料儲存庫的經營者,也期待國內研究資料的管理與流通,能乘著AI時代帶來的巨量資料浪潮,獲得更多的關注與討論。

特別感謝一同參與本次會議的中央研究院資訊科學研究所副研究員莊庭瑞,提供部分講題的聽講摘要。


延伸閱讀
1. Jones, R. D. (2024 June 28). Looking up from the weeds: seeing what's next for OA by learning from the past. Open Repositories 2024 (OR2024), Gothenburg, Sweden. Zenodo. https://doi.org/10.5281/zenodo.12579359
2. Greer Klein, H., et al. (2024 June 25). The Repository Rodeo. Open Repositories 2024 (OR2024), Gothenburg, Sweden. Zenodo. https://doi.org/10.5281/zenodo.12527422
3. Steinhart, G., et al. (2024). 2024 State of Open Infrastructure: Trends in characteristics, funding, governance, adoption, and policy. Invest in Open Infrastructure. https://doi.org/10.5281/zenodo.10934089