Search / 搜尋

- 文章分類 -

文章專區

2022-10-15讓網路資料不再消失！認識網路物件的「持續識別碼」 490 期

Author 作者李承錱／中央研究院資訊科學研究所、研究資料寄存所技術經理。

持續識別碼學術研究研究效率 FAIR原則研究資料寄存所電腦可行動性

＊本篇文章與研究資料管理推進室共同刊載＊

現代人查詢資料離不開網路，覓得網路資料並引述資料來源時，往往一個網址（URL）便可代表千言萬語。但是，根據美國國會圖書館（Library of Congress）建立的部落格The Signal所整理的資料，網頁的平均壽命（從被建立到失效）約為44∼100天不等，包括網站改版、營運者決定關閉網站等，都是網址失效的可能原因。因此，單純使用網頁網址作為網路資源的參照，對資料的長期保存並不可靠。為了讓網路使用者能準確存取網路上的資源，持續識別碼（persistent identifier, PID）的服務因應而生。

什麼是「持續識別碼」？

PID是一種用以參照各類事物的長期性編碼，通常用於網路上的物件。顧名思義，PID包含「持續」與「識別碼」兩個核心要素。「持續」代表PID服務提供者維繫服務營運的承諾。PID服務提供者的長期營運承諾，確保PID能持續指向某個網路物件的最新網址，即使該物件因故被移動或刪除，也會清楚交代該物件的最新去向，而非僅顯示404 Not Found（找不到）訊息。例如數位物件識別碼（Digital Object Identifier, DOI）就建議提供識別碼的儲存庫，應建立墓碑頁面（Tombstone Pages），並於頁面載明物件失效的原因。也由於 PID的持續性，是建立於使用者對營運者的信任之上，因此PID服務提供者必須妥善管理該服務，並考量服務停止時的轉移問題。

「識別碼」則是PID的外顯特徵：可識別該物件的獨特編號。PID一般由英文字母與數字構成，各類PID雖有不同的編碼規則，但每個PID編號都獨一無二，不重複發放。同時，由於網頁瀏覽器是現代網路的入口，大多數PID服務都提供解析功能，含有PID編號的網址，並導向PID指涉物件所在的最新網址。所以當物件被刪除時，也會將對應的PID註記為失效編號。以DOI為例，「doi:10.1000/182」代表DOI Handbook這份線上文件，我們便可以使用https://doi.org/10.1000/182這個含PID編號的網址，透過DOI提供的解析服務，取得存放在https://www.doi.org/hb.html的這份文件。

持續識別碼的種類

依照發放的對象分類，目前較為流通的PID如下：

以「人物、組織」為對象的PID：

• 國際標準名稱識別碼（International Standard Name Identifier, ISNI）：是一項ISO標準（ISO 27729），用於唯一辨識參與創作活動（書籍、電視節目等）的個人或組織（唱片公司、出版社等）。ISNI由註冊於英國的ISNI International Agency Ltd這個機構負責管理，機構成員涵括多國的法定送存（legal deposit）圖書館與高等教育機構。截至今（2022）年5月，ISNI已收錄超過1300萬個公開個人檔案，以及160萬個公開組織檔案。

• 開放型研究者與貢獻者識別碼（Open Researcher and Contributor ID, ORCID）：ORCID為研究者提供免費、唯一且持久的身份識別，由非營利組織ORCID, Inc. 維護與推廣。自2012年起開始發放，至今年5月止，已有超過1400萬個ORCID iD被發放。在技術層面， ORCID以ISNI的規格設計，並為後者的一部分。

• 全球研究識別碼資料庫（Global Research Identifier Database, GRID）：GRID是有關研究組織的公開名錄資料庫，由英國Digital Science於2005年首次公開，2006年改以公眾領域貢獻宣告（CC0）釋出資料庫。去（2021）年9月的最終版本，包含超過10萬個世界各國研究組織的名稱、地址、網址、電子信箱等基本資訊。除了以網頁與應用程式介面（API）存取，GRID同時提供JSON與CSV格式的封存檔案，以及資料連結（linked data）介面。GRID計畫結束後，由ROR接續工作。

• 研究機構登錄（Research Organization Registry, ROR）：ROR由研究社群主導，目標是提供開放的研究組織識別碼與相關後設資料（metadata）。ROR計畫繼承自GRID，於2019年啟動，以後者的資料為基礎，並由加州數位圖書館、Crossref與DataCite共同發展與經營。一個ROR ID也可包含其在GRID、 ISNI、Crossref Funder ID和Wikidata QID等其他PID服務的對應編號，得以相互操作。ROR也提供網頁介面、API與JSON格式的封存檔案，今年3月的最新版本收錄超過10萬個研究組織資訊。

以「事物」為對象的PID：

• Handle System：Handle是一非商業性的識別碼解析系統，1994年由美國國家創新研究公司（Corporation for National Research Initiatives, CNRI）開發並維護至2015年，現由DONA基金會（DONA Foundation）負責管理。Handle不僅是眾多PID（如以下介紹的 DOI、RAiD、IGSN）的技術核心，也經營名為 Handle.Net的識別碼登錄與解析服務，與發行以Java 撰寫的軟體套件，可用於機構內部發行識別碼。 Handle System的技術細節，定義於網際網路工程任務編組（IETF）發行的RFC 3650至3652之中。

• DOI：是學術領域最廣為人知的PID系統之一，為物件（如學術文章、書籍、資料等）提供數位化的識別碼，由國際數位物件識別號基金會（International DOI Foundation）於1998年發起。DOI實作Handle System的識別碼功能，它的後設資料「資料字典」（data dictionary）建基於用以描述數位交易的indecs（interoperability of data in e-commerce systems）後設資料架構，並在歐盟的前身──歐洲共同體（European Community）的支持下進行開發。DOI可描述物件的出版資訊、摘要，甚至可以包含物件的完整內容。根據資料的繁簡程度（granularity），DOI識別碼也可被切割為多個子集合（subsets）。 DOI目前由11個註冊代理機構（R e g i s t r a t i o n Agencies）受理識別碼申請（通常為付費服務），並已發放逾2億7000萬個識別碼。DOI同時也是一項ISO 標準（ISO 26324）。

• 國際通用樣本號（International Generic Sample Number, IGSN）：主要用於唯一辨識研究時搜集的實體樣本（physical samples），最早使用於地球科學，後擴及所有研究領域。IGSN的識別碼同樣是基於Handle System，名為IGSN ID；維護的後設資料綱要IGSN descriptive metadata schema著重描寫樣本的材質與所在空間等資訊。目前全球有10個IGSN分發機構，如法國國家科學研究中心（Centre national de la recherche scientifique, CNRS）與澳洲研究資料共享中心（Australian Research Data Commons, ARDC）等。為因應持續增長的需求，IGSN組織（IGSN Organization）與DataCite建立合作關係，並於今年9月起改由DataCite發放DOI形式的IGSN ID。

• 研究活動識別碼（Research Activity Identifier, RAiD）：是為描述研究計畫而設計的識別碼，涵蓋研究計畫的人員、儀器、機構、研究成果等描述。RAiD由ARDC於去年推出，以Handle System實作識別碼功能，目前主要用於ARDC的研究計畫管理系統，同時也接受外部申請。RAiD的特色，在於彙整 ORCID、DOI、ROR、IGSN 等與研究計畫相關的識別碼系統，提供研究計畫的關係者（研究團隊、贊助者、研究機構等）獲取關於計畫重要資訊的一站式服務。

未限制或支援多種對象的PID：

• 資源典藏碼（Archival Resource Key, ARK）：是一種多用途、可用來描述各類資訊物件的通用識別碼。ARK是由加州數位圖書館（CDL）開發，目前由ARK聯盟（ARK Alliance）負責管理，CDL則維運 N2T.net這個全球的ARK解析服務。從2002年起算的20年間，ARK已免費發行82億個識別碼。ARK採分散式設計，也就是解析已發行ARK至資源所在地的工作，最終多是由發放該ARK的機構進行。例如ark 辨識碼「ark:70795/ghmrs9」透過N2T.net（Nameto-Thing）服務解析：https://n2t.net/ark:70795/ghmrs9 後，僅會導向識別碼提供者所維護的服務網址：https://persist.lu/ark:70795/ghmrs9，再由該識別碼提供者負責導向參照的資源網址：https://viewer. eluxemburgensia.lu/ark:70795/ghmrs9。ARK官方網站也有整理各程式語言解析器實作。

ARK的分散式與自行維護設計使得ARK的物件解析功能相較其他識別碼具有更多的客製化彈性。例如上述的N2T.net同時提供的終端解析服務，便具有後綴直通（Suffix Passthrough）功能，可將識別碼後加上的文字，同步添加到參照的資源網址之後，例如https://n2t.net/ark:12345/fk3指向https://www. google.com/search?q=，加上PID成為https://n2t.net/ ark:12345/fk3PID後，便可指向https://www.google. com/search?q=PID，也就是於Google搜尋PID一詞。

ARK的分散式與自行維護設計使得ARK的物件解析功能相較其他識別碼具有更多的客製化彈性。例如上述的N2T.net同時提供的終端解析服務，便具有後綴直通（Suffix Passthrough）功能，可將識別碼後加上的文字，同步添加到參照的資源網址之後，例如https://n2t.net/ark:12345/fk3指向https://www. google.com/search?q=，加上PID成為https://n2t.net/ ark:12345/fk3PID後，便可指向https://www.google. com/search?q=PID，也就是於Google搜尋PID一詞。

• 持續統一資源位址（Persistent Uniform Resource Locator, PURL）：是一種統一資源位址（uniform resource locator, URL），也就是常見的「網址」。在網路瀏覽器輸入PURL位址後，PURL解析服務會回傳HTTP狀態碼（HTTP status code）；例如HTTP 301永久移動，或HTTP 302臨時移動等，瀏覽器便能依據接收到的HTTP狀態碼，將PURL位址轉換為物件的實際網址。於2016年，在持續運作20年後，美國國際圖書館電腦中心（OCLC）宣布將它擁有的PURL解析服務，轉移至網際網路檔案館（Internet Archive）。

• W3ID：全稱為網際網路的永久識別碼（Permanent Identifiers for the Web），是由全球資訊網協會（W3C）下設的永久識別碼社群小組（Permanent Identifier Community Group）所建立的安全、永久轉址服務，主要目的是提供資料連結（linked data）所需的長期不變網址。使用者只要複製（fork）W3ID在GitHub 的倉儲內容（repository），加上包含網址重寫規則（W3ID網址與物件實際網址的對應）的.htaccess檔案，再提交拉取請求（pull request），經倉儲維護者合併後，即可獲得獨立的識別碼命名空間。如https:// w3id.org/dpv便用於Data Privacy Vocabulary這個資料連結語彙，並可在https://github.com/perma-id/w3id. org/tree/master/dpv了解它的網址重寫規則。

除上述識別碼，還有許多雖然不強調「持續」，但由於發展較早，已被廣泛採用的識別碼、代碼表或地名辭典（gazetteer）等，因仍具有持續的性質，也被作為PID使用。這類代碼包括：國際標準書號（International Standard Book Number, ISBN）、國際標準期刊號（International Standard Serial Number, ISSN）、虛擬國際權威檔案識別碼（Virtual International Authority File, VIAF ID）、GeoNames，以及ISO 3166「國家與地區代碼表」等。

除此之外，維基資料（Wikidata）的項目識別碼（QID）近來也受到矚目，維基資料是完全由社群自主維護的跨語言協作資料庫，並由維基媒體基金會（Wikimedia Foundation）管理。Wikidata以「項目」（item）為核心，每個項目都有與它相關的敘述及可靠的原始出處。維基資料為每個項目賦予一個以Q開頭的唯一識別碼，故又被稱為QID，例如「宇宙」的識別碼為Q1。維基資料也連結到其他的PID系統，讓使用者可以在不同來源的事實資訊間探索知識。

研究資料管理為何需要PID？

精確與可驗證

學術研究重視精確，PID的唯一性可以有效解決包括同名同姓、一字多義等容易造成語意混淆的問題。例如，當我們以維基資料的項目識別碼Q7561635指稱松山車站，就一定是臺灣鐵路管理局轄內的松山車站，而不會是隸屬於日本四國旅客鐵道（JR四國）的同名車站。伴隨PID的後設資料，也提供關於PID的進一步描述與溯源資訊，有助於查核資料真偽。

提高研究效率

大部分PID均以網址呈現，也提供透過瀏覽器存取研究資料的捷徑，有助於達成研究資料FAIR原則〔註〕中「可被取用」的需求；部分PID甚至以識別碼為基礎，提供更細緻的資訊檢索功能。法國國家圖書館的典藏系統，便藉助前述的後綴直通功能，在ARK識別碼後添加限定詞（qualifiers），如在https://n2t.net/ ark:12148/bpt6k5834013m加上/f10，便可以瀏覽該書籍的第十頁。此外，目前主流的文獻管理工具，均支援自PID（DOI、ISBN等）載入文獻的描述資料（如標題、作者、期刊名等），可以大幅節省整理文獻的時間；又如DOI Citation Formatter網站，提供將DOI識別碼與後設資料，輸出為各式文獻引用格式的服務。

促進相互連結

透過PID的可相互操作性（interoperability），將使研究者與學術成果的描述得以相互豐富，例如Crossref便透過擷取DOI的作者資訊，自動更新ORCID上的學術著作列表。ORCID也運用其身份識別碼的特性，提供以ORCID iD作為認證方式，登入研究資料庫的功能。 Crossref產製的DOI解析報告（resolution report），包括DOI的逐月解析次數統計，讓物件上傳者得以追蹤該物件的使用情形。

心動了嗎？如何開始使用PID於研究？

若您的研究領域已有推薦的PID，使用相同的PID系統將有助於領域內的資訊交換。

〔註〕有鑑於仰賴電腦處理的研究漸增，FAIR 原則強調資料的電腦可行動性（machine-actionability），即資料是可被找到（findable）、可被取用（accessible）、可相互操作（interoperable）、並且可再次使用（reusable）。

另外，研究計畫所使用的資料儲存庫，是PID最主要的應用場域之一。主流的資料儲存庫，如Zenodo、 figshare、Harvard Dataverse等，都針對寄存的資料集發行DOI識別碼；Zenodo亦提供將資料集作者連結至 ORCID iD的功能；臺灣在地的儲存庫──「研究資料寄存所」（depositar）也於近期啟用資料集的ARK識別碼服務。讀者們可確認使用的儲存庫是否已經整合 PID，以及它的功能是否符合讀者的研究需求。

若您的研究計畫尚未使用任何一種PID，則可參考 FREYA Project製作的選擇指南（https://doi.org/10.5281/ zenodo.4192174），比較各家PID的功能，搭配英國的數位策展中心（Digital Curation Centre）所建議的考量因素，挑選符合需要的PID：
• 識別碼應該識別什麼──資源、地點、後設資料，或以上皆是？
• 識別碼是否需要全域唯一，或區域唯一即可？
• 識別碼需要哪些基本功能（可識別性與可檢索性）？
• 需要什麼程度的繁簡程度（granularity）？
• 是否有需要合併的既有命名系統？若是，將如何處理新舊命名系統之間的相互操作性？
• 將會使用具有明確語意或是隱晦的識別碼？
• 版本控制可能是個問題，多大程度的資源變化足以賦予其新的識別碼？
• （識別碼的）後設資料將被如何儲存與綁定到識別碼所指涉的資源？
• 識別策略能否擴展以滿足未來需求？
• 在流程的哪個階段會賦予資源識別碼？
• 誰將為識別碼的管理負責？
•如何為識別碼的長期經營提供資金？

PID是資訊汪洋中的指路明燈PID的持續性和獨特性，為來去匆匆的網際網路物件提供長期可被取得的可靠連結；尤其對於具有公眾利益、作為研究佐證或容易產生混淆的資料，PID服務所賦予的穩定連結，也使資料溯源與驗證工作更加便利，提升使用者對資料的信任。下次在網路上搜尋資料時，讀者不妨留意這個位於角落，不起眼的英數字號碼。

延伸閱讀
1. Dappert, A., et al. Connecting the Persistent Identifier Ecosystem: Building the Technical and Human Infrastructure for Open Research. Data Science Journal, 16, 28. https://doi.org/10.5334/dsj-2017-028
2. Davidson, Joy. (2006). Persistent Identifiers. DCC Briefing Papers: Introduction to Curation. http://hdl.handle.net/1842/3368
3. Meadows, A., et al. (2021). PIDs 101: A Beginners' Guide to Persistent Identifiers. https://doi.org/10.5281/ZENODO.4574566

相關推薦

新訂一年方案：《科學月刊》一年12期

新訂一年方案：《科學月刊》一年12期

新訂兩年方案：《科學月刊》二年24期

新訂兩年方案：《科學月刊》二年24期

台北市大安區羅斯福路三段 77 號 7 樓
服務電話：+886-2-2363-4910
電子郵件：scimonth@scimonth.one
服務時間：週一至週五 09:30~17:30，例假日除外。

認識科月

關於科月

各期目錄

投稿須知

合作洽談
讀者服務

購買雜誌

訂閱雜誌

網路會員

訂閱電子報

隱私政策服務條款

© 1970- by Science Monthly 若需轉載、使用科學月刊或科技報導的文字、圖像或影音等，請洽本公司。

網頁設計 : 藝誠網頁設計公司