文章專區

2022-10-15讓網路資料不再消失!認識網路物件的「持續識別碼」 490 期

Author 作者 李承錱/中央研究院資訊科學研究所、研究資料寄存所技術經理。

*本篇文章與研究資料管理推進室共同刊載*

現代人查詢資料離不開網路,覓得網路資料並引述資料來源時,往往一個網址(URL)便可代表千言萬語。但是,根據美國國會圖書館(Library of Congress)建立的部落格The Signal所整理的資料,網頁的平均壽命(從被建立到失效)約為44∼100天不等,包括網站改版、營運者決定關閉網站等,都是網址失效的可能原因。因此,單純使用網頁網址作為網路資源的參照,對資料的長期保存並不可靠。為了讓網路使用者能準確存取網路上的資源,持續識別碼(persistent identifier, PID)的服務因應而生。

什麼是「持續識別碼」?

PID是一種用以參照各類事物的長期性編碼,通常用於網路上的物件。顧名思義,PID包含「持續」與「識別碼」兩個核心要素。 「持續」代表PID服務提供者維繫服務營運的承諾。PID服務提供者的長期營運承諾,確保PID能持續指向某個網路物件的最新網址,即使該物件因故被移動或刪除,也會清楚交代該物件的最新去向,而非僅顯示404 Not Found(找不到)訊息。例如數位物件識別碼(Digital Object Identifier, DOI)就建議提供識別碼的儲存庫,應建立墓碑頁面(Tombstone Pages),並於頁面載明物件失效的原因。也由於 PID的持續性,是建立於使用者對營運者的信任之上,因此PID服務提供者必須妥善管理該服務,並考量服務停止時的轉移問題。

「識別碼」則是PID的外顯特徵:可識別該物件的獨特編號。PID一般由英文字母與數字構成,各類PID雖有不同的編碼規則,但每個PID編號都 獨一無二,不重複發放。同時,由於網頁瀏覽器是現代網路的入口,大多數PID服務都提供解析功能,含有PID編號的網 址,並導向PID指涉物件所在的最新網址。所以當物件被刪除時,也會將對應的PID註記為失效編號。以DOI為例,「doi:10.1000/182」代表DOI Handbook這份線上文件,我們便可以使用https://doi.org/10.1000/182這個含PID編號的網址,透過DOI提供的解析服務,取得存放在https://www.doi.org/hb.html的這份文件。

持續識別碼的種類

依照發放的對象分類,目前較為流通的PID如下:

以「人物、組織」為對象的PID:

• 國際標準名稱識別碼(International Standard Name Identifier, ISNI):是一項ISO標準(ISO 27729),用於唯一辨識參與創作活動(書籍、電視節目等)的個人或組織(唱片公司、出版社等)。ISNI由註冊於英國的ISNI International Agency Ltd這個機構負責管理,機構成員涵括多國的法定送存(legal deposit)圖書館與高等教育機構。截至今(2022)年5月,ISNI已收錄超過1300萬個公開個人檔案,以及160萬個公開組織檔案。

• 開放型研究者與貢獻者識別碼(Open Researcher and Contributor ID, ORCID):ORCID為研究者提供免費、 唯一且持久的身份識別,由非營利組織ORCID, Inc. 維護與推廣。自2012年起開始發放,至今年5月止,已有超過1400萬個ORCID iD被發放。在技術層面, ORCID以ISNI的規格設計,並為後者的一部分。

• 全球研究識別碼資料庫(Global Research Identifier Database, GRID):GRID是有關研究組織的公開名錄資料庫,由英國Digital Science於2005年首次公開,2006年改以公眾領域貢獻宣告(CC0)釋出資料庫。去(2021)年9月的最終版本,包含超過10萬個世界各國研究組織的名稱、地址、網址、電子信箱等基本資訊。除了以網頁與應用程式介面(API)存取,GRID同時提供JSON與CSV格式的封存檔案,以及資料連結(linked data)介面。GRID計畫結束後,由ROR接續工作。

• 研究機構登錄(Research Organization Registry, ROR):ROR由研究社群主導,目標是提供開放的研究組織識別碼與相關後設資料(metadata)。ROR計畫繼承自GRID,於2019年啟動,以後者的資料為基礎,並由加州數位圖書館、Crossref與DataCite共同發展與經營。一個ROR ID也可包含其在GRID、 ISNI、Crossref Funder ID和Wikidata QID等其他PID服務的對應編號,得以相互操作。ROR也提供網頁介面、API與JSON格式的封存檔案,今年3月的最新版本收錄超過10萬個研究組織資訊。

以「事物」為對象的PID:

• Handle System:Handle是一非商業性的識別碼解析系統,1994年由美國國家創新研究公司(Corporation for National Research Initiatives, CNRI)開發並維護至2015年,現由DONA基金會(DONA Foundation)負責管理。Handle不僅是眾多PID(如以下介紹的 DOI、RAiD、IGSN)的技術核心,也經營名為 Handle.Net的識別碼登錄與解析服務,與發行以Java 撰寫的軟體套件,可用於機構內部發行識別碼。 Handle System的技術細節,定義於網際網路工程任務編組(IETF)發行的RFC 3650至3652之中。

• DOI:是學術領域最廣為人知的PID系統之一,為物件(如學術文章、書籍、資料等)提供數位化的識 別碼,由國際數位物件識別號基金會(International DOI Foundation)於1998年發起。DOI實作Handle System的識別碼功能,它的後設資料「資料字典」 (data dictionary)建基於用以描述數位交易的indecs(interoperability of data in e-commerce systems)後設資料架構,並在歐盟的前身──歐洲共同體(European Community)的支持下進行開發。DOI可描述物件的出版資訊、摘要,甚至可以包含物件的完整內容。根據資料的繁簡程度(granularity),DOI識別碼也可被切割為多個子集合(subsets)。 DOI目前由11個註冊代理機構(R e g i s t r a t i o n Agencies)受理識別碼申請(通常為付費服務),並已發放逾2億7000萬個識別碼。DOI同時也是一項ISO 標準(ISO 26324)。

• 國際通用樣本號(International Generic Sample Number, IGSN):主要用於唯一辨識研究時搜集的實體樣本(physical samples),最早使用於地球科學,後擴及所有研究領域。IGSN的識別碼同樣是基於Handle System,名為IGSN ID;維護的後設資料綱要IGSN descriptive metadata schema著重描寫樣本的材質與所在空間等資訊。目前全球有10個IGSN分發機構,如法國國家科學研究中心(Centre national de la recherche scientifique, CNRS)與澳洲研究資料共享中心(Australian Research Data Commons, ARDC)等。為因應持續增長的需求,IGSN組織(IGSN Organization)與DataCite建立合作關係,並於今年9月起改由DataCite發放DOI形式的IGSN ID。

• 研究活動識別碼(Research Activity Identifier, RAiD):是為描述研究計畫而設計的識別碼,涵蓋研究計畫的人員、儀器、機構、研究成果等描述。RAiD由ARDC於去年推出,以Handle System實作識別碼功能,目前主要用於ARDC的研究計畫管理系統,同時也接受外部申請。RAiD的特色,在於彙整 ORCID、DOI、ROR、IGSN 等與研究計畫相關的識別碼系統,提供研究計畫的關係者(研究團隊、贊助者、研究機構等)獲取關於計畫重要資訊的一站式服務。

未限制或支援多種對象的PID:

• 資源典藏碼(Archival Resource Key, ARK):是一種多用途、可用來描述各類資訊物件的通用識別碼。ARK是由加州數位圖書館(CDL)開發,目前由ARK聯盟(ARK Alliance)負責管理,CDL則維運 N2T.net這個全球的ARK解析服務。從2002年起算的20年間,ARK已免費發行82億個識別碼。ARK採分散式設計,也就是解析已發行ARK至資源所在地的工作,最終多是由發放該ARK的機構進行。例如ark 辨識碼「ark:70795/ghmrs9」透過N2T.net(Nameto-Thing)服務解析:https://n2t.net/ark:70795/ghmrs9 後,僅會導向識別碼提供者所維護的服務網址:https://persist.lu/ark:70795/ghmrs9,再由該識別碼提供者負責導向參照的資源網址:https://viewer. eluxemburgensia.lu/ark:70795/ghmrs9。ARK官方網站也有整理各程式語言解析器實作。

ARK的分散式與自行維護設計使得ARK的物件解析功能相較其他識別碼具有更多的客製化彈性。例如上述的N2T.net同時提供的終端解析服務,便具有後綴直通(Suffix Passthrough)功能,可將識別碼後加上的文字,同步添加到參照的資源網址之後,例如https://n2t.net/ark:12345/fk3指向https://www. google.com/search?q=,加上PID成為https://n2t.net/ ark:12345/fk3PID後,便可指向https://www.google. com/search?q=PID,也就是於Google搜尋PID一詞。

ARK的分散式與自行維護設計使得ARK的物件解析功能相較其他識別碼具有更多的客製化彈性。例如上述的N2T.net同時提供的終端解析服務,便具有後綴直通(Suffix Passthrough)功能,可將識別碼後加上的文字,同步添加到參照的資源網址之後,例如https://n2t.net/ark:12345/fk3指向https://www. google.com/search?q=,加上PID成為https://n2t.net/ ark:12345/fk3PID後,便可指向https://www.google. com/search?q=PID,也就是於Google搜尋PID一詞。

• 持續統一資源位址(Persistent Uniform Resource Locator, PURL):是一種統一資源位址(uniform resource locator, URL),也就是常見的「網址」。 在網路瀏覽器輸入PURL位址後,PURL解析服務會 回傳HTTP狀態碼(HTTP status code);例如HTTP 301永久移動,或HTTP 302臨時移動等,瀏覽器便 能依據接收到的HTTP狀態碼,將PURL位址轉換為 物件的實際網址。於2016年,在持續運作20年後, 美國國際圖書館電腦中心(OCLC)宣布將它擁有 的PURL解析服務,轉移至網際網路檔案館(Internet Archive)。

• W3ID:全稱為網際網路的永久識別碼(Permanent Identifiers for the Web),是由全球資訊網協會(W3C) 下設的永久識別碼社群小組(Permanent Identifier Community Group)所建立的安全、永久轉址服務, 主要目的是提供資料連結(linked data)所需的長期 不變網址。使用者只要複製(fork)W3ID在GitHub 的倉儲內容(repository),加上包含網址重寫規則 (W3ID網址與物件實際網址的對應)的.htaccess檔 案,再提交拉取請求(pull request),經倉儲維護者 合併後,即可獲得獨立的識別碼命名空間。如https:// w3id.org/dpv便用於Data Privacy Vocabulary這個資料連結語彙,並可在https://github.com/perma-id/w3id. org/tree/master/dpv了解它的網址重寫規則。

除上述識別碼,還有許多雖然不強調「持續」,但由於發展較早,已被廣泛採用的識別碼、代碼表或地名辭典(gazetteer)等,因仍具有持續的性質,也被作為PID使用。這類代碼包括:國際標準書號(International Standard Book Number, ISBN)、國際標準期刊號(International Standard Serial Number, ISSN)、虛擬國際權威檔案識別碼(Virtual International Authority File, VIAF ID)、GeoNames,以及ISO 3166「國家與地區代碼表」等。

除此之外,維基資料(Wikidata)的項目識別碼(QID)近來也受到矚目,維基資料是完全由社群自主維護的跨語言協作資料庫,並由維基媒體基金會(Wikimedia Foundation)管理。Wikidata以「項目」(item)為核心,每個項目都有與它相關的敘述及可靠的原始出處。維基資料為每個項目賦予一個以Q開頭的唯一識別碼,故又被稱為QID,例如「宇宙」的識別碼為Q1。維基資料也連結到其他的PID系統,讓使用者可以在不同來源的事實資訊間探索知識。

研究資料管理為何需要PID?

精確與可驗證

學術研究重視精確,PID的唯一性可以有效解決包括同名同姓、一字多義等容易造成語意混淆的問題。例如,當我們以維基資料的項目識別碼Q7561635指稱松山車站,就一定是臺灣鐵路管理局轄內的松山車站,而不會是隸屬於日本四國旅客鐵道(JR四國)的同名 車站。伴隨PID的後設資料,也提供關於PID的進一步描述與溯源資訊,有助於查核資料真偽。

提高研究效率

大部分PID均以網址呈現,也提供透過瀏覽器存取研究資料的捷徑,有助於達成研究資料FAIR原則〔註〕中「可被取用」的需求;部分PID甚至以識別碼為基礎,提供更細緻的資訊檢索功能。法國國家圖書館的典藏系統,便藉助前述的後綴直通功能,在ARK識別碼後添加限定詞(qualifiers),如在https://n2t.net/ ark:12148/bpt6k5834013m加上/f10,便可以瀏覽該書籍的第十頁。此外,目前主流的文獻管理工具,均支援自PID(DOI、ISBN等)載入文獻的描述資料(如標題、作者、期刊名等),可以大幅節省整理文獻的時 間;又如DOI Citation Formatter網站,提供將DOI識別碼與後設資料,輸出為各式文獻引用格式的服務。

促進相互連結

透過PID的可相互操作性(interoperability),將使研 究者與學術成果的描述得以相互豐富,例如Crossref便 透過擷取DOI的作者資訊,自動更新ORCID上的學術 著作列表。ORCID也運用其身份識別碼的特性,提供 以ORCID iD作為認證方式,登入研究資料庫的功能。 Crossref產製的DOI解析報告(resolution report),包 括DOI的逐月解析次數統計,讓物件上傳者得以追蹤該 物件的使用情形。

心動了嗎?如何開始使用PID於研究?

若您的研究領域已有推薦的PID,使用相同的PID系統將有助於領域內的資訊交換。

〔註〕有鑑於仰賴電腦處理的研究漸增,FAIR 原則強調資料的電腦可行動性(machine-actionability),即資料是可被找到(findable)、可被取用(accessible)、可相互操作 (interoperable)、並且可再次使用(reusable)。

另外,研究計畫所使用的資料儲存庫,是PID最主要的應用場域之一。主流的資料儲存庫,如Zenodo、 figshare、Harvard Dataverse等,都針對寄存的資料集發行DOI識別碼;Zenodo亦提供將資料集作者連結至 ORCID iD的功能;臺灣在地的儲存庫──「研究資料寄存所」(depositar)也於近期啟用資料集的ARK識別碼服務。讀者們可確認使用的儲存庫是否已經整合 PID,以及它的功能是否符合讀者的研究需求。

若您的研究計畫尚未使用任何一種PID,則可參考 FREYA Project製作的選擇指南(https://doi.org/10.5281/ zenodo.4192174),比較各家PID的功能,搭配英國的數位策展中心(Digital Curation Centre)所建議的考量因素,挑選符合需要的PID:
• 識別碼應該識別什麼──資源、地點、後設資料, 或以上皆是?
• 識別碼是否需要全域唯一,或區域唯一即可?
• 識別碼需要哪些基本功能(可識別性與可檢索性)?
• 需要什麼程度的繁簡程度(granularity)?
• 是否有需要合併的既有命名系統?若是,將如何處 理新舊命名系統之間的相互操作性?
• 將會使用具有明確語意或是隱晦的識別碼?
• 版本控制可能是個問題,多大程度的資源變化足以 賦予其新的識別碼?
• (識別碼的)後設資料將被如何儲存與綁定到識別 碼所指涉的資源?
• 識別策略能否擴展以滿足未來需求?
• 在流程的哪個階段會賦予資源識別碼?
• 誰將為識別碼的管理負責?
•如何為識別碼的長期經營提供資金?

PID是資訊汪洋中的指路明燈PID的持續性和獨特性,為來去匆匆的網際網路物件提供長期可被取得的可靠連結;尤其對於具有公眾利益、作為研究佐證或容易產生混淆的資料,PID服務所賦予的穩定連結,也使資料溯源與驗證工作更加便利,提升使用者對資料的信任。下次在網路上搜尋資料時,讀者不妨留意這個位於角落,不起眼的英數字號碼。

 

延伸閱讀
1. Dappert, A., et al. Connecting the Persistent Identifier Ecosystem: Building the Technical and Human Infrastructure for Open Research. Data Science Journal, 16, 28. https://doi.org/10.5334/dsj-2017-028
2. Davidson, Joy. (2006). Persistent Identifiers. DCC Briefing Papers: Introduction to Curation. http://hdl.handle.net/1842/3368
3. Meadows, A., et al. (2021). PIDs 101: A Beginners' Guide to Persistent Identifiers. https://doi.org/10.5281/ZENODO.4574566