優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測 我要投稿 合法期刊查詢

數(shù)字信息資源長期保存元數(shù)據(jù)技術研究進展

作者:張曉娟,唐長樂來源:《情報科學》日期:2020-03-24人氣:1152

數(shù)字信息資源不僅便于存儲管理,更有利于開發(fā)利用,它推動了人類社會的信息交流。當計算機網(wǎng)絡普遍應用后,為了更有效地組織網(wǎng)絡信息資源,起源于計算機科學領域的元數(shù)據(jù)受到信息界的廣泛關注,它主要用于支持數(shù)據(jù)的操作,比如描述、識別、發(fā)現(xiàn)、檢索、權利管理和保存。實施數(shù)字信息資源的長期保存也離不開元數(shù)據(jù)的支持,包括描述數(shù)字對象的基本屬性及保存需求[1]。而這種符合長期保存需要的元數(shù)據(jù)就是保存元數(shù)據(jù),它在數(shù)字信息資源長期保存中起著非常重要的作用。

就目前而言,對數(shù)字信息資源長期保存元數(shù)據(jù)研究情況進行系統(tǒng)梳理的文章[2],最近的是2007年,其研究內(nèi)容已經(jīng)不能很好的反映當前該領域的研究現(xiàn)狀,因此有必要對其進行研究進展的重新梳理。由于長期保存元數(shù)據(jù)研究涉及眾多主題,包括管理視角:概念、框架、評估,技術視角:生成與保存、互操作、語義化,以及專門領域的保存元數(shù)據(jù)研究。本文主要從技術視角出發(fā),系統(tǒng)梳理數(shù)字信息資源長期保存元數(shù)據(jù)技術的研究進展,具體而言主要包括保存元數(shù)據(jù)的生成與保存、互操作和語義化。

1 數(shù)字信息資源長期保存元數(shù)據(jù)生成與保存研究

保存元數(shù)據(jù)的生成與保存是數(shù)字信息資源進行長期保存元數(shù)據(jù)的關鍵技術,它是保存元數(shù)據(jù)框架標準的具體應用和實踐,也是保存元數(shù)據(jù)互操作和語義化的基礎。

1.1 保存元數(shù)據(jù)的生成

保存元數(shù)據(jù)的生成主要指保存元數(shù)據(jù)元素取值信息的獲取。保存元數(shù)據(jù)方案為生成規(guī)范的保存元數(shù)據(jù)奠定了基礎。保存元數(shù)據(jù)的生成是依據(jù)保存元數(shù)據(jù)方案規(guī)定的保存元數(shù)據(jù)生成對應的取值信息,保存元數(shù)據(jù)的取值信息來源于數(shù)字信息長期保存管理的全過程。保存元數(shù)據(jù)的生成可分為人工生成和自動生成。人工生成類似于傳統(tǒng)的信息著錄,一般由信息資源管理的專業(yè)人員根據(jù)元數(shù)據(jù)方案對數(shù)字信息資源進行手工錄入。自動生成主要采用元數(shù)據(jù)自動生成工具按照元數(shù)據(jù)方案的設定對數(shù)字信息資源的元數(shù)據(jù)進行自動析出。

學者們針對保存元數(shù)據(jù)的生成方式進行了討論。黃如花和邱春艷認為自動生成保存元數(shù)據(jù)是減輕人員工作負擔和提升不同數(shù)字資源保存庫互操作性的最佳方式,可通過元數(shù)據(jù)記錄的收割、內(nèi)容抽取、自動標引、數(shù)據(jù)挖掘、社會標簽等多種方式實現(xiàn)[3]。楊淑萍從數(shù)字信息資源保護的角度出發(fā),認為通過自動析出數(shù)字信息資源中的元數(shù)據(jù)可以更加高效地實現(xiàn)數(shù)字信息資源的長期保護,因此有必要設計元數(shù)據(jù)自動析出工具,實現(xiàn)自動化運作[4]。Greenberg將元數(shù)據(jù)的自動生成分為收割(harvesting)和抽取(extraction),前者是指利用算法程序自動提取數(shù)字信息資源已有的元數(shù)據(jù)信息,類似網(wǎng)頁數(shù)字資源中的META標簽信息;后者是指從數(shù)字信息資源本身的內(nèi)容中挖掘元數(shù)據(jù)信息,類似通過分析網(wǎng)頁數(shù)字資源中BODY標簽下的內(nèi)容信息從中提取與元數(shù)據(jù)元素相關的值信息[5]。Ivano等針對元數(shù)據(jù)自動生成技術進行了討論,認為元數(shù)據(jù)的自動生成離不開正則表達式、規(guī)則解析器和機器學習算法[6]。Dobreva等認為在保存元數(shù)據(jù)的攝入階段,運用元數(shù)據(jù)自動生成很有必要,它既可為更多的數(shù)字對象提供元數(shù)據(jù),提高元數(shù)據(jù)質量,還能減少元數(shù)據(jù)內(nèi)容的冗余性。他們還認為雖然目前的元數(shù)據(jù)生成研究主要針對一般的元數(shù)據(jù),而不是集中于保存元數(shù)據(jù),但它們能為保存元數(shù)據(jù)的自動抽取研究提供借鑒思路[7]。

保存元數(shù)據(jù)記錄的自動生成需要保存元數(shù)據(jù)工具來實現(xiàn)。為此,學者們及相關機構圍繞保存元數(shù)據(jù)生成工具展開了研究和討論。保存元數(shù)據(jù)的自動生成工具既能按照既定的元數(shù)據(jù)標準進行操作,也能適應不同的數(shù)字信息資源管理環(huán)境實施應用,它是開展數(shù)字信息資源長期保存活動重要工具[8]。Greenberg分析了元數(shù)據(jù)自動生成應用工具的制約因素,包括標準類目控制、自動化技術的更新、工具的可用性和有效性、工具之間的兼容性等,并在此基礎上介紹了美國國會圖書館自動生成元數(shù)據(jù)應用項目(Automatic Metadata Generation Applications,AMeGA),該項目主要研究數(shù)字信息資源元數(shù)據(jù)自動生成工具的功能需求,并強調(diào)了專家意見在元數(shù)據(jù)自動生成工具功能需求設計中的重要意義[9]。Smith和Nelson對遵循PREMIS保存元數(shù)據(jù)框架標準的元數(shù)據(jù)生成工具JHOVE、KEA、Open Summarizer、MD5等進行實驗分析,認為保存元數(shù)據(jù)的生成完全可以通過這些工具進行自動化操作,而不需要特定的網(wǎng)絡服務器或者額外的管理活動進行干預[10]。Deborah等比較了DROID Tool and PRONOM Registry、NLNZ Metadata Extraction Tool、JHOVE、GDFR、Xena和NOID等元數(shù)據(jù)生成和抽取工具[11],其中Metadata Extraction Tool是由新西蘭國家圖書館開發(fā)的用于提取電子文件長期保存元數(shù)據(jù)的開源工具軟件,提取結果以XML文件格式輸出,軟件可同時兼容Windows以及Unix操作系統(tǒng),并支持的多種文件格式。英國的數(shù)字保存聯(lián)盟(Digital Preservation Coalition,DPC)在2013年發(fā)布的技術觀察報告Preservation metadata( edition)中對與PREMIS保存元數(shù)據(jù)生成相關的工具進行了比較,包括JHOVE、DROID、PREMIS Creation Tool、HandS和PREMIS in METS Toolbox,具體如表1所示[12]。在另一項調(diào)查中,約55.4%的機構選擇開源工具JHOVE,進行保存元數(shù)據(jù)的自動生成和抽取[13]。

1.2 保存元數(shù)據(jù)的保存

由于保存元數(shù)據(jù)本身也是一種數(shù)字信息,也存在真實、完整與可利用等問題,因此需要對生成后的保存元數(shù)據(jù)進行合理的保存維護。保存元數(shù)據(jù)的保存主要涉及保存元數(shù)據(jù)的存儲方式問題。

黃如花和邱春艷認為保存元數(shù)據(jù)的保存一般有兩種形式。一種方式是對保存元數(shù)據(jù)進行單獨存儲,與數(shù)字對象的保存獨立開來,這種方式在圖書館中采用的較多。另一種則是將保存元數(shù)據(jù)和數(shù)字對象集中起來,統(tǒng)一進行封裝保存。這兩種方法各有利弊,分開獨立存儲的好處在于容易實現(xiàn),且花費的成本也較低,但缺點是保存元數(shù)據(jù)記錄丟失的風險較高;封裝保存的好處是安全性高,但管理不便,并且經(jīng)濟成本較高[3]。劉家真和廖茹從組織機構保管元數(shù)據(jù)的方式角度出發(fā),認為元數(shù)據(jù)有兩種存儲方式,即元數(shù)據(jù)分布式存儲和元數(shù)據(jù)集中式存儲。前者是指在各機構搭建各自的元數(shù)據(jù)庫,將元數(shù)據(jù)儲存在本地,并自行開展維護和安全保障工作;后者是指將各個單位分散的元數(shù)據(jù)集中存儲,將所有元數(shù)據(jù)集中存儲在一個元數(shù)據(jù)庫中進行操作和維護,兩者也各有優(yōu)缺點[14]。楊淑萍提出建立通過元數(shù)據(jù)存儲倉對保存元數(shù)據(jù)進行集中存儲,既能確保對數(shù)字信息資源的長期獲取和管理、利于管理者的開展保管活動、便于用戶的獲取利用,也能兼容各個保存系統(tǒng),從而實現(xiàn)互操作。同時,保存元數(shù)據(jù)倉儲的設計應當遵循普遍接納的標準,以確保能夠對數(shù)字對象進行長期的管理、獲取、保密和存儲等操作[4]。元數(shù)據(jù)分布存儲、集中式存儲和元數(shù)據(jù)存儲倉為保存元數(shù)據(jù)選擇合適的存儲方式提供了借鑒和思路。

Doyle等針對3D數(shù)字信息提出了一個保存元數(shù)據(jù)框架,并研究了將3D數(shù)字對象與保存元數(shù)據(jù)進行封裝的方法[15]。Duerr等人研究了將OAIS和PREMIS應用于科研數(shù)據(jù),認為收集和存儲保存元數(shù)據(jù)是科研數(shù)據(jù)管理過程的重要組成部分,保存元數(shù)據(jù)存儲系統(tǒng)的建立是實現(xiàn)保存元數(shù)據(jù)有效管理的前提[16]。PREMIS工作組于2015年6月發(fā)布的最新版本的保存元數(shù)據(jù)標準——PREMIS3.0數(shù)據(jù)字典,對保存元數(shù)據(jù)的保存也有規(guī)定,該標準認為在數(shù)據(jù)庫系統(tǒng)中存儲元數(shù)據(jù)元素具有快速訪問、易更新、查詢和報表使用方便等優(yōu)點。將元數(shù)據(jù)記錄與存儲在存儲庫中的數(shù)字對象一起保存也具有優(yōu)勢:更難將元數(shù)據(jù)從內(nèi)容中分離,并能將應用于內(nèi)容的保存策略也應用于元數(shù)據(jù)。PREMIS3.0推薦使用這兩種方式存儲關鍵元數(shù)據(jù)[17]。

1.3 保存元數(shù)據(jù)生成與保存研究評述

總體上看,目前對數(shù)字信息資源長期保存元數(shù)據(jù)的生成與保存研究主要圍繞生成與保存的方式及相關工具展開。在保存元數(shù)據(jù)的生成上,保存元數(shù)據(jù)的自動生成得到更多關注,尤其是在實踐中如何選擇適合本機構需求的元數(shù)據(jù)自動生成工具、如何通過自動化生成工具確保將保存元數(shù)據(jù)標準以更加準確、規(guī)范和高效的方式開展應用,相較于國內(nèi),國外有著更為豐富多樣的元數(shù)據(jù)自動生成工具可供選擇;在保存元數(shù)據(jù)的保存上,無論是分布存儲、集中存儲、建立專門的保存元數(shù)據(jù)存儲系統(tǒng)或者在數(shù)據(jù)庫系統(tǒng)中存儲都各有優(yōu)缺點,但相關國際標準機構更為推薦采用集中封裝保存的方式。實際上無論何種保存方式,都需要考慮到組織機構的資源類型特點、應用需求、相應的成本預算等問題。

2 數(shù)字信息資源長期保存元數(shù)據(jù)互操作研究

促進數(shù)字信息資源的共享和持續(xù)利用是長期保存活動的根本目標。數(shù)字資源共享性強,但與傳統(tǒng)資源相比,其共享依賴于不同系統(tǒng)間的交互,而不同系統(tǒng)所采用的元數(shù)據(jù)標準各異,例如檢索系統(tǒng)和保存系統(tǒng)分別采用了描述性元數(shù)據(jù)標準和保存元數(shù)據(jù)標準,要達到兩者之間的有效銜接,實現(xiàn)跨平臺信息檢索和信息資源共享,則必須考慮元數(shù)據(jù)互操作問題?;诠餐枨蟮谋4嫦到y(tǒng)之間也存在著互操作問題,它們采用的保存元數(shù)據(jù)標準在元數(shù)據(jù)數(shù)量、命名、結構、語義等方面的差異,阻礙了元數(shù)據(jù)的復用和管理。Day認為許多元數(shù)據(jù)標準和格式被制定出來用于支持數(shù)字對象的管理和長期保存,卻也給數(shù)字信息保存系統(tǒng)的互操作帶來了不少問題[18]。因此保存元數(shù)據(jù)的互操作也是數(shù)字信息資源長期保存元數(shù)據(jù)的重要技術。

IEEE給出了互操作的四個定義:①互操作是指多個或多個系統(tǒng)或組成要素交換信息并使用信息的能力;②互操作是指實現(xiàn)提供有用功能的各機器單元之間的高效合作;③通過一致遵循一組標準實現(xiàn)互異機器在網(wǎng)絡環(huán)境下的合作;④在互異網(wǎng)絡環(huán)境中,兩個或多個系統(tǒng)或者組成要素進行交換和使用交換后的信息的能力[19]。不難發(fā)現(xiàn),系統(tǒng)之間的互異性體現(xiàn)在不同的層面,包括句法、數(shù)據(jù)方案、語義和系統(tǒng)層面[20]。事實上,前三項都主要體現(xiàn)為信息資源組織層面上的元數(shù)據(jù)差異。例如句法互異主要涉及不同數(shù)字信息資源元數(shù)據(jù)在協(xié)議、編碼和語言上的差異;數(shù)據(jù)方案層面的互異主要表現(xiàn)為不同元數(shù)據(jù)標準在使用的數(shù)據(jù)模型、數(shù)據(jù)結構上的差異;語義層面的互異主要表現(xiàn)為不同元數(shù)據(jù)元素在命名、概念抽象上的差異。Gilliland在Introduction to Metadata一書中,將互操作定義為“實現(xiàn)不同類型的計算機、網(wǎng)絡、操作系統(tǒng)和應用程序有效地協(xié)同工作,無須事先溝通的能力,目的是以可用和有意義的方式交換信息”。她認為在數(shù)字信息長期保存領域有三個層面的互操作,即特定數(shù)字倉儲或信息資源的語義互操作、語法互操作和結構互操作[21]。事實上Gilliland更多的是從資源組織層面考慮,涉及的是保存元數(shù)據(jù)在語義、語法和結構上的互操作問題。基于以上分析,我們可以從保存元數(shù)據(jù)標準層面和元數(shù)據(jù)自身層面(資源組織層面)考慮保存元數(shù)據(jù)的互操作問題。

2.1 保存元數(shù)據(jù)標準層面互操作

在保存元數(shù)據(jù)標準層面,互操作要解決的問題有,對異構系統(tǒng)間互操作能力的支持、在保存元數(shù)據(jù)術語上的相互理解。對異構系統(tǒng)間互操作能力的支持,即指制定的各種保存元數(shù)據(jù)標準不僅能為其宿主保存系統(tǒng)所操作,而且還應盡可能為其他不同的異構保存系統(tǒng)所接收,例如檔案館的數(shù)字信息資源長期保存系統(tǒng)和圖書館、博物館的長期保存系統(tǒng)之間的互操作就涉及這方面的內(nèi)容。這就需要對保存元數(shù)據(jù)框架和數(shù)據(jù)模型進行整合,并綜合考慮各種系統(tǒng)的保存功能需求;保存元數(shù)據(jù)術語上的相互理解,即指各種保存元數(shù)據(jù)標準需要有統(tǒng)一的術語定義以便于規(guī)范和理解某些重要概念。這就需要為保存元數(shù)據(jù)的制定提供一個通用的概念術語定義集。

OAIS參考模型統(tǒng)一了長期保存系統(tǒng)的功能需求和保存術語定義;PREMIS保存元數(shù)據(jù)標準為各類保存元數(shù)據(jù)標準提供了統(tǒng)一的保存元數(shù)據(jù)框架和模型,以及共享的保存元數(shù)據(jù)術語定義(用自然語言定義的共享詞匯)。朱德紅認為在同一個框架OAIS下開發(fā)保存系統(tǒng)和制訂元數(shù)據(jù)格式,將能夠促進不同領域系統(tǒng)間的互操作和信息的共享,進而為數(shù)字信息資源的長期保存打好堅實的基礎[22]。黃如花和邱春艷認為數(shù)字化倉儲多采用不同的元數(shù)據(jù)標準進行建設,因此在保存元數(shù)據(jù)的選擇和應用過程中,需要實現(xiàn)不同保存元數(shù)據(jù)標準之間的互操作,特別是與其他系統(tǒng)之間的互操作問題[3]。

Day等認為數(shù)字存儲庫中保存元數(shù)據(jù)的互操作可以通過對已有元數(shù)據(jù)標準的收割和復用實現(xiàn),而系統(tǒng)和項目內(nèi)部保存元數(shù)據(jù)可以通過基于現(xiàn)有標準的交換格式實現(xiàn)互操作(例如元數(shù)據(jù)編碼與傳輸標準METS)[23]。在具體實踐研究方面,Pawletko等人在實際項目中開展了較為細致的研究。信息冗余、計劃繼承和軟件遷移帶來了同一系統(tǒng)不同版本之間的互操作問題,而不同存儲系統(tǒng)采用不同的設計標準也給存儲系統(tǒng)之間帶來了互操作問題,為此Caplan等介紹了面向可互操作的存儲庫計劃(Towards Interoperable Preservation Repositories,TIPR),該計劃是由博物館和圖書館服務研究所資助的一個項目,并開發(fā)了用于創(chuàng)建和測試的存儲庫交換包(RXP)。該交換包可以在不同的保存庫之間傳輸復雜的數(shù)字對象。TIPR項目不是在許多不同的存儲庫類型之間構建翻譯器,而是定義了一個基于元數(shù)據(jù)編碼與傳輸標準METS和PREMIS保存元數(shù)據(jù)標準的元數(shù)據(jù)文件包,作為中介信息包的RXP,可以當作所有存儲庫讀寫的通用語言[24]??梢姴捎肞REMIS保存元數(shù)據(jù)標準作為互操作的通用標準能廣泛支持不同存儲系統(tǒng)之間的數(shù)據(jù)交換和共享。盡管不同機構采用的數(shù)字信息資源長期保存方法和工具存在差異,但各個機構之間仍應進行數(shù)字資源的共享,因此需要實現(xiàn)分布式長期保存。鑒于此,Iorio介紹了基于PREMIS保存元數(shù)據(jù)框架的存檔信息包檔案預備計劃(Archives Ready to the AIPs Transmission a PREMIS Based Project,ARTAT-PBP),該項目旨在為現(xiàn)有的數(shù)字資源存儲庫提供一層能與其他存儲庫交換的保存元數(shù)據(jù)層。該保存元數(shù)據(jù)層采用PREMIS保存元數(shù)據(jù)框架標準,作為需要交換數(shù)字資源的合作組織網(wǎng)絡中的交換語言,通過整合不同存儲系統(tǒng)的保存元數(shù)據(jù)與PREMIS保持一致,克服互操作問題,實現(xiàn)分布式長期保存的共同目標[25]。

2.2 保存元數(shù)據(jù)自身層面互操作

在元數(shù)據(jù)自身層面,互操作要解決的問題有:交換格式的互操作、標記格式的互操作、編碼規(guī)則互操作、元素內(nèi)容互操作、元素語義互操作、數(shù)據(jù)內(nèi)容互操作和通信協(xié)議互操作。由于保存元數(shù)據(jù)基本采用XML/RDF語言作為標記語言、采用METS/SOAP格式作為交換格式,所以保存元數(shù)據(jù)在這兩個方面的互操作比較容易實現(xiàn),而數(shù)據(jù)內(nèi)容的轉化則比較復雜,往往涉及詞表轉化甚至是自然語言處理的問題,這方面的研究較少,因此保存元數(shù)據(jù)的互操作問題的難點主要集中在元素結構、語義和編碼規(guī)則上。

國內(nèi)學者對元數(shù)據(jù)互操作問題進行了大量持續(xù)的理論和方法研究,然而基本著眼于描述性元數(shù)據(jù)的互操作問題,對于保存元數(shù)據(jù)的互操作問題很少涉及。例如王芳和王小麗分析數(shù)字檔案元數(shù)據(jù)EAD的結構及其與DC的映射、EAD記錄向OAI轉換的技術原理,并提出了基于OAI—PMH協(xié)議的數(shù)字檔案館互操作框架及功能[26]。畢強、韓毅等人提出了基于元數(shù)據(jù)本體的方法對數(shù)字圖書館互操作進行研究,重點討論了基于本體的元數(shù)據(jù)結構轉換與語義關聯(lián),采用XSLT語言,將特定領域內(nèi)不同結構的元數(shù)據(jù)進行轉換,使領域內(nèi)的元數(shù)據(jù)實現(xiàn)互操作[27]。

國外學者則在保存元數(shù)據(jù)互操作方面有不少的研究。由于保存元數(shù)據(jù)的標準較多,不同標準中的元數(shù)據(jù)格式各異,需要實現(xiàn)不同格式的互操作。Roorda和Van Horik介紹了數(shù)據(jù)歸檔和網(wǎng)絡服務組織(Data Archiving and Networked Services,DANS)參與的“電子數(shù)據(jù)遷移至中間XML格式”項目(Migration to Intermediate XML for Electronic Data,MIXED),該項目致力于開發(fā)能實施長期保存文件歸檔格式智能遷移策略的開源軟件。智能遷移涉及將特定類型的數(shù)據(jù)格式(如電子表格和數(shù)據(jù)庫)轉換為中間XML格式文件,包含元數(shù)據(jù)、內(nèi)容以及數(shù)字對象標識符等信息。中間XML格式文件存儲在長期保存的標準數(shù)據(jù)格式庫(Standard Data Formats for Preservation,SDFP)中。并且MIXED項目中開發(fā)的軟件已經(jīng)被作為通用框架,并包含了一些可被調(diào)用的插件,可以被視為長期保存文件格式轉換的存儲庫[28]。Guenther和Wolfe介紹了《METS中的PREMIS指南》(PREMIS in METS Guidelines),它是按照元數(shù)據(jù)編碼和傳輸標準(METS),應用PREMIS數(shù)據(jù)字典中的保存元數(shù)據(jù)的最佳實踐指南。由于METS是一種XML模式,它提供了將各種形式的元數(shù)據(jù)與數(shù)字對象或數(shù)字對象鏈接集成的容器格式,采用METS能在數(shù)字保存系統(tǒng)中提供許多靈活的功能,并支持許多不同的元數(shù)據(jù)結構,能夠實現(xiàn)保存元數(shù)據(jù)格式的互操作[29]。Shukair等人針對政府數(shù)字信息資源構建了各類元數(shù)據(jù)庫,包括各種可重復使用的元數(shù)據(jù)模型、元數(shù)據(jù)方案、分類大綱和編碼列表,其中包括保存元數(shù)據(jù)標準。由于這些元數(shù)據(jù)庫針對不同的范圍、目標群體、實施技術和最終用戶界面,盡管它們包含的語義內(nèi)容通??梢灾貜褪褂蒙踔量梢岳@過最初設計時的作用域,然而他們的物理隔離和信息描述的異質性阻礙了通用概念的復用和跨庫搜索,為此,為了實現(xiàn)多庫之間的語義互操作,他們設計了一個名為《元數(shù)據(jù)資產(chǎn)描述》的元數(shù)據(jù)方案,并從本體層面出發(fā)實現(xiàn)不同元數(shù)據(jù)庫之間的語義互操作[30]。

2.3 保存元數(shù)據(jù)互操作研究評述

總體而言,目前對數(shù)字信息資源長期保存元數(shù)據(jù)的互操作研究可以分為標準層面以及元數(shù)據(jù)自身層面兩個方面。在標準層面上,協(xié)調(diào)不同的保存元數(shù)據(jù)標準,既需要考慮到不同保存系統(tǒng)的需求,解決不同保存系統(tǒng)對應用標準的支持問題,也需要解決不同標準術語之間的協(xié)調(diào)問題,從目前的研究現(xiàn)狀來看,通過采用統(tǒng)一的保存元數(shù)據(jù)模型或框架(例如OAIS、PREMIS)再結合機構實際需求進行相應拓展調(diào)整,能最大程度提高標準層面保存元數(shù)據(jù)的互操作性;在保存元數(shù)據(jù)自身層面,標記語言和交換格式由于基本采用了統(tǒng)一的語言和格式,所以這兩個方面的互操作較為容易實現(xiàn),目前學界較為關注元數(shù)據(jù)語義、元素結構及編碼規(guī)則上的互操作問題,中間格式轉換、本體技術、元數(shù)據(jù)庫的應用成為實現(xiàn)保存元數(shù)據(jù)互操作的重要方式。

3 數(shù)字信息資源長期保存元數(shù)據(jù)語義化研究

隨著語義技術的不斷發(fā)展,保存元數(shù)據(jù)也越來越重視語義技術的融合與應用,與傳統(tǒng)簡單的元數(shù)據(jù)描述相比,語義技術的引入可以促進保存元數(shù)據(jù)對數(shù)字資源內(nèi)容的深層揭示,提升內(nèi)容挖掘的深度,同時,語義技術也進一步提高了保存元數(shù)據(jù)在細粒度和交互操作方面的性能[31]。保存元數(shù)據(jù)語義化研究是保存元數(shù)據(jù)技術的重要研究領域,保存元數(shù)據(jù)語義化可以從其自身和實施操作兩個方面實現(xiàn)。

3.1 保存元數(shù)據(jù)自身發(fā)展中的語義化

在自身發(fā)展中,保存元數(shù)據(jù)主要通過應用OWL本體語言、采用RDF格式存儲和管理元數(shù)據(jù)[3]。PREMIS(Preservation Metadata:Implementation Strategies working group)是為達到建立通用保存元數(shù)據(jù)框架標準的目的而展開的,該項目始于2003年6月,是由美國聯(lián)機計算機圖書館中心(Online Computer Library Center,OCLC)和研究圖書館小組(Research Libraries Group,RLG)共同資助建立的專家工作組,該項目旨在借鑒OAIS參考模型,并通過設定數(shù)字保存的核心元數(shù)據(jù)元素建立一個在數(shù)字信息領域能夠得到廣泛支持的、通用的保存元數(shù)據(jù)框架標準。自2005年PREMIS1.0發(fā)布之后,通過系列的維護活動和編委會的努力,PREMIS先后于2008年、2011年、2012年、2014年、2015發(fā)布了PREMIS2.0、PREMIS2.1、PREMIS2.2、PREMIS2.3和PREMIS3.0。在PREMIS 2.2以前只有XML Schema格式用于表示PREMIS數(shù)據(jù)字典。從PREMIS 2.2開始,PREMIS OWL本體便與PREMIS的XML Schema 一起發(fā)布,它以RDF編碼格式來表示PREMIS元數(shù)據(jù)字典。這種本體并不是取代XML而是在某些適合使用RDF的領域對XML的補充,例如查詢和發(fā)布保存元數(shù)據(jù)或將特定倉儲庫連接到外部的注冊庫。OWL本體為保存?zhèn)}儲提供了關聯(lián)數(shù)據(jù)功能,允許使用RDF檢索語言SPARQL進行查詢。它將PREMIS保存元數(shù)據(jù)與其他遵循關聯(lián)數(shù)據(jù)的數(shù)據(jù)集整合在一起,如格式登記和詞匯控制庫,從而允許不同數(shù)據(jù)庫之間的互聯(lián)[32]。PREMIS 3.0關于OWL本體的使用有新的規(guī)定,它推薦在使用OWL本體表示PREMIS時可使用URIs作為保存元數(shù)據(jù)元素的值;為了便于擴展,PREMIS 3.0增加了一些擴展組件,這些組件可使用其他的元數(shù)據(jù)補充PREMIS的語義單元,也可使用父容器范圍內(nèi)的其他合適的元數(shù)據(jù)替換PREMIS的語義單元,但在PREMIS OWL本體中去除了擴展組件,因為將不同的詞匯組合到相同的描述中本身就是RDF的一個內(nèi)置的能力[33]。

3.2 保存元數(shù)據(jù)實施應用中的語義化

在具體的實施應用中,語義化的豐富主要體現(xiàn)在不同環(huán)節(jié)對語義化技術的應用。包括利用RDF三元組描述保存元數(shù)據(jù)記錄、本體資源規(guī)范并充實保存元數(shù)據(jù)的取值、關聯(lián)數(shù)據(jù)用于數(shù)字資源的組織、應用于特殊類型資源保存元數(shù)據(jù)的建設等方面[3]。

法國SPAR項目以OAIS參考模型為標準構建數(shù)字信息保存系統(tǒng)SPAR(Système de Préservation et d' Archivage Réarti-Distributed Preservation and Archiving System),該保存系統(tǒng)以METS作為保存元數(shù)據(jù)的封裝格式,同時為了提高數(shù)據(jù)管理的靈活性和系統(tǒng)功能的可擴展性,該系統(tǒng)以RDF三元組建立與METS之間的關聯(lián),在OAIS信息模型的基礎上對RDF和METS文件進行映射和索引,并利用URIs結構為每一類保存元數(shù)據(jù)建立了一個本體[34]。為了進一步提高數(shù)據(jù)對象之間、元數(shù)據(jù)之間的關聯(lián)性,SPAR項目正考慮將關聯(lián)數(shù)據(jù)技術應用到數(shù)字信息保存系統(tǒng)中[35]。

Doerr介紹了文化遺產(chǎn)保護領域的CIDOC-CRM(International Committee for Documentation of the International Council of Museums—Conceptual Reference Model)概念參考模型[36]。該模型由國際博物館理事會國際文獻委員會設計,提供了定義和形式結構,用于描述文化遺產(chǎn)文獻中使用的隱含和明確的概念和關系,旨在通過提供可以映射到任何文化遺產(chǎn)信息的共同和可擴展的語義框架來促進對文化遺產(chǎn)信息的共同理解;它分析了數(shù)據(jù)和元數(shù)據(jù)結構背后的共同概念,以支持數(shù)據(jù)轉換、調(diào)試和融合,因此它可以作為支持圖書館、檔案館、博物館保存信息和元數(shù)據(jù)整合的高等級交互性本體標準[37]。同時。該概念模型的研究者致力于推動其成為領域專家和實施者的通用語言,以制定信息系統(tǒng)的要求,并作為概念建模良好實踐的指導。通過這種方式,可以為不同的文化遺產(chǎn)信息資源提供必需的“語義連接”[38]。2000年9月,在CIDOC CRM SIG和ISO/TC46/SC4/WG9的共同努力下,CIDOC CRM開始向國際標準發(fā)展;2006年9月9日起,作為國際標準ISO 21127:2006發(fā)布;2014年12月經(jīng)修訂發(fā)布新的國際標準ISO 21127:2014;2017年10月CIDOC發(fā)布了最新的CRM6.2.2。

保護科學數(shù)據(jù)基礎設施(Science data infrastructure for preservation)是在歐洲設立的一個項目,為科學數(shù)據(jù)保存提供通用的基礎設施服務,主要側重于地球科學。該項目旨在通過定義共同保護政策、保存元數(shù)據(jù)和語義的統(tǒng)一以及地球科學領域通用基礎設施的部署來確保地球科學數(shù)據(jù)的長期保存[39]。交互式多媒體技術在當代表演藝術中廣泛使用,包括音樂作品,安裝藝術,舞蹈等,表演者和多媒體系統(tǒng)之間的交互可以在各種不同的方法中進行,比如身體運動和樂器演奏,由此所產(chǎn)生的互動多媒體數(shù)字資源(Interactive Multimedia Performance Digital Resources)也需要長期保存。Kia等介紹了一種描述交互式多媒體數(shù)字資源及其內(nèi)部關系以支持保存過程的本體方法,提出的本體元數(shù)據(jù)框架CASPAR是CIDOC概念參考模型(CIDOC-CRM)的擴展[40]。Doyle等認為在保存3D數(shù)據(jù)的情況下,保存元數(shù)據(jù)可以支持保存后的3D數(shù)字對象的后處理。然而,目前缺少一個支持與3D對象相關聯(lián)的語義數(shù)據(jù)的保存元數(shù)據(jù)框架。他們認為開發(fā)這樣一個框架的兩個最大挑戰(zhàn)包括預測框架中應該包含哪些語義信息,以及應該以何種格式進行建模。因此,他們描述了一種保存元數(shù)據(jù)框架,它將與3D對象相關聯(lián)的語義數(shù)據(jù)存儲在人體測量數(shù)據(jù)庫中,從而為其他用戶提供此類數(shù)字資源提供參考[41]。

3.3 保存元數(shù)據(jù)語義化研究評述

數(shù)字信息資源保存元數(shù)據(jù)的語義化主要體現(xiàn)在保存元數(shù)據(jù)標準自身發(fā)展中的語義化以及保存元數(shù)據(jù)應用過程中的語義化。目前的研究中,PRMEIS保存元數(shù)據(jù)框架標準作為最為通用的保存元數(shù)據(jù)標準參考框架之一,自2.2以后逐漸增加與本體相關的語義組件,提高了保存元數(shù)據(jù)在細粒度和交互操作方面的性能。國外對保存元數(shù)據(jù)應用過程中的語義化研究較為重視,有許多不同的研究項目針對多種數(shù)字信息資源采取了多種語義化技術,這些技術的采用既豐富了數(shù)字信息資源保存的描述層次與深度,又提高了多種數(shù)字資源之間的交互性,同時也為其他機構將保存元數(shù)據(jù)在實踐中進行語義化應用提供了參考借鑒。

4 總結與展望

自1998年Michael Day[42]首次采用了“Preservation Metadata”(保存元數(shù)據(jù))的概念以來,數(shù)字信息資源長期保存元數(shù)據(jù)這一研究領域至今已近二十年之久,以往對該領域的研究梳理較早,已不能反映最新進展,本文從技術視角系統(tǒng)梳理了保存元數(shù)據(jù)三個方面的研究進展,總體而言,其研究呈現(xiàn)出如下的特點和趨勢:

(1)數(shù)字信息資源長期保存元數(shù)據(jù)的生成與保存研究是保存元數(shù)據(jù)的關鍵技術。在保存元數(shù)據(jù)生成方面,自動化的生成研究仍將是熱點問題,它既可為更多的數(shù)字對象提供元數(shù)據(jù),提高元數(shù)據(jù)質量,還能減少元數(shù)據(jù)內(nèi)容的冗余性,大大減輕人工生成的壓力;在保存元數(shù)據(jù)的保存方面,保存元數(shù)據(jù)的封裝保存技術在將來的研究中會受到更多的重視。

(2)數(shù)字信息資源長期保存元數(shù)據(jù)的互操作研究著眼于標準層面和元數(shù)據(jù)自身層面,對標準間的互操作性,既需要考慮標準制定的通用性和規(guī)范性,還需要考慮標準實際的適用性。保存元數(shù)據(jù)自身層面的互操作要解決交換格式的互操作、標記格式的互操作、編碼規(guī)則互操作、元素內(nèi)容互操作、元素語義互操作、數(shù)據(jù)內(nèi)容互操作和通信協(xié)議互操作。隨著本體技術的發(fā)展,未來研究將更多的集中于保存元數(shù)據(jù)在語義層面的結構轉換與語義管理。

(3)數(shù)字信息資源長期保存元數(shù)據(jù)的語義化既是提高保存元數(shù)據(jù)細粒度、增加信息資源描述準確度的重要方式,也是提高信息對象關聯(lián)度、實現(xiàn)交互操作的重要方法。保存元數(shù)據(jù)的語義化研究離不開本體語言以及RDF、XML等語言格式的支持,未來研究將更重視多種語義化技術的融合。


網(wǎng)絡客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號中州期刊聯(lián)盟 ICP備案號:豫ICP備2020036848

【免責聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權、違規(guī),請及時告知。

版權所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關注”中州期刊聯(lián)盟”公眾號
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院單位發(fā)核心?

掃描關注公眾號

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言