[摘要]本文就數(shù)字資源的定義,常用的整合方式與模式,國內(nèi)外數(shù)字資源整合平臺進行了概述,結(jié)合我校教學和科研的實際,對TPI數(shù)字資源整合平臺在我館的應用進行了研究和實踐。
[關(guān)鍵詞]數(shù)字資源,整合,,科研,高校
隨著計算機技術(shù)、通信技術(shù)、網(wǎng)絡技術(shù)等科學技術(shù)的迅猛發(fā)展,
文獻信息資源的數(shù)量以前所未有的速度劇增,文獻信息資源的類型也已由單一的紙質(zhì)文獻發(fā)展成為紙質(zhì)與電子、依托網(wǎng)絡環(huán)境的數(shù)字
圖書館、各種中外文數(shù)據(jù)庫等共存的形式,它們彼此互為補充、共同發(fā)展。隨著五年一次的國家教育部對高等學校進行本科教學水平評估工作的開展,學校在“以評促建、以評促改、以評促管、評建結(jié)合、重在建設(shè)”的目標指導下,各高校都在大力加強作為本科教學三大支柱之一的
圖書館建設(shè),特別是館藏資源建設(shè)的力度尤為突出,年進紙質(zhì)文獻量不斷增加。在強調(diào)紙質(zhì)資源建設(shè)的同時,為了彌補資源的不足,也紛紛采購各種形式的數(shù)字資源,包括中外文的電子圖書、電子期刊,以達到豐富館藏、提高文獻資源保障之目的。
在這樣的一種環(huán)境下,電子圖書、電子期刊、各種類型數(shù)據(jù)庫的建設(shè),就成為圖書館加強信息資源建設(shè)、提高服務質(zhì)量的一項重要的途徑。資金充足的圖書館,購買的電子圖書與各種數(shù)據(jù)庫較多,資金較少的也盡力購買多種電子期刊和電子圖書來提升自己的服務水平。這些電子圖書和電子期刊一方面彌補了紙質(zhì)資源的不足,提高了讀者文獻信息檢索的查全率,但同時也給圖書館的管理工作提出了問題。一方面,讀者習慣了紙質(zhì)資源的利用,缺乏對電子資源的利用知識,這就需要圖書館加強電子資源的宣傳和使用培訓力度;另一方面,在大多數(shù)圖書館的網(wǎng)頁上,都是將各種數(shù)據(jù)庫的名稱進行羅列,讓讀者看起來眼花繚亂,感覺無從下手;再者,各數(shù)據(jù)庫的使用與檢索方法不盡相同,讀者為獲取某一主題的資料,需要在不同的數(shù)據(jù)庫之間進行重復檢索,來回切換,不僅花費大量時間,而且有可能漏檢某些數(shù)據(jù)庫,不利于達到查全之目的。因此,對館藏文獻資源進行整合是當前圖書館急需解決的問題。
一、數(shù)字資源整合定義
數(shù)字資源整合.是指依據(jù)一定的需要和要求,通過中間技術(shù)(數(shù)字資源無縫鏈接整合軟件系統(tǒng)),把不同來源和不同通信協(xié)議的信息完全融合,使不同類型、不同格式的數(shù)字資源實現(xiàn)無縫鏈接。通過整合的數(shù)字資源系統(tǒng),具有集成檢索功能,是一種跨平臺、跨數(shù)據(jù)庫、跨內(nèi)容的新型數(shù)字資源體系。
二、數(shù)字資源整合方法與模式
1基于OPAC系統(tǒng)的資源整合
根據(jù)整合對象的不同,可將基于OPAC系統(tǒng)的資源整合分為館外整合與館內(nèi)整合。館外整合的實質(zhì)是實現(xiàn)本館與不同的異構(gòu)OPAC數(shù)據(jù)庫的整合,當前較多地采用Z39.50協(xié)議來完成,通過執(zhí)行Z39.50標準,將所要整合的圖書館的書目數(shù)據(jù)庫先映像成自己專用模型,再根據(jù)本館要求建立統(tǒng)一的檢索接口。館內(nèi)整合是指實現(xiàn)OPAC書目信息與數(shù)字資源的整合,主要是在MARC記錄里增加856字段一“電子資源地址與存取”字段(EIeCtronicLocationandAccess),主要是記錄被著錄的數(shù)字資源的存取地址和存取方式。
2基于數(shù)據(jù)源的整合
數(shù)據(jù)源整合是當前圖書館數(shù)字資源整合的主要模式,而且已經(jīng)較為成熟。從實踐的情況來看,又可以細分為兩種子模式,即導航整合和平臺整合。
(1)導航整合
導航整合主要提供按字母和主題的入口方式,這在國內(nèi)外很多大學圖書館的網(wǎng)頁上可以看到,也是國內(nèi)文獻探討較多的模式。其較為徹底的形式如香港大學的圖書館主頁,它將館藏資源進行了最大限度的整合,讀者可以通過書、刊、庫三個入口(界面和檢索方法相同)鎖定目標資源。數(shù)據(jù)源整合對龐雜的資源進行合理有效的排序和整合,使資源能清晰有序地供用戶選擇檢索。但導航整合僅適合于對資源狀況缺乏了解的用戶。導航整合的一個致命缺點在于,電子文獻的URL會因為館藏的調(diào)整、數(shù)據(jù)庫的增減、刊名的變化等各種原因而失效,我們可以確定一種技術(shù)手段來檢測其有效性,但卻無法實現(xiàn)URL的自動轉(zhuǎn)向。這直接導致導航整合的可用性下降。
(2)平臺整合
平臺整合是導航整合的進階,它是檢索界面的整合,在統(tǒng)一用戶查詢界面與信息反饋的形式下,共享多個網(wǎng)絡資源的索引技術(shù),為用戶提供信息服務。整合后的檢索界面沒有自己的資源數(shù)據(jù)庫,它是以代理的角色來接受用戶的請求,并把查詢請求轉(zhuǎn)換成相應網(wǎng)絡資源的檢索方法和查詢語言來獲取信息。但是這一整合方式在給用戶便利的同時,也包含著不可避免的缺陷。首先,由于中間層需要將請求“翻譯”成各個數(shù)據(jù)庫的檢索語句,然后再截獲各數(shù)據(jù)庫的檢索結(jié)果,這就必然造成檢索效率的低下,用戶需要等待較長時間。第二,由于有些數(shù)據(jù)庫的檢索語句經(jīng)過加密處理,或者通過Session進行用戶識別,因此不可能用中間層的方式整合所有的資源,如USP目前只能支持30多種搜索引擎和數(shù)據(jù)庫。
3基于知識管理的數(shù)字資源整合
這種方式不僅僅提供各類文獻數(shù)據(jù)庫的檢索,而且還利用Links機制建立起與多種學術(shù)信息源的鏈接,能實現(xiàn)不同類型、不同學科數(shù)據(jù)庫的雙向鏈接,拓展了文獻之間的內(nèi)在聯(lián)系,實現(xiàn)了二次文獻與事實性文獻的整合和與原始文獻全文的鏈接。利用知識組織原理和技術(shù),對不同渠道、不同類型、不同學科、不同形式的知識加以整合,按數(shù)字資源的邏輯關(guān)系,組織成立體網(wǎng)狀、相互聯(lián)系的知識體系,以實現(xiàn)數(shù)字資源的有效組織和共享利用。
4OAI標準整合模式
OAI是指openarchivesinitiative,它的目標是發(fā)展和促進互操作標準,促進內(nèi)容數(shù)據(jù)的有效傳播。OAI最初是用來加強對電子印刷文擋的訪問,以增強學術(shù)交流,以及要保證科學數(shù)據(jù)在將來也可以訪問。與OAI原理相關(guān)的幾個概念:
(1)數(shù)據(jù)提供者(dataproviders):維護一個或多個支持OAl—PHM,并把該協(xié)議作為揭示元數(shù)據(jù)的一種手段的Web服務器。它只在OAI系統(tǒng)中添加一個接口,把自己的元數(shù)據(jù)轉(zhuǎn)換成DC,供serviceprovider使用,本身也可以提供其他服務。
(2)服務提供者(serviceprovider):向數(shù)據(jù)提供者發(fā)出OAl—PHM請求并且利用得到的元數(shù)據(jù)構(gòu)建增值服務。(3)存儲體(repository):由數(shù)據(jù)提供者管理的可以在網(wǎng)上訪問的服務器,它提供服務提供者需要采集的元數(shù)據(jù)。(4)采集器(harvester):在服務提供者方作為從存儲體中搜集元數(shù)據(jù)的一種應用工具。
三、國內(nèi)外數(shù)字資源整合平臺概述
1DIPS平臺概述
DIPS平臺是成都國圖數(shù)字研發(fā)的一套數(shù)字文獻處理平臺軟件,具備了各種文獻資源、多媒體資源的數(shù)字化建設(shè)加工功能,能夠有效管理這些資源并能通過互聯(lián)網(wǎng)絡環(huán)境發(fā)布利用這些數(shù)字資源。這一平臺軟件具體可以分三個子系統(tǒng)組,即資源的數(shù)字化加工子系統(tǒng),數(shù)字資源的管理維護子系統(tǒng)以及數(shù)字資源的網(wǎng)絡發(fā)布子系統(tǒng)。另外作為一個平臺軟件,其還提供了各種DIPS的輔助工具,有利于整合工作的開展。圖1是DIPS資源整合的流程示意,DIPS平臺系統(tǒng)和DIPS輔助工具作為一個有機的整體,承擔著整合異構(gòu)電子資源、建設(shè)專題特色數(shù)據(jù)庫的責任。
2DSpace平臺概述
DSpace平臺是一個開放源代碼的系統(tǒng),用作組織或機構(gòu)數(shù)字研究和教育資料的資源庫,是HP公司和MIT圖書館經(jīng)過兩年的合作開發(fā)研制出來的。開發(fā)小組與MIT圖書館工作人員以及最初采用該系統(tǒng)的教學人員緊密合作,開發(fā)出了“廣度優(yōu)先”(Breadth—First)的系統(tǒng),提供了數(shù)字資源庫服務所需的各個基本特性。除了作為一種實時服務,DSpace還將成為數(shù)字資源庫功能擴展的基礎(chǔ),特別用于解決數(shù)據(jù)長期保存的問題。如何長期的管理各類數(shù)字資料是資源整合的一個基礎(chǔ),雖然早已存在諸如文檔管理系統(tǒng)這樣的系統(tǒng),但許多是商業(yè)化和專有的,所以高校和科研機構(gòu)不得不依賴于供應商的生存和其系統(tǒng)的經(jīng)濟性。DSpace提供了運行機構(gòu)數(shù)字資源庫所需的基本功能,并且將成為未來解決長期保存和訪問問題的發(fā)展基礎(chǔ)。2002年11月4日,MIT圖書館首先采用該系統(tǒng)提供實時服務,并且根據(jù)BSD開放源代碼許可協(xié)議公布了系統(tǒng)的源代碼,希望能夠促進形成一個圍繞DSpace的開放源代碼協(xié)會。DSpace吸收了相關(guān)領(lǐng)域很多早期的研究和開發(fā)成果,比如吸收了Kahn和Wilensky的分布式數(shù)字對象服務框架,以及Arms等在數(shù)字圖書館體系結(jié)構(gòu)方面所取得的成果。DSpace目前還不支持復雜的對象傳送,但未來版本將構(gòu)建于Lagoze等目前在靈活可擴展的數(shù)字對象倉儲結(jié)構(gòu)(FlexibleExtensibleDigitalObjectRepositoryArchitecture,F(xiàn)EDORA)體系結(jié)構(gòu)方面所取得的成果,以及弗吉尼亞大學的FEDORA原型之上。DSpace吸收的另一個重要成果是美國空間數(shù)據(jù)系統(tǒng)咨詢委員會提出的開放檔案信息系統(tǒng)(OA1S)參考模型。再有DSpace與南安普頓大學開發(fā)的EPrints系統(tǒng)有許多類似的特性,其用戶界面特別吸取了EPrints用戶界面設(shè)計和使用所積累的經(jīng)驗,特別是借鑒了EPrints的互操作性,DSpace目前可以通過元數(shù)據(jù)采掘OAI協(xié)議(OAI—PMH)部分實現(xiàn)互操作,以提供跨資源庫的訪問服務。
3TRSIIP(v2.0)平臺概述
TRS資源整合門戶(TRSIIPV2.0))是TRS成部分,TRS還有參考鏈接系統(tǒng)(TRSInfoLinker)。實現(xiàn)到與其內(nèi)容關(guān)聯(lián)的其他資源數(shù)據(jù)庫中相關(guān)信息的鏈接。TRS關(guān)系數(shù)據(jù)庫全文檢索引擎可以在索引層提供ORACLE、SQLSenel"、DB2、Sysbase、Informix等關(guān)系數(shù)據(jù)庫的全文檢索和統(tǒng)一索引解決方案.TRSIIP2.0的主要特點可以歸納為如下幾點:①用戶個性化功能模塊;②資源使用評估:統(tǒng)計某段時問內(nèi)的IP訪問排名前n位、特定資源的使用率和使用率最高的n個資源;③管理員工具:允許管理員配置每個用戶電子收藏夾中可以保存的結(jié)果數(shù)量、用戶檢索歷史中可以保存的檢索詞數(shù)量和允許訪問的IP地址范圍。
4SFX平臺概述
SFX(SpecialEfectsCinematography)是新的網(wǎng)絡電子資源無縫鏈接整合軟件系統(tǒng),實際上是一個基于開放的統(tǒng)一資源定位器(orenUP,L)標準的上下文相關(guān)的參考鏈接系統(tǒng)。作為學術(shù)信息網(wǎng)絡環(huán)境中的導航與發(fā)現(xiàn)的工具,它能為學術(shù)信息用戶傳遞強有力的鏈接服務。SFX在2001年由ExLibris公司推出,推出后受到國外信息提供商和圖書館界的高度重視,目前一批世界著名的信息供應商如ISI、UMI、UBSCO等已開始使用SFX技術(shù)和OpenURL協(xié)議。全球17個國家近200個機構(gòu)選擇了SFX和MetaLib的解決方案。
SFX可以把不同來源和不同通信協(xié)議的信息完全融合,使不同類型、不同格式的數(shù)字資源實現(xiàn)無縫鏈接,其技術(shù)為機構(gòu)提供特制的鏈接,實現(xiàn)在異構(gòu)的分布式信息系統(tǒng)之間無阻礙導航。它允許用戶在數(shù)據(jù)庫中點擊一篇文章的記錄,然后顯示所有能夠得到的與這篇文章相關(guān)的服務選項列表。該列表可以包括這篇文章在其它數(shù)據(jù)庫的網(wǎng)上全文。SFX可提供的數(shù)字資源包括:全文數(shù)據(jù)庫,文摘、索引、引文數(shù)據(jù)庫,圖書館網(wǎng)上目錄系統(tǒng),其它WEB資源如電子出版系統(tǒng)、網(wǎng)上免費全文等。
5TPI平臺概述
TPI系列軟件是清華同方知網(wǎng)(北京)技術(shù)有限公司自主研發(fā)的、基于非結(jié)構(gòu)化文檔管理而開發(fā)的大型智能內(nèi)容管理系統(tǒng)。USP全稱為UnionSearchPlatform,是清華同方在TPI系統(tǒng)中提供的異構(gòu)統(tǒng)一檢索平臺。它是一個可以同時調(diào)用多個數(shù)據(jù)庫和搜索引擎進行資料檢索的軟件系統(tǒng),可以幫助用戶同時在多個數(shù)據(jù)庫中進行檢索,并得到返回結(jié)果,省去了用戶逐個登錄數(shù)據(jù)庫、輸入檢索條件的麻煩。同樣,USP也存在著中間件模式共有的缺點,如檢索過程需要等待較長時間;不能對檢索結(jié)果進行過濾和排序,用戶需要在界面不一、數(shù)據(jù)重復的檢索結(jié)果中進行再次選擇,從而導致效率低下;并且有些數(shù)據(jù)庫不能使用中間件模式進行整合,目前USP能支持30多種搜索引擎和數(shù)據(jù)庫,并在不斷的增加中,用戶可以根據(jù)實際需求選擇需要統(tǒng)一檢索的數(shù)據(jù)庫。USP由3個部分組成:用戶注冊及引擎配置模塊、統(tǒng)一檢索模塊、檢索結(jié)果顯示模塊.USP的主要特點有:①智能化的頁面分析系統(tǒng);②個性化的結(jié)果顯示;③支持二次檢索;④具有先返回先顯示的快速顯示特性;⑤檢索結(jié)果有多種顯示方式;⑥支持完全由用戶配置的數(shù)據(jù)庫分類檢索功能。
四、TPI系統(tǒng)軟件在面向教學科研的高校數(shù)字資源整合中的應用
TPI系統(tǒng)軟件是一套集全文檢索服務器、元數(shù)據(jù)標引工具、內(nèi)容發(fā)布系統(tǒng)、實時信息采集系統(tǒng)(RIG)和異構(gòu)統(tǒng)一檢索平臺(USP)等功能于一體的數(shù)字圖書館建設(shè)平臺。在高校的教學和科研活動中,圖書館具有極其重要的作用,為教學和科研提供文獻保障支持,因此對種類繁多的文獻資源進行必要的整合,成為現(xiàn)階段廣大
圖書情報工作者的工作任務之一。結(jié)合當前我校教學科研及本館數(shù)字資源的實際,通過TPI系統(tǒng)軟件的應用,我們在以下幾方面的應用問題進行了嘗試,并取得了一定的成效。
1特色資源庫建設(shè)
我館使用TPI系統(tǒng)目前已經(jīng)初步建成以下數(shù)字化資源:
、匐S書光盤數(shù)據(jù)庫:將隨印刷型文獻發(fā)行的光盤資源進行整合,建立隨書光盤數(shù)據(jù)庫,通過校園網(wǎng)進行瀏覽、下載和使用,很好地解決了隨書光盤的利用問題。
②鎢鉬題錄文摘數(shù)據(jù)庫:我校地處于鎢鉬資源豐富的贛南,建校時也是以有色金屬開采、選別、冶煉
教學與研究為主要特色的高校,為此我們對鎢鉬研究的文獻進行整合,更好地為教學和科研提供文獻保障。
③稀土題錄文摘數(shù)據(jù)庫:贛南具有豐富的稀土資源,對稀土文獻資源的整合,有利于學校為地方經(jīng)濟建設(shè)服務。
、芙骼砉ご髮W學術(shù)論文數(shù)據(jù)庫:針對學校教職工研究、發(fā)表的學術(shù)論文也進行了整合,以便于更好地開展教學和科研工作。
目前,我們正著手考慮建立我校的學位論文數(shù)據(jù)庫,旨在為今后的科研活動,提供參考。
2內(nèi)容創(chuàng)建和獲取
利用TPI電子圖書制作工具,把圖書、報刊、論文、公文等各類印刷型文獻、文件,通過書頁掃描、掃描圖像處理、OCR識別處理、目錄生成編改、書頁壓縮打包等工序,快速優(yōu)質(zhì)地生成電子“圖書”。也可以把已有的各種電子文件,如WORD、PDF、HTML、PSD、TXT、PPT等格式的文件,轉(zhuǎn)換成與電子圖書統(tǒng)一的CAJ格式文件,或統(tǒng)一為PDF格式文件。利用元數(shù)據(jù)標引工具(MET),通過TCP/IP與FTS相配合,對元數(shù)據(jù)進行標引處理。利用分類工具(CFT),通過TCP/IP與FTS相連接,實現(xiàn)分布式數(shù)據(jù)加工和分類形成導航樹。
3數(shù)據(jù)存儲和管理
利用TPI系統(tǒng)在資源存儲方面支持各種格式的文本和圖片、視音頻文件處理技術(shù),完成數(shù)據(jù)存儲。在資源管理方面,將數(shù)據(jù)庫同時建立多種導航樹,以便支持多種分類體系并存。導航樹直接和分類結(jié)果一一對應,用戶可以在WEB頁面上直接按照導航樹檢索。支持角色管理和用戶管理,方便地定義不同用戶的權(quán)限,使得數(shù)據(jù)庫操作同時具備方便性和安全性等特性。分布式檢索系統(tǒng)把分布在不同地理位置的獨立自主的多個TPI數(shù)據(jù)庫服務器聯(lián)結(jié)成為一個集群系統(tǒng)。各自獨立的TPI系統(tǒng)可以建立自己的特色數(shù)據(jù)庫,可以控制其他用戶訪問自己的資源。分布式檢索系統(tǒng)提供跨服務器、跨平臺的分布式檢索,用戶通過該系統(tǒng)可以極大地共享整個集群數(shù)據(jù)庫中的信息,實現(xiàn)分布式、多層次、多類型、特色型的資源共享。
4數(shù)據(jù)查詢訪問
利用TPI系統(tǒng)中的全文檢索系統(tǒng)實現(xiàn)單庫檢索、跨庫檢索、視圖檢索、二次檢索、高級檢索等檢索方式,靈活使用and,or,not等邏輯操作,按更新日期排序、按相關(guān)度排序等排序方式,實現(xiàn)檢索結(jié)果排重。全文檢索基于分詞策略,查準率和查全率高,實現(xiàn)中英文混合檢索、漸進檢索,支持SDK二次開發(fā);系統(tǒng)中建立的數(shù)據(jù)庫個數(shù)不限制;單個庫記錄個數(shù)4O億條;單個庫支持最大容量8192GB;跨庫檢索最大數(shù)255個;檢索速度1秒/100GB;同時在線人數(shù)1000人。異構(gòu)統(tǒng)一檢索系統(tǒng),利用網(wǎng)頁分析技術(shù)和腳本分析、執(zhí)行技術(shù),把網(wǎng)絡數(shù)據(jù)庫中應用的JAVASCRIPT、VBSCRIPT、JSP、SERVLET等技術(shù)分別解析和消化,使得統(tǒng)一檢索平臺能夠駕馭因特網(wǎng)中如此紛雜的網(wǎng)絡數(shù)據(jù)庫?梢酝瑫r登陸多個選定的數(shù)據(jù)庫,優(yōu)先接通并獲得的檢索結(jié)果優(yōu)先返回,減少用戶等待時間。提供初級檢索和高級檢索兩種檢索方式,支持二次檢索。
5內(nèi)容發(fā)布
利用TPI內(nèi)容發(fā)布系統(tǒng)將加工好的數(shù)據(jù)發(fā)布到因特網(wǎng)上,使之可以被用戶瀏覽和檢索。發(fā)布提供多種發(fā)布模板:CNKI期刊風格、GOOGLE風格、EI風格、OCLC風格、圖片風格等。支持用戶基于數(shù)據(jù)庫字段的個性化發(fā)布定制;支持多種數(shù)據(jù)庫間數(shù)據(jù)記錄之間的關(guān)聯(lián)、跳轉(zhuǎn)、校驗、下拉選擇;為數(shù)據(jù)庫同時建立多種導航樹,支持多種分類體系并存;支持為一條記錄關(guān)聯(lián)多個全文數(shù)據(jù)、或多種媒體數(shù)據(jù)的連接功能,該功能為發(fā)布多圖片新聞、多附件通知等應用提供技術(shù)保障。
6權(quán)限管理
TPI系統(tǒng)權(quán)限管理包括角色管理和用戶管理。角色管理允許用戶變換角色,如從普通用戶升級為管理員;用戶管理可以實現(xiàn)基于IP、用戶名和時間范圍的管理,包括增加用戶、刪除用戶、編輯內(nèi)部用戶、導入外部用戶、停用用戶、恢復用戶等。這些權(quán)限管理可以為數(shù)據(jù)的產(chǎn)權(quán)保護提供可靠保障。
參考文獻
[1]褚艷秋.高校圖書館文獻信息資源的整合[J].錦州
醫(yī)學院學報,2006,(2)
[2]王愛麗.數(shù)字資源整合技術(shù)與模式研究[J].
圖書館學研究,2006,(3)
[3]許鑫,蘇新寧.高校數(shù)字資源整合平臺研究[J].現(xiàn)代圖書情報技術(shù),2005,(9)
[4]張鳳斌,肖榮榮.高校數(shù)字圖書館建設(shè)中數(shù)字資源整合研究[J].哈爾濱師范大學自然科學學報,2004,(6)
[5]于鳳英,王召龍.淺談圖書館數(shù)字資源整合[J].濟南職業(yè)學院學報,2005,(6)
[6]林希森,肖榮榮.TPI在數(shù)字圖書館建設(shè)中的應用[J].圖書館建設(shè),2005,(1)
轉(zhuǎn)載請注明來自:http://www.jinnzone.com/gaodengjiaoyulw/7400.html