論數(shù)據(jù)挖掘技術(shù)與院校圖書(shū)館個(gè)性化服務(wù)

發(fā)布時(shí)間：2011-02-24 12:02:16更新時(shí)間：2011-02-24 12:02:16 1

摘要：隨著信息在社會(huì)中的作用增強(qiáng),人們對(duì)信息的需求增加,信息需求更趨于個(gè)性化。圖書(shū)館用戶服務(wù)的個(gè)性化是發(fā)展的客觀要求和發(fā)展趨勢(shì)。個(gè)性化服務(wù)是許多讀者對(duì)圖書(shū)館服務(wù)的基本要求,個(gè)性化服務(wù)水平體現(xiàn)了圖書(shū)館的服務(wù)質(zhì)量。圖書(shū)館日趨數(shù)字化的特點(diǎn)也易于實(shí)現(xiàn)個(gè)性化服務(wù),介紹了數(shù)據(jù)挖掘技術(shù)與圖書(shū)館個(gè)性化服務(wù)之間的關(guān)系，在收集挖掘用戶信息的基礎(chǔ)上,通過(guò)分析和預(yù)測(cè)用戶的行為來(lái)為用戶提供個(gè)性化的定制服務(wù)。
關(guān)鍵詞：數(shù)據(jù)挖掘；圖書(shū)館；個(gè)性化服務(wù)
當(dāng)前各個(gè)院校圖書(shū)館所存儲(chǔ)的信息量是非常大的，特別是網(wǎng)絡(luò)的普及更是造成了現(xiàn)在信息爆炸的時(shí)代。而如何把圖書(shū)館中龐大的信息資源更好的推薦給讀者，更為關(guān)鍵的的是如何具有針對(duì)性的推薦，這就是十分重要的！因?yàn)殡m然現(xiàn)在圖書(shū)館大多都提供文獻(xiàn)檢索服務(wù)，并提供一些檢索終端供讀者查找信息，也可以通過(guò)圖書(shū)館主頁(yè)提供各種檢索服務(wù)，但讀者往往由于檢索專業(yè)知識(shí)的限制，無(wú)法從浩如煙海的館藏信息中查找自己所需要的，也有一些讀者沒(méi)有太多的時(shí)間去查找信息。這就要求我們能有針對(duì)性的做好信息推送工作，把讀者最可能需要的信息推薦給讀者。而這就是圖書(shū)館個(gè)性化服務(wù)所要求做到的。
1    院校圖書(shū)館個(gè)性化服務(wù)概述
院校圖書(shū)館的個(gè)性化服務(wù)實(shí)際是針對(duì)在校師生在教學(xué)、科研方面的不同需要, 而進(jìn)行的一種對(duì)應(yīng)式的服務(wù)。院校圖書(shū)館的讀者種類一般有以下幾種：本科生、研究生、教師及科研人員。每個(gè)種類所關(guān)注的問(wèn)題都是各不相同的。本科生由于處在基礎(chǔ)學(xué)習(xí)階段，對(duì)各種知識(shí)都比較感興趣，關(guān)注面比較廣，特別是對(duì)于社會(huì)科學(xué)類的信息關(guān)注度較高。研究生由于對(duì)本專業(yè)的知識(shí)已經(jīng)打下了堅(jiān)實(shí)的基礎(chǔ)，并且也已有了明確的研究方向，所以特別關(guān)注了解本專業(yè)具體研究的各方面信息。而教師側(cè)重于對(duì)教學(xué)參考資料的使用與教學(xué)方法的研究�？蒲腥藛T要求掌握學(xué)科的前沿發(fā)展動(dòng)態(tài)，為科學(xué)研究做好充足的知識(shí)儲(chǔ)備。同時(shí)，現(xiàn)在高校專業(yè)設(shè)置比較廣泛，一般涵蓋多個(gè)學(xué)科門(mén)類，不同學(xué)科的讀者之間，對(duì)于信息的需求也是不同的，這也要求了圖書(shū)館在信息推送服務(wù)方面必須要做到個(gè)性化服務(wù)，要針對(duì)每個(gè)讀者來(lái)制定不同的信息推送方案。
圖書(shū)館個(gè)性化服務(wù)主要分為兩種方法：一是按用戶要求進(jìn)行信息定制，屬于被動(dòng)提供服務(wù)；二是數(shù)字圖書(shū)館挖掘用戶興趣模式，屬于主動(dòng)提供服務(wù)。當(dāng)前大多數(shù)圖書(shū)館所推出的讀者個(gè)性化服務(wù)主要還是采用第一種方法，往往通過(guò)進(jìn)行讀者調(diào)查問(wèn)卷以及讀者自己選擇的方式進(jìn)行信息定制推送，這種方法好處是可以準(zhǔn)確的獲取讀者的信息需求，信息推送比較準(zhǔn)確，減少無(wú)用信息的干擾。缺點(diǎn)是對(duì)于圖書(shū)館來(lái)說(shuō)提供的服務(wù)是被動(dòng)式服務(wù)，如果用戶不進(jìn)行相應(yīng)的問(wèn)卷調(diào)查就無(wú)法對(duì)這寫(xiě)讀者進(jìn)行信息推送服務(wù)，會(huì)使相當(dāng)一部分讀者不能充分的利用圖書(shū)館的資源。而第二種方法則可以進(jìn)行主動(dòng)式的信息服務(wù)，主要采取的方法是通過(guò)對(duì)讀者的各種相關(guān)信息進(jìn)行數(shù)據(jù)挖掘，能夠自動(dòng)收集和統(tǒng)計(jì)讀者的大量有用信息，并進(jìn)行多維的特征分析和對(duì)用戶信息行為的研究發(fā)現(xiàn)讀者的信息需求�？梢詾樽x者提供更快速更有針對(duì)性的優(yōu)質(zhì)信息服務(wù)，提高讀者對(duì)服務(wù)的滿意度。還可以通過(guò)對(duì)讀者的分類和分析，掌握讀者的偏好、愿望和需求等方面情況，然后制定信息服務(wù)推薦策略，使信息服務(wù)更為有效。
2  數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘(Data Mining)，又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)，就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程，簡(jiǎn)單的說(shuō)，數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)，而這些知識(shí)是隱含的、事先未知的并且是潛在有用信息。
雖然數(shù)據(jù)挖掘和信息檢索同樣是在數(shù)據(jù)庫(kù)中查找一些有用的信息，但是數(shù)據(jù)挖掘與信息檢索還是存在一定的區(qū)別的。信息檢索的過(guò)程就是根據(jù)用戶的輸入，如關(guān)鍵詞，查找相關(guān)文獻(xiàn)信息的過(guò)程。它是通過(guò)查找數(shù)據(jù)庫(kù)中的信息是否符合匹配用戶輸入的關(guān)鍵詞，有就把這條信息提取出來(lái)，是一種查找信息表面特征的檢索方法。而這種方法對(duì)于大量信息之間所隱藏蘊(yùn)含的各種深層次的聯(lián)系和信息卻無(wú)法進(jìn)行準(zhǔn)確的表達(dá)。要發(fā)現(xiàn)這種深層次之間的聯(lián)系和信息就必須要依靠數(shù)據(jù)挖掘技術(shù)了。也就是說(shuō)，傳統(tǒng)的數(shù)據(jù)庫(kù)查詢和檢索只能提供你想要的信息，而數(shù)據(jù)挖掘技術(shù)則可以發(fā)現(xiàn)你沒(méi)有意識(shí)到的未知信息。同時(shí)信息檢索和數(shù)據(jù)挖掘是相輔相成的。我們可以利用數(shù)據(jù)挖掘的研究成果來(lái)提高信息檢索的精度和效率，改善檢索結(jié)果的表達(dá)，使信息檢索發(fā)展到一個(gè)新的水平。
按照處理對(duì)象的不同，可以將數(shù)字圖書(shū)館數(shù)據(jù)挖掘分為三大類：結(jié)構(gòu)挖掘、內(nèi)容挖掘和用戶使用記錄挖掘。結(jié)構(gòu)挖掘指的是從文檔的結(jié)構(gòu)信息中推導(dǎo)知識(shí)，結(jié)構(gòu)挖掘不僅僅局限于文檔之間的連接結(jié)構(gòu)，還包括文檔內(nèi)部的結(jié)構(gòu)、文檔中的目錄路徑結(jié)構(gòu)等；內(nèi)容挖掘指的是文檔的內(nèi)容信息中抽取知識(shí)，內(nèi)容挖掘又分為對(duì)文本文檔、多媒體文檔和分布式數(shù)據(jù)的挖掘。用戶使用記錄挖掘主要是對(duì)服務(wù)器日志、用戶注冊(cè)數(shù)據(jù)、用戶訪問(wèn)記錄等數(shù)據(jù)的挖掘。對(duì)于圖書(shū)館對(duì)讀者的個(gè)性化服務(wù)來(lái)講，我們這里要研究的主要是用戶使用記錄挖掘。
3  數(shù)據(jù)挖掘技術(shù)在圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用
一般來(lái)說(shuō)，讀者如果想要獲得圖書(shū)館的網(wǎng)絡(luò)資源服務(wù)，首先進(jìn)入圖書(shū)館主頁(yè)網(wǎng)站，然后選擇相應(yīng)的服務(wù)鏈接，通過(guò)一站式檢索或單個(gè)系統(tǒng)的逐步檢索獲得所需要的結(jié)果，比如圖書(shū)借閱情況、新書(shū)通報(bào)、電子資源文獻(xiàn)等。這種服務(wù)是被動(dòng)式的服務(wù)，要求用戶必須主動(dòng)關(guān)心才能知道結(jié)果，同時(shí)對(duì)用戶的計(jì)算機(jī)技術(shù)能力、檢索基礎(chǔ)知識(shí)和時(shí)間耗費(fèi)都有很大的要求。所以圖書(shū)館個(gè)性化服務(wù)的核心是做好信息推送，盡可能的把讀者最需要的信息推薦給讀者。而信息推送服務(wù)具有明顯的3個(gè)特征：主動(dòng)性，針對(duì)性和高效性。而傳統(tǒng)的信息推送服務(wù)大多依靠用戶遞交的需求文檔來(lái)或者填寫(xiě)需求表來(lái)選擇推送信息，無(wú)法做到主動(dòng)地、智能地、及時(shí)地獲取用戶當(dāng)前的信息需求，特別是部分讀者疏于填寫(xiě)各種調(diào)查表格，這就給這類讀者的信息推送造成了困難。從而形成了圖書(shū)館個(gè)性化服務(wù)的死角和盲區(qū)。同時(shí)在圖書(shū)館個(gè)性化服務(wù)中，信息推送要與信息反饋相結(jié)合，對(duì)這些反饋的信息進(jìn)行分析，不斷調(diào)整和完善，逐步逼近用戶的信息需求。
數(shù)據(jù)挖掘技術(shù)就可以很好的滿足上面所提出的問(wèn)題，我們知道，當(dāng)一個(gè)讀者從**借書(shū)證開(kāi)始，他的所有和圖書(shū)館有關(guān)的各種信息活動(dòng)都可以作為一種記錄保存在圖書(shū)館的數(shù)據(jù)庫(kù)中。常用的有印本文獻(xiàn)的借閱記錄、電子文獻(xiàn)的檢索記錄等等，這些都可以作為數(shù)據(jù)保存下來(lái)。而這些數(shù)據(jù)就是我們進(jìn)行數(shù)據(jù)挖掘所需要的“材料”。目前來(lái)說(shuō)，對(duì)于數(shù)據(jù)資源的利用主要有兩種方式：一是數(shù)據(jù)資源的查詢服務(wù)；二是數(shù)據(jù)資源的歸納。第一個(gè)不必多言，就是傳統(tǒng)的對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索，查找所需的信息。而第二個(gè)利用方式就需要數(shù)據(jù)挖掘技術(shù)了。
做好讀者信息的數(shù)據(jù)挖掘工作前提和基礎(chǔ)是擁有大量、真實(shí)的數(shù)據(jù)積累，沒(méi)有數(shù)據(jù)積累，數(shù)據(jù)挖掘?qū)o(wú)用武之地，因此要踏踏實(shí)實(shí)做好基礎(chǔ)數(shù)據(jù)庫(kù)的建設(shè)。在建庫(kù)及數(shù)據(jù)挖掘的整個(gè)過(guò)程中，需要各方人員共同參與，通力合作，提取原始信息，收集用戶特征。用戶通過(guò)瀏覽器訪問(wèn)圖書(shū)館電子資源時(shí)，系統(tǒng)可以記錄下來(lái)的用戶訪問(wèn)數(shù)據(jù)有兩類：用戶信息和用戶行為特征。用戶信息包括用戶的姓名、性別、年齡、專業(yè)、愛(ài)好、教育程度以及用戶訪問(wèn)地址等。另一方面利用日志記錄可獲得用戶的行為特征，如對(duì)信息的點(diǎn)擊率、停留時(shí)間、訪問(wèn)次數(shù)、下載次數(shù)、搜索關(guān)鍵詞及模式等信息，還有用戶的主觀信息，如網(wǎng)絡(luò)調(diào)查、留言等。準(zhǔn)確把握用戶的行為特征和

轉(zhuǎn)載請(qǐng)注明來(lái)自：http://www.jinnzone.com/jisuanjixinxiguanlilw/1108.html

上一篇：涼山州建設(shè)工程質(zhì)量檢測(cè)管理信息化研究

下一篇：淺議圖書(shū)館員的繼續(xù)教育

SCI國(guó)際期刊預(yù)警名單

相關(guān)期刊推薦