信息管理論文發(fā)表本體理念的信息檢索方案查詢與應用
發(fā)布時間:2015-04-15 14:13所屬分類:計算機信息管理論文瀏覽:1次加入收藏 查看PDF文件后下載PDF文件
信息管理論文發(fā)表 期刊推薦 《互聯(lián)網(wǎng)周刊》全面關(guān)注在技術(shù)革命的影響下,中國商業(yè)社會正在發(fā)生的一切變革,是網(wǎng)絡時代的新聞類商業(yè)周刊。權(quán)威獨立的產(chǎn)業(yè)觀察家、領(lǐng)先半步的思想提供者《互聯(lián)網(wǎng)周刊》以對商業(yè)觀念、商業(yè)實踐和技術(shù)趨勢的前瞻性報道,成為讀者
信息管理論文發(fā)表期刊推薦《互聯(lián)網(wǎng)周刊》全面關(guān)注在技術(shù)革命的影響下,中國商業(yè)社會正在發(fā)生的一切變革,是網(wǎng)絡時代的新聞類商業(yè)周刊。權(quán)威獨立的產(chǎn)業(yè)觀察家、領(lǐng)先半步的思想提供者《互聯(lián)網(wǎng)周刊》以對商業(yè)觀念、商業(yè)實踐和技術(shù)趨勢的前瞻性報道,成為讀者在網(wǎng)絡時代獲得洞察力的源泉。
摘 要:信息檢索是指根據(jù)用戶的需求,從已有的檢索工具或數(shù)據(jù)庫中查找所需信息的過程。本體作為一種客觀描述,有著良好的概念層次結(jié)構(gòu),能夠利用公理對概念及概念間關(guān)系進行推理,從而明確各種關(guān)系,建立知識間的概念模型。本體理念的信息檢索可對信息源進行語義標引,提高查全率和查準率,幫助用戶準確的找到真正需要的信息。本文將從本體的基本概念出發(fā),對本體理念在信息檢索中的應用進行初步探析,建立基于本體的信息檢索系統(tǒng),提高信息檢索效率。
關(guān)鍵詞:信息管理論文發(fā)表,本體,信息檢索,信息檢索系統(tǒng)
隨著計算機技術(shù)和網(wǎng)絡技術(shù)的不斷進步和發(fā)展,互聯(lián)網(wǎng)進入了人們生活的各個領(lǐng)域,檢索方式也由原來的脫機檢索、聯(lián)機檢索發(fā)展為今天的網(wǎng)絡檢索。然而,網(wǎng)絡檢索給人們帶來方便的同時,也給信息檢索帶來了麻煩。信息檢索是指根據(jù)用戶的需求,從已有的檢索工具或數(shù)據(jù)庫中查找所需信息的過程,如何快速、準確地檢索到用戶所需要的信息是信息檢索面臨的問題。因此,提高檢索效率,提高查全率、查準率,探討新的檢索模式是信息檢索發(fā)展的必然趨勢。本體理念有著良好的概念層次結(jié)構(gòu),是近幾年學術(shù)研究的熱點,它的應用和推廣必然推動信息檢索的發(fā)展。
1 本體的基本概念
本體作為一種信息表達形式,有著良好的概念層次結(jié)構(gòu),具有較強的表達能力。本體對邏輯推理的支持能夠更好地表達概念之間的關(guān)系,使得信息具有一定的層次結(jié)構(gòu)。
1.1 本體的概念。本體是指對客觀存在物體的一種系統(tǒng)地描述,它并不是具體指某個人描述該事物使用的具體語言,而是將計算機的表達方式和人類的表達方式統(tǒng)一。Gruber認為:本體就是指給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則。Borst Pim則認為:本體是概念模型的規(guī)范說明。Studer認為:本體是指共享概念模型的形式化規(guī)范說明。第一,概念模型。所謂概念模型,是將客觀世界中一些現(xiàn)象抽象為形同概念而得到得到的,獨立于具體的環(huán)境。第二,形式化。指本體是計算機可讀的。第三,共享。共享指本體是針對團體所達成的共同認可的知識。
1.2 本體的功能。本體作為知識的一種表達形式,它能夠?qū)⒂嬎銠C與人類的表達方式統(tǒng)一,也能夠?qū)⑿g(shù)語和概念統(tǒng)一。我們通常認為本體的功能有以下幾種:首先,本體為所有的語言提供了一個共同的標準,將語言規(guī)范化,為人們的交流提供了方便。其次,本體可以將不同軟件系統(tǒng)集合在一起,給不同的軟件系統(tǒng)提供了平臺,促進軟件系統(tǒng)的互操作。最后,本體能夠?qū)z索系統(tǒng)規(guī)范化,使得信息更容易被共享和重用。此外,形式化的本體可以提高軟件的可靠性,方便設(shè)計者對軟件的檢查。
1.3 本體的分類。本體按照其研究范圍的分類標準進行分類,可以分為通用本體和領(lǐng)域本體。通用本體是指研究通用的概念、通用屬性,如空間、時間等等,并不局限在特定的領(lǐng)域。構(gòu)建通用本體的過程與構(gòu)造詞典相似,目前常用的通用本體有Wordnet 和 Hownet。領(lǐng)域本體是指描述具體領(lǐng)域知識的概念和屬性,描述某個領(lǐng)域的知識。目前,領(lǐng)域本體比較匱乏,相對成熟的是生物學本體、醫(yī)學本體。領(lǐng)域本體庫的構(gòu)建需要領(lǐng)域?qū)<业膮⑴c,并且要與共同達到的學術(shù)一致。
1.4 本體的構(gòu)建方法。根據(jù)目前認可度較高的Gruber提出的本體構(gòu)建規(guī)則,學界提出了多種構(gòu)建方法。認可度最高的是斯坦福大學醫(yī)院開發(fā)的七步法:確定專業(yè)領(lǐng)域范圍;考查現(xiàn)有本體尋找復用機會;列出該領(lǐng)域的術(shù)語;對該領(lǐng)域事務進行分類;定義類的屬性、類與類之間的關(guān)系;定義屬性的分娩;創(chuàng)建屬于該類的實例。
1.5 本體描述語言。本體描述語言隨著網(wǎng)絡發(fā)展而發(fā)展,并且具備多種功能使得本體在不同系統(tǒng)之間互操作。本體描述語言需要提供機器可讀的形式,能夠?qū)崿F(xiàn)自然語言與機器表達形式的轉(zhuǎn)化。目前,常用的本體描述語言主要有RDF、OWL,本文介紹RDF模型,以下是對這種語言的具體介紹。
RDF包括3種實體:資源和實體、屬性、聲明。資源和實體是對資源進行標識;屬性是對資源的各個方面進行定義,如特征等;聲明是指對已經(jīng)被命名的屬性且被賦值的特定資源,即RDF聲明。
RDF模型的描述方式通常有以下幾種方式:簡化三元組方式,用尖括號將三元組的主語、位于、賓語隔離;RDF模型圖方式,是以圖形的方式將三元組描述的聲明表現(xiàn)出來,資源、字符串節(jié)點、屬性分別用橢圓、方框、連線來表示;RDF/XML方式,這種表達方式是按照RDF/XML語法和編碼規(guī)則描述RDF模型,并將這種模型存放在計算機中。
2 基于本體的信息檢索系統(tǒng)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,傳統(tǒng)的信息檢索已無法滿足人們的需求。傳統(tǒng)的信息檢索主要采用結(jié)構(gòu)化信息表示方式,要求有較高的查準率。但是,傳統(tǒng)的信息檢索存在一定局限性,如文檔的添加較為復雜,增加了工作人員的工作量;結(jié)構(gòu)化信息表達形式限制了用戶的輸入,只能輸入與數(shù)據(jù)庫一致的信息才能得到檢索結(jié)果,而非結(jié)構(gòu)化信息表達形式在一定程度上放寬了用戶的輸入限制,采用關(guān)鍵字匹配的方式,但是不能滿足語義檢索的要求,因此,不能提高查全率,出現(xiàn)漏檢的情況。
基于本體的信息檢索系統(tǒng)能夠主動理解用戶要求,通過邏輯推理后進行檢索。同時,本體理念的信息檢索系統(tǒng)可以將計算機的表達方式與人類的表達方式統(tǒng)一,實現(xiàn)計算機與人類的同語言交流。
基于本體的信息檢索包含以下幾個模塊:文檔預處理操作、構(gòu)建索引、擴展合并用戶查詢詞、構(gòu)造檢索模型、排序算法。文檔預處理操作是指利用分詞技術(shù)將大段文字分割成詞語,經(jīng)過詞法分析后,刪除沒有語義的詞匯,減少文檔的冗余。利用倒排文檔可將索引與原文檔相連,檢索詞作為索引大大提高了檢索效率。用戶輸入檢索詞后,系統(tǒng)需要通過一定的預處理、或者是通過查詢處理算法,擴展合并查詢詞,推理用戶的檢索需求,從而提高查準率。構(gòu)造檢索模型能夠迅速匹配用戶查詢的相關(guān)信息,提高檢索效率。排序算法是指利用某種算法將與檢索詞相關(guān)性最強的檢索結(jié)果放在前面,讓用戶先看到想要的結(jié)果。
為了提高檢索的查全率、查準率,基于本體的信息檢索系統(tǒng)還可以提供多類型的檢索模式,本體檢索作為基礎(chǔ)檢索,關(guān)系檢索和屬性檢索為用戶提供高級檢索,為用戶提供知識間的聯(lián)系,如果用戶需要個性化服務,還可以提供回溯檢索。本體理念的信息檢索系統(tǒng)可以將關(guān)鍵詞進行概念匹配,用戶在不具備專業(yè)檢索技能的情況下,也能迅速并準確的檢索到所需要的的信息,給用戶帶來全新的極富人性化的體驗。
3 結(jié)束語
基于本體的信息檢索需要構(gòu)建本體領(lǐng)域知識庫,以本體的相關(guān)理論為基礎(chǔ)。由于理論的復雜性和技術(shù)難關(guān)等原因,目前國內(nèi)外還沒有對本體信息檢索系統(tǒng)進行大規(guī)模應用。本體知識庫雖然在技術(shù)上較為先進,但是就目前的發(fā)展水平來看,本體信息檢索只能停留在研究的初期,還有許多技術(shù)難關(guān)要攻克。如何構(gòu)建本體知識庫、充分利用本體表示形式帶來的優(yōu)勢仍有待進一步研究,使用本體直接進行匹配,將文檔進行本體化,實現(xiàn)文檔的自動標引,提供以自然語言為主的概念檢索和關(guān)系檢索模式,提供更人性化的服務?傊诒倔w的信息檢索,能夠同時提高查全率和查準率,提高檢索效率。本文的觀點仍有不成熟之處,希望諸位同仁對本體信息檢索系統(tǒng)模式進行進一步分析和研究,隨著本體技術(shù)的不斷發(fā)展,基于本體的信息檢索也會不斷發(fā)展和完善。
參考文獻:
[1]易運暉,朱暢華,裴昌幸.偏振旋轉(zhuǎn)的量子私有信息檢索方案[J].電子與信息學報,2012(10).
[2]李宏佳,劉國華,李金才.相互協(xié)作中的私有信息檢索方案[J].計算機工程與設(shè)計,2010(13).
[3]邢曉輝,牟義軍.一種基于本體的信息檢索方案[J].山東科學,2011(02).
作者簡介:方鵬(1974-),男,教師,研究方向:數(shù)據(jù)庫技術(shù)應用。
作者單位:長江職業(yè)學院,武漢 430074
基金項目:本文為長江職業(yè)學院校級教科研項目“基于數(shù)據(jù)庫技術(shù)的信息檢索應用研究”(項目編號:2011X011)階段性成果。
上一篇:廣州現(xiàn)代信息工程職業(yè)技術(shù)學院畢業(yè)論文投稿
下一篇:計算機論文投稿計算機軟件測試技術(shù)分析