精品人妻无码一区二区三区软件 ,麻豆亚洲AV成人无码久久精品,成人欧美一区二区三区视频,免费av毛片不卡无码

您現(xiàn)在的位置是:首頁高等教育論文

一種基于知識圖譜的聯(lián)合搜索方法

發(fā)布時間: 1

  黃穎

  中國電子科技集團公司第二十八研究所

  摘要:為解決海量多領域信息高效搜索問題,本文提出一種基于知識圖譜的聯(lián)合搜索方法,描述了其技術架構,對知識構建融合、搜索請求智能轉(zhuǎn)換、搜索源動態(tài)調(diào)度等關鍵技術進行闡述,并在試驗中驗證了效果。

  關鍵詞:知識圖譜 聯(lián)合信息搜索 知識庫

  0引言

  互聯(lián)網(wǎng)的迅速普及以數(shù)字信息的爆炸式增長帶來了寶貴的信息財富,從海量、分散、繁雜的信息中有效、快速找到所需信息,對于信息搜索引擎也是一個較大的挑戰(zhàn),單源檢索引擎已無法滿足信息高效檢索需求。

  本文提出一種基于知識圖譜的聯(lián)合信息搜索方法,一方面通過元搜索集成管理模式,集成各類分領域、分主題的垂直搜索功能,可以提升搜索性能;另一方面以知識圖譜為代表的知識工程技術應用可輔助提升搜索準確率,通過對信息的進一步組織和抽象,形成符合人類活動的語義和邏輯的知識[1]。

  1技術架構

  采用基于知識圖譜的聯(lián)合信息搜索方法,建立專業(yè)知識圖譜,構建基于元搜索架構的聯(lián)合搜索技術架構,實現(xiàn)分布式協(xié)同搜索。技術架構如圖1所示。

  圖1 基于知識圖譜的聯(lián)合信息搜索技術體系架構

  圖1 基于知識圖譜的聯(lián)合信息搜索技術體系架構

  針對分布式存儲的多源異構數(shù)據(jù),無法采用單一的搜索引擎實現(xiàn)高效信息搜索,可通過構建統(tǒng)一的聯(lián)合搜索框架,以及分別建立的各專業(yè)搜索引擎(稱之為搜索源),實現(xiàn)分布式協(xié)同的聯(lián)合搜索服務。在聯(lián)合搜索中,要解決的核心問題是如何建立知識庫,將搜索請求轉(zhuǎn)化為更全面明確的查詢條件,如何有序調(diào)度各搜索引擎,如何對搜索結果進行合并、除重、排序及推薦。利用知識圖譜和聯(lián)合搜索相關技術可解決這些問題

  2 關鍵技術

  2.1知識圖譜構建

  知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系[2],與傳統(tǒng)的基于關鍵字的搜索引擎工作原理不同,利用知識圖譜利用概念、實體的匹配度返回給用戶與搜索相關的更全面的知識體系[3]。

  面向分布式異構數(shù)據(jù)源,采用半自動和人工相結合的方式,按照不同的領域,從各自對應的結構化、半結構化或非結構化化的語料庫或數(shù)據(jù)源中提取概念、關系、公理、實例等,通過多模態(tài)語義抽取、異構本體融合、知識評估完善等形成不同的專業(yè)知識圖譜,實現(xiàn)對海量異構數(shù)據(jù)資源進行語義標注和鏈接,建立以知識為中心的領域內(nèi)資源語義集成服務。

  基于不同領專業(yè)知識圖譜,依靠同一框架規(guī)范,進行異構數(shù)據(jù)整合、消歧、加工、推理驗證、更新等步驟,通過自動分類、聚類挖掘、動態(tài)索引等方式,建立分布式各業(yè)務的知識庫;消除各知識庫中本體概念的異構性,實現(xiàn)不同本體的跨域合并及映射規(guī)則的建立,將不同領域的數(shù)據(jù)、信息、方法、規(guī)則、經(jīng)驗、思想進行融合,形成全域知識庫,為實現(xiàn)跨域協(xié)同知識服務提供支撐[4]。

  2.2多源異構數(shù)據(jù)聯(lián)合搜索框架

  在聯(lián)合搜索框架中,需規(guī)范統(tǒng)一的業(yè)務搜索引擎接口和搜索結果描述要求,通過服務化接口鏈接各專業(yè)搜索源。在聯(lián)合搜索框架下,各專業(yè)搜索源可選擇多元化的技術實現(xiàn)架構,只需要服務接口標準一致;同時面向用戶,供全網(wǎng)統(tǒng)一的搜索入口,一次搜索可以獲得更加全面的信息,顯著提升用戶搜索體驗。

  聯(lián)合搜索框架具備跨域搜索源預選擇功能,避免用戶每次的搜索請求無需盲目的被分發(fā)的所有的搜索源。根據(jù)用戶屬性、熱點分析、搜索情景分析等進行動態(tài)調(diào)度分配,將搜索請求會被分發(fā)到其最可能相關的源端,減少不必要的網(wǎng)絡開銷和等待時延,加快聯(lián)合搜索響應速度。

  搜索結果的合并去重也是聯(lián)合搜索框架的關鍵技術點之一,將分散在各處的同類信息進行合并和去重,可以有效減少冗余;搜索結果的智能排序技術,將用戶最關心的信息排在最前面,有效提高搜索的查準率。

  2.3搜索請求智能轉(zhuǎn)化

  用戶在聯(lián)合檢索時輸入的查詢條件,需要轉(zhuǎn)換成各分布式搜索源可理解的查詢表達式才可以進行檢索。

  由于不同的專業(yè)搜索源可能擁有不同的檢索語法和操作符使用規(guī)則,因此需要針對每個專業(yè)搜索源建立相應的查詢語句轉(zhuǎn)化機制。在查詢語句轉(zhuǎn)化過程中,由聯(lián)合搜索引擎結合專業(yè)搜索源的權限控制和處理能力,動態(tài)選擇、匹配專業(yè)搜索源。進行查詢請求時,如專業(yè)搜索源不支持詞干提取技術,對于具有不同詞綴的單詞則不能進行相關詞映射識別;針對該問題,利于聯(lián)合搜索框架的問句語義分析功能進行預處理,提前提取單詞詞干,形成更完善的查詢請求,達到提高查全率的目的。

  2.4搜索源動態(tài)調(diào)度策略

  在聯(lián)合搜索中,調(diào)用一個業(yè)務搜索引擎,都需要消耗相應的網(wǎng)絡帶寬和服務器處理時間,但并不是每個搜索引擎都能搜索到有價值的信息。因此,采用搜索源動態(tài)調(diào)度策略,實現(xiàn)以較小的資源和時間損耗,調(diào)用合適的搜索源,使用戶獲得較高查詢體驗。

  在搜索源調(diào)度策略中,除了采用針對特殊用戶、特殊問句預先設置相應的搜索源之外,還可以采用基于學習的動態(tài)選擇策略,以提升返回結果的質(zhì)量。目前主要有靜態(tài)學習、動態(tài)學習和混合學習三種方法:

  靜態(tài)學習方法即在系統(tǒng)上線運行前,預先選擇大量關鍵詞進行訓練,逐一分析并得出各搜索源的統(tǒng)計參數(shù),該方法無法及時跟蹤查詢關鍵詞和搜索源的變化來調(diào)整策略。

  動態(tài)學習方法是對通過用戶點擊率、結果反饋信息等持續(xù)學習,可適應變化且不斷完善,但學習耗時較長,不能在系統(tǒng)一上線就給用戶良好的查詢體驗。

  混合學習方法是將兩種方法結合起來使用,既通過訓練查詢詞來獲得最初的搜索引擎選擇策略,又結合使用中對用戶反饋的分析不斷調(diào)整策略。

  3結束語

  基于知識圖譜的聯(lián)合搜索方法從一定程度上解決了海量信息搜索的性能和準確率問題,通過實際試驗驗證,在搜索效果方面,對于主題類搜索需求(即沒有確定的檢索目標,查找與某個主題相關的一組信息資源),信息搜索結果的前40條記錄的平均準確率大于80%;對于事務類搜索需求(即具有確定的檢索目標,一旦查找到指定的信息資源,則搜索事務結束),前10條記錄的平均成功率大于80%,對比傳統(tǒng)信息搜索方法有較高提升,后續(xù)還將面向不同領域、場景知識融合處理需求,在知識圖譜云構建等方面展開進一步研究。

  [1] 蔣鍇,錢夔,鄭玄. 基于知識圖譜的軍事信息搜索技術架構[J]. 指揮信息系統(tǒng)與技術,2016,7(1):47-52

  [2] 李彭偉. 海量知識圖譜分布式管理與查詢[J]. 指揮信息系統(tǒng)與技術,2021,12(2):75-93

  [3] 劉嶠,李揚,段宏等. 知識圖譜構建技術綜述[J]. 計算機研究與發(fā)展,2016,53(3):582-600

  [4] 吳運兵,陰愛英,開標等. 基于多數(shù)據(jù)源的知識圖譜構建方法研究[J]. 福州大學學報(自然科學版),2017,45(3):329-335


轉(zhuǎn)載請注明來自:http://www.jinnzone.com/gaodengjiaoyulw/7395.html