本文將不同屬性與實(shí)體的關(guān)系模式概括為四種類型,通過模式類型決定相似度計(jì)算策略,再根據(jù)屬性的格式?jīng)Q定基本的相似度計(jì)算函數(shù)。系統(tǒng)將多個屬性的相似度組織成向量的形式表示,通過監(jiān)督學(xué)習(xí)的方法形成判決器,最后在實(shí)體關(guān)系圖上完成迭代劃分。
摘要:很多領(lǐng)域都面臨實(shí)體識別問題,但現(xiàn)有解決框架缺乏通用性。提出了一種基于屬性模式的領(lǐng)域無關(guān)的實(shí)體識別框架。屬性的模式代表屬性與實(shí)體的一種關(guān)系,將模式分為四種類型分別處理,針對類型特點(diǎn)提出了更為通用的相似度計(jì)算方法。系統(tǒng)根據(jù)模式類型決定相似度計(jì)算策略,使系統(tǒng)具有更強(qiáng)的擴(kuò)展性。該框架可以有效綜合利用各類屬性的特點(diǎn)進(jìn)行實(shí)體識別,結(jié)果優(yōu)于一般的基于屬性特征或基于實(shí)體關(guān)系的方法。
關(guān)鍵詞:實(shí)體識別,屬性模式,擴(kuò)展性,框架
0引言
實(shí)體識別就是判別來自一個數(shù)據(jù)源或多個數(shù)據(jù)源的描述是否指向同一個實(shí)體。此問題由來已久,現(xiàn)已提出很多方法。解決實(shí)體識別問題所利用的信息可分為兩類,屬性特征信息和關(guān)系信息;趯傩蕴卣鞯姆椒ㄗ詈唵巍⑹褂玫靡沧疃,但卻因?qū)傩孕畔⒂邢,在某些情況下并不足以提供高置信度的判斷結(jié)論。越來越多的方法開始利用屬性的關(guān)系或規(guī)則進(jìn)行實(shí)體識別,但利用這種關(guān)系的方式卻各不相同,導(dǎo)致缺乏通用性。對每個實(shí)體識別問題都需要重新設(shè)計(jì)解決方案也必將是低效的,因而需要開展研究,予以改進(jìn)。
1相關(guān)研究
文獻(xiàn)[1,2]研究了相似函數(shù)選擇和閾值確定問題。通過發(fā)現(xiàn)相似函數(shù)和閾值的冗余,去除不合適的相似函數(shù)和閾值設(shè)置。為了有效整合多種方法的優(yōu)點(diǎn),文獻(xiàn)[3]提出了一種按有監(jiān)督學(xué)習(xí)的結(jié)果聚類分配權(quán)重的方法,為權(quán)重分配提供了新的思路,但選擇作為聚類的特征是經(jīng)驗(yàn)性的,是否可以推廣尚未確定。文獻(xiàn)[4]設(shè)計(jì)了一個領(lǐng)域無關(guān)的實(shí)體識別系統(tǒng),可以通過學(xué)習(xí)的方式對數(shù)據(jù)的格式進(jìn)行轉(zhuǎn)化,以滿足識別系統(tǒng)進(jìn)行比較的需要。文獻(xiàn)[5]研究了利用合作者集合的相關(guān)性的方法,實(shí)驗(yàn)證明其優(yōu)于一般的非整體分析的方法。
2基于屬性模式的實(shí)體識別框架介紹
系統(tǒng)結(jié)構(gòu)如圖1所示,主要分為以下幾個部分:
。1)相似度度量策略形成模塊。該模塊通過屬性的模式和數(shù)據(jù)格式自動地選擇相似度函數(shù),形成相似度度量策略。
。2)相似度計(jì)算模塊。該模塊按照選擇的相似度函數(shù)計(jì)算實(shí)體對的相似度。
。3)判決器模塊。該模塊在訓(xùn)練階段統(tǒng)計(jì)實(shí)體對的相似度分布情況,在實(shí)體劃分階段輔助判斷。
。4)實(shí)體關(guān)系圖。實(shí)體劃分階段在實(shí)體關(guān)系圖上迭代進(jìn)行,每次完成實(shí)體合并以后,重新計(jì)算經(jīng)過調(diào)整的實(shí)體對的相似度,直到所有相似邊都處理完畢,實(shí)體劃分結(jié)束。
3系統(tǒng)各部分的實(shí)現(xiàn)
3.1相似度計(jì)算策略的形成
為了實(shí)現(xiàn)系統(tǒng)的通用性,相似度計(jì)算策略必須領(lǐng)域無關(guān)地進(jìn)行。為此分析了實(shí)體與屬性間的關(guān)系,按其特點(diǎn)進(jìn)行了分類。利用各屬性的模式可以確定相似度計(jì)算的方法。
3.3實(shí)體劃分算法
實(shí)體劃分在實(shí)體關(guān)系圖上進(jìn)行。實(shí)體關(guān)系圖的頂點(diǎn)表示記錄,邊表示實(shí)體對間的相似度,通過邊的操作進(jìn)行實(shí)體劃分。
關(guān)系圖的頂點(diǎn)分為兩類,一類是原始頂點(diǎn),其中只包含一條記錄;另一類是劃分過程中新形成的點(diǎn),稱為超點(diǎn),超點(diǎn)帶有表示實(shí)體的標(biāo)簽,且包含此實(shí)體的記錄的集合。邊e代表的是實(shí)體對間存在相似,邊的權(quán)值為相似向量。原始關(guān)系圖中僅含原始頂點(diǎn),當(dāng)所有實(shí)體對的相似向量計(jì)算完畢,并建立起原始關(guān)系圖后,就可開始進(jìn)行實(shí)體劃分了。
實(shí)體劃分算法主要過程為:從未標(biāo)記邊中選擇相似度最大的邊,查詢判決器,若大于判斷閾值,則判為同一實(shí)體,合并相關(guān)頂點(diǎn),即CLUSTER操作,有關(guān)邊的相似度則需要進(jìn)行重新計(jì)算;否則即對邊做暫時標(biāo)記。繼續(xù)在剩下未標(biāo)記邊中尋找相似度值最大的邊,重復(fù)此過程。當(dāng)沒有未標(biāo)記邊剩余時,再對標(biāo)記邊進(jìn)行拆分操作SPLIT,直到無邊剩余。
CLUSTER操作主要是對頂點(diǎn)進(jìn)行合并或創(chuàng)建。當(dāng)邊的對象(e.O)與端點(diǎn)標(biāo)簽相同時進(jìn)行合并,否則就需要新建頂點(diǎn)。具體操作如表2所示。其中,邊所連接的記錄為x和y,記錄所在的頂點(diǎn)分別為u,v。頂點(diǎn)調(diào)整過程中,特別當(dāng)頂點(diǎn)包含的記錄增多后,頂點(diǎn)的屬性集合增大,此屬性的相關(guān)度也可能增大,此時需要重新計(jì)算有關(guān)邊的相似度。
5結(jié)束語
本文提出了一種基于模式的實(shí)體識別方法,針對模式特點(diǎn)的相似度計(jì)算方法更具有通用性。以向量表示屬性的相似度,通過監(jiān)督學(xué)習(xí)形成判決器。實(shí)體劃分階段每次選擇最相似的實(shí)體對,通過查詢判斷單元進(jìn)行判斷,更新相關(guān)實(shí)體對的相似向量,并迭代進(jìn)行實(shí)體劃分。實(shí)驗(yàn)結(jié)果表明能自動有效地進(jìn)行實(shí)體劃分,F(xiàn)存的問題包括平均劃分相似空間的方法不夠精細(xì),用戶要求的準(zhǔn)確率較高時,召回率較低。下一步的研究重點(diǎn)包括判斷器的劃分方式以及當(dāng)用戶輸入較高判斷閾值情況下如何提高系統(tǒng)的召回率。
參考文獻(xiàn):
[1]MENESTRINAD,WHANGSE,GARCIA-MOLINAH.Evaluationofentityresolutionapproachesonreal-worldmatchproblems[C]//VLDB,2010:208-219.
[2]WANGJiannan,LIGuoliang,YUXu,etal.Entitymatching:howsimilarissimilar[C]//VLDB,2011:622-633.
[3]CHENZ,KALASHNIKOVDV,MEHROTRAS.Exploitingcontextanalysisforcombiningmultipleentityresolutionsystems[C]//SIGMOD,2009:207-218.
[4]TEJADAS,KNOBLOCKCA,MINTONS.Learningdomain-independentstringtransformationweightsforhighaccuracyobjectidentification[C]//Proc.EighthACMSIGKDDInt’lConf.KnowledgeDiscoveryandDataMining(KDD’02),2002.
轉(zhuǎn)載請注明來自:http://www.jinnzone.com/zhinengkexuejishulw/34212.html
上一篇:福建紙業(yè)信息雜志