精品人妻无码一区二区三区软件 ,麻豆亚洲AV成人无码久久精品,成人欧美一区二区三区视频,免费av毛片不卡无码

您現(xiàn)在的位置是:首頁信息安全論文

基于中文多標(biāo)簽分類的特征選擇研究

發(fā)布時間:2014-02-19 11:50:54更新時間:2014-02-19 11:52:37 1

  如今,尋找一種有效的特征選擇方法,降低特征空間維數(shù),提高分類精度和效率,是文本分類需要面對的重要問題。目前常用特征選擇方法主要有文檔頻數(shù)DF、互信息MI、信息增益IG和CHI方法,期望交叉熵,文本證據(jù)權(quán),優(yōu)勢率,基于詞頻覆蓋度等。這些方法的基本思想都是對每一個特征在這里是中文詞,計算某種統(tǒng)計度量值,然后設(shè)定一個閾值T,把度量值小于T的那些特征過濾掉,剩下的即認為是有效特征。

  【摘要】在中文多標(biāo)簽文本分類中,面臨的一個主要問題就是如何降低文本巨大的特征維數(shù),并且保持分類精度甚至提高分類精度。文本提出的特征選擇方法相比于現(xiàn)有最常用的特征選擇算法,更注重刪除稀疏特征、保留更有區(qū)分度、有利于分類的特征。

  【關(guān)鍵詞】特征選擇,多標(biāo)簽分類,中文信息處理

  1引言

  在文本分類中,特征在文檔類中出現(xiàn)的頻率越不均勻,即特征分布得越離散,往往特征對類別判定越重要,利用這一性質(zhì)可以考查特征在分類中的重要程度。離散度通?梢杂脴(biāo)準(zhǔn)差或方差來計算,本文使用特征在文檔類中的概率標(biāo)準(zhǔn)差對特征重要性進行定量描述,此特征概率標(biāo)準(zhǔn)差將作為特征的基本權(quán)重參與文本分類。

  2特征選擇的工作基礎(chǔ)

  2.1信息過濾

  過濾無用信息指的是去除文本中的一些無意義的文字內(nèi)容及缺省符號,將有意義的文本內(nèi)容提取出來,以回車符作分隔符進行分隔。

  2.2漢語文本自動分詞

  文本的特征表示是文本分類面臨的首要問題。

  2.3漢文粗降維

  粗降維指的是訓(xùn)練文本經(jīng)分詞后首先經(jīng)過去掉停用詞的處理,即為去掉一些沒有實際分類意義的高頻詞、稀有詞。本文中采用了建立停用詞表,通過詞表法去掉高頻詞和稀有詞。

  2.4特征選擇

  考慮一個特征(詞條)對某類別的重要性時,該特征在該類中出現(xiàn)與不出現(xiàn)不應(yīng)同等對待,該詞條出現(xiàn)比不出現(xiàn)要重要。在正特征中,應(yīng)該選擇只在該類出現(xiàn)或者只在少數(shù)幾個類別中出現(xiàn)的特征。具有強類別信息的特征應(yīng)該不是高頻詞條。

  3特征選擇方法

  3.1強類別紋理挖掘算法

  強類別紋理指的是文本中的某些特征強烈代表了其屬于某一類別,其覆蓋了某各類中盡量多的文檔數(shù)目;強類別紋理具有最強的區(qū)分類的能力。強類別紋理選擇過程。

 。1)去掉泛濫紋理:對于每個類號,觀察C-W鏈表中的每個W,如果W出現(xiàn)在每個類號中,則去掉這個W。

 。2)標(biāo)記強紋理:對于C-W鏈中的每個W,如果出現(xiàn)在主類別的概率大于次類別概率Ω%,則標(biāo)記為強紋理。

  (3)特征迭代。

  1)結(jié)束條件:對于每個類,被標(biāo)記的強特征和所有D-W鏈的交集非空,則算法結(jié)束。

  2)去掉任意X篇奇異文檔:如果D-W鏈表與所在類的C-W交集為空,說明該文檔無分類代表性,去除該文檔。滿足結(jié)束條件,則算法結(jié)束。在數(shù)據(jù)庫中增加列:交際是否為空、是否被當(dāng)作奇異文檔或者增加了強特征。

  選擇奇異文檔或增加強特征的順序:概念的權(quán)重、doccount、classcount等。

  3)根據(jù)任意Y篇文檔增加強特征:從D-W和C-W交集為空的文檔中提取新特征并加入到C-W中,同時標(biāo)記為強類別紋理。滿足結(jié)束條件,則算法結(jié)束。

  迭代結(jié)束時,給出去掉的奇異文檔比例。最終得到的記為各個分類的強類別特征紋理。

  3.2改進的特征選擇和加權(quán)方法

  采取文本特征選擇的目的是除去那些不能表示信息或只可表示信息較弱的特征,以提高分類準(zhǔn)確度和減少計算復(fù)雜度。特征簇是特征集的一個子集,其對某一個類具有代表性。對某個類C具有代表性的特征簇稱為類C的特征簇。類C的特征簇用符號SofC(C)表示。令T為經(jīng)過特征選擇后剩余的特征集合,則各個特征簇和T的關(guān)系為:T=SofC(C1)∪SofC(C2)∪…∪SofC(CK)。特征選擇的最終目的是求出一個特征集,該特征集滿足以下兩個性質(zhì):特征簇之間的交集盡量少;特征簇包含的特征在其對應(yīng)的類內(nèi)部分布盡量均勻。

  在上述理論的指導(dǎo)下,本文在吸取傳統(tǒng)的特征選擇方法和特征加權(quán)方法的基礎(chǔ)上,對它們進行了改進,提出了新的方法。(1)特征選擇函數(shù)s(w)

  設(shè)f(w,cj)表示w和第j個類的相關(guān)性,則特征選擇函數(shù)定義如下:

  s(w)的值越大,說明特征w對某個類的代表性相對于其他類來說越明顯。如果把第j個類中的所有樣本看作一個文檔集,即假設(shè)第j個類由一組文檔dx(0傳統(tǒng)的特征加權(quán)函數(shù)的缺點是,他們中有些方法沒有用到調(diào)節(jié)因子,即使有些用到了調(diào)節(jié)因子,但他們用到的調(diào)節(jié)因子也僅僅考慮了整個樣本集對該特征的影響因素。課題組認為,調(diào)節(jié)因子應(yīng)該重點考慮類信息對該特征的影響因素。本項目采用的特征加權(quán)函數(shù)定義:

  式中,K表示樣本集中含有的類個數(shù);fincij表示第i個特征在第j個類中的出現(xiàn)次數(shù);

  為調(diào)解因子。當(dāng)?shù)趇個特征均勻分布于各個類中時,其值為-1,此時,aik為最小值0;當(dāng)?shù)趇個特征僅僅出現(xiàn)于一個類中時,其值為0,此時,aik為最大值log(fik+1.0)。

  3.3多標(biāo)簽分類特征選擇算法的框架描述

  Input:D:Multi-labeltrainset

  output:Y:featureselevtionresult

  C-W:texturefeaturesforeachcategory

  Process:

  Step1://文本預(yù)處理

  Fori=0ton

  TakethewordsegmentationandcomputerthewordfrequencesavedinarrayDWFi

  Endfor

  Step2://計算強類別紋理

  Forj=0ton

  Arrangethe(Dj:W1,W2,W3,…,Wn)

  To(Cy:W1,W2,W3,…)withcount;

  Fork=0tom

  CutdowntheWkwhichbelongstoallcategory

  Forh=0tom

  PicktheWhwhichthemaincategoryfrequency-secondarycategoryfrequency>?贅

  GetthestrongtexturefeaturesarrayC-W

  Endfor

  Step3://計算所有特征的權(quán)重函數(shù)s(w)

  Fori=0to|n|

  GettheS[i][j]whoholdsthefeatureandweight

  Endfor

  Step4://按照特征選擇偏差要求,選擇特征個數(shù)

  Fori=0to|S|

  If{

  AddSitoarrayResult}

  Endfor

  Step5://計算每個特征在每個類中的權(quán)值

  Fori=0to|Result|

  Endfor

  4實驗結(jié)果及分析

  4.1多標(biāo)簽分類測試選擇算法

  Ml-knn算法Multi-Labelk-NearestNeighbor}簡稱MLkNN是從熟悉的KNN算法派生而來。由于針對每個測試樣本,它的KNN都已經(jīng)在學(xué)習(xí)樣本中確定,所以根據(jù)這些已經(jīng)獲取的近鄰標(biāo)記集的統(tǒng)計信息,用最大后驗概率原則(MAP)去決定測試樣本的標(biāo)簽集合,最大后驗概率是基于KNN對每個標(biāo)簽的前驗和后驗概率。

  Navie-Bayes算法樸素貝葉斯分類器是當(dāng)前流行的一種文本分類算法,它的簡易性使其適合于處理屬性個數(shù)較多的分類問題,改進的多標(biāo)簽樸素貝葉斯分類方法綜合了樸素貝葉斯的簡易性以及貝葉斯網(wǎng)表示依賴關(guān)系的能力,使其能容納屬性間存在的某種依賴關(guān)系。

  RAkEl算法一種基于隨機游走模型的多標(biāo)簽分類算法,稱為多標(biāo)簽隨機游走算法。首先,將多標(biāo)簽數(shù)據(jù)映射成為多標(biāo)簽隨機游走圖。當(dāng)輸人一個未分類數(shù)據(jù)時,建立一個多標(biāo)簽隨機游走圖系列。而后,對圖系列中的每個圖應(yīng)用隨機游走模型,得到遍歷每個頂點的概率分布,并將這個點概率分布轉(zhuǎn)化成每個標(biāo)簽的概率分布。

  4.2多標(biāo)簽性能測量指標(biāo)

基于中文多標(biāo)簽分類的特征選擇研究

  本文選取的多標(biāo)簽性能指標(biāo)為HammingLoss、One-Error、RankingLoss、Coverage、AveragePrecision。

  Hammingloss評價了實例標(biāo)簽對錯誤分類的次數(shù);One-error評價了最高排行的標(biāo)簽不在例子實際分類中的次數(shù);Coverage評估了平均需要降低多少格才能找到合適的標(biāo)簽;Ranki-loss評估了平均標(biāo)簽對的局部排序錯誤,Average-percision評估了預(yù)測出的標(biāo)簽準(zhǔn)確精度。前四個方面評估值越小越好,但最后的Average-percision值是越大表現(xiàn)越好。

  4.3語料描述

  本文采用的是一個來自同濟大學(xué)衛(wèi)志華老師提供的中文新聞文本語料庫,其具體的信息包括訓(xùn)練樣本數(shù)測試樣本數(shù)、樣本特征數(shù)、標(biāo)簽數(shù)及平均標(biāo)簽長度。中文文本語料庫的樣本是取自教育、經(jīng)濟、軍事、科技、商務(wù)、社會、體育、娛樂、政治共九大類的中文文本新聞數(shù)據(jù)集,F(xiàn)實的新聞?wù)Z料的多標(biāo)簽情況受到許多因素的影響,如在人工劃分對內(nèi)容理解的主觀影響、概念區(qū)分不清晰、標(biāo)簽之間從屬關(guān)系等。由于在多標(biāo)簽數(shù)據(jù)中各類樣本分布很不均勻,所以要盡量選取較為平均分布的語料。4.4實驗結(jié)果

  經(jīng)過強類別紋理挖掘算法的測試,經(jīng)過1%遞增的迭代測試,使用三種不同的多標(biāo)簽分類方法下,采用了各測試性能加權(quán)平均的衡量標(biāo)準(zhǔn),選取了針對此語料庫紋理主次類別頻率差最佳閾值?贅為42%,得到的各個類別紋理。

  本文實驗環(huán)境華為E6000刀片服務(wù)器,15.9GB內(nèi)存,1T硬盤,操作系統(tǒng)為Winserver2003,Java版本SunJDK1.7.0。采用10倍交叉驗證(10—foldCross—validation)策略對數(shù)據(jù)集進行了仿真實驗。

  從評價指標(biāo)中可以看出,在MLKNN以及的各項指標(biāo)上SIFS均好于DF、IG以及MI特征選擇方法;在Scene算法性能中上的One-Error分類效果上略遜于DF和IG特征選擇中;在RAKEL分類算法上,SIFS在Hamming-loss分類效果稍差。從運行的時間指標(biāo)看,在非海量數(shù)據(jù)實例集上測試,SISF由于前期強特征命中率較高,能大幅度地提高單類別文本的分類的分類效率,其多標(biāo)簽文本也都顯著高于其余各種測試方法。由于數(shù)據(jù)分布的復(fù)雜性和分類算法達到效果的側(cè)重點不同,由于RAKEL算法的隨機游走性帶來的樣本偏差不確定因素,其他特征選擇方法只在RAKEL算法中的Hamming-loss分類效果上稍優(yōu)于SIFS,但其他方面SIFS方法綜合比較還是較為突出的。

  5結(jié)束語

  本文采用的一種相關(guān)信息加權(quán)的自適應(yīng)多標(biāo)簽特征選擇算法,在目前現(xiàn)有的比較成熟的多標(biāo)簽分類算法的應(yīng)用中,相對于現(xiàn)有的一些特征選擇方法在大部分性能指標(biāo)上有所提高。強特征紋理選擇的過程會幫助算法在針對不同領(lǐng)域的語料庫有更好的效果。實驗可見,SIFS算法提供了一種更為有效、分類可靠性更高的多標(biāo)簽分類算法,本文的后續(xù)工作是進一步改進其在分類精度上的進一步改善。

  參考文獻

  [1]陳震,吳斌,沈崇瑋等.一種改進的基于質(zhì)心的文本分類算法[J].計算機應(yīng)用與軟件,2013,30(1):43-47,54.

  [2]呂小勇.多標(biāo)簽文本分類算法研究[D].山西財經(jīng)大學(xué),2010.

  [3]TsoumakasG,KatakisI,VlahavasI.MiningMulti-labelData.DataMiningandKnowledgeDiscoveryHandbook[M]//MaimonO,RokachL.2nded.Springer,2010:667-685.

  [4]張寧.基于語義的中文文本預(yù)處理研究[D].西安電子科技大學(xué),2011.

  [5]衛(wèi)志華.中文文本多標(biāo)簽分類研究[D].上海:同濟大學(xué),2010.

相關(guān)期刊推薦:《信息技術(shù)》

  《信息技術(shù)》是由中國電子信息產(chǎn)業(yè)發(fā)展研究院、黑龍江省信用信息中心主辦;主管部門黑龍江省信息產(chǎn)業(yè)廳;由黑龍江移動通信公司、黑龍江省誠信建設(shè)促進會、黑龍江省軟件行業(yè)協(xié)會、黑龍江省農(nóng)業(yè)信息中心、黑龍江省農(nóng)墾通信有限公司等單位協(xié)辦。本刊大力宣傳國家信息基礎(chǔ)建設(shè)和信息產(chǎn)業(yè)發(fā)展形式,深入報導(dǎo)國內(nèi)外信息技術(shù)(產(chǎn)品)發(fā)展趨勢,交流信息化建設(shè)經(jīng)驗,推介信息產(chǎn)業(yè)界精英。

  《信息技術(shù)》欄目設(shè)置

  主要欄目:綜述與評論、研究與探討、軟件與編程、應(yīng)用技術(shù)、信息天地、E-mail風(fēng)景線、產(chǎn)品與服務(wù)、計算機應(yīng)用。

  《信息技術(shù)》收錄情況

  中國知網(wǎng)收錄、萬方數(shù)據(jù)—數(shù)字化期刊群、維普資訊科技期刊數(shù)據(jù)庫收錄期刊。


轉(zhuǎn)載請注明來自:http://www.jinnzone.com/xinxianqlw/31380.html