精品人妻无码一区二区三区软件 ,麻豆亚洲AV成人无码久久精品,成人欧美一区二区三区视频,免费av毛片不卡无码

您現(xiàn)在的位置是:首頁智能科學(xué)技術(shù)論文

科技論文范文條件隨機(jī)場的動(dòng)詞細(xì)分類研究

發(fā)布時(shí)間: 1

  詞性標(biāo)注就是在給定句子中判定每個(gè)詞的語法范疇,確定其詞性并加以標(biāo)注的過程。漢語詞性標(biāo)注是中文信息處理的重要內(nèi)容,已經(jīng)廣泛應(yīng)用于機(jī)器翻譯、自動(dòng)摘要、文本分類、文本校對(duì)和語音識(shí)別等各方面[1],并具有廣闊的應(yīng)用前景。

  摘要:動(dòng)詞細(xì)分類屬于詞性標(biāo)注的一部分,是自然語言處理的重要內(nèi)容之一;跅l件隨機(jī)場在分詞和詞性標(biāo)注的基礎(chǔ)上對(duì)動(dòng)詞進(jìn)行了更細(xì)致的分類。根據(jù)動(dòng)詞的語言環(huán)境構(gòu)建條件隨機(jī)場模型,實(shí)驗(yàn)結(jié)果表明該方法取得了較高的準(zhǔn)確率,最高取得了98.11的F值。

  關(guān)鍵詞:動(dòng)詞細(xì)分,詞性標(biāo)注,條件隨機(jī)場

  0引言

  動(dòng)詞是一種常見的詞性,在漢語句子中占有很大比例。在分詞和詞性標(biāo)注后對(duì)動(dòng)詞進(jìn)行細(xì)分有著重要的意義。動(dòng)詞細(xì)分類是在分詞和詞性標(biāo)注的基礎(chǔ)上,根據(jù)動(dòng)詞在句子中的不同語法或語義特性進(jìn)行更細(xì)的標(biāo)注。動(dòng)詞細(xì)分類可以提高句法分析的精確度,能夠有效地分析句法上的歧義結(jié)構(gòu)。對(duì)其進(jìn)行深入的探討分析已然成為目前學(xué)術(shù)界的關(guān)注焦點(diǎn)之一,本文即致力于此,展開論述。

  1研究現(xiàn)狀

  動(dòng)詞細(xì)分類是詞性標(biāo)注的一部分,當(dāng)前許多學(xué)者已經(jīng)針對(duì)詞性標(biāo)注發(fā)布了相關(guān)的研究成果。尹木,肖錚[1]根據(jù)動(dòng)詞細(xì)分類自身的特點(diǎn),提出了一種改進(jìn)的隱馬爾可夫模型的方法進(jìn)行動(dòng)詞類別的自動(dòng)劃分。孫靜[2]等提出了一種基于條件隨機(jī)場CRFs模型的無監(jiān)督的中文詞性標(biāo)注方法。首先利用詞典對(duì)獲得的已分好詞的生文本進(jìn)行詞性標(biāo)注,得到初始標(biāo)注語料,然后利用CRFs對(duì)語料進(jìn)行迭代標(biāo)注,再逐步優(yōu)化標(biāo)注結(jié)果。袁里馳[3]針對(duì)隱馬爾可夫(HMM)詞性標(biāo)注模型狀態(tài)輸出獨(dú)立同分布等與語言實(shí)際特性不夠協(xié)調(diào)的假設(shè),對(duì)隱馬爾可夫模型進(jìn)行改進(jìn),引入馬爾可夫族模型。劉滔[4]則針對(duì)條件隨機(jī)場模型面對(duì)大規(guī)模數(shù)據(jù)傳統(tǒng)訓(xùn)練算法單機(jī)處理性能不高的問題,提出一種基于MapReduce框架的條件隨機(jī)場模型訓(xùn)練并行化方法,進(jìn)而設(shè)計(jì)了條件隨機(jī)場模型特征提取及參數(shù)估計(jì)的并行算法,實(shí)現(xiàn)了迭代縮放算法的并行。

  2動(dòng)詞細(xì)分類研究

  2.1動(dòng)詞細(xì)分類標(biāo)注

  本文研究的動(dòng)詞細(xì)分類是在863詞性標(biāo)注集的基礎(chǔ)上,對(duì)動(dòng)詞進(jìn)行了更細(xì)致的分類。動(dòng)詞在整句中處于核心地位,但是863詞性標(biāo)注集將所有動(dòng)詞都?xì)w為一類。本文則針對(duì)動(dòng)詞在句子中的語法結(jié)構(gòu)及語義特征,將動(dòng)詞細(xì)分為5類,細(xì)分后動(dòng)詞詞性如表1所示。

  2.2基于條件隨機(jī)場的動(dòng)詞細(xì)分類

  本文的訓(xùn)練語料包含三列,分別為詞、原始詞性、細(xì)分之后的詞性。其中,原始詞性采用863詞性標(biāo)注集的詞性。細(xì)分后的詞性則包括兩類:非動(dòng)詞、動(dòng)詞。所有的非動(dòng)詞都標(biāo)注為O,動(dòng)詞詞性需根據(jù)表1所示細(xì)分表,分別標(biāo)注為:vx、vz、vb、vq和vg。特征一詞的本意是指一個(gè)事物異于其他事物的特點(diǎn),在CRF模型中,可將特征定義為一種規(guī)則,用于描述數(shù)據(jù)中的規(guī)律性或數(shù)據(jù)的統(tǒng)計(jì)特征。利用CRF模型進(jìn)行序列標(biāo)注的關(guān)鍵之一在于如何針對(duì)特定的任務(wù)為模型選取特征。影響動(dòng)詞細(xì)分類標(biāo)注結(jié)果的主要因素有詞和詞性標(biāo)注,而除了這兩個(gè)因素外,本文還根據(jù)動(dòng)詞細(xì)分類的任務(wù)選取了其他的特征。文中針對(duì)動(dòng)詞細(xì)分類問題所選的特征,如表2所示。第1期石翠:基于條件隨機(jī)場的動(dòng)詞細(xì)分類研究智能計(jì)算機(jī)與應(yīng)用第4卷

  2.3.1實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)標(biāo)準(zhǔn)

  本實(shí)驗(yàn)所使用的語料是經(jīng)過分詞、詞性標(biāo)注的語料。該語料共包含4000個(gè)句子,詞性標(biāo)注采用863詞性標(biāo)注集,實(shí)驗(yàn)將前3000句作為訓(xùn)練集,后1000句中,500句作為測(cè)試集,500句作為開發(fā)集。

  從實(shí)驗(yàn)結(jié)果可以看出,運(yùn)用template2模板的動(dòng)詞細(xì)分類識(shí)別效果最好,該模板選擇的特征與復(fù)合特征都較少。從特征選擇上看,動(dòng)詞細(xì)分類主要與詞特征相關(guān),且由于動(dòng)詞在句子中的核心地位,所有的動(dòng)詞都能識(shí)別為動(dòng)詞,只存在動(dòng)詞細(xì)分的錯(cuò)誤,所以實(shí)驗(yàn)獲得了相同的準(zhǔn)確率、召回率和F值。

  3結(jié)束語

  動(dòng)詞及動(dòng)詞短語在漢語中占很大比例,對(duì)動(dòng)詞進(jìn)行細(xì)分類可以更好的理解句子的含義,有利于句法的分析和基于模板的翻譯。本文分析了動(dòng)詞分類的特點(diǎn),并將動(dòng)詞的細(xì)分類轉(zhuǎn)化為傳統(tǒng)的序列標(biāo)注問題,利用條件隨機(jī)場(CRF)進(jìn)行統(tǒng)計(jì)決策。

  參考文獻(xiàn)

  [1]尹木,肖錚.詞性標(biāo)注與動(dòng)詞細(xì)分類研究[J].電腦知識(shí)與技術(shù),2009,24(5):6774-6776.

  [2]孫靜,李軍輝,周國棟.基于條件隨機(jī)場的無監(jiān)督中文詞性標(biāo)注[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(4):21-24.

  [3]袁里馳.基于改進(jìn)的隱馬爾科夫模型的詞性標(biāo)注方法[J].中南大學(xué)學(xué)報(bào).2012,43(8):3051-3057.

  [4]劉滔,雷霖,陳犖,等.基于MapReduce的中文詞性標(biāo)注CRF模型并行化訓(xùn)練研究[J].北京大學(xué)學(xué)報(bào),2013(1):147-152.

  [5]趙紅改,呂學(xué)強(qiáng),肖詩斌.搜索引擎日志中“N+V”型短語分析[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(11):126-129.

  [6]LAFFERTYJ,MCCALLUMA,PEREIRAF.Conditionalrandomfields:probabilisticmodelsforsegmentingandlabelingsequencedata[C]//ProceedingsofICML,2001:282-289.

  [7]廖先桃.CRF理論、工具包的使用及在NE上的應(yīng)用[OL].[2006-06-04].http://wenku.baidu.com/view/dd36312fbd64783e


轉(zhuǎn)載請(qǐng)注明來自:http://www.jinnzone.com/zhinengkexuejishulw/34219.html