月期刊咨詢網(wǎng)10年專注論文代發(fā)服務(wù)，200000作者放心選擇，誠(chéng)信品牌、值得信賴！

您當(dāng)前的位置：月期刊咨詢網(wǎng)>>計(jì)算機(jī)信息管理論文

信息處理論文中文信息處理的主流技術(shù)

發(fā)布時(shí)間：2013-11-01 10:28所屬分類：計(jì)算機(jī)信息管理論文瀏覽：1次加入收藏查看PDF文件后下載PDF文件

信息處理論文發(fā)表期刊推薦《中國(guó)信息界》雜志由國(guó)家發(fā)展和改革委員會(huì)主管，國(guó)家信息化專家咨詢委員會(huì)指導(dǎo)，國(guó)家信息中心支持，中國(guó)信息協(xié)會(huì)主辦。摘要：本文分析了中文信息處理的主流技術(shù)，尤其是幾個(gè)重要的部分，即N元模型、語(yǔ)音識(shí)別和句法分析技術(shù)。關(guān)

　　信息處理論文發(fā)表期刊推薦《中國(guó)信息界》雜志由國(guó)家發(fā)展和改革委員會(huì)主管，國(guó)家信息化專家咨詢委員會(huì)指導(dǎo)，國(guó)家信息中心支持，中國(guó)信息協(xié)會(huì)主辦。
　　摘要：本文分析了中文信息處理的主流技術(shù)，尤其是幾個(gè)重要的部分，即N元模型、語(yǔ)音識(shí)別和句法分析技術(shù)。

　　關(guān)鍵詞：信息處理,N元模型,語(yǔ)音識(shí)別,句法分析

　　一、中文信息處理的特點(diǎn)

　�。ㄒ唬h字的特殊性

　　我們都知道，英語(yǔ)在計(jì)算機(jī)信息處理方面的優(yōu)勢(shì)就是其字母數(shù)量有限，因而可以很容易的進(jìn)行輸入輸出以及信息的加工和處理，而中文的漢字則數(shù)量龐大，且字形相對(duì)復(fù)雜，這就給漢字的編碼帶來(lái)了不小的困擾。因此我們根據(jù)漢字信息處理過程中的不同要求對(duì)漢字進(jìn)行了不同形式的編碼，總結(jié)來(lái)說(shuō)有以下幾種方案，即漢字輸入編碼,漢字標(biāo)準(zhǔn)編碼,漢字內(nèi)碼和漢字形碼。

　　（二）書面漢語(yǔ)的特殊性

　　漢語(yǔ)的另一個(gè)特征是在書面表達(dá)中，詞語(yǔ)和記號(hào)之間沒有明顯的分隔標(biāo)記，這就使自動(dòng)分詞在書面漢語(yǔ)分析中成立一個(gè)難題。分詞需要將連續(xù)的字按照一定的規(guī)范進(jìn)行有序的組合，比較英文我們會(huì)發(fā)現(xiàn)，英文單詞之間都是用空格來(lái)做分隔符，而中文則是習(xí)慣通過字、整句以及段落進(jìn)行簡(jiǎn)單的劃分，而這其中的一個(gè)難點(diǎn)就是對(duì)詞語(yǔ)的劃分，我們都知道，英語(yǔ)中也有短語(yǔ)劃分的問題，但是由于中文的詞語(yǔ)遠(yuǎn)比英語(yǔ)的數(shù)量和范圍要龐大，因而處理起來(lái)更為困難。

　�。ㄈh語(yǔ)語(yǔ)音的特殊性

　　在語(yǔ)音方面，漢語(yǔ)的特征是音節(jié)結(jié)構(gòu)相對(duì)簡(jiǎn)單，音節(jié)劃分界限比較清晰，但是聲調(diào)和變調(diào)是中文與英文的顯著區(qū)別，因而在語(yǔ)音識(shí)別和語(yǔ)音合成方面來(lái)講這是一個(gè)劣勢(shì)，但是總體上來(lái)說(shuō)漢語(yǔ)語(yǔ)音的處理比之其他方面來(lái)說(shuō)還是相對(duì)容易的。

　�。ㄋ模h語(yǔ)語(yǔ)法的特殊性

　　在語(yǔ)法方面，漢語(yǔ)詞匯的句法功能相對(duì)來(lái)說(shuō)難以判斷，這與英語(yǔ)語(yǔ)言上的多變形態(tài)有著截然不同的表現(xiàn)。漢語(yǔ)主要依靠詞序和虛詞來(lái)表達(dá)不同的含義，因此如果不能很好的掌握句法，就特別容易產(chǎn)生歧義，因此漢語(yǔ)語(yǔ)句自動(dòng)分析這一重要技術(shù)是一項(xiàng)難以攻克的技術(shù)。

　　二、中文信息處理的若干技術(shù)

　�。ㄒ唬㎞元模型

　　設(shè)wi是文本中的任意一個(gè)詞,如果已知它在該文本中的前兩個(gè)詞wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來(lái)預(yù)測(cè)wi出現(xiàn)的概率。這就是統(tǒng)計(jì)語(yǔ)言模型的概念。一般來(lái)說(shuō),如果用變量W代表文本中一個(gè)任意的詞序列,它由順序排列的n個(gè)詞組成,即W=w1w2。。。wn,則統(tǒng)計(jì)語(yǔ)言模型就是該詞序列W在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開為:P(W)=P(w1)P(w2|w1)P(w3|w1w2)。。。P(wn|w1w2。。。wn-1)不難看出,為了預(yù)測(cè)詞wn的出現(xiàn)概率,必須知道它前面所有詞的出現(xiàn)概率。從計(jì)算上來(lái)看,這種方法太復(fù)雜了。如果任意一個(gè)詞wi的出現(xiàn)概率只同它前面的兩個(gè)詞有關(guān),問題就可以得到極大的簡(jiǎn)化。這時(shí)的語(yǔ)言模型叫做三元模型(tri-gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)

　　符號(hào)∏ii=3,…,nP(…)表示概率的連乘。一般來(lái)說(shuō),N元模型就是假設(shè)當(dāng)前詞的出現(xiàn)概率只同它前面的N-1個(gè)詞有關(guān)。重要的是這些概率參數(shù)都是可以通過大規(guī)模語(yǔ)料庫(kù)來(lái)計(jì)算的。比如三元概率有P(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一個(gè)特定詞序列在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的累計(jì)次數(shù)。

　�。ǘ┱Z(yǔ)音識(shí)別

　　語(yǔ)音識(shí)別的最終目標(biāo)是使人類與計(jì)算機(jī)之間實(shí)現(xiàn)真正意義上的自由交流，使機(jī)器聽懂人類的語(yǔ)言，并及時(shí)的做出準(zhǔn)確的反饋。語(yǔ)音識(shí)別技術(shù)包括了信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)原理和聽覺原理、人工智能等主要內(nèi)容。語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則和模型訓(xùn)練技術(shù)3個(gè)方面,另外還涉及到語(yǔ)音識(shí)別單元的選取，在這個(gè)問題上我們通常采用的是以音節(jié)為識(shí)別單元。另外，在特征參數(shù)的提取技術(shù)方面，由于語(yǔ)音符號(hào)中含有大量的信息，它們通常被稱為聲學(xué)特征。特征參數(shù)是決定語(yǔ)音識(shí)別質(zhì)量的關(guān)鍵技術(shù)，因此我們應(yīng)該極可能的采集所要傳播語(yǔ)言的語(yǔ)義信息，剔除掉說(shuō)話人的個(gè)人信息干擾，這樣才能保證特征參數(shù)的有效性和準(zhǔn)確性。

　�。ㄈ┚浞ǚ治�

　　句法分析是以漢語(yǔ)的語(yǔ)法特征為分析方法，對(duì)句子、段落中的短語(yǔ)結(jié)構(gòu)樹進(jìn)行各個(gè)句子成分關(guān)系的分析，分析的主要內(nèi)容包括：句子中所有的單句，每個(gè)單句在句法中的作用是什么，在單句以上更大的語(yǔ)法結(jié)構(gòu)是什么，句子中的短語(yǔ)或詞組類型是什么，在句子中起了什么作用，最后，所有這些成分是如何有機(jī)組合或附著在整個(gè)句子中的，這些就是句法結(jié)構(gòu)分析的主要內(nèi)容，這叫做線圖分析法。值得說(shuō)明的是，英語(yǔ)語(yǔ)言結(jié)構(gòu)中主語(yǔ)必須置于謂語(yǔ)之前，否則所表達(dá)的意思就完全變化了，當(dāng)然，在一些特定情況下，如倒裝句結(jié)構(gòu)中這種情況還是普遍存在的。這一點(diǎn)是與漢語(yǔ)有著顯著的區(qū)別的。

　　三、結(jié)語(yǔ)

　　中文信息處理技術(shù)有著重要的意義，它是語(yǔ)言學(xué)與信息技術(shù)的有機(jī)融合，旨在對(duì)中文的音、形、義等輸入計(jì)算機(jī)，進(jìn)而進(jìn)行必要的信息加工與處理，在這一過程中涉及到了計(jì)算機(jī)科學(xué)、信息學(xué)、聲學(xué)等大量學(xué)科的交叉知識(shí)。具體來(lái)說(shuō)，語(yǔ)言信息處理是將自然語(yǔ)言的各個(gè)部分，包括詞語(yǔ)、句子、段落以至篇章進(jìn)行文本、聲音和圖像各種方式的信息化加工，然后對(duì)這些信息進(jìn)行輸入輸出、壓縮、存儲(chǔ)以及檢索等等各項(xiàng)處理。我們都知道，自然語(yǔ)言是我們?nèi)粘Ｗ钪匾慕涣鳒贤üぞ�，是人類進(jìn)行思維活動(dòng)、文化傳播的有效載體，因此語(yǔ)言信息處理這種技術(shù)有著重要的意義，本文專門分析了利用計(jì)算機(jī)處理中文信息，即漢語(yǔ)信息處理技術(shù)，希望本文能夠?qū)ν袀冇兴鶈⑹荆€望能夠多多交流學(xué)習(xí)，更好的完善這項(xiàng)技術(shù)。

　　參考文獻(xiàn)：

　　[1]曹邦偉,高傳善.計(jì)算機(jī)與信息處理[M].上海:復(fù)旦大學(xué)出版社,2001.

　　[2]陳小荷.中文信息處理概述[J].南京師范大學(xué)文學(xué)院學(xué)報(bào),2002,(1).

　　[3]馮志偉.漢字和漢語(yǔ)的計(jì)算機(jī)處理[J].當(dāng)代語(yǔ)言學(xué),2001,(1).

上一篇：信息安全論文計(jì)算機(jī)網(wǎng)絡(luò)信息安全管理工作
下一篇：計(jì)算機(jī)工程與科學(xué)雜志投稿論文范文參考

精品人妻无码一区二区三区软件 ,麻豆亚洲AV成人无码久久精品,成人欧美一区二区三区视频,免费av毛片不卡无码

政治·法律·行政

計(jì)算機(jī)·電子·通訊

教育·教學(xué)·影視

文學(xué)·文藝·廣告

房地產(chǎn)·金融

工業(yè)·機(jī)械·建筑

醫(yī)學(xué)·臨床·營(yíng)養(yǎng)學(xué)

農(nóng)業(yè)·畜牧·環(huán)境

教師職稱論文匯總

合作期刊推薦

信息處理論文中文信息處理的主流技術(shù)

職稱評(píng)審

相關(guān)文章推薦

技巧指導(dǎo)