電工技術(shù)雜志發(fā)表論文格式范文

發(fā)布時間：2013-11-28 11:46:16更新時間：2013-11-28 11:49:38 1

　　摘要：本文分析了中文信息處理的主流技術(shù)，尤其是幾個重要的部分，即N元模型、語音識別和句法分析技術(shù)。

　　關(guān)鍵詞：信息處理,N元模型,語音識別,句法分析,電子技術(shù)雜志

　　一、中文信息處理的特點

　�。ㄒ唬h字的特殊性

　　我們都知道，英語在計算機信息處理方面的優(yōu)勢就是其字母數(shù)量有限，因而可以很容易的進行輸入輸出以及信息的加工和處理，而中文的漢字則數(shù)量龐大，且字形相對復雜，這就給漢字的編碼帶來了不小的困擾。因此我們根據(jù)漢字信息處理過程中的不同要求對漢字進行了不同形式的編碼，總結(jié)來說有以下幾種方案，即漢字輸入編碼,漢字標準編碼,漢字內(nèi)碼和漢字形碼。

　　（二）書面漢語的特殊性

　　漢語的另一個特征是在書面表達中，詞語和記號之間沒有明顯的分隔標記，這就使自動分詞在書面漢語分析中成立一個難題。分詞需要將連續(xù)的字按照一定的規(guī)范進行有序的組合，比較英文我們會發(fā)現(xiàn)，英文單詞之間都是用空格來做分隔符，而中文則是習慣通過字、整句以及段落進行簡單的劃分，而這其中的一個難點就是對詞語的劃分，我們都知道，英語中也有短語劃分的問題，但是由于中文的詞語遠比英語的數(shù)量和范圍要龐大，因而處理起來更為困難。

　�。ㄈh語語音的特殊性

　　在語音方面，漢語的特征是音節(jié)結(jié)構(gòu)相對簡單，音節(jié)劃分界限比較清晰，但是聲調(diào)和變調(diào)是中文與英文的顯著區(qū)別，因而在語音識別和語音合成方面來講這是一個劣勢，但是總體上來說漢語語音的處理比之其他方面來說還是相對容易的。

　�。ㄋ模h語語法的特殊性

　　在語法方面，漢語詞匯的句法功能相對來說難以判斷，這與英語語言上的多變形態(tài)有著截然不同的表現(xiàn)。漢語主要依靠詞序和虛詞來表達不同的含義，因此如果不能很好的掌握句法，就特別容易產(chǎn)生歧義，因此漢語語句自動分析這一重要技術(shù)是一項難以攻克的技術(shù)。

　　二、中文信息處理的若干技術(shù)

　�。ㄒ唬㎞元模型

　　設(shè)wi是文本中的任意一個詞,如果已知它在該文本中的前兩個詞wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來預測wi出現(xiàn)的概率。這就是統(tǒng)計語言模型的概念。一般來說,如果用變量W代表文本中一個任意的詞序列,它由順序排列的n個詞組成,即W=w1w2。。。wn,則統(tǒng)計語言模型就是該詞序列W在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開為:P(W)=P(w1)P(w2|w1)P(w3|w1w2)。。。P(wn|w1w2。。。wn-1)不難看出,為了預測詞wn的出現(xiàn)概率,必須知道它前面所有詞的出現(xiàn)概率。從計算上來看,這種方法太復雜了。如果任意一個詞wi的出現(xiàn)概率只同它前面的兩個詞有關(guān),問題就可以得到極大的簡化。這時的語言模型叫做三元模型(tri-gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)符號∏ii=3,…,nP(…)表示概率的連乘。一般來說,N元模型就是假設(shè)當前詞的出現(xiàn)概率只同它前面的N-1個詞有關(guān)。重要的是這些概率參數(shù)都是可以通過大規(guī)模語料庫來計算的。比如三元概率有P(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一個特定詞序列在整個語料庫中出現(xiàn)的累計次數(shù)。

　�。ǘ┱Z音識別

　　語音識別的最終目標是使人類與計算機之間實現(xiàn)真正意義上的自由交流，使機器聽懂人類的語言，并及時的做出準確的反饋。語音識別技術(shù)包括了信號處理、模式識別、概率論和信息論、發(fā)聲機原理和聽覺原理、人工智能等主要內(nèi)容。語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準則和模型訓練技術(shù)3個方面,另外還涉及到語音識別單元的選取，在這個問題上我們通常采用的是以音節(jié)為識別單元。另外，在特征參數(shù)的提取技術(shù)方面，由于語音符號中含有大量的信息，它們通常被稱為聲學特征。特征參數(shù)是決定語音識別質(zhì)量的關(guān)鍵技術(shù)，因此我們應該極可能的采集所要傳播語言的語義信息，剔除掉說話人的個人信息干擾，這樣才能保證特征參數(shù)的有效性和準確性。

　�。ㄈ┚浞ǚ治�

　　句法分析是以漢語的語法特征為分析方法，對句子、段落中的短語結(jié)構(gòu)樹進行各個句子成分關(guān)系的分析，分析的主要內(nèi)容包括：句子中所有的單句，每個單句在句法中的作用是什么，在單句以上更大的語法結(jié)構(gòu)是什么，句子中的短語或詞組類型是什么，在句子中起了什么作用，最后，所有這些成分是如何有機組合或附著在整個句子中的，這些就是句法結(jié)構(gòu)分析的主要內(nèi)容，這叫做線圖分析法。值得說明的是，英語語言結(jié)構(gòu)中主語必須置于謂語之前，否則所表達的意思就完全變化了，當然，在一些特定情況下，如倒裝句結(jié)構(gòu)中這種情況還是普遍存在的。這一點是與漢語有著顯著的區(qū)別的。

　　三、結(jié)語

　　中文信息處理技術(shù)有著重要的意義，它是語言學與信息技術(shù)的有機融合，旨在對中文的音、形、義等輸入計算機，進而進行必要的信息加工與處理，在這一過程中涉及到了計算機科學、信息學、聲學等大量學科的交叉知識。具體來說，語言信息處理是將自然語言的各個部分，包括詞語、句子、段落以至篇章進行文本、聲音和圖像各種方式的信息化加工，然后對這些信息進行輸入輸出、壓縮、存儲以及檢索等等各項處理。我們都知道，自然語言是我們?nèi)粘Ｗ钪匾慕涣鳒贤üぞ�，是人類進行思維活動、文化傳播的有效載體，因此語言信息處理這種技術(shù)有著重要的意義，本文專門分析了利用計算機處理中文信息，即漢語信息處理技術(shù)，希望本文能夠?qū)ν袀冇兴鶈⑹�，還望能夠多多交流學習，更好的完善這項技術(shù)。

　　參考文獻：

　　[1]曹邦偉,高傳善.計算機與信息處理[M].上海:復旦大學出版社,2001.

　　陳小荷.中文信息處理概述[J].南京師范大學文學院學報,2002,(1).

　　馮志偉.漢字和漢語的計算機處理[J].當代語言學,2001,(1).

轉(zhuǎn)載請注明來自：http://www.jinnzone.com/dianzijishulw/25103.html

上一篇：電工技術(shù)雜志論文范文參考

下一篇：信息技術(shù)論文范文信息中信息技術(shù)的應用

SCI國際期刊預警名單

相關(guān)期刊推薦