精品人妻无码一区二区三区软件 ,麻豆亚洲AV成人无码久久精品,成人欧美一区二区三区视频,免费av毛片不卡无码

您現(xiàn)在的位置是:首頁計算機應(yīng)用論文

工程師職稱論文發(fā)表計算機論文范文賞析

發(fā)布時間:2015-06-30 17:22:37更新時間:2015-06-30 17:28:26 1

  計算機現(xiàn)在的應(yīng)用是非常廣泛的,工作娛樂,數(shù)據(jù)統(tǒng)計等。在學(xué)習(xí)上,計算機也提供了不少幫助。本文是一篇計算機類工程師論文發(fā)表范文,主要論述了基于統(tǒng)計方法的英語長難句句法分析器研究與實現(xiàn)。
  摘要:針對高校學(xué)生在英語閱讀訓(xùn)練中存在長難句理解障礙等問題,借助自然語言處理技術(shù)與UI處理技術(shù),重點研究一種在線分析與描述英語長難句結(jié)構(gòu)的工具,以幫助高校學(xué)生消除理解障礙,促使其提高英語閱讀能力。

  關(guān)鍵詞:統(tǒng)計方法,句法分析器,自然語言處理技術(shù),UI處理技術(shù)

  作者簡介作者簡介:孫杰歡(1993-),男,江蘇常州人,三江學(xué)院計算機科學(xué)與工程學(xué)院學(xué)生,研究方向為數(shù)據(jù)庫及Web開發(fā);張鑫(1993-),男,江蘇鹽城人,三江學(xué)院計算機科學(xué)與工程學(xué)院學(xué)生,研究方向為數(shù)據(jù)庫及Web開發(fā);高利(1994-),男, 江蘇鹽城人,三江學(xué)院計算機科學(xué)與工程學(xué)院學(xué)生,研究方向為數(shù)據(jù)庫及Web開發(fā);姚佳夢(1993-),女,江蘇江陰人,三江學(xué)院計算機科學(xué)與工程學(xué)院學(xué)生,研究方向為數(shù)據(jù)庫及Web開發(fā);顧問(1984-),男,江蘇無錫人,三江學(xué)院計算機科學(xué)與工程學(xué)院實驗師,研究方向為數(shù)據(jù)庫及Web開發(fā)。

  0 引言

  提高大學(xué)生閱讀能力是高校英語教學(xué)中的重要任務(wù)之一。在高校英語閱讀訓(xùn)練中, 長句或難句出現(xiàn)的頻率很高,學(xué)生語法知識薄弱等問題直接導(dǎo)致其對長難句內(nèi)部結(jié)構(gòu)的理解模糊不清。針對此問題,筆者借助自然語言處理技術(shù)與UI處理技術(shù),研究了一種在線分析與描述英語長難句結(jié)構(gòu)的工具,以幫助學(xué)生消除理解障礙,在使用過程中逐步理解常見長難句的組成部分,從而促使其提高閱讀能力。

  1 英語長難句句法分析難點

  英語句子由主干和修飾成分兩部分組成。主干一般指句子的主要結(jié)構(gòu),由主謂賓或主系表組成,而修飾成分為單詞、短語、從句3類。其中單詞主要是形容詞和副詞;短語主要是介詞短語;從句主要是定語從句和狀語從句。在大學(xué)英語閱讀訓(xùn)練過程中,為了考查學(xué)生的閱讀能力,經(jīng)常會出現(xiàn)復(fù)雜的修飾、倒裝等方式相互結(jié)合使用的長難句,這類句子打斷了學(xué)生正常的閱讀習(xí)慣。較難理解的詞句有如下幾種:①倒裝句。這類句子不同于正常語序,需要重新理解句子成分,加大了對句子理解的難度;②虛擬語氣。通常表示假想,而不表示客觀存在的事實,其形式變化多種多樣;③比較級和最高級。比較級和最高級有特殊形式,對單詞的不熟悉容易增加句子理解難度;④雙重否定。這種句子在形式上或者語義上用雙重否定設(shè)置了圈套,干擾了讀者的閱讀思維,造成了句子理解困難;⑤習(xí)慣用語或固定詞組。這涉及到閱讀者的知識面,如果閱讀者對這些固定組合不熟悉,就很難理解。

  筆者研究發(fā)現(xiàn),對于上述①、③、⑤這3類句子,在借助計算機相關(guān)技術(shù)進行處理后,能夠得到較為清晰的分析結(jié)果,從而讓高校學(xué)生從句子結(jié)構(gòu)方面理解這些長難句。

  2 基于統(tǒng)計方法的句法分析器

  隨著人們對自然語言研究的逐步深入,以及語料庫和語料庫語言學(xué)的興起,傳統(tǒng)基于規(guī)則的語言模型受到了質(zhì)疑,自然語言處理的主要目標也轉(zhuǎn)為對大規(guī)模真實文本的處理,概率和統(tǒng)計驅(qū)動的方法幾乎成為了自然語言處理的標準方法[2]。

  2.1 統(tǒng)計模型與句法分析器

  自然語言處理的核心是構(gòu)造語言模型,而語言模型就是一種借用數(shù)學(xué)模型來描述自然語言內(nèi)在規(guī)律的模型。目前,很多學(xué)者都在研究基于統(tǒng)計的語言模型,它通常是概率模型,計算機通過使用統(tǒng)計模型對句子中的單詞進行概率分析,估算出自然語言中語言成分出現(xiàn)的可能性,不像傳統(tǒng)的規(guī)則型語言模型單純判斷該單詞是否符合語言學(xué)規(guī)則。這種概率性的語言統(tǒng)計模型在很大程度上比規(guī)則語言模型更加客觀和全面。

  目前,語言統(tǒng)計模型在自然語言處理中已相對成熟,比較典型的有:最大熵語言模型、概率上下文無關(guān)語法(PCFG)、隱馬爾可夫模型(HMM)、支持向量機(SVM)、條件隨機場(CRF)、基于決策樹的語言模型等[2]。

  基于各類統(tǒng)計模型也相應(yīng)產(chǎn)生了諸多句法分析器,相比較而言,Apache的OpenNLP Parser和Stanford的Stanford Parser較為杰出并且分析結(jié)果比較準確。

  2.2 OpenNLP Parser

  OpenNLP Parser利用MaxEnt選擇概率最大的標記作為一個句子中某個單詞的所屬分類。利用這種方法進行詞類標注雖然簡單,但有一個致命缺點:這種分類器是自左向右移動窗口標記的,分類器移動到下一個單次前就必須對它前一個單詞作出硬性判斷,這樣的分類器不能利用后面的單詞信息糾正前面的錯誤判斷。

  2.3 Stanford Parser

  Stanford Parser是Stanford NLP小組提供的一系列工具之一,能夠用來完成語法分析任務(wù)。它是基于概率上下文無關(guān)語法(PCFG)實現(xiàn)的一個句法分析器。

  一個概率上下文無關(guān)文法(PCFG)是一個五元組(N,∑,S,R,P):①一個非終結(jié)符集N;②一個終結(jié)符集∑;③一個開始非終結(jié)符S∈N;④一個產(chǎn)生式集R;⑤對于任意產(chǎn)生式r∈R,其概率為P(r)。

  PCFG的規(guī)則表示形式為:A→αp,其中A為非終結(jié)符,p為A推導(dǎo)出α的概率,即p=P(A→α)。該概率分布必須滿足如下條件:∑P(A→α)=1,也即相同左部的產(chǎn)生式概率分布滿足歸一化條件。分析樹的概率等于所有使用規(guī)則概率之積。

  Stanford Parser利用PCFG計算分析樹的概率值,若一個句子有多個分析樹,可以依據(jù)概率值對所有分析樹進行排序,同時也能進行句法排歧,再從多個結(jié)果中,選擇概率最大者作為最終分析結(jié)果。

  同樣地,利用PCFG算法模型也存在一定局限性:PCFG沒有考慮結(jié)構(gòu)之間的依存關(guān)系,也沒有考慮詞匯對句法結(jié)構(gòu)的影響。   3 O&S Parser工作原理及功能

  根據(jù)對基于統(tǒng)計方法的OpenNLP Parser和Stanford Parser這兩種句法分析器的比較可知,憑借它們自身統(tǒng)計模型的優(yōu)勢已經(jīng)可以基本達到對英語長難句進行句法分析的目的,準確率和執(zhí)行效率都很高。但是目前無論哪一種句法分析器都會給使用者帶來一些新問題。例如,不論是標注詞性的簡寫,還是語法樹的編排結(jié)果,對于英語不是極其了解的人而言都是一種負擔(dān),尤其是對國內(nèi)多數(shù)高校學(xué)生來說更是難以理解。因此, 應(yīng)采用一種更加實用、直觀的句法分析器(O&S Parser)幫助他們解決這些問題。O&S Parser主要集成了OpenNLP Parser和Stanford Parser,讓它們發(fā)揮各自的優(yōu)勢,具體方法如下:首先利用OpenNLP Parser及Stanford Parser兩個句法分析器同時對英語長難句進行分析,然后對兩者的分析結(jié)果進行比較,對差異化集合進行篩選,得到最終分析結(jié)果,使筆者的句法分析器準確性得到提高。針對句法分析樹難以理解的問題,筆者使用UI處理技術(shù),對它們解析出來的詞性或者句法樹進行重新編排,包括對一些縮寫的中文注解等,再將這些信息展示給用戶,使這些詞性或者句法樹能夠讓用戶一目了然。O&S Parser工作原理如圖1所示。

  3.1 O&S Parser比較分析

  本文示例中選取了一個典型的英語長難句讓O&S Parser同時調(diào)用OpenNLP Parser和Stanford Parser對英語長難句進行分析,然后對得到的兩棵句法樹進行文本比對,高亮顯示差異之處,具體效果如圖2所示。再根據(jù)詞性對照表選取最優(yōu)分析結(jié)果。

  3.2 O&S Parser拆分英語長難句

  O&S Parser在得到一個句子精確的句法樹之后,會將句子拆分成若干短句子,并將連接詞或符號進行著色,讓高校學(xué)生從簡單到復(fù)雜,逐步理解英語長難句。圖3中描述了使用O&S Parser對例句進行拆分的過程,最后得到了5個句子。

  4 結(jié)語

  本文針對學(xué)生在英語閱讀訓(xùn)練中出現(xiàn)的長難句理解障礙等問題,闡述了出現(xiàn)問題的主要原因,提出了一種基于統(tǒng)計方法的句法分析工具改造方法,并結(jié)合實際情況給出了相應(yīng)功能的設(shè)計思路。O&S Parser幫助學(xué)生降低了理解英語長難句的難度,具有一定的實用性。

  參考文獻

  [1] 王丹.試析如何提高英語專業(yè)學(xué)生的閱讀理解能力[J].牡丹江師范學(xué)院學(xué)報:哲學(xué)社會科學(xué)版,2008(1):9192.

  [2] 馮志偉.自然語言處理簡明教程[M].上海:上海外語教育出版社,2012.

  [3] 林易,孫學(xué)濤.英語長句分析與翻譯方法探析[J].中州大學(xué)學(xué)報,2009,26(4):7778.

  [4] OpenNLP [EB /OL]. http://opennlp. source2forge. net/.

  [5] 祝清松,王惠臨.中英文句法分析系統(tǒng)及驗證平臺的設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2010(2):3943.

  [6] 孟遙,李生,趙鐵軍,等.基于統(tǒng)計的句法分析技術(shù)綜述[J].計算機科學(xué),2003,30(9):5458.
  計算機論文發(fā)表期刊推薦《信息技術(shù)與信息化》從信息技術(shù)的研究、應(yīng)用角度展現(xiàn)IT行業(yè)與科技發(fā)展與進步,是全國高校、科研院所、企業(yè)發(fā)表信息科學(xué)研究、技術(shù)應(yīng)用成果的園地。雜志內(nèi)容以科技論文為主,并設(shè)有評論與綜述、信息化論壇、網(wǎng)絡(luò)通訊、信息處理與模式識別、研究與探索、方案與應(yīng)用等欄目。整個雜志分三個層次,第一個層次是評論與綜述,由政府職能部門和專家對技術(shù)、產(chǎn)業(yè)的發(fā)展趨勢,所做的前瞻性的論述和規(guī)劃。


轉(zhuǎn)載請注明來自:http://www.jinnzone.com/jisuanjiyingyonglw/53258.html