精品人妻无码一区二区三区软件 ,麻豆亚洲AV成人无码久久精品,成人欧美一区二区三区视频,免费av毛片不卡无码

您現(xiàn)在的位置是:首頁(yè)建筑設(shè)計(jì)論文

網(wǎng)絡(luò)輿情分析系統(tǒng)的研究與設(shè)計(jì)

發(fā)布時(shí)間:2011-09-05 08:58:41更新時(shí)間:2011-09-05 08:59:30 1

網(wǎng)絡(luò)輿情分析系統(tǒng)的研究與設(shè)計(jì)
施敏

摘要:網(wǎng)絡(luò)輿情是指在一定的社會(huì)空間內(nèi),通過(guò)網(wǎng)絡(luò)圍繞**性社會(huì)事件的發(fā)生、發(fā)展和變化,民眾對(duì)公共問(wèn)題和社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度、信念和價(jià)值觀。隨著科技的發(fā)展,政府迫切需要更好地監(jiān)控與引導(dǎo)網(wǎng)絡(luò),本文通過(guò)研究現(xiàn)今網(wǎng)絡(luò)輿情分析系統(tǒng)的技術(shù)特征,并根據(jù)需要,介紹了網(wǎng)絡(luò)輿情分析系統(tǒng)的一種可行模型,能夠提高網(wǎng)絡(luò)輿情分析的準(zhǔn)確性和靈活性,有效促進(jìn)我國(guó)網(wǎng)絡(luò)輿情分析工作的迅速發(fā)展。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;網(wǎng)頁(yè)文本結(jié)構(gòu)化;文本分類(lèi);文本聚類(lèi)
互聯(lián)網(wǎng)的高速發(fā)展使網(wǎng)絡(luò)信息越來(lái)越難以處理,所以,傳統(tǒng)的以人工分類(lèi)為基礎(chǔ)的處理方式已完全不能夠適應(yīng)如此規(guī)模的網(wǎng)絡(luò)信息量得處理工作。作為一個(gè)新的研究課題,對(duì)網(wǎng)絡(luò)輿情的監(jiān)控和分析,必須建立在高科技的現(xiàn)代信息技術(shù)當(dāng)中,從而能夠及時(shí)面對(duì)網(wǎng)絡(luò)輿情并第一時(shí)間對(duì)其進(jìn)行主動(dòng)控制和疏導(dǎo)。
一、網(wǎng)絡(luò)輿情分析系統(tǒng)的總體模型概括
網(wǎng)絡(luò)輿情分析系統(tǒng)根據(jù)用戶的不同需求,對(duì)特定種類(lèi)的以網(wǎng)絡(luò)為載體的新聞和消息在收集后通過(guò)網(wǎng)頁(yè)凈化、詞頻統(tǒng)計(jì)等手段對(duì)信息進(jìn)行有效的預(yù)處理活動(dòng),并將預(yù)處理的所得結(jié)果入庫(kù),并通過(guò)數(shù)據(jù)挖掘算法對(duì)信息進(jìn)行分析,最后會(huì)得到一定時(shí)期內(nèi)網(wǎng)絡(luò)所出現(xiàn)出現(xiàn)的熱點(diǎn)信息,并對(duì)其進(jìn)行追蹤,得到事件的詳細(xì)信息。
1.1 輸入輸出層面
輸入層指互聯(lián)網(wǎng)搜索、數(shù)據(jù)源等。隨著網(wǎng)絡(luò)在獲取信息方面的便捷性和靈活性的提高,許多信息平臺(tái),如博客、新聞和政府網(wǎng)站都成為網(wǎng)絡(luò)輿情的監(jiān)控源。輸出層一般來(lái)說(shuō)指的是前端展示輸出,對(duì)于網(wǎng)絡(luò)輿情分析系統(tǒng)來(lái)說(shuō),其輸出程序主要根據(jù)用戶需要提供信息,其信息的種類(lèi)呈現(xiàn)出多樣化的特點(diǎn)。
1.2 業(yè)務(wù)處理層面
1.2.1網(wǎng)絡(luò)輿情系統(tǒng)信息采集以及預(yù)處理方式
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)需要在了解用戶需求的前提下,設(shè)定所需主題或目標(biāo),并利用人工和自動(dòng)相結(jié)合的信息采集手段完成信息收集的任務(wù)。網(wǎng)絡(luò)輿情信息預(yù)處理是網(wǎng)絡(luò)輿情信息分析系統(tǒng)的準(zhǔn)備階段,能夠?qū)W(wǎng)頁(yè)當(dāng)中的信息進(jìn)行數(shù)據(jù)清洗和分類(lèi)處理后,形成格式化的數(shù)據(jù)然后上傳到數(shù)據(jù)庫(kù),并進(jìn)行信息過(guò)濾,濾除無(wú)關(guān)信息,保存重要信息。
1.2.2 網(wǎng)絡(luò)輿情數(shù)據(jù)存儲(chǔ)
輿情數(shù)據(jù)存儲(chǔ)主要包含數(shù)據(jù)入庫(kù)、網(wǎng)頁(yè)快照與附件存儲(chǔ)等,輿情數(shù)據(jù)需要在收集后保存在相應(yīng)的數(shù)據(jù)庫(kù)中,并需要根據(jù)不同種類(lèi)的信息類(lèi)型,對(duì)數(shù)據(jù)庫(kù)進(jìn)行相應(yīng)的分類(lèi)。
1.2.3網(wǎng)絡(luò)輿情語(yǔ)義分析
網(wǎng)絡(luò)輿情語(yǔ)義分析作為整個(gè)系統(tǒng)最重要的模塊,能夠挖掘出在信息預(yù)處理模塊中所獲得的信息,所運(yùn)用的技術(shù)主要有追蹤熱點(diǎn)、關(guān)聯(lián)分析與趨勢(shì)分析等,能夠有效實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)控和熱點(diǎn)追蹤的功能。保證了整個(gè)系統(tǒng)基于用戶需求,即使進(jìn)行策略調(diào)整,使整個(gè)系統(tǒng)達(dá)到運(yùn)行的最佳狀態(tài)。
二、網(wǎng)絡(luò)輿情信息的預(yù)處理技術(shù)手段
模板配置法、網(wǎng)頁(yè)的文本結(jié)構(gòu)化信息處理法等方法是主要的網(wǎng)絡(luò)輿情信息數(shù)據(jù)的預(yù)處理方法,但模板配置法需設(shè)定每個(gè)信息源的網(wǎng)站模板,使工作量和維護(hù)量過(guò)大,而網(wǎng)頁(yè)的文本結(jié)構(gòu)化信息處理法利用頁(yè)面結(jié)構(gòu)分析與智能節(jié)點(diǎn)分析轉(zhuǎn)換的方法,在自動(dòng)抽取數(shù)據(jù)后,有效識(shí)別與清除網(wǎng)頁(yè)內(nèi)的無(wú)效內(nèi)容,所以一般來(lái)說(shuō),網(wǎng)絡(luò)輿情系統(tǒng)采用文本結(jié)構(gòu)化處理方法。
Web 網(wǎng)頁(yè)一般包括關(guān)注內(nèi)容和摻雜內(nèi)容兩部分。關(guān)注內(nèi)容是網(wǎng)頁(yè)的主要內(nèi)容,在一個(gè)網(wǎng)頁(yè)當(dāng)中,其新聞內(nèi)容、帖子內(nèi)容等都屬于網(wǎng)頁(yè)的關(guān)注內(nèi)容,而摻雜內(nèi)容指的是諸如搜索條、廣告燈與主體內(nèi)容無(wú)關(guān)的信息要素。首先利用 HTML 網(wǎng)頁(yè)標(biāo)簽樹(shù)實(shí)現(xiàn)網(wǎng)頁(yè)凈化,有效地降低網(wǎng)頁(yè)結(jié)構(gòu)的復(fù)雜性,縮減網(wǎng)頁(yè)空間,從而節(jié)省后續(xù)分析過(guò)程的時(shí)間和空間花費(fèi)。
三、網(wǎng)絡(luò)輿情分析系統(tǒng)的語(yǔ)義分析技術(shù)
網(wǎng)絡(luò)輿情分析系統(tǒng)語(yǔ)義分析技術(shù),主要對(duì)各項(xiàng)新聞熱點(diǎn)敏感話題等進(jìn)行分析,是整個(gè)網(wǎng)絡(luò)輿情系統(tǒng)的最關(guān)鍵技術(shù),是影響網(wǎng)絡(luò)輿情信息分析結(jié)果是否準(zhǔn)確的重要手段。對(duì)已完成預(yù)處理之后的網(wǎng)絡(luò)輿情信息進(jìn)行分析和處理,產(chǎn)生相應(yīng)的分析結(jié)果庫(kù)。而算法庫(kù)以及算法調(diào)度和線程處理是語(yǔ)義分析模塊的主要工作
3.1算法庫(kù)管理
算法庫(kù)能夠有效地為每一處理線程生成一種恰當(dāng)?shù)乃惴ü┧惴ㄕ{(diào)度程序進(jìn)行使用,在接收管理員的設(shè)置和查詢(xún)要求之后,將所設(shè)置的特定信息和各種特殊信息要求存儲(chǔ)到算法配置信息庫(kù)中并進(jìn)行恰當(dāng)?shù)墓芾怼?br /> 3.2算法調(diào)度
算法調(diào)度主要負(fù)責(zé)進(jìn)程的分配以及多線程的管理工作,是整個(gè)輿情分析的動(dòng)力構(gòu)成。通過(guò)各種手段,控制線程的運(yùn)行。而且系統(tǒng)為每個(gè)用戶的個(gè)人進(jìn)程進(jìn)行控制,并可以為一個(gè)用戶同時(shí)處理多個(gè)不同的進(jìn)程。
3.3線程處理
每一個(gè)的線程處理,就是一次進(jìn)行文本分類(lèi)或文本聚類(lèi)的過(guò)程,其中包括了權(quán)值向量的生成、特征選擇或特征抽取、文本分類(lèi)或文本聚類(lèi)。首先需要通過(guò)算法庫(kù),確定其中各個(gè)部分恰當(dāng)?shù)乃惴,每個(gè)部分根據(jù)其特征,采用一種特定的算法。并幫助用戶根據(jù)自身的特定需要,進(jìn)行處理結(jié)果的查詢(xún),并利用恰當(dāng)?shù)氖侄魏捅憩F(xiàn)方式,將這些分析后的所得結(jié)果展現(xiàn)給需要查詢(xún)的用戶。
四、結(jié)語(yǔ)
本系統(tǒng)的最大優(yōu)點(diǎn),便是能夠靈活搭配算法和自由處理的架構(gòu),真正實(shí)現(xiàn)分析和追蹤熱點(diǎn)的效應(yīng),真正實(shí)現(xiàn)了熱點(diǎn)追蹤與分析。隨著網(wǎng)絡(luò)系統(tǒng)的發(fā)展,若本系統(tǒng)能夠大量投入運(yùn)用,將成為各個(gè)級(jí)別部門(mén)的重要網(wǎng)絡(luò)輿情監(jiān)控工具,并創(chuàng)造大量的經(jīng)濟(jì)效益和社會(huì)效益。
參考文獻(xiàn)
[1] Jianping Zeng,Shiyong Zhang,Chengrong Wu,Jianfeng Xie.Pre-dictive Model for Internet Public Opinion.IEEE. Vol.3,pp.7 -11,2007.
[2] 王娟.網(wǎng)絡(luò)輿情監(jiān)控分析系統(tǒng)構(gòu)建[J],長(zhǎng)春理工大學(xué)學(xué)報(bào),2007(4).
[3] 孟春艷.用于文本分類(lèi)和文本聚類(lèi)的特征抽取方法的研究[J],微計(jì)算機(jī)信息.2009(3).
[4] 胡學(xué)鋼,董學(xué)春,謝飛.基于詞向量空間模型的中文文本分類(lèi)方法[J]. 合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2007(10).
[5] 許鑫,章成志,李雯靜.國(guó)內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 情報(bào)理論與實(shí)踐. 2009(3).
 


轉(zhuǎn)載請(qǐng)注明來(lái)自:http://www.jinnzone.com/jianzhushejilw/14724.html