網(wǎng)絡輿情分析系統(tǒng)的研究與設計
施敏
摘要:網(wǎng)絡輿情是指在一定的社會空間內(nèi),通過網(wǎng)絡圍繞**性社會事件的發(fā)生、發(fā)展和變化,民眾對公共問題和社會管理者產(chǎn)生和持有的社會政治態(tài)度、信念和價值觀。隨著科技的發(fā)展,政府迫切需要更好地監(jiān)控與引導網(wǎng)絡,本文通過研究現(xiàn)今網(wǎng)絡輿情分析系統(tǒng)的技術特征,并根據(jù)需要,介紹了網(wǎng)絡輿情分析系統(tǒng)的一種可行模型,能夠提高網(wǎng)絡輿情分析的準確性和靈活性,有效促進我國網(wǎng)絡輿情分析工作的迅速發(fā)展。
關鍵詞:網(wǎng)絡輿情;網(wǎng)頁文本結構化;文本分類;文本聚類
互聯(lián)網(wǎng)的高速發(fā)展使網(wǎng)絡信息越來越難以處理,所以,傳統(tǒng)的以人工分類為基礎的處理方式已完全不能夠適應如此規(guī)模的網(wǎng)絡信息量得處理工作。作為一個新的研究課題,對網(wǎng)絡輿情的監(jiān)控和分析,必須建立在高科技的現(xiàn)代信息技術當中,從而能夠及時面對網(wǎng)絡輿情并第一時間對其進行主動控制和疏導。
一、網(wǎng)絡輿情分析系統(tǒng)的總體模型概括
網(wǎng)絡輿情分析系統(tǒng)根據(jù)用戶的不同需求,對特定種類的以網(wǎng)絡為載體的新聞和消息在收集后通過網(wǎng)頁凈化、詞頻統(tǒng)計等手段對信息進行有效的預處理活動,并將預處理的所得結果入庫,并通過數(shù)據(jù)挖掘算法對信息進行分析,最后會得到一定時期內(nèi)網(wǎng)絡所出現(xiàn)出現(xiàn)的熱點信息,并對其進行追蹤,得到事件的詳細信息。
1.1 輸入輸出層面
輸入層指互聯(lián)網(wǎng)搜索、數(shù)據(jù)源等。隨著網(wǎng)絡在獲取信息方面的便捷性和靈活性的提高,許多信息平臺,如博客、新聞和政府網(wǎng)站都成為網(wǎng)絡輿情的監(jiān)控源。輸出層一般來說指的是前端展示輸出,對于網(wǎng)絡輿情分析系統(tǒng)來說,其輸出程序主要根據(jù)用戶需要提供信息,其信息的種類呈現(xiàn)出多樣化的特點。
1.2 業(yè)務處理層面
1.2.1網(wǎng)絡輿情系統(tǒng)信息采集以及預處理方式
網(wǎng)絡輿情監(jiān)控系統(tǒng)需要在了解用戶需求的前提下,設定所需主題或目標,并利用人工和自動相結合的信息采集手段完成信息收集的任務。網(wǎng)絡輿情信息預處理是網(wǎng)絡輿情信息分析系統(tǒng)的準備階段,能夠?qū)W(wǎng)頁當中的信息進行數(shù)據(jù)清洗和分類處理后,形成格式化的數(shù)據(jù)然后上傳到數(shù)據(jù)庫,并進行信息過濾,濾除無關信息,保存重要信息。
1.2.2 網(wǎng)絡輿情數(shù)據(jù)存儲
輿情數(shù)據(jù)存儲主要包含數(shù)據(jù)入庫、網(wǎng)頁快照與附件存儲等,輿情數(shù)據(jù)需要在收集后保存在相應的數(shù)據(jù)庫中,并需要根據(jù)不同種類的信息類型,對數(shù)據(jù)庫進行相應的分類。
1.2.3網(wǎng)絡輿情語義分析
網(wǎng)絡輿情語義分析作為整個系統(tǒng)最重要的模塊,能夠挖掘出在信息預處理模塊中所獲得的信息,所運用的技術主要有追蹤熱點、關聯(lián)分析與趨勢分析等,能夠有效實現(xiàn)網(wǎng)絡輿情監(jiān)控和熱點追蹤的功能。保證了整個系統(tǒng)基于用戶需求,即使進行策略調(diào)整,使整個系統(tǒng)達到運行的最佳狀態(tài)。
二、網(wǎng)絡輿情信息的預處理技術手段
模板配置法、網(wǎng)頁的文本結構化信息處理法等方法是主要的網(wǎng)絡輿情信息數(shù)據(jù)的預處理方法,但模板配置法需設定每個信息源的網(wǎng)站模板,使工作量和維護量過大,而網(wǎng)頁的文本結構化信息處理法利用頁面結構分析與智能節(jié)點分析轉(zhuǎn)換的方法,在自動抽取數(shù)據(jù)后,有效識別與清除網(wǎng)頁內(nèi)的無效內(nèi)容,所以一般來說,網(wǎng)絡輿情系統(tǒng)采用文本結構化處理方法。
Web 網(wǎng)頁一般包括關注內(nèi)容和摻雜內(nèi)容兩部分。關注內(nèi)容是網(wǎng)頁的主要內(nèi)容,在一個網(wǎng)頁當中,其新聞內(nèi)容、帖子內(nèi)容等都屬于網(wǎng)頁的關注內(nèi)容,而摻雜內(nèi)容指的是諸如搜索條、廣告燈與主體內(nèi)容無關的信息要素。首先利用 HTML 網(wǎng)頁標簽樹實現(xiàn)網(wǎng)頁凈化,有效地降低網(wǎng)頁結構的復雜性,縮減網(wǎng)頁空間,從而節(jié)省后續(xù)分析過程的時間和空間花費。
三、網(wǎng)絡輿情分析系統(tǒng)的語義分析技術
網(wǎng)絡輿情分析系統(tǒng)語義分析技術,主要對各項新聞熱點敏感話題等進行分析,是整個網(wǎng)絡輿情系統(tǒng)的最關鍵技術,是影響網(wǎng)絡輿情信息分析結果是否準確的重要手段。對已完成預處理之后的網(wǎng)絡輿情信息進行分析和處理,產(chǎn)生相應的分析結果庫。而算法庫以及算法調(diào)度和線程處理是語義分析模塊的主要工作
3.1算法庫管理
算法庫能夠有效地為每一處理線程生成一種恰當?shù)乃惴ü┧惴ㄕ{(diào)度程序進行使用,在接收管理員的設置和查詢要求之后,將所設置的特定信息和各種特殊信息要求存儲到算法配置信息庫中并進行恰當?shù)墓芾怼?br />
3.2算法調(diào)度
算法調(diào)度主要負責進程的分配以及多線程的管理工作,是整個輿情分析的動力構成。通過各種手段,控制線程的運行。而且系統(tǒng)為每個用戶的個人進程進行控制,并可以為一個用戶同時處理多個不同的進程。
3.3線程處理
每一個的線程處理,就是一次進行文本分類或文本聚類的過程,其中包括了權值向量的生成、特征選擇或特征抽取、文本分類或文本聚類。首先需要通過算法庫,確定其中各個部分恰當?shù)乃惴,每個部分根據(jù)其特征,采用一種特定的算法。并幫助用戶根據(jù)自身的特定需要,進行處理結果的查詢,并利用恰當?shù)氖侄魏捅憩F(xiàn)方式,將這些分析后的所得結果展現(xiàn)給需要查詢的用戶。
四、結語
本系統(tǒng)的最大優(yōu)點,便是能夠靈活搭配算法和自由處理的架構,真正實現(xiàn)分析和追蹤熱點的效應,真正實現(xiàn)了熱點追蹤與分析。隨著網(wǎng)絡系統(tǒng)的發(fā)展,若本系統(tǒng)能夠大量投入運用,將成為各個級別部門的重要網(wǎng)絡輿情監(jiān)控工具,并創(chuàng)造大量的經(jīng)濟效益和社會效益。
參考文獻:
[1] Jianping Zeng,Shiyong Zhang,Chengrong Wu,Jianfeng Xie.Pre-dictive Model for Internet Public Opinion.IEEE. Vol.3,pp.7 -11,2007.
[2] 王娟.網(wǎng)絡輿情監(jiān)控分析系統(tǒng)構建[J],長春理工大學學報,2007(4).
[3] 孟春艷.用于文本分類和文本聚類的特征抽取方法的研究[J],微計算機信息.2009(3).
[4] 胡學鋼,董學春,謝飛.基于詞向量空間模型的中文文本分類方法[J]. 合肥工業(yè)大學學報(自然科學版). 2007(10).
[5] 許鑫,章成志,李雯靜.國內(nèi)網(wǎng)絡輿情研究的回顧與展望[J]. 情報理論與實踐. 2009(3).
轉(zhuǎn)載請注明來自:http://www.jinnzone.com/jianzhushejilw/14724.html
下一篇:住宅小區(qū)交通人性化設計