二維碼(Two-dimensionalbarcode)是在條碼技術(shù)基礎(chǔ)上,在二維平面上按一定規(guī)律構(gòu)造黑白相間的圖形用以記錄信息,通過(guò)輸入設(shè)備讀取幾何形體,并識(shí)別處理其所表示的信息。
【摘要】二維碼技術(shù)應(yīng)用已經(jīng)進(jìn)入大眾生活,同時(shí)也逐漸成為惡意軟件傳播的新途徑。面向二維碼中URL,提出二維碼惡意網(wǎng)址決策樹(shù)智能檢測(cè)方法。利用惡意網(wǎng)址和正規(guī)網(wǎng)址,提取網(wǎng)址特征,構(gòu)建特征向量,進(jìn)而構(gòu)建決策樹(shù)。進(jìn)一步對(duì)網(wǎng)址特征提取及決策樹(shù)選擇進(jìn)行了優(yōu)化,實(shí)例測(cè)試結(jié)果表明系統(tǒng)在對(duì)惡意網(wǎng)址識(shí)別的響應(yīng)速度和準(zhǔn)確率方面取得了良好的效果。
【關(guān)鍵詞】二維碼,惡意網(wǎng)址,智能檢測(cè),決策樹(shù)
1引言
惡意網(wǎng)站是指將木馬、病毒等惡意程序種植在網(wǎng)頁(yè)內(nèi),通常沒(méi)有任何表露惡意性質(zhì)的外部標(biāo)志,通過(guò)偽裝的網(wǎng)址服務(wù)內(nèi)容誘導(dǎo)用戶訪問(wèn)該網(wǎng)站,攻擊者經(jīng)常使用網(wǎng)站執(zhí)行網(wǎng)絡(luò)釣魚(yú)攻擊或分發(fā)惡意軟件。
手機(jī)與二維碼的結(jié)合拓展了二維碼的應(yīng)用,隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,手機(jī)拍照二維碼獲取網(wǎng)址使手機(jī)用戶瀏覽網(wǎng)頁(yè)信息更加方便。同時(shí),二維碼逐漸成為惡意軟件新的傳播途徑,針對(duì)手機(jī)等移動(dòng)用戶的惡意釣魚(yú)網(wǎng)站越來(lái)越多。當(dāng)用戶掃描輸入存有惡意網(wǎng)址的二維碼時(shí),用戶的手機(jī)可能被引導(dǎo)訪問(wèn)釣魚(yú)網(wǎng)頁(yè)、甚至被安裝惡意插件,結(jié)果會(huì)造成用戶資料泄露、用戶賬戶密碼被盜等安全問(wèn)題。這些惡意網(wǎng)頁(yè)對(duì)用戶手機(jī)構(gòu)成巨大威脅。然而,二維碼表面僅是圖片,單憑圖片用戶不能得知當(dāng)前二維碼所存的網(wǎng)址所對(duì)應(yīng)的網(wǎng)站是否具有惡意行為。
本文主要針對(duì)手機(jī)用戶上網(wǎng)、面向二維碼URL,結(jié)合機(jī)器學(xué)習(xí)、引入決策樹(shù)算法,提出惡意網(wǎng)址智能檢測(cè)系統(tǒng)。針對(duì)二維碼所存的網(wǎng)址進(jìn)行識(shí)別測(cè)試和過(guò)濾,以保證用戶訪問(wèn)安全的網(wǎng)頁(yè)。
2惡意網(wǎng)站的現(xiàn)有研究和分析
目前檢測(cè)、防范惡意網(wǎng)站的方法有惡意網(wǎng)頁(yè)分析技術(shù)、SSL證書(shū)分析技術(shù)、黑白名單技術(shù)等。網(wǎng)頁(yè)分析技術(shù)是研究最深入、研究領(lǐng)域最廣、準(zhǔn)確率最高的方法,主要包括靜態(tài)特征檢測(cè)、動(dòng)態(tài)特征檢測(cè)、以及基于統(tǒng)計(jì)與特征分析的啟發(fā)式檢測(cè)技術(shù)等。靜態(tài)特征檢測(cè)是指從文本角度分析網(wǎng)頁(yè)的HTML語(yǔ)句、網(wǎng)頁(yè)內(nèi)嵌的JavaScript腳本、Active插件實(shí)例化等,主要通過(guò)特征碼匹配的方法實(shí)現(xiàn)檢測(cè)。該方法簡(jiǎn)單有效,但主要缺陷在于只能用于識(shí)別已經(jīng)經(jīng)過(guò)樣本采集的已知惡意網(wǎng)頁(yè)、對(duì)未知的惡意攻擊則無(wú)能為力,而且即使是已知的惡意代碼、通過(guò)簡(jiǎn)單的加殼或加密即可逃過(guò)該類(lèi)策略的檢測(cè)。同時(shí),由于新型木馬以及變形木馬的產(chǎn)生速度越來(lái)越快,及時(shí)快速地采集木馬特征也是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
動(dòng)態(tài)特征檢測(cè)是指實(shí)時(shí)監(jiān)控網(wǎng)頁(yè)從預(yù)載入到整個(gè)運(yùn)行過(guò)程中的所有行為,從而判斷其是否為惡意代碼網(wǎng)頁(yè)。動(dòng)態(tài)分析把惡意網(wǎng)頁(yè)當(dāng)作一個(gè)黑匣子,不再分析它的語(yǔ)句和執(zhí)行流程,而僅測(cè)試分析其行為。由于行為分析必須讓惡意腳本或者實(shí)際的惡意網(wǎng)頁(yè)完全把行為展示出來(lái),系統(tǒng)會(huì)遭受到不同的攻擊,因此行為分析系統(tǒng)一般運(yùn)行在VMware虛擬機(jī)上,以使得系統(tǒng)受到損害時(shí)能夠迅速恢復(fù)。
基于統(tǒng)計(jì)與特征分析的啟發(fā)式檢測(cè)技術(shù)是指在已有特征值識(shí)別的基礎(chǔ)上,根據(jù)總結(jié)的惡意代碼樣本經(jīng)驗(yàn),在沒(méi)有符合的特征值比對(duì)時(shí),根據(jù)代碼所調(diào)用的API的函數(shù)情況,如頻率、組合等,來(lái)判斷網(wǎng)頁(yè)是否可疑。這種方法構(gòu)造的系統(tǒng)分為學(xué)習(xí)和檢測(cè)兩個(gè)階段,在學(xué)習(xí)階段中需要有正規(guī)網(wǎng)頁(yè)和惡意網(wǎng)頁(yè)訓(xùn)練集,學(xué)習(xí)得到一個(gè)閥值,在檢測(cè)階段根據(jù)這個(gè)閥值判斷某個(gè)網(wǎng)頁(yè)是否為惡意網(wǎng)頁(yè)。合法的商業(yè)網(wǎng)站通常會(huì)對(duì)安全敏感的網(wǎng)頁(yè)啟用SSL安全連接機(jī)制,以防止信息在傳輸過(guò)程中被竊聽(tīng)、篡改。安全敏感網(wǎng)頁(yè)的SSL相關(guān)信息,包括是否啟用了SSL安全連接、頒發(fā)SSL證書(shū)的CA是否權(quán)威可信、SSL證書(shū)是否過(guò)期、證書(shū)中的識(shí)別名是否與網(wǎng)址的身份相符等,也可作為識(shí)別網(wǎng)址真?zhèn)蔚囊罁?jù)。但是,這種方法在于只有提交用戶賬號(hào)密碼的網(wǎng)頁(yè)才能使用這種技術(shù),而且容易產(chǎn)生誤判。
黑名單技術(shù)是將所有已經(jīng)發(fā)現(xiàn)的惡意網(wǎng)址記錄到一個(gè)地址列表、即所謂的黑名單中,據(jù)此判斷用戶所訪問(wèn)的網(wǎng)址是否為惡意網(wǎng)址。黑名單技術(shù)實(shí)現(xiàn)簡(jiǎn)單,但其問(wèn)題在于及時(shí)更新黑名單十分困難,現(xiàn)在的瀏覽器廠商大多是采用這種做法,在用戶端建立黑名單庫(kù),每隔幾天更新一次。這種方式作為瀏覽器識(shí)別惡意網(wǎng)址是相對(duì)最優(yōu)的方法,其缺點(diǎn)在于對(duì)于未知網(wǎng)頁(yè)缺乏識(shí)別能力。
目前,手機(jī)等移動(dòng)端的計(jì)算能力相對(duì)于PC機(jī)尚有差別,專門(mén)針對(duì)手機(jī)的惡意網(wǎng)址檢測(cè)方法不多,基本采用專家系統(tǒng)規(guī)則匹配方法。如果將現(xiàn)有的惡意網(wǎng)站檢測(cè)技術(shù)應(yīng)用到二維碼惡意網(wǎng)站檢測(cè)中來(lái),檢測(cè)惡意網(wǎng)站的主要方法多數(shù)需要進(jìn)入網(wǎng)頁(yè),目前手機(jī)上不支持沙箱技術(shù),在檢測(cè)過(guò)程中很可能使用戶信息遭受各種安全風(fēng)險(xiǎn)。
3基于決策樹(shù)的惡意網(wǎng)址檢測(cè)方法
3.1惡意網(wǎng)址智能檢測(cè)方法概述
本文提出通過(guò)對(duì)二維碼存有的網(wǎng)址URL進(jìn)行智能檢測(cè),避開(kāi)檢測(cè)過(guò)程中用戶信息遭受威脅帶來(lái)的安全風(fēng)險(xiǎn)問(wèn)題,達(dá)到檢測(cè)惡意網(wǎng)址的目的?紤]到客戶端跨平臺(tái)應(yīng)用以及手機(jī)計(jì)算資源等實(shí)際問(wèn)題,利用WebService技術(shù)將惡意網(wǎng)址智能檢測(cè)算法配置成服務(wù)的方式、部署到Web服務(wù)器上,提供服務(wù)器和客戶端之間的信息交換,使系統(tǒng)對(duì)惡意網(wǎng)址識(shí)別的響應(yīng)更加快捷、適用范圍更加廣泛。
決策樹(shù)算法在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域一直受到廣泛重視,算法通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí),挖掘出實(shí)用規(guī)則,經(jīng)測(cè)試集對(duì)性能測(cè)試并調(diào)整后、用于對(duì)實(shí)際數(shù)據(jù)進(jìn)行預(yù)測(cè)。本研究通過(guò)收集大量正規(guī)網(wǎng)址和惡意網(wǎng)址數(shù)據(jù)、建立類(lèi)庫(kù),抽取惡意網(wǎng)址URL特征、建立數(shù)據(jù)集,經(jīng)過(guò)反復(fù)訓(xùn)練,構(gòu)建決策樹(shù),經(jīng)過(guò)修枝剪枝對(duì)特征進(jìn)行優(yōu)化,最終形成用于判別二維碼惡意網(wǎng)址的決策樹(shù)算法。
系統(tǒng)由服務(wù)器和客戶端兩部分組成,服務(wù)器端主要功能包括檢測(cè)二維碼惡意網(wǎng)址的決策樹(shù)算法、在數(shù)據(jù)庫(kù)中存取收集積累的數(shù)據(jù)及算法所利用的相關(guān)數(shù)據(jù)、網(wǎng)址數(shù)據(jù)接收、檢測(cè)結(jié)果信息回傳,主要使用WebService技術(shù)和決策樹(shù)算法;客戶端分為手機(jī)等移動(dòng)端客戶和PC客戶,主要功能包括二維碼識(shí)別、URL傳輸、以及識(shí)別結(jié)果提示,主要使用WebService接口、二維碼識(shí)別組件等技術(shù)。
3.2數(shù)據(jù)集的構(gòu)成
依據(jù)統(tǒng)計(jì)學(xué)思想進(jìn)行分析,把網(wǎng)址URL解析成12個(gè)屬性,包括網(wǎng)址的后綴(Name)、長(zhǎng)度(Length)、前綴(Prefix)、IP地址(ip1,ip2,ip3,ip4)、點(diǎn)的個(gè)數(shù)(Dot)、是否有大寫(xiě)字母(Captial)、是否有數(shù)字(Number)、是否有特殊符號(hào)(Symbol)、是否為惡意網(wǎng)址(Outcome),并將其表示為向量形式。
3.3決策樹(shù)算法訓(xùn)練流程
決策樹(shù)的總體訓(xùn)練過(guò)程如圖1所示。
1)設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類(lèi)標(biāo)號(hào)屬性具有m個(gè)不同值,定義m個(gè)不同類(lèi)Ci(i=1,2,...,m)。設(shè)si是類(lèi)Ci中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類(lèi)、所需要的期望信息如下:
I(s1,s2,...sm)=-■pilog■pi
其中pi是任意樣本屬于Ci的概率,并用■估計(jì)。
2)設(shè)屬性A具有v個(gè)不同值{a1,a2,...,av}。用屬性A將S劃分為v個(gè)子集{S1,S2,...,Sv},設(shè)Sij是子集Sj中類(lèi)Ci的樣本數(shù)。由A劃分成子集的熵表示如下:
E(A)=■■i(S■,S■,...,S■)
3)在A分枝將獲得的信息增益表示為:
Gain(S,A)=i(S■,S■,...,S■)-E(A)
4)用信息增益率進(jìn)行屬性選擇,信息增益率定義為:
GainRatio(S,A)=■
分裂信息SplitInfo(S,A)代表了按照屬性A分裂樣本集S的廣度和均勻性。分裂信息定義如下:
SplitInfo(S,A)=-■■log■■
其中,S1到Sc是c個(gè)不同值的屬性A分割S而形成的c個(gè)樣本子集。
3.4決策樹(shù)算法的種類(lèi)選擇
目前決策樹(shù)的典型算法有ID3、C4.5、CART、J48等,不同的決策樹(shù)會(huì)影響系統(tǒng)判別的準(zhǔn)確度。
首先對(duì)建立好的訓(xùn)練集進(jìn)行預(yù)處理,即對(duì)非數(shù)值型的屬性進(jìn)行離散化,并優(yōu)化屬性。之后對(duì)訓(xùn)練集進(jìn)行分類(lèi)回歸,采取十折交叉驗(yàn)證的方法,將數(shù)據(jù)集分成10份,輪流將其中9份做為訓(xùn)練數(shù)據(jù)、1份做為測(cè)試數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。每次實(shí)驗(yàn)都會(huì)得出相應(yīng)的正確率,將10次結(jié)果正確率的平均值做為對(duì)算法精度的估計(jì)。運(yùn)用不同的決策樹(shù)算法進(jìn)行訓(xùn)練,根據(jù)設(shè)置的實(shí)例情況,共選擇了10種決策樹(shù)進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果如圖2所示。結(jié)果表明,J48決策樹(shù)算法的正確率最高,所用的屬性集為最優(yōu)的屬性組合,其正確分類(lèi)比例為94.96%。
3.5不同屬性組合的選擇
不同的屬性組合同樣對(duì)預(yù)測(cè)結(jié)果產(chǎn)生很大影響。為提高算法的速度和精度,避免對(duì)一些作用小的屬性進(jìn)行分析而增大系統(tǒng)負(fù)荷,選擇不同屬性組合進(jìn)行測(cè)試,得到最優(yōu)的屬性組合。參考測(cè)試決策樹(shù)算法時(shí)每個(gè)決策樹(shù)最后形成的決策樹(shù)中的屬性,對(duì)12個(gè)屬性進(jìn)行不同的組合,測(cè)試不同組合利用J48決策樹(shù)算法的正確率。表1所示的測(cè)試結(jié)果說(shuō)明,第8行屬性組合、即(name、length、dot、Ip1、Ip2、Ip3、Ip4、prefix)的正確率最高,且形成決策樹(shù)的時(shí)間最短。
4實(shí)驗(yàn)結(jié)果與分析4.1實(shí)驗(yàn)環(huán)境
系統(tǒng)的應(yīng)用環(huán)境分為服務(wù)器、PC客戶端、智能手機(jī)客戶端,網(wǎng)絡(luò)環(huán)境包括聯(lián)通或移動(dòng)3G網(wǎng)絡(luò)、WiFi、校園無(wú)線局域網(wǎng)、校園LAN等。
利用weka工具實(shí)現(xiàn)智能算法,算法中的重要參數(shù)設(shè)置如下:為正規(guī)網(wǎng)址和惡意網(wǎng)址,劃分為12,設(shè)為126,不同的屬性值v的取值不同,訓(xùn)練集與測(cè)試集交叉驗(yàn)證重疊數(shù)為10。
4.2結(jié)果與分析
實(shí)際檢測(cè)中,二維碼惡意網(wǎng)址數(shù)據(jù)取自近一個(gè)月的瑞星安全日?qǐng)?bào)共計(jì)66個(gè),正規(guī)網(wǎng)址數(shù)據(jù)取自hao123網(wǎng)址大全共計(jì)60個(gè)。126個(gè)實(shí)驗(yàn)數(shù)據(jù)有7個(gè)返回錯(cuò)誤的結(jié)果,測(cè)試準(zhǔn)確率為94.5%。60個(gè)正規(guī)網(wǎng)址實(shí)驗(yàn)數(shù)據(jù),有5個(gè)返回錯(cuò)誤的結(jié)果,誤報(bào)率為8.4%。66個(gè)二維碼惡意網(wǎng)址測(cè)試數(shù)據(jù),有2個(gè)返回錯(cuò)誤的結(jié)果,有17個(gè)URL失效,49個(gè)URL有效,漏報(bào)率為4.0%。
相同的測(cè)試內(nèi)容使用“快拍二維碼”進(jìn)行測(cè)試,126個(gè)測(cè)試數(shù)據(jù)測(cè)試準(zhǔn)確性為71.5%,66個(gè)二維碼惡意網(wǎng)址實(shí)驗(yàn)數(shù)據(jù)有36個(gè)返回錯(cuò)誤結(jié)果,漏報(bào)率為54.5%。60個(gè)正規(guī)網(wǎng)址實(shí)驗(yàn)數(shù)據(jù),沒(méi)有返回錯(cuò)誤結(jié)果,誤報(bào)率為0%。
本系統(tǒng)產(chǎn)生誤報(bào)的原因在于選取的正規(guī)網(wǎng)址大部分是小網(wǎng)站、游戲網(wǎng)站,其某些URL特征跟惡意網(wǎng)站網(wǎng)址的特征類(lèi)似。本系統(tǒng)漏報(bào)率只有4.0%,說(shuō)明本系統(tǒng)對(duì)于未知的惡意網(wǎng)址的判別率很高。由于“快拍二維碼”使用的是黑名單技術(shù),對(duì)于未知的惡意網(wǎng)址判別率非常低。實(shí)驗(yàn)數(shù)據(jù)表明,本系統(tǒng)對(duì)二維碼惡意網(wǎng)址檢測(cè)具有良好的效果。
5結(jié)束語(yǔ)
目前,手機(jī)等移動(dòng)端的計(jì)算能力相對(duì)于PC機(jī)尚有差別,專門(mén)針對(duì)手機(jī)的惡意網(wǎng)址檢測(cè)方法不多,基本采用專家系統(tǒng)規(guī)則匹配方法。本文面向二維碼中URL,提出二維碼惡意網(wǎng)址決策樹(shù)智能檢測(cè)方法。利用惡意網(wǎng)址和正規(guī)網(wǎng)址,提取網(wǎng)址URL特征,構(gòu)建特征向量,經(jīng)過(guò)反復(fù)訓(xùn)練,構(gòu)建址決策樹(shù),進(jìn)一步對(duì)網(wǎng)址特征提取及決策樹(shù)選擇進(jìn)行了測(cè)試優(yōu)化,最終形成用于檢測(cè)二維碼惡意網(wǎng)址的決策樹(shù)算法。運(yùn)用WebService技術(shù)實(shí)現(xiàn)跨平臺(tái)的惡意網(wǎng)址智能檢測(cè)系統(tǒng)。實(shí)例測(cè)試結(jié)果表明系統(tǒng)在對(duì)惡意網(wǎng)址識(shí)別的響應(yīng)速度和準(zhǔn)確率方面取得了較好的效果。
參考文獻(xiàn)
[1]許統(tǒng).手機(jī)二維碼在國(guó)內(nèi)的發(fā)展及應(yīng)用[J].電腦與信息技術(shù),2011,19(3):62-63.
[2]劉曉.五大威脅危害網(wǎng)絡(luò)安全[J].保密科學(xué)技術(shù),2013,7:68.
[3]徐國(guó)輝,陳婕嫻.手機(jī)二維碼技術(shù)原理及應(yīng)用[J].信息與電腦,2013,1(1):18-19.
[4]ZhuangW,JiangQ.Intelligentanti-phishingframeworkusingmultipleclassifierscombination[J].JournalofComputationalInformationSystems,2012,8(17):7267-7281.
[5]JustinMa,,LawrenceK.Sauletal.BeyondBlacklists:LearningtoDetectMaliciousWebSitesfromSuspiciousURLs.Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDatamining.2009.
[6]唐迪,孫瑞志,向勇等.基于Web服務(wù)的異構(gòu)工作流互聯(lián)接口設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1650-1653,1712.
[7]黃宇達(dá),范太華.決策樹(shù)ID3算法的分析與優(yōu)化[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(8):3089-3093.
[8]HallM,F(xiàn)rankE,HolmesG,etal.Thewekadataminingsoftware:anupdate[J].SIGKDDExplorations,2009,11(1):10-18..
相關(guān)期刊推薦:《中國(guó)信息界》
《中國(guó)信息界》雜志由國(guó)家發(fā)展和改革委員會(huì)主管,國(guó)家信息化專家咨詢委員會(huì)指導(dǎo),國(guó)家信息中心支持,中國(guó)信息協(xié)會(huì)主辦!吨袊(guó)信息界》雜志是以“宣傳信息化、推進(jìn)信息化”為宗旨;以“學(xué)術(shù)、理論、深度、全面”為鮮明特征;以反映信息化與工業(yè)化融合的大背景下我國(guó)信息化各領(lǐng)域的學(xué)術(shù)研究成果為主要內(nèi)容;以國(guó)內(nèi)外從事信息化的教育、科研、管理等各方面工作的人士為核心讀者的國(guó)家級(jí)信息化權(quán)威學(xué)術(shù)期刊。郵發(fā)代號(hào):82-706。
《中國(guó)信息界》欄目設(shè)置
信息化戰(zhàn)略、信息化政策、信息化管理、電子技術(shù)及應(yīng)用、數(shù)控技術(shù)、傳媒科學(xué)、電訊技術(shù)、電子政務(wù)、電子商務(wù)、信息服務(wù)業(yè)、網(wǎng)絡(luò)建設(shè)、數(shù)據(jù)庫(kù)建設(shè)、城鄉(xiāng)信息化、企業(yè)信息化、信息安全、信息化立法、國(guó)防信息化、制造業(yè)信息化、教育信息化、電化教學(xué)、案例集錦、課題報(bào)告、調(diào)研報(bào)告、學(xué)子園地、海外論文。
《中國(guó)信息界》收錄情況
本刊全文收錄于萬(wàn)方數(shù)據(jù)庫(kù)、CNKI中國(guó)期刊全文數(shù)據(jù)庫(kù)、中文科技期刊數(shù)據(jù)庫(kù)。
轉(zhuǎn)載請(qǐng)注明來(lái)自:http://www.jinnzone.com/xinxianqlw/31382.html