精品人妻无码一区二区三区软件 ,麻豆亚洲AV成人无码久久精品,成人欧美一区二区三区视频,免费av毛片不卡无码

您現(xiàn)在的位置是:首頁信息安全論文

基于決策樹的二維碼惡意網(wǎng)址檢測方法

發(fā)布時間:2014-02-19 11:56:30更新時間:2014-02-19 11:58:12 1

  二維碼(Two-dimensionalbarcode)是在條碼技術(shù)基礎(chǔ)上,在二維平面上按一定規(guī)律構(gòu)造黑白相間的圖形用以記錄信息,通過輸入設(shè)備讀取幾何形體,并識別處理其所表示的信息。

  【摘要】二維碼技術(shù)應(yīng)用已經(jīng)進(jìn)入大眾生活,同時也逐漸成為惡意軟件傳播的新途徑。面向二維碼中URL,提出二維碼惡意網(wǎng)址決策樹智能檢測方法。利用惡意網(wǎng)址和正規(guī)網(wǎng)址,提取網(wǎng)址特征,構(gòu)建特征向量,進(jìn)而構(gòu)建決策樹。進(jìn)一步對網(wǎng)址特征提取及決策樹選擇進(jìn)行了優(yōu)化,實(shí)例測試結(jié)果表明系統(tǒng)在對惡意網(wǎng)址識別的響應(yīng)速度和準(zhǔn)確率方面取得了良好的效果。

  【關(guān)鍵詞】二維碼,惡意網(wǎng)址,智能檢測,決策樹

  1引言

  惡意網(wǎng)站是指將木馬、病毒等惡意程序種植在網(wǎng)頁內(nèi),通常沒有任何表露惡意性質(zhì)的外部標(biāo)志,通過偽裝的網(wǎng)址服務(wù)內(nèi)容誘導(dǎo)用戶訪問該網(wǎng)站,攻擊者經(jīng)常使用網(wǎng)站執(zhí)行網(wǎng)絡(luò)釣魚攻擊或分發(fā)惡意軟件。

  手機(jī)與二維碼的結(jié)合拓展了二維碼的應(yīng)用,隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,手機(jī)拍照二維碼獲取網(wǎng)址使手機(jī)用戶瀏覽網(wǎng)頁信息更加方便。同時,二維碼逐漸成為惡意軟件新的傳播途徑,針對手機(jī)等移動用戶的惡意釣魚網(wǎng)站越來越多。當(dāng)用戶掃描輸入存有惡意網(wǎng)址的二維碼時,用戶的手機(jī)可能被引導(dǎo)訪問釣魚網(wǎng)頁、甚至被安裝惡意插件,結(jié)果會造成用戶資料泄露、用戶賬戶密碼被盜等安全問題。這些惡意網(wǎng)頁對用戶手機(jī)構(gòu)成巨大威脅。然而,二維碼表面僅是圖片,單憑圖片用戶不能得知當(dāng)前二維碼所存的網(wǎng)址所對應(yīng)的網(wǎng)站是否具有惡意行為。

  本文主要針對手機(jī)用戶上網(wǎng)、面向二維碼URL,結(jié)合機(jī)器學(xué)習(xí)、引入決策樹算法,提出惡意網(wǎng)址智能檢測系統(tǒng)。針對二維碼所存的網(wǎng)址進(jìn)行識別測試和過濾,以保證用戶訪問安全的網(wǎng)頁。

  2惡意網(wǎng)站的現(xiàn)有研究和分析

  目前檢測、防范惡意網(wǎng)站的方法有惡意網(wǎng)頁分析技術(shù)、SSL證書分析技術(shù)、黑白名單技術(shù)等。網(wǎng)頁分析技術(shù)是研究最深入、研究領(lǐng)域最廣、準(zhǔn)確率最高的方法,主要包括靜態(tài)特征檢測、動態(tài)特征檢測、以及基于統(tǒng)計與特征分析的啟發(fā)式檢測技術(shù)等。靜態(tài)特征檢測是指從文本角度分析網(wǎng)頁的HTML語句、網(wǎng)頁內(nèi)嵌的JavaScript腳本、Active插件實(shí)例化等,主要通過特征碼匹配的方法實(shí)現(xiàn)檢測。該方法簡單有效,但主要缺陷在于只能用于識別已經(jīng)經(jīng)過樣本采集的已知惡意網(wǎng)頁、對未知的惡意攻擊則無能為力,而且即使是已知的惡意代碼、通過簡單的加殼或加密即可逃過該類策略的檢測。同時,由于新型木馬以及變形木馬的產(chǎn)生速度越來越快,及時快速地采集木馬特征也是一項具有挑戰(zhàn)性的任務(wù)。

  動態(tài)特征檢測是指實(shí)時監(jiān)控網(wǎng)頁從預(yù)載入到整個運(yùn)行過程中的所有行為,從而判斷其是否為惡意代碼網(wǎng)頁。動態(tài)分析把惡意網(wǎng)頁當(dāng)作一個黑匣子,不再分析它的語句和執(zhí)行流程,而僅測試分析其行為。由于行為分析必須讓惡意腳本或者實(shí)際的惡意網(wǎng)頁完全把行為展示出來,系統(tǒng)會遭受到不同的攻擊,因此行為分析系統(tǒng)一般運(yùn)行在VMware虛擬機(jī)上,以使得系統(tǒng)受到損害時能夠迅速恢復(fù)。

  基于統(tǒng)計與特征分析的啟發(fā)式檢測技術(shù)是指在已有特征值識別的基礎(chǔ)上,根據(jù)總結(jié)的惡意代碼樣本經(jīng)驗(yàn),在沒有符合的特征值比對時,根據(jù)代碼所調(diào)用的API的函數(shù)情況,如頻率、組合等,來判斷網(wǎng)頁是否可疑。這種方法構(gòu)造的系統(tǒng)分為學(xué)習(xí)和檢測兩個階段,在學(xué)習(xí)階段中需要有正規(guī)網(wǎng)頁和惡意網(wǎng)頁訓(xùn)練集,學(xué)習(xí)得到一個閥值,在檢測階段根據(jù)這個閥值判斷某個網(wǎng)頁是否為惡意網(wǎng)頁。合法的商業(yè)網(wǎng)站通常會對安全敏感的網(wǎng)頁啟用SSL安全連接機(jī)制,以防止信息在傳輸過程中被竊聽、篡改。安全敏感網(wǎng)頁的SSL相關(guān)信息,包括是否啟用了SSL安全連接、頒發(fā)SSL證書的CA是否權(quán)威可信、SSL證書是否過期、證書中的識別名是否與網(wǎng)址的身份相符等,也可作為識別網(wǎng)址真?zhèn)蔚囊罁?jù)。但是,這種方法在于只有提交用戶賬號密碼的網(wǎng)頁才能使用這種技術(shù),而且容易產(chǎn)生誤判。

  黑名單技術(shù)是將所有已經(jīng)發(fā)現(xiàn)的惡意網(wǎng)址記錄到一個地址列表、即所謂的黑名單中,據(jù)此判斷用戶所訪問的網(wǎng)址是否為惡意網(wǎng)址。黑名單技術(shù)實(shí)現(xiàn)簡單,但其問題在于及時更新黑名單十分困難,現(xiàn)在的瀏覽器廠商大多是采用這種做法,在用戶端建立黑名單庫,每隔幾天更新一次。這種方式作為瀏覽器識別惡意網(wǎng)址是相對最優(yōu)的方法,其缺點(diǎn)在于對于未知網(wǎng)頁缺乏識別能力。

  目前,手機(jī)等移動端的計算能力相對于PC機(jī)尚有差別,專門針對手機(jī)的惡意網(wǎng)址檢測方法不多,基本采用專家系統(tǒng)規(guī)則匹配方法。如果將現(xiàn)有的惡意網(wǎng)站檢測技術(shù)應(yīng)用到二維碼惡意網(wǎng)站檢測中來,檢測惡意網(wǎng)站的主要方法多數(shù)需要進(jìn)入網(wǎng)頁,目前手機(jī)上不支持沙箱技術(shù),在檢測過程中很可能使用戶信息遭受各種安全風(fēng)險。

  3基于決策樹的惡意網(wǎng)址檢測方法

  3.1惡意網(wǎng)址智能檢測方法概述

  本文提出通過對二維碼存有的網(wǎng)址URL進(jìn)行智能檢測,避開檢測過程中用戶信息遭受威脅帶來的安全風(fēng)險問題,達(dá)到檢測惡意網(wǎng)址的目的?紤]到客戶端跨平臺應(yīng)用以及手機(jī)計算資源等實(shí)際問題,利用WebService技術(shù)將惡意網(wǎng)址智能檢測算法配置成服務(wù)的方式、部署到Web服務(wù)器上,提供服務(wù)器和客戶端之間的信息交換,使系統(tǒng)對惡意網(wǎng)址識別的響應(yīng)更加快捷、適用范圍更加廣泛。

  決策樹算法在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域一直受到廣泛重視,算法通過對訓(xùn)練集的學(xué)習(xí),挖掘出實(shí)用規(guī)則,經(jīng)測試集對性能測試并調(diào)整后、用于對實(shí)際數(shù)據(jù)進(jìn)行預(yù)測。本研究通過收集大量正規(guī)網(wǎng)址和惡意網(wǎng)址數(shù)據(jù)、建立類庫,抽取惡意網(wǎng)址URL特征、建立數(shù)據(jù)集,經(jīng)過反復(fù)訓(xùn)練,構(gòu)建決策樹,經(jīng)過修枝剪枝對特征進(jìn)行優(yōu)化,最終形成用于判別二維碼惡意網(wǎng)址的決策樹算法。

  系統(tǒng)由服務(wù)器和客戶端兩部分組成,服務(wù)器端主要功能包括檢測二維碼惡意網(wǎng)址的決策樹算法、在數(shù)據(jù)庫中存取收集積累的數(shù)據(jù)及算法所利用的相關(guān)數(shù)據(jù)、網(wǎng)址數(shù)據(jù)接收、檢測結(jié)果信息回傳,主要使用WebService技術(shù)和決策樹算法;客戶端分為手機(jī)等移動端客戶和PC客戶,主要功能包括二維碼識別、URL傳輸、以及識別結(jié)果提示,主要使用WebService接口、二維碼識別組件等技術(shù)。

  3.2數(shù)據(jù)集的構(gòu)成

  依據(jù)統(tǒng)計學(xué)思想進(jìn)行分析,把網(wǎng)址URL解析成12個屬性,包括網(wǎng)址的后綴(Name)、長度(Length)、前綴(Prefix)、IP地址(ip1,ip2,ip3,ip4)、點(diǎn)的個數(shù)(Dot)、是否有大寫字母(Captial)、是否有數(shù)字(Number)、是否有特殊符號(Symbol)、是否為惡意網(wǎng)址(Outcome),并將其表示為向量形式。

  3.3決策樹算法訓(xùn)練流程

  決策樹的總體訓(xùn)練過程如圖1所示。

基于決策樹的二維碼惡意網(wǎng)址檢測方法

  1)設(shè)S是s個數(shù)據(jù)樣本的集合。假定類標(biāo)號屬性具有m個不同值,定義m個不同類Ci(i=1,2,...,m)。設(shè)si是類Ci中的樣本數(shù)。對一個給定的樣本分類、所需要的期望信息如下:

  I(s1,s2,...sm)=-■pilog■pi

  其中pi是任意樣本屬于Ci的概率,并用■估計。

  2)設(shè)屬性A具有v個不同值{a1,a2,...,av}。用屬性A將S劃分為v個子集{S1,S2,...,Sv},設(shè)Sij是子集Sj中類Ci的樣本數(shù)。由A劃分成子集的熵表示如下:

  E(A)=■■i(S■,S■,...,S■)

  3)在A分枝將獲得的信息增益表示為:

  Gain(S,A)=i(S■,S■,...,S■)-E(A)

  4)用信息增益率進(jìn)行屬性選擇,信息增益率定義為:

  GainRatio(S,A)=■

  分裂信息SplitInfo(S,A)代表了按照屬性A分裂樣本集S的廣度和均勻性。分裂信息定義如下:

  SplitInfo(S,A)=-■■log■■

  其中,S1到Sc是c個不同值的屬性A分割S而形成的c個樣本子集。

  3.4決策樹算法的種類選擇

  目前決策樹的典型算法有ID3、C4.5、CART、J48等,不同的決策樹會影響系統(tǒng)判別的準(zhǔn)確度。

  首先對建立好的訓(xùn)練集進(jìn)行預(yù)處理,即對非數(shù)值型的屬性進(jìn)行離散化,并優(yōu)化屬性。之后對訓(xùn)練集進(jìn)行分類回歸,采取十折交叉驗(yàn)證的方法,將數(shù)據(jù)集分成10份,輪流將其中9份做為訓(xùn)練數(shù)據(jù)、1份做為測試數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。每次實(shí)驗(yàn)都會得出相應(yīng)的正確率,將10次結(jié)果正確率的平均值做為對算法精度的估計。運(yùn)用不同的決策樹算法進(jìn)行訓(xùn)練,根據(jù)設(shè)置的實(shí)例情況,共選擇了10種決策樹進(jìn)行對比分析,實(shí)驗(yàn)結(jié)果如圖2所示。結(jié)果表明,J48決策樹算法的正確率最高,所用的屬性集為最優(yōu)的屬性組合,其正確分類比例為94.96%。

  3.5不同屬性組合的選擇

  不同的屬性組合同樣對預(yù)測結(jié)果產(chǎn)生很大影響。為提高算法的速度和精度,避免對一些作用小的屬性進(jìn)行分析而增大系統(tǒng)負(fù)荷,選擇不同屬性組合進(jìn)行測試,得到最優(yōu)的屬性組合。參考測試決策樹算法時每個決策樹最后形成的決策樹中的屬性,對12個屬性進(jìn)行不同的組合,測試不同組合利用J48決策樹算法的正確率。表1所示的測試結(jié)果說明,第8行屬性組合、即(name、length、dot、Ip1、Ip2、Ip3、Ip4、prefix)的正確率最高,且形成決策樹的時間最短。

  4實(shí)驗(yàn)結(jié)果與分析4.1實(shí)驗(yàn)環(huán)境

  系統(tǒng)的應(yīng)用環(huán)境分為服務(wù)器、PC客戶端、智能手機(jī)客戶端,網(wǎng)絡(luò)環(huán)境包括聯(lián)通或移動3G網(wǎng)絡(luò)、WiFi、校園無線局域網(wǎng)、校園LAN等。

  利用weka工具實(shí)現(xiàn)智能算法,算法中的重要參數(shù)設(shè)置如下:為正規(guī)網(wǎng)址和惡意網(wǎng)址,劃分為12,設(shè)為126,不同的屬性值v的取值不同,訓(xùn)練集與測試集交叉驗(yàn)證重疊數(shù)為10。

  4.2結(jié)果與分析

  實(shí)際檢測中,二維碼惡意網(wǎng)址數(shù)據(jù)取自近一個月的瑞星安全日報共計66個,正規(guī)網(wǎng)址數(shù)據(jù)取自hao123網(wǎng)址大全共計60個。126個實(shí)驗(yàn)數(shù)據(jù)有7個返回錯誤的結(jié)果,測試準(zhǔn)確率為94.5%。60個正規(guī)網(wǎng)址實(shí)驗(yàn)數(shù)據(jù),有5個返回錯誤的結(jié)果,誤報率為8.4%。66個二維碼惡意網(wǎng)址測試數(shù)據(jù),有2個返回錯誤的結(jié)果,有17個URL失效,49個URL有效,漏報率為4.0%。

  相同的測試內(nèi)容使用“快拍二維碼”進(jìn)行測試,126個測試數(shù)據(jù)測試準(zhǔn)確性為71.5%,66個二維碼惡意網(wǎng)址實(shí)驗(yàn)數(shù)據(jù)有36個返回錯誤結(jié)果,漏報率為54.5%。60個正規(guī)網(wǎng)址實(shí)驗(yàn)數(shù)據(jù),沒有返回錯誤結(jié)果,誤報率為0%。

  本系統(tǒng)產(chǎn)生誤報的原因在于選取的正規(guī)網(wǎng)址大部分是小網(wǎng)站、游戲網(wǎng)站,其某些URL特征跟惡意網(wǎng)站網(wǎng)址的特征類似。本系統(tǒng)漏報率只有4.0%,說明本系統(tǒng)對于未知的惡意網(wǎng)址的判別率很高。由于“快拍二維碼”使用的是黑名單技術(shù),對于未知的惡意網(wǎng)址判別率非常低。實(shí)驗(yàn)數(shù)據(jù)表明,本系統(tǒng)對二維碼惡意網(wǎng)址檢測具有良好的效果。

  5結(jié)束語

  目前,手機(jī)等移動端的計算能力相對于PC機(jī)尚有差別,專門針對手機(jī)的惡意網(wǎng)址檢測方法不多,基本采用專家系統(tǒng)規(guī)則匹配方法。本文面向二維碼中URL,提出二維碼惡意網(wǎng)址決策樹智能檢測方法。利用惡意網(wǎng)址和正規(guī)網(wǎng)址,提取網(wǎng)址URL特征,構(gòu)建特征向量,經(jīng)過反復(fù)訓(xùn)練,構(gòu)建址決策樹,進(jìn)一步對網(wǎng)址特征提取及決策樹選擇進(jìn)行了測試優(yōu)化,最終形成用于檢測二維碼惡意網(wǎng)址的決策樹算法。運(yùn)用WebService技術(shù)實(shí)現(xiàn)跨平臺的惡意網(wǎng)址智能檢測系統(tǒng)。實(shí)例測試結(jié)果表明系統(tǒng)在對惡意網(wǎng)址識別的響應(yīng)速度和準(zhǔn)確率方面取得了較好的效果。

  參考文獻(xiàn)

  [1]許統(tǒng).手機(jī)二維碼在國內(nèi)的發(fā)展及應(yīng)用[J].電腦與信息技術(shù),2011,19(3):62-63.

  [2]劉曉.五大威脅危害網(wǎng)絡(luò)安全[J].保密科學(xué)技術(shù),2013,7:68.

  [3]徐國輝,陳婕嫻.手機(jī)二維碼技術(shù)原理及應(yīng)用[J].信息與電腦,2013,1(1):18-19.

  [4]ZhuangW,JiangQ.Intelligentanti-phishingframeworkusingmultipleclassifierscombination[J].JournalofComputationalInformationSystems,2012,8(17):7267-7281.

  [5]JustinMa,,LawrenceK.Sauletal.BeyondBlacklists:LearningtoDetectMaliciousWebSitesfromSuspiciousURLs.Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDatamining.2009.

  [6]唐迪,孫瑞志,向勇等.基于Web服務(wù)的異構(gòu)工作流互聯(lián)接口設(shè)計[J].計算機(jī)應(yīng)用,2013,33(6):1650-1653,1712.

  [7]黃宇達(dá),范太華.決策樹ID3算法的分析與優(yōu)化[J].計算機(jī)工程與設(shè)計,2012,33(8):3089-3093.

  [8]HallM,F(xiàn)rankE,HolmesG,etal.Thewekadataminingsoftware:anupdate[J].SIGKDDExplorations,2009,11(1):10-18..

相關(guān)期刊推薦:《中國信息界》

  《中國信息界》雜志由國家發(fā)展和改革委員會主管,國家信息化專家咨詢委員會指導(dǎo),國家信息中心支持,中國信息協(xié)會主辦。《中國信息界》雜志是以“宣傳信息化、推進(jìn)信息化”為宗旨;以“學(xué)術(shù)、理論、深度、全面”為鮮明特征;以反映信息化與工業(yè)化融合的大背景下我國信息化各領(lǐng)域的學(xué)術(shù)研究成果為主要內(nèi)容;以國內(nèi)外從事信息化的教育、科研、管理等各方面工作的人士為核心讀者的國家級信息化權(quán)威學(xué)術(shù)期刊。郵發(fā)代號:82-706。

  《中國信息界》欄目設(shè)置

  信息化戰(zhàn)略、信息化政策、信息化管理、電子技術(shù)及應(yīng)用、數(shù)控技術(shù)、傳媒科學(xué)、電訊技術(shù)、電子政務(wù)、電子商務(wù)、信息服務(wù)業(yè)、網(wǎng)絡(luò)建設(shè)、數(shù)據(jù)庫建設(shè)、城鄉(xiāng)信息化、企業(yè)信息化、信息安全、信息化立法、國防信息化、制造業(yè)信息化、教育信息化、電化教學(xué)、案例集錦、課題報告、調(diào)研報告、學(xué)子園地、海外論文。

  《中國信息界》收錄情況

  本刊全文收錄于萬方數(shù)據(jù)庫、CNKI中國期刊全文數(shù)據(jù)庫、中文科技期刊數(shù)據(jù)庫。


轉(zhuǎn)載請注明來自:http://www.jinnzone.com/xinxianqlw/31382.html