數(shù)據(jù)分類技術(shù)在日常很多領(lǐng)域都有過應(yīng)用,譬如銀行經(jīng)常要使用分類模型來進(jìn)行相應(yīng)的商業(yè)評估;學(xué)校的教務(wù)系統(tǒng)要使用分類模型對學(xué)生的成績以及各種評價來進(jìn)行評估;研究生、博士生等發(fā)表論文,使用數(shù)據(jù)挖掘分類模型來對各種期刊進(jìn)行細(xì)致的分類,這樣才能有效的評價科研能力的好壞;還有例如百度、谷歌這樣的大型搜索引擎,提供的推薦功能,分類技術(shù)已經(jīng)融入了我們?nèi)粘I畹姆椒矫婷,各個領(lǐng)域也提出了很多分類算法理論。
摘要:數(shù)據(jù)庫、數(shù)據(jù)倉庫以及其他存儲信息庫中潛藏著很多與商業(yè)、科學(xué)研究等活動的決策有關(guān)的數(shù)據(jù)和知識。對于數(shù)據(jù)挖掘中的數(shù)據(jù)分析,通常有兩種常見的方法,即分類和預(yù)測,首先對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類歸納,然后根據(jù)分類規(guī)則可以得到比較有價值的數(shù)據(jù),然后我們可以根據(jù)這個數(shù)據(jù)來預(yù)測得到一些包含未來趨勢的信息。在常見的分類算法中,決策樹算法是一個有著很好擴(kuò)展性的算法,可以應(yīng)用到大型數(shù)據(jù)庫中,可以對多種數(shù)據(jù)類型進(jìn)行處理,分類模式容易轉(zhuǎn)化為分類規(guī)則,結(jié)果也十分的淺顯易懂易于理解。該文主要先介紹了幾種常用的分類算法,然后具體介紹決策樹算法的過程以及在分類算法實(shí)際應(yīng)用中的優(yōu)缺點(diǎn)。
關(guān)鍵詞:數(shù)據(jù)挖掘,分類算法,人工智能,決策樹
1數(shù)據(jù)挖掘基本分類算法簡要介紹
最開始的數(shù)據(jù)挖掘分類算法都是基于內(nèi)存的算法。經(jīng)過長時間的發(fā)展,數(shù)據(jù)挖掘算法也由使用內(nèi)存開始逐步地使用外存以獲得處理大數(shù)據(jù)的能力,以下對一些經(jīng)典的分類算法進(jìn)行介紹。
1)決策樹分類算法
決策樹分類算法是數(shù)據(jù)挖掘十分經(jīng)典的分類算法。它使用自頂向下遞歸的方式構(gòu)造決策樹模型。決策樹上的每一個結(jié)點(diǎn)都采用信息增益度量來選擇所要測試的屬性。也可以從已經(jīng)生成的決策樹上提取出分類規(guī)則。
2)向量空間模型VSM算法
VSM的概念十分簡單,就是把對文本內(nèi)容的處理轉(zhuǎn)化為對空間向量中的向量運(yùn)算,
而且可以使用空間中的相似度參數(shù)來表示文本中語義的相似度,非常的直觀簡單。在向量空間模型中,文本包含了各種機(jī)器可以讀取的記錄信息。不妨用D表示,文本的特征集合可以表示為D(T1,T2,…,Tn),其中Tk是特征項(xiàng),1<=k<=N。當(dāng)文本集合被表示空間模型時,那么文本的相似度就可以表示為特征向量的內(nèi)積。
VSM方法在預(yù)處理階段需要進(jìn)行大量的特征類別向量的計算,而特征類別向量的建立由依靠類別向量所包含的特征項(xiàng)。當(dāng)所包含的非零特征向量越多,則每個特征向量的對于類別的表達(dá)能力越弱,所以VSM向量空間模型算法適合進(jìn)行文獻(xiàn)的分類工作。
3)K最近鄰分類算法
K最近鄰分類算法是一種理論上成熟的方法。這個算法實(shí)現(xiàn)的思路很簡單:假設(shè)一個樣本在其特征空間中的K個最相似的樣本均屬于同一個類別,則這個樣本也屬于該類別。這個算法只根據(jù)相鄰最近的一個或者幾個樣本的所屬類別來決定待分類樣本的類別。
K最近鄰分類算法雖然從原理上來說基于極限定理,但在類別決策的時候,卻只與少量有限的樣本有關(guān)。因此,使用這種方法可以避免樣本選擇失衡的問題。另外,由于K最近鄰算法不是根據(jù)類域來確定樣本的類別,而是根據(jù)相鄰的少量的樣本來確定,故對于樣本類域的重合或相交的比較多的待分類樣本集來說,K最近鄰分類算法較其他算法更為適合。
K最近鄰分類算法的應(yīng)用范圍十分的廣泛,包含分類和回歸。對一個數(shù)據(jù)集樣本進(jìn)行分析得到該樣本集的K個最近鄰的樣本,然后將這些近鄰樣本的屬性的平均值分配給該樣本,得到該樣本的屬性。
該算法一個比較大的缺點(diǎn)是,當(dāng)所選樣本失衡時,例如一個類域的樣本容量非常大,而其他類域樣本容量又比較小時,這就有可能導(dǎo)致當(dāng)輸入一個新樣本時,該樣本的K個鄰居中大容量類域的樣本占多數(shù)。故而可以采用計算各個類域權(quán)值的方法(和該樣本距離小的鄰居權(quán)值大)來改進(jìn)。該方法的另一個缺點(diǎn)是計算量比較大,因?yàn)閷γ恳粋待分類的樣本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點(diǎn),F(xiàn)在的解決方法是,對已知樣本進(jìn)行預(yù)處理,對已知樣本點(diǎn)進(jìn)行剪切,事先除去對分類作用不大的樣本。該算法比較適合樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。
4)支持向量機(jī)SVM算法
支持向量機(jī)SVM分類算法具有良好的性能。該算法是一個建立在數(shù)學(xué)統(tǒng)計學(xué)基礎(chǔ)上的機(jī)器學(xué)習(xí)算法。通過該算法,可以自動找到那些對于分類有比較好的區(qū)分能力的向量,通過使用該算法生成的構(gòu)造器可以很好的提高分類的適應(yīng)能力和分類的準(zhǔn)確率。該算法需要通過各個類域的邊界樣本的類別來決定最后樣本的分類結(jié)果。
SVM算法的重點(diǎn)是在數(shù)據(jù)集樣本中確定一個超平面,使得能夠?qū)?shù)據(jù)集樣本進(jìn)行分類后分開,因此,SVM算法又名最大邊緣化算法。待分?jǐn)?shù)據(jù)集樣本中的大部分樣本并不是支持向量,所以,減少或者除去這些樣本對分類結(jié)果沒有影響。當(dāng)樣本數(shù)據(jù)集的規(guī)模比較小時,使用SVM支持向量機(jī)算法可以很好的得到分類結(jié)果,效果很好。
2決策樹算法實(shí)例實(shí)現(xiàn)
決策樹分類算法是數(shù)據(jù)挖掘分類算法中最先介紹的算法。決策樹,顧名思義就是用來做決定的樹,一個分支就是一個決策過程。每個決策過程中涉及一個數(shù)據(jù)的屬性,而且只涉及一個。然后遞歸地,貪心地滿足決策條件(即可以得到明確的決策結(jié)果)。
實(shí)現(xiàn)決策樹算法首先需要有一些有價值的數(shù)據(jù)樣本集(能夠通過該數(shù)據(jù)集預(yù)測出結(jié)果)做訓(xùn)練,通過分析樣本數(shù)據(jù)得到每個屬性對結(jié)果的影響大小。
我們通過使用信息增益的理論去描述它,期間也涉及到熵的概念。
下面結(jié)合實(shí)例說一下決策樹實(shí)現(xiàn)過程中的上述關(guān)鍵概念。
假設(shè)我們有如下數(shù)據(jù):
1)我們首先要通過計算找到哪個屬性的所有屬性值能更好地表達(dá)class字段的不同。通過計算,我們發(fā)現(xiàn)house的屬性值最能表現(xiàn)class字段的不同。這個衡量標(biāo)準(zhǔn)其實(shí)就是信息增益。計算方法是:首先計算全部數(shù)據(jù)的熵,然后除class之外的其他屬性逐個遍歷,找到熵最小的那個屬性(house),然后將全部數(shù)據(jù)的熵減去按照house屬性劃分?jǐn)?shù)據(jù)之后的數(shù)據(jù)的熵。
這個值如果滿足條件假如(>0.1),我們認(rèn)為數(shù)據(jù)應(yīng)該按照這個節(jié)點(diǎn)進(jìn)行分裂,也就是說這個屬性(house)構(gòu)成了我們的一次決策過程。
2)再按照house分裂的每個數(shù)據(jù)集上,針對其他屬性(house除外)進(jìn)行與1)相同的過程,直到信息增益不足以滿足數(shù)據(jù)分裂的條件。這樣,我們就得到了一個關(guān)于屬性數(shù)據(jù)劃分的一棵樹?梢宰鳛閏lass字段未知的數(shù)據(jù)的決策依據(jù)。
3)經(jīng)過編碼運(yùn)行后得到實(shí)驗(yàn)結(jié)果如下圖:
根據(jù)該決策樹的輸出,我們可以得到如下的挖掘規(guī)則:首先根據(jù)house屬性判斷,當(dāng)house屬性為1時,走到索引為2的節(jié)點(diǎn),此時該節(jié)點(diǎn)是葉子節(jié)點(diǎn),預(yù)測值class為1.
4)決策樹算法的評價
根據(jù)上面實(shí)驗(yàn)的分析,我們可以發(fā)現(xiàn)決策樹的一些優(yōu)缺點(diǎn):決策樹算法所產(chǎn)生的分類規(guī)則十分的易于人理解,準(zhǔn)確率很高;但是在構(gòu)建決策樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的掃描排序,效率還有待進(jìn)一步提高。
3總結(jié)
本文主要先詳細(xì)介紹了數(shù)據(jù)挖掘分類技術(shù)目前的常用經(jīng)典算法,后面部分主要描述了決策樹算法的實(shí)現(xiàn),決策樹算法是一個基于信息熵理論的具有良好性能的分類算法。該文通過對數(shù)據(jù)的分析,然后通過編程實(shí)現(xiàn)決策樹算法對該數(shù)據(jù)進(jìn)行處理,得到一個決策樹的結(jié)構(gòu),根據(jù)該樹可以歸納得到分類規(guī)則,最后可以得到評價結(jié)果。決策樹算法對數(shù)據(jù)無任何前置要求,應(yīng)用在金融和教育產(chǎn)業(yè)中效果也比較好,故發(fā)展前景十分良好,可以繼續(xù)深入研究。
參考文獻(xiàn):
[1]郭超峰,李梅蓮.基于ID3算法的決策樹研究與應(yīng)用[J].許昌學(xué)院學(xué)報,2007(2).
[2]Pang-NingTan,SteinBachM,KumarV.數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建,譯.北京:人民郵電出版社,2007.
[3]劉惟一,李維華.智能數(shù)據(jù)分析[M].北京:科學(xué)出版社,2007.
轉(zhuǎn)載請注明來自:http://www.jinnzone.com/jisuanjixinxiguanlilw/28835.html