現(xiàn)在的社會(huì)是個(gè)信息化社會(huì),大數(shù)據(jù)科技的發(fā)展也是非常迅速的,隨著智慧城市建設(shè)項(xiàng)目的開展,作為智慧城市建設(shè)的重要基礎(chǔ)就是圍繞大型基礎(chǔ)數(shù)據(jù)平臺(tái)的建設(shè),在業(yè)界定義為大數(shù)據(jù)時(shí)代的來臨。本文是一篇中文核心類期刊投稿的論文范文,主要論述了基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)對(duì)大數(shù)據(jù)時(shí)代的價(jià)值與意義。
摘 要:在大數(shù)據(jù)時(shí)代中,大數(shù)據(jù)的應(yīng)用效能、應(yīng)用方便度、應(yīng)用當(dāng)?shù)馗采w面是未來大數(shù)據(jù)應(yīng)用所關(guān)注的重點(diǎn),而目前在大數(shù)據(jù)應(yīng)用方面存在許多的問題,這些問題的存在影響了未來大數(shù)據(jù)的應(yīng)用,如何解決這些問題,重現(xiàn)在開始從最基礎(chǔ)方面開始,解決這些問題是大數(shù)據(jù)未來應(yīng)用的重要工作。本文首先列舉了目前大數(shù)據(jù)應(yīng)用中存在的問題,分析了產(chǎn)生這些問題的原因,針對(duì)這種情況提出了基于基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)體系建立的解決方案設(shè)想,為未來大數(shù)據(jù)應(yīng)用發(fā)揮更大效益的解決方法。
【關(guān)鍵詞】大數(shù)據(jù),基礎(chǔ)數(shù)據(jù)結(jié)構(gòu),軟件工程,數(shù)據(jù)標(biāo)準(zhǔn)
圍繞大數(shù)據(jù)的概念,在全國(guó)范圍內(nèi)的各領(lǐng)域各行業(yè)都在大數(shù)據(jù)的如何組織、如何應(yīng)用、如何共享、如何關(guān)聯(lián)召開了各類研討會(huì)。大數(shù)據(jù)應(yīng)用的云計(jì)算技術(shù)、數(shù)據(jù)倉庫技術(shù)等成為業(yè)內(nèi)討論的重要話題。本人認(rèn)為,在做了這些工作后,應(yīng)回過頭來看一看,無論數(shù)據(jù)量有多大,都離不開基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)與體系的建設(shè),在此要闡明的一個(gè)基本觀點(diǎn)就是在大數(shù)據(jù)時(shí)代更應(yīng)該重視基礎(chǔ)數(shù)據(jù)結(jié)果的研究與應(yīng)用。
1 大數(shù)據(jù)的概念
什么是大數(shù)據(jù), IBM 最早的定義是:將大數(shù)據(jù)的特征歸納為4個(gè)“V”(量Volume,多樣Variety,價(jià)值Value,速Velocity),或者說特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬個(gè)T)或Z(10億個(gè)T);第二,數(shù)據(jù)類型繁多。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低,商業(yè)價(jià)值高。第四,處理速度快。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
在大數(shù)據(jù)概念中的第一條是數(shù)據(jù)量大,這是大數(shù)據(jù)的特點(diǎn),而卻隨著信息系統(tǒng)應(yīng)用的深入,數(shù)量的數(shù)量級(jí)也在不斷的提高,這是毋容置疑的。我們?cè)诖艘懻摰氖堑诙䲢l數(shù)據(jù)類型繁多的問題。
2 目前大數(shù)據(jù)應(yīng)用存在的主要問題
隨著信息化系統(tǒng)應(yīng)用的深入,在社會(huì)、自然界、生活中所涉及的數(shù)據(jù)面越來越廣,由此使得數(shù)據(jù)類型也越來越多,數(shù)據(jù)類型的數(shù)量在不斷增加,這些數(shù)據(jù)類型之間的關(guān)系和相互關(guān)聯(lián)性也越來越復(fù)雜,大數(shù)據(jù)量下的數(shù)據(jù)應(yīng)用造成了困難。數(shù)據(jù)結(jié)構(gòu)類型繁多造成問題主要表現(xiàn)在以下幾個(gè)方面。
2.1 數(shù)據(jù)類型是有限量的認(rèn)識(shí)不清楚
未來大數(shù)據(jù)情況下,數(shù)據(jù)類型是有限量的還是無限量的概念模糊,為此首先要么明確一個(gè)基本的概念,那就是,數(shù)據(jù)類型在繁多,但是數(shù)據(jù)類型的數(shù)量是有限量的,只是這個(gè)限量的數(shù)量級(jí)大一些而已。在數(shù)據(jù)類型是有限量的情況下,對(duì)于解決數(shù)據(jù)類型繁多的方法是完全不同的。
如果數(shù)據(jù)類型的量是無限量的,那么解決問題的方法是要研究解決數(shù)據(jù)類型問題的方式是研究規(guī)律,拿出解決問題的方式與方法,對(duì)于具體數(shù)據(jù)類型時(shí),按照方式方法理論與技術(shù)去解決問題。如果數(shù)據(jù)類型是有限量的話,那么解決問題的方式就不只是從理論上的解決問題方法,而應(yīng)該更加切合實(shí)際的去針對(duì)每一種數(shù)據(jù)類型直接進(jìn)行研究,形成數(shù)據(jù)標(biāo)準(zhǔn),指導(dǎo)各個(gè)系統(tǒng)對(duì)每一個(gè)具體數(shù)據(jù)類型的應(yīng)用。
2.2 相同數(shù)據(jù)在不同系統(tǒng)中的表現(xiàn)類型繁多
由于系統(tǒng)開發(fā)方各自的開發(fā)經(jīng)驗(yàn)、所開發(fā)系統(tǒng)的規(guī)模不同,系統(tǒng)應(yīng)用方對(duì)系統(tǒng)要求不同,系統(tǒng)應(yīng)用行業(yè)的不同,使得在開發(fā)過程中,對(duì)于數(shù)據(jù)類型的定義只遵循本系統(tǒng)使用需要進(jìn)行定義,沒有完整的標(biāo)準(zhǔn),即是有相應(yīng)的國(guó)家或國(guó)際標(biāo)準(zhǔn),也不能完全遵循。
2.3 各個(gè)行業(yè)制定的標(biāo)準(zhǔn)相互矛盾
各個(gè)行業(yè)在制定相應(yīng)的標(biāo)準(zhǔn)時(shí),是以滿足自身需要為主導(dǎo),造成了數(shù)據(jù)類型在其數(shù)據(jù)定義時(shí)不但長(zhǎng)度不同,就是數(shù)據(jù)類型都不相同。這也就造成了各個(gè)系統(tǒng)在未來大數(shù)據(jù)應(yīng)用中出現(xiàn)了嚴(yán)重的數(shù)據(jù)應(yīng)用障礙。
2.4 大數(shù)據(jù)應(yīng)用的實(shí)現(xiàn)效率低
由于不同系統(tǒng)技術(shù)數(shù)據(jù)結(jié)構(gòu)的不統(tǒng)一,使得對(duì)于大數(shù)據(jù)的應(yīng)用上要對(duì)不同系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,構(gòu)建關(guān)聯(lián),而后才能進(jìn)行數(shù)據(jù)的應(yīng)用,這項(xiàng)工作的工作量大,技術(shù)含量高,降低數(shù)據(jù)的應(yīng)用效率。這些都是事后分析數(shù)據(jù)存在的問題。
2.5 數(shù)據(jù)浪費(fèi)巨大
由于數(shù)據(jù)各個(gè)系統(tǒng)間數(shù)據(jù)結(jié)構(gòu)的不同,加上分析手段的局限性,使許多的數(shù)據(jù)無法進(jìn)行使用,由此也降低了數(shù)據(jù)的使用率。并造成數(shù)據(jù)的大量浪費(fèi)。
3 造成目前對(duì)大數(shù)據(jù)應(yīng)用存在問題原因
由于以上幾方面的問題存在,為了做好大數(shù)據(jù)的應(yīng)用,許多相應(yīng)的技術(shù)應(yīng)運(yùn)而生,數(shù)據(jù)倉庫技術(shù)、網(wǎng)格技術(shù)、云計(jì)算的數(shù)據(jù)處理技術(shù)等等。這些技術(shù)促進(jìn)了數(shù)據(jù)應(yīng)用的發(fā)展,提高了數(shù)據(jù)應(yīng)用效率,為大數(shù)據(jù)應(yīng)用發(fā)揮了巨大作用。但是這種做法只能針對(duì)具體的大數(shù)據(jù)應(yīng)用項(xiàng)目起到作用,不能從根本上解決問題。那么造成這種問題根本是什么呢?
3.1 理論基礎(chǔ)有偏差
目前所有這些高精尖技術(shù)的發(fā)展,為大數(shù)據(jù)應(yīng)用的發(fā)展起到了不可替代的作用,但是這些技術(shù)在理論出發(fā)點(diǎn)上存在偏差,那就是,這些技術(shù)的理論出發(fā)點(diǎn)設(shè)定的是,數(shù)據(jù)類型是無限量的,是無窮盡的,所以所有的技術(shù)研究都不面對(duì)具體的數(shù)據(jù)項(xiàng),這樣做的結(jié)果是促進(jìn)技術(shù)的發(fā)展,弊端是不能面對(duì)具體的應(yīng)用,所有的技術(shù)應(yīng)用都要在這就技術(shù)下進(jìn)行二次應(yīng)用研究。也就是,這些理論是治標(biāo)不治本的做法。
有限量數(shù)據(jù)類型與無限量數(shù)據(jù)類型是兩個(gè)根本不同的概念,對(duì)于技術(shù)的發(fā)展影響也是完全不同的。為此,目前在無限量數(shù)據(jù)類型概念下的大數(shù)據(jù)應(yīng)用技術(shù)與體系將會(huì)存在極大的局限性,對(duì)未來的大數(shù)據(jù)應(yīng)用造成影響。
3.2 對(duì)大數(shù)據(jù)認(rèn)識(shí)有偏差
目前在各個(gè)系統(tǒng)對(duì)大數(shù)據(jù)的應(yīng)用中,對(duì)大數(shù)據(jù)的認(rèn)識(shí)是,只要有足夠量的數(shù)據(jù),就是大數(shù)據(jù),而對(duì)于數(shù)據(jù)之間的關(guān)系,整體的數(shù)據(jù)結(jié)構(gòu)體系沒有很深的認(rèn)識(shí),甚至將原有的多個(gè)分散的系統(tǒng)中的數(shù)據(jù)庫,做一個(gè)小的關(guān)聯(lián)數(shù)據(jù)庫,就認(rèn)為是數(shù)據(jù)云計(jì)算,就是綜合數(shù)據(jù)平臺(tái)了,而在這種情況下,對(duì)于大數(shù)據(jù)的應(yīng)用,因?yàn)橄到y(tǒng)的獨(dú)立,數(shù)據(jù)庫的獨(dú)立、數(shù)據(jù)結(jié)構(gòu)的不統(tǒng)一造成了大數(shù)據(jù)應(yīng)用的瓶頸和障礙,在系統(tǒng)應(yīng)用到一定程度后,數(shù)據(jù)量是很大,但是無法進(jìn)行大數(shù)據(jù)應(yīng)用,或者說是要進(jìn)行大數(shù)據(jù)的應(yīng)用,需要另外投入很高的成本進(jìn)行數(shù)據(jù)整理、數(shù)據(jù)管理和數(shù)據(jù)分析。所以應(yīng)該明確的是,在數(shù)據(jù)結(jié)構(gòu)混亂的情況下,在大的數(shù)據(jù)量也不能稱為大數(shù)據(jù),這個(gè)觀念上的偏差,是造成目前數(shù)據(jù)應(yīng)用困難的原因之一。 3.3 數(shù)據(jù)結(jié)構(gòu)不規(guī)范
這些情況的出現(xiàn),歸結(jié)的一起,就是數(shù)據(jù)結(jié)構(gòu)不規(guī)范,不統(tǒng)一。在三方面主要原因造成這個(gè)局面,一是目前的應(yīng)用系統(tǒng)的開發(fā),由不同的公司進(jìn)行,每個(gè)開發(fā)單位對(duì)數(shù)據(jù)結(jié)構(gòu)的定義有各自的標(biāo)準(zhǔn),基本都是按照多年開發(fā)經(jīng)驗(yàn)總結(jié)出來的,因此各個(gè)公司開發(fā)的系統(tǒng)在數(shù)據(jù)結(jié)構(gòu)上相差很遠(yuǎn)。二是對(duì)于同一個(gè)公司不同時(shí)期開發(fā)的系統(tǒng)所涉及的數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一,到后期,開發(fā)單位不愿意在投入成本對(duì)前期開發(fā)的系統(tǒng)進(jìn)行重新開發(fā),這就造成了前期開的的系統(tǒng)中的數(shù)據(jù)結(jié)構(gòu)與后期開發(fā)的數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一。三是對(duì)于應(yīng)用開發(fā)單位在開發(fā)每一個(gè)具體應(yīng)用項(xiàng)目時(shí),由于是不同的開發(fā)小組在進(jìn)行,為此,在進(jìn)行數(shù)據(jù)結(jié)構(gòu)設(shè)定時(shí),只為了滿足本系統(tǒng)開發(fā)的需要,而沒有考慮系統(tǒng)未來的發(fā)展和系統(tǒng)的整體架構(gòu),這也造成了不同應(yīng)用系統(tǒng)中對(duì)相同字段的設(shè)定不相同,數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一。以上這些都是在應(yīng)用系統(tǒng)開發(fā)過程中遺留的問題,而這些問題嚴(yán)重影響了大數(shù)據(jù)的使用。
3.4 有統(tǒng)一的標(biāo)準(zhǔn)不用
在系統(tǒng)開發(fā)過程中涉及的數(shù)據(jù)結(jié)構(gòu),許多都有相應(yīng)的標(biāo)準(zhǔn),主要有以下幾個(gè)方面,一是國(guó)家法律層面的,對(duì)于一些重要的數(shù)據(jù)要求以立法方式進(jìn)行規(guī)范。二是國(guó)家標(biāo)準(zhǔn),制定和規(guī)范了國(guó)家層面的有關(guān)方面的數(shù)據(jù)要求和限定。三是部頒標(biāo)準(zhǔn),由各個(gè)部委辦局制定的相應(yīng)標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)有一大部分直接針對(duì)信息化系統(tǒng)建設(shè)的應(yīng)用和數(shù)據(jù)標(biāo)準(zhǔn)。四是行業(yè)標(biāo)準(zhǔn),作為每一個(gè)行業(yè)內(nèi)進(jìn)行行為約束的標(biāo)準(zhǔn),這種標(biāo)準(zhǔn)雖然不具備強(qiáng)制性,但是在行業(yè)內(nèi)是一個(gè)自覺遵守的標(biāo)準(zhǔn)。四是國(guó)際相關(guān)標(biāo)準(zhǔn),雖然國(guó)際標(biāo)準(zhǔn)沒有任何的法律約束性,但是為了走出去,各行各業(yè)都在遵循這個(gè)標(biāo)準(zhǔn)。
這些標(biāo)準(zhǔn)都是在系統(tǒng)建立時(shí)的數(shù)據(jù)結(jié)構(gòu)依據(jù),但是目前許多系統(tǒng)在進(jìn)行數(shù)據(jù)結(jié)構(gòu)設(shè)定時(shí),都沒有按照這些標(biāo)準(zhǔn)執(zhí)行,而是根據(jù)自己系統(tǒng)的需要進(jìn)行設(shè)定的。這使得許多的系統(tǒng)中的數(shù)據(jù)不能相互交換使用,由此而影響了大數(shù)據(jù)的應(yīng)用。
3.5 不同行業(yè)對(duì)標(biāo)準(zhǔn)的設(shè)定不統(tǒng)一
在國(guó)家標(biāo)準(zhǔn)體系中,由于標(biāo)準(zhǔn)制定的年代不同,同是一個(gè)部門頒布的標(biāo)準(zhǔn)對(duì)相同的數(shù)據(jù)要求也不同,各個(gè)部門由于獨(dú)立制定標(biāo)準(zhǔn),同樣出現(xiàn)相同數(shù)據(jù)在不同部門制定的標(biāo)準(zhǔn)中規(guī)定的不同,這幾方面原因也就造成了即使遵照標(biāo)準(zhǔn),也存在著相同數(shù)據(jù)在不同應(yīng)用系統(tǒng)中的數(shù)據(jù)結(jié)構(gòu)不同的現(xiàn)象。
以上是大數(shù)據(jù)應(yīng)用問題出現(xiàn)的主要原因,作為大數(shù)據(jù)應(yīng)用的剛剛起步階段,應(yīng)針對(duì)這些問題進(jìn)行研究給出相應(yīng)的解決方案,為未來大數(shù)據(jù)應(yīng)用的發(fā)展打下一個(gè)良好的基礎(chǔ),避免今后的大數(shù)據(jù)應(yīng)用走彎路。
4 解決大數(shù)據(jù)應(yīng)用問題的對(duì)策
解決大數(shù)據(jù)應(yīng)用存在的問題,應(yīng)從最基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)建立開始,從根本上去解決問題,也為未來大數(shù)據(jù)應(yīng)用的發(fā)展打下一個(gè)良好的基本數(shù)據(jù)結(jié)構(gòu)基礎(chǔ),對(duì)此提出以下幾方面的對(duì)策。
4.1 開展和加強(qiáng)對(duì)基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)建立的理論研究
從軟件工程學(xué)的角度出發(fā),以數(shù)據(jù)結(jié)構(gòu)類型是有限量的概念為依托,圍繞具體的數(shù)據(jù)類型開展數(shù)據(jù)結(jié)構(gòu)體系的理論研究。依托一個(gè)數(shù)據(jù)結(jié)構(gòu)分類的理論體系來支撐整個(gè)數(shù)據(jù)結(jié)構(gòu)體系的劃分,其中包括劃分方法、劃分層次、劃分的軟件工程學(xué)理論支撐等內(nèi)容,制定大數(shù)據(jù)底層數(shù)據(jù)結(jié)構(gòu)劃分的理論體系,形成在大數(shù)據(jù)下的數(shù)據(jù)結(jié)構(gòu)構(gòu)建的理論體系。
4.2 開展對(duì)具體數(shù)據(jù)結(jié)構(gòu)的研究
按照建立的數(shù)據(jù)結(jié)構(gòu)理論體系要求,對(duì)每一個(gè)具體數(shù)據(jù)結(jié)構(gòu)進(jìn)行研究,針對(duì)數(shù)據(jù)項(xiàng)的名稱、類型、含義、層次、結(jié)構(gòu)、與其他數(shù)據(jù)的關(guān)系、涉及內(nèi)容規(guī)定等方面制定出具體數(shù)據(jù)的標(biāo)準(zhǔn)。這項(xiàng)工作可以在有組織的情況下由全社會(huì)共同參與,按照指導(dǎo)理論的要求進(jìn)行研究,這樣,隨著應(yīng)用系統(tǒng)的不斷深入,所涉及的數(shù)據(jù)類型項(xiàng)將逐步擴(kuò)展,最終實(shí)現(xiàn)數(shù)據(jù)的全覆蓋,而完成整個(gè)架構(gòu)體系的建立。
4.3 制定相應(yīng)的數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)
對(duì)于由各個(gè)方面制定的數(shù)據(jù)結(jié)構(gòu)進(jìn)行分類、篩選、審核,而后想這些結(jié)構(gòu)形成一個(gè)統(tǒng)一的架構(gòu)體系,制定相應(yīng)的技術(shù)標(biāo)準(zhǔn),通過這個(gè)標(biāo)準(zhǔn)來規(guī)范應(yīng)用系統(tǒng)的開發(fā),形成完整的、規(guī)范的、統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)體系,為大數(shù)據(jù)應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。
4.4 成立相應(yīng)的機(jī)構(gòu)來負(fù)責(zé)這項(xiàng)工作的完成
對(duì)于這項(xiàng)工作的開展,應(yīng)在軟件工程相應(yīng)的有關(guān)組織下,建立一個(gè)專門的機(jī)構(gòu),負(fù)責(zé)指導(dǎo)這項(xiàng)工作的完成。由這個(gè)機(jī)構(gòu)成立專門的實(shí)驗(yàn)室,負(fù)責(zé)整體架構(gòu)的制定,數(shù)據(jù)類型項(xiàng)的搜集、分類、篩選,并形成統(tǒng)一的數(shù)據(jù)庫體系,為所有的應(yīng)用系統(tǒng)的開發(fā)提供數(shù)據(jù)庫基礎(chǔ)支撐和服務(wù)。
綜上所述,通過對(duì)基礎(chǔ)數(shù)結(jié)構(gòu)的研究與體系的建立,從根本上解決大數(shù)據(jù)應(yīng)用的效率,充分發(fā)揮未來大數(shù)據(jù)的作用,簡(jiǎn)化大數(shù)據(jù)應(yīng)用的方式與過程。
參考文獻(xiàn)
[1]嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(04).
[2]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國(guó)科學(xué):信息科學(xué),2015(01).
[3]方璐.大數(shù)據(jù)時(shí)代的科學(xué)研究方法[J].浙江工業(yè)大學(xué),2014.
電子科技類中文核心期刊推薦《電子科技》創(chuàng)刊于1987年,月刊,每月15日出版。主要刊登高等院校、科研院所、電子行業(yè)企事業(yè)單位等科研機(jī)構(gòu)在電子技術(shù)應(yīng)用、通信工程、計(jì)算機(jī)科學(xué)技術(shù)與應(yīng)用、網(wǎng)絡(luò)安全及信息、光電子材料等領(lǐng)域最新的學(xué)術(shù)、技術(shù)論文、工程技術(shù)應(yīng)用研究、教學(xué)實(shí)踐總結(jié)、行業(yè)綜述等稿件。該刊秉承嚴(yán)謹(jǐn)辦刊的態(tài)度以保證期刊的嚴(yán)肅性、學(xué)術(shù)性。依托西安電子科技大學(xué)在信息與通信工程、電子科學(xué)與技術(shù)、計(jì)算機(jī)科學(xué)等領(lǐng)域的優(yōu)勢(shì)。
轉(zhuǎn)載請(qǐng)注明來自:http://www.jinnzone.com/dianzijishulw/55219.html