精品人妻无码一区二区三区软件 ,麻豆亚洲AV成人无码久久精品,成人欧美一区二区三区视频,免费av毛片不卡无码

您現(xiàn)在的位置是:首頁計算機信息管理論文

淺析對數(shù)據(jù)倉庫的研究

發(fā)布時間:2011-03-23 11:55:09更新時間:2011-03-23 11:56:09 1

淺析對數(shù)據(jù)倉庫的研究
趙磊
數(shù)據(jù)倉庫為商務運作提供結(jié)構(gòu)與工具,以便系統(tǒng)地組織、理解和使用數(shù)據(jù)進行決策。大量組織機構(gòu)已經(jīng)發(fā)現(xiàn),在當今這個充滿競爭、快速發(fā)展的世界,數(shù)據(jù)倉庫是一個有價值的工具。在過去的幾年中,許多公司已花費數(shù)百萬美元,建立企業(yè)范圍的數(shù)據(jù)倉庫。許多人感到,隨著工業(yè)競爭的加劇,數(shù)據(jù)倉庫成了必備的最新營銷武器——通過更多地了解客戶需求而保住客戶的途徑。 計算機信息管理論文,計算機論文,發(fā)表計算機論文網(wǎng),計算機論文
數(shù)據(jù)倉庫已被多種方式定義,使得很難嚴格地定義它。寬松地講,數(shù)據(jù)倉庫是一個數(shù)據(jù)庫,它與組織機構(gòu)的操作數(shù)據(jù)庫分別維護。數(shù)據(jù)倉庫系統(tǒng)允許將各種應用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持。
按照W. H. Inmon,一位數(shù)據(jù)倉庫系統(tǒng)構(gòu)造方面的領頭建筑師的說法,“數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理決策制定”。這個簡短、全面的定義指出了數(shù)據(jù)倉庫的主要特征。四個關鍵詞,面向主題的、集成的、時變的、非易失的,將數(shù)據(jù)倉庫與其它數(shù)據(jù)存儲系統(tǒng)(如,關系數(shù)據(jù)庫系統(tǒng)、事務處理系統(tǒng)、和文件系統(tǒng))相區(qū)別。讓我們進一步看看這些關鍵特征。
(1)、 面向主題的:數(shù)據(jù)倉庫圍繞一些主題,如顧客、供應商、產(chǎn)品和銷售組織。數(shù)據(jù)倉庫關注決策者的數(shù)據(jù)建模與分析,而不是構(gòu)造組織機構(gòu)的日常操作和事務處理。因此,數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
(2)、集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源,如關系數(shù)據(jù)庫、一般文件和聯(lián)機事務處理記錄,集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量的一致性等。
(3)、時變的:數(shù)據(jù)存儲從歷史的角度(例如,過去5-10 年)提供信息。數(shù)據(jù)倉庫中的關鍵結(jié)構(gòu),隱式或顯式地包含時間元素。
(4)、 非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);這些數(shù)據(jù)源于操作環(huán)境下的應用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務處理、恢復和并行控制機制。通常,它只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
概言之,數(shù)據(jù)倉庫是一種語義上一致的數(shù)據(jù)存儲,它充當決策支持數(shù)據(jù)模型的物理實現(xiàn),并存放企業(yè)決策所需信息。數(shù)據(jù)倉庫也常常被看作一種體系結(jié)構(gòu),通過將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)造,支持結(jié)構(gòu)化和啟發(fā)式查詢、分析報告和決策制定。
什么是建立數(shù)據(jù)倉庫(data warehousing)?”
根據(jù)上面的討論,我們把建立數(shù)據(jù)倉庫看作構(gòu)造和使用數(shù)據(jù)倉庫的過程。數(shù)據(jù)倉庫的構(gòu)造需要數(shù)據(jù)集成、數(shù)據(jù)清理、和數(shù)據(jù)統(tǒng)一。利用數(shù)據(jù)倉庫常常需要一些決策支持技術(shù)。這使得“知識工人”(例如,經(jīng)理、分析人員和主管)能夠使用數(shù)據(jù)倉庫,快捷、方便地得到數(shù)據(jù)的總體視圖,根據(jù)數(shù)據(jù)倉庫中的信息做出準確的決策。有些作者使用術(shù)語“建立數(shù)據(jù)倉庫”表示構(gòu)造數(shù)據(jù)倉庫的過程,而用術(shù)語“倉庫DBMS”表示管理和使用數(shù)據(jù)倉庫。我們將不區(qū)分二者。
“組織機構(gòu)如何使用數(shù)據(jù)倉庫中的信息?”許多組織機構(gòu)正在使用這些信息支持商務決策活動,包括:
(1)、增加顧客關注,包括分析顧客購買模式(如,喜愛買什么、購買時間、預算周期、消費習慣);
(2)、根據(jù)季度、年、地區(qū)的營銷情況比較,重新配置產(chǎn)品和管理投資,調(diào)整生產(chǎn)策略;
(3)、分析運作和查找利潤源;
(4)、管理顧客關系、進行環(huán)境調(diào)整、管理合股人的資產(chǎn)開銷。
從異種數(shù)據(jù)庫集成的角度看,數(shù)據(jù)倉庫也是十分有用的。許多組織收集了形形色色數(shù)據(jù),并由多個異種的、自治的、分布的數(shù)據(jù)源維護大型數(shù)據(jù)庫。集成這些數(shù)據(jù),并提供簡便、有效的訪問是非常希望的,并且也是一種挑戰(zhàn)。數(shù)據(jù)庫工業(yè)界和研究界都正朝著實現(xiàn)這一目標竭盡全力。
對于異種數(shù)據(jù)庫的集成,傳統(tǒng)的數(shù)據(jù)庫做法是:在多個異種數(shù)據(jù)庫上,建立一個包裝程序和一個集成程序(或仲裁程序)。這方面的例子包括IBM 的數(shù)據(jù)連接程序 (Data Joiner) 和Informix的數(shù)據(jù)刀(DataBlade)。當一個查詢提交客戶站點,首先使用元數(shù)據(jù)字典對查詢進行轉(zhuǎn)換,將它轉(zhuǎn)換成相應異種站點上的查詢。然后,將這些查詢映射和發(fā)送到局部查詢處理器。由不同站點返回的結(jié)果被集成為全局回答。這種查詢驅(qū)動的方法需要復雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源。這種方法是低效的,并且對于頻繁的查詢,特別是需要聚集操作的查詢,開銷很大。
對于異種數(shù)據(jù)庫集成的傳統(tǒng)方法,數(shù)據(jù)倉庫提供了一個有趣的替代方案。數(shù)據(jù)倉庫使用更新驅(qū)動的方法,而不是查詢驅(qū)動的方法。這種方法將來自多個異種源的信息預先集成,并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析。與聯(lián)機事務處理數(shù)據(jù)庫不同,數(shù)據(jù)倉庫不包含最近的信息。然而,數(shù)據(jù)倉庫為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被拷貝、預處理、集成、注釋、匯總,并重新組織到一個語義一致的數(shù)據(jù)存儲中。在數(shù)據(jù)倉庫中進行的查詢處理并不影響在局部源上進行的處理。此外,數(shù)據(jù)倉庫存儲并集成歷史信息,支持復雜的多維查詢。這樣,建立數(shù)據(jù)倉庫在工業(yè)界已非常流行。
1. 操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別
由于大多數(shù)人都熟悉商品關系數(shù)據(jù)庫系統(tǒng),將數(shù)據(jù)倉庫與之比較,就容易理解什么是數(shù)據(jù)倉庫。
聯(lián)機操作數(shù)據(jù)庫系統(tǒng)的主要任務是執(zhí)行聯(lián)機事務和查詢處理。這種系統(tǒng)稱為聯(lián)機事務處理(OLTP)系統(tǒng)。它們涵蓋了一個組織的大部分日常操作,如購買、庫存、制造、銀行、工資、注冊、記帳等。另一方面,數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或“知識工人”提供服務。這種系統(tǒng)可以用不同的格式組織和提供數(shù)據(jù),以便滿足不同用戶的形形色色需求。這種系統(tǒng)稱為聯(lián)機分析處理(OLAP)系統(tǒng)。
OLTP 和OLAP 的主要區(qū)別概述如下。
(1)、用戶和系統(tǒng)的面向性:OLTP 是面向顧客的,用于辦事員、客戶、和信息技術(shù)專業(yè)人員的事務和查詢處理。OLAP 是面向市場的,用于知識工人(包括經(jīng)理、主管、和分析人員)的數(shù)據(jù)分析。
(2)、 數(shù)據(jù)內(nèi)容:OLTP 系統(tǒng)管理當前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,難以方便地用于決策。OLAP 系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制,并在不同的粒度級別上存儲和管理信息。這些特點使得數(shù)據(jù)容易用于見多識廣的決策。
(3)、數(shù)據(jù)庫設計:通常,OLTP 系統(tǒng)采用實體-聯(lián)系(ER)模型和面向應用的數(shù)據(jù)庫設計。而OLAP 系統(tǒng)通常采用星形或雪花模型和面向主題的數(shù)據(jù)庫設計。
(4)、 視圖:OLTP 系統(tǒng)主要關注一個企業(yè)或部門內(nèi)部的當前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù)。相比之下,由于組織的變化,OLAP 系統(tǒng)常?缭綌(shù)據(jù)庫模式的多個版本。OLAP 系統(tǒng)也處理來自不同組織的信息,由多個數(shù)據(jù)存儲集成的信息。由于數(shù)據(jù)量巨大,OLAP 數(shù)據(jù)也存放在多個存儲介質(zhì)上。
(5)、訪問模式:OLTP 系統(tǒng)的訪問主要由短的、原子事務組成。這種系統(tǒng)需要并行控制和恢復機制。然而,對OLAP 系統(tǒng)的訪問大部分是只讀操作(由于大部分數(shù)據(jù)倉庫存放歷史數(shù)據(jù),而不是當前數(shù)據(jù)),盡管許多可能是復雜的查詢。
OLTP 和OLAP 的其它區(qū)別包括數(shù)據(jù)庫大小、操作的頻繁程度、性能度量等。
2. 但是,為什么需要一個分離的數(shù)據(jù)倉庫
“既然操作數(shù)據(jù)庫存放了大量數(shù)據(jù)”,你注意到,“為什么不直接在這種數(shù)據(jù)庫上進行聯(lián)機分析處理,而是另外花費時間和資源去構(gòu)造一個分離的數(shù)據(jù)倉庫?”
分離的主要原因是提高兩個系統(tǒng)的性能。操作數(shù)據(jù)庫是為已知的任務和負載設計的,如使用主關鍵字索引和散列,檢索特定的記錄,和優(yōu)化“罐裝的”查詢。另一方面,數(shù)據(jù)倉庫的查詢通常是復雜的,涉及大量數(shù)據(jù)在匯總級的計算,可能需要特殊的數(shù)據(jù)組織、存取方法和基于多維視圖的實現(xiàn)方法。在操作數(shù)據(jù)庫上處理OLAP 查詢,可能會大大降低操作任務的性能。
此外,操作數(shù)據(jù)庫支持多事務的并行處理,需要加鎖和日志等并行控制和恢復機制,以確保一致性和事務的強健性。通常,OLAP 查詢只需要對數(shù)據(jù)記錄進行只讀訪問,以進行匯總和聚集。如果將并行控制和恢復機制用于這種OLAP 操作,就會危害并行事務的運行,從而大大降低OLTP 系統(tǒng)的吞吐量。
最后,數(shù)據(jù)倉庫與操作數(shù)據(jù)庫分離是由于這兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。決策支持需要歷史數(shù)據(jù),而操作數(shù)據(jù)庫一般不維護歷史數(shù)據(jù)。在這種情況下,操作數(shù)據(jù)庫中的數(shù)據(jù)盡管很豐富,但對于決策,常常還是遠遠不夠的。決策支持需要將來自異種源的數(shù)據(jù)統(tǒng)一(如,聚集和匯總),產(chǎn)生高質(zhì)量的、純凈的和集成的數(shù)據(jù)。相比之下,操作數(shù)據(jù)庫只維護詳細的原始數(shù)據(jù)(如事務),這些數(shù)據(jù)在進行分析之前需要統(tǒng)一。由于兩個系統(tǒng)提供很不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護分離的數(shù)據(jù)庫。

 


作者簡介:
趙磊,男,漢族,24歲,四川省西充縣人,西華大學2004級數(shù)學計算機科學學院。信息與計算機科學專業(yè).
 


轉(zhuǎn)載請注明來自:http://www.jinnzone.com/jisuanjixinxiguanlilw/8131.html