監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關閉

概念解析:數(shù)據(jù)倉庫與數(shù)據(jù)集市

申請免費試用、咨詢電話:400-8352-114

來源:泛普軟件

數(shù)據(jù)倉庫

20世紀80年代中期,“數(shù)據(jù)倉庫之父”Wiliam H.Inmon先生認為:數(shù)據(jù)倉庫(Data Warehouse)是在企業(yè)管理和決策中面向主題的(Subject Oriented)、集成的(Integrate)、與時間相關的(Time Variant)、但信息本身又相對穩(wěn)定的(Non-Volatile)數(shù)據(jù)集合。與其他數(shù)據(jù)庫應用不同的是,數(shù)據(jù)倉庫更像一種過程,是對分布在企業(yè)內部各處業(yè)務數(shù)據(jù)的整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。

數(shù)據(jù)集市可稱作“小數(shù)據(jù)倉庫”,是用來分析相關專門業(yè)務問題或功能目標而做的專項數(shù)據(jù)集合。它建立在具有統(tǒng)一數(shù)據(jù)存儲模型的數(shù)據(jù)倉庫下,各級業(yè)務人員按照各部門特定的需求把數(shù)據(jù)進行復制、處理、加工,并最終統(tǒng)一展現(xiàn)為有部門特點的數(shù)據(jù)集合。

1 數(shù)據(jù)倉庫的體系結構

Ralph Kimball和Bill Inmon一直是商業(yè)智能領域中的革新者,開發(fā)并測試了新的技術和體系結構。Kimball和Inmon同意組織需要一個與遺留系統(tǒng)和OLTP系統(tǒng)分開的數(shù)據(jù)倉庫,以捕獲組織的有關信息并使之可用。數(shù)據(jù)倉庫中的數(shù)據(jù)應該是凈化的、一致的,并且不受其來源的遺留系統(tǒng)和OLTP系統(tǒng)設計的牽制。在開始第一個數(shù)據(jù)集市之前,他們還同意用針對整個體系結構的思想重復構建數(shù)據(jù)倉庫。

Bill Inmon將數(shù)據(jù)倉庫定義為“一個面向主題的、集成的、隨時間變化的、非易變的用于支持管理的決策過程的數(shù)據(jù)集合”。Inmon通過“面向主題”表示應該圍繞主題來組織數(shù)據(jù)倉庫中的數(shù)據(jù),每個主題區(qū)域僅僅包含與該主題相關的信息。數(shù)據(jù)倉庫應該一次增加一個主題,并且當需要容易地訪問多個主題時,應該創(chuàng)建以數(shù)據(jù)倉庫為來源的數(shù)據(jù)集市。

Ralph Kimball說“數(shù)據(jù)倉庫僅僅是構成它的數(shù)據(jù)集市的聯(lián)合”。他認為“可以通過一系列維數(shù)相同的數(shù)據(jù)集市遞增地構建數(shù)據(jù)倉庫”,通過使用“一致的”維,能夠共同看到不同數(shù)據(jù)集市中的信息,這表示它們擁有公共定義的元素。Kimbal的方法將提供集成的數(shù)據(jù)來回答組織迫切的業(yè)務問題并且要快于Inmon的方法。Inmon的方法是只有在構建幾個單主題區(qū)域之后,集中式的數(shù)據(jù)倉庫才創(chuàng)建數(shù)據(jù)集市,而Kimbal認為該方法缺乏靈活性,并且在現(xiàn)在的商業(yè)環(huán)境中所花時間太長。

實際上,方法的選擇取決于項目的主要商業(yè)驅動。如果該組織正忍受糟糕的數(shù)據(jù)管理和不一致的數(shù)據(jù),那么Inmon的方法就更好一些;如果該組織迫切需要給用戶提供信息,那么Kimbal的方法將滿足該需求。數(shù)據(jù)倉庫將使數(shù)據(jù)集市與遺留系統(tǒng)和OLTP系統(tǒng)隔離,并且支持更快地創(chuàng)建將來的數(shù)據(jù)集市。

遺憾的是,個別部門經(jīng)常濫用Kimball的方法,并將之作為脫離集中控制而構建他們自己數(shù)據(jù)集市的借口。當試圖跨集市訪問數(shù)據(jù)以獲取聯(lián)合視圖時,這將造成嚴重問題,而集中式信息體系結構將避免這一點。

2 數(shù)據(jù)倉庫的構建

對于數(shù)據(jù)倉庫的概念,我們可以從兩個層次予以理解:首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構數(shù)據(jù)源的有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。

根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下4個特點:

(1)面向主題的。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)按照一定的主題域進行組織。

(2)集成的。面向事務處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關,數(shù)據(jù)庫之間相互獨立,并且往往是異構的;而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內的信息是關于整個企業(yè)一致的全局信息。

(3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進人數(shù)據(jù)倉庫以后,一般情況下將被長期保留。

(4)反映歷史變化。操作型數(shù)據(jù)庫主要關心當前某一個時間段內的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢作出定量分析和預測。

企業(yè)數(shù)據(jù)倉庫的建設是以現(xiàn)有企業(yè)業(yè)務系統(tǒng)和業(yè)務數(shù)據(jù)的積累為基礎。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業(yè)務經(jīng)營的決策,信息才能發(fā)揮作用,而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數(shù)據(jù)倉庫的根本任務。

整個數(shù)據(jù)倉庫系統(tǒng)是一個包含4個層次的體系結構,具體結構見圖1。

圖1 數(shù)據(jù)倉庫系統(tǒng)結構圖

數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎,是整個系統(tǒng)的數(shù)據(jù)源泉,通常包括企業(yè)內部信息和外部信息。內部信息包括存放于RDBMS中的各種業(yè)務處理數(shù)據(jù)和各類文檔數(shù)據(jù);外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等。

數(shù)據(jù)的存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。

OLAP服務器:對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。

前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應用開發(fā)工具。

3 數(shù)據(jù)倉庫平臺的評測指標

目前,專門針對數(shù)據(jù)倉庫平臺的評測指標,主要是由TPC組織開發(fā)的TPC-D。TPC是交易處理委員會(Transaction Processing Performance Council)的英文縮寫,是一個國際性的組織.專門負責為各種開放平臺在不同類型的應用制訂一個統(tǒng)一、公正的測試標準。

對于數(shù)據(jù)倉庫系統(tǒng),TPC-D主要考慮三方面的數(shù)據(jù)需要:

QppD:是Query Processing Power D的縮寫,D表示這個結果是按照TPC-D標準測得的(下同),這個數(shù)據(jù)描述了系統(tǒng)的查詢處理能力。

QthD:是Query Throughput D的縮寫,即流量測試結果,描述了系統(tǒng)在多個用戶同時進行查詢時的處理能力。

QphD:是Query Price-Performance的縮寫,即性能價格比。

顯然,前面兩個指標的數(shù)據(jù)越大越好,而最后一個則越小越好。TPC-D的測試是在不同的數(shù)據(jù)庫級別上進行,主要可供參考的是100Gb,300Gb,1000Gb和3000Gb 4個級別上的測試結果。

發(fā)布:2007-04-24 14:27    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
相關文章:
南寧OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普南寧OA快博其他應用

南寧OA軟件 南寧OA新聞動態(tài) 南寧OA信息化 南寧OA快博 南寧OA行業(yè)資訊 南寧軟件開發(fā)公司 南寧門禁系統(tǒng) 南寧物業(yè)管理軟件 南寧倉庫管理軟件 南寧餐飲管理軟件 南寧網(wǎng)站建設公司