迷你倉SAS數據倉庫方法論自存倉



  • 迷你倉SAS數據倉庫方法論自存倉

    2009-12-12 11:03:38 - 儲存

    mini storage

    A. 快速建庫方法論瀏覽
    一個企業在開發和實施數據倉庫時,使用一個高效和經驗證的方法論是關鍵的,這一點已是十分清楚的了。考慮到這一點,多年來SAS研究、發展和改進了經驗證的實施數據倉庫的方法論,我們稱之為快速建庫方法論。本文件的這一節將描述這個方法論。

    1.什麼是數據倉庫?
    一個數據倉庫通常是一個分散的數據存儲,在其中信息是存為這樣的一種形式,它適合於業務智能化和決策支持系統。數據可能是以不同形式存儲的,它並不影響OLTP系統的運作。
    數據倉庫的建立是用一種循環的逐步完善的過程而不是一步完善的。數據倉庫通常是與解決企業不斷改變的組織問題的全過程有關。
    數據倉庫通常是圍繞主題建立的。主題就是企業感興趣的論題,比如部門、活動和操作結果。數據倉庫的結構是由數據倉庫應滿足的應用決定的。快速提交信息是成功實施數據倉庫的關鍵。由於這一點,就引入了像數據集市和信息集市這些概念。數據集市是數據倉庫的一個子集,它通常更為概括,以滿足對關心數據的查詢有比數據倉庫本身更快的速度。信息集市存儲可用視窗器(viewer)顯示的預處理的信息。

    在信息集市中常包含以下幾類信息:

    報告輸出(打印的文本、圖形等)
    多媒體介質 (錄像和錄音)內容的記錄
    電子錶單
    2.建立數據倉庫的業務理由
    數據倉庫為管理者和業務用戶提供真正決策支持的基礎。企業為這些業務用戶存儲了多年的信息,但是數據倉庫提供專為他們設計的有構架的信息。數據倉庫實施的最初階段往往要解決現成的業務問題(即較為被動的),而以後的實施常是更為主動的。數據倉庫的一個強項是它支持對數據的隨時需要的查詢和進行未計劃的數據探索的需要。就是說,數據倉庫給業務用戶以不同方法分析數據的能力和自由度,而不受預先設定的一組報告的限制。

    3.建立數據倉庫的技術理由
    建立數據倉庫最共同的技術理由是企業現用的信息技術結構不能滿意地滿足業務需要。過去,信息技術集中於運作系統,它保證業務過程運行所必須的任務的自動化。但是,運作系統一般不能很好地滿足決策支持的需要。一個運作系統典型的有多個事務處理(transaction)的應用構成,每個應用使部門的一個過程和功能自動化。在運作系統中,每個事務和每一分鐘的業務細節都記錄在與事務應用關聯的數據庫中。
    事務系統的設計要考慮將部門運作需要的細節信息有效地進入系統。有效性的要求導致應用開發者實現高度規範的數據和在存檔發生之前就必須決定作為應用的一部分有多少數據可存儲。雖然運作系統對日常業務活的支持是非常有效的,但他們對於運用常規的軟件技術支持報表製作、決策和行政信息系統並不是很好的。他們的側重點是在數據的存儲,很少提供訪問數據和將數據變為有用決策信息的工具。
    運作系統和數據倉庫是完全不同的。內容是不同的,結構是不同的,硬件和軟件的需求是不同的,管理是不同的和用戶是不同的。數據倉庫的存儲是設計得能提供決策支持信息的。它由業務應用數據來構建,但數據要先經過提取,再進行過濾、校驗並組織到反映單位需要的主題中去。
    數據倉庫的數據是經過一段時間的收集,並用於比較、趨勢分析和預測的。

    若用運作系統存儲的數據做決策支持,將會遇到以下的一些問題:

    決策要求對歷史數據進行比較、趨勢分析和預測。這些信息通常在運作系統中是無法得到的。
    數據必須從運作數據存區中提取。隨著時間推移,這些提取也增長和擴大。數據的可靠性、有效性和通用性都是無法確定的,因為創建各種分析需要的復本時已生成了原始數據源的多個復本和多個不同水平的數據子集。
    在運作系統中的數據是按一個特殊的活動而格式化的,它並不考慮單位決策的需要。從多個運作數據庫中得到的數據需要提取和處理,這使得很難顧及單位的要求。為了作出可靠的業務決策或者回答簡單的業務問題,分析工作者必須花費大量的時間從不同的數據源中局部化或整合有關的信息。
    運作系統是經常更新的。當數據經常改變時,就難於對企業的問題作出一致的回答。而回答的經常改變會混淆決策過程。
    運作系統對大量細小的事務進行優化。常常一個查詢導致另一個查詢。業務用戶活動的重複本質以及處理大量數據的需要與運作數據庫的設計、目的是衝突的。
    很多企業試圖用訪問數據和提取數據的軟件工具從運作系統獲得決策支持的數據,有成功的也有不成功的。無論如何,即便使用這些工具,運作系統和決策支持設計固有的矛盾總是存在的。數據倉庫按其定義消除了上述的問題。事實上,這些問題幫助我們確定數據倉庫的技術特徵。

    4.數據倉庫的技術特徵
    數據倉庫的技術特徵如下:

    數據倉庫的數據不是多變的。這意味著不同人員對同一信息的需求將獲得相同的回答。這也意味著在您分析的過程中數據不會改變。 數據倉庫的數據裝載是適時和可用於預測的。
    數據倉庫反映企業機構組織的需要。數據倉庫的構件是直接反映您們單位的主題。這些主題規定得可滿足企業的需要而不管運作系統的要求。
    數據倉庫是整合的。所有業務系統的有價值信息都要整合到數據倉庫的主題中去。多個業務數據源數據的差別應該在裝載到數據倉庫之前進行協調。
    數據倉庫提供企業的歷史回顧。多年的數據常以匯總的方式加以存儲。與此對照的,典型的業務應用只存儲一個較短時段的數據。
    數據倉庫對查詢功能是優化的。優化通常需要對數據預匯總,預索引和預取子集。將數據分隔和組合為許多可能的組合(分片和切塊)的能力和有效地反覆查詢大量數據的能力是數據倉庫的基本要求。
    最後,數據倉庫必須與分析工具項匹配。裝載和維護數據倉庫只是過程的一部分。一個數據倉庫只有具備了輔助的決策支持工具時才是完善的,這一決策支持工具應反映和利用數據倉庫的結構。
    5.確認業務需要和數據倉庫的目標
    如同已經看到的,使用數據倉庫技術有清楚的技術理由。但是,清晰地設定數據倉庫要實現的業務需要和用以評價數據倉庫成功的標準這兩者同樣是十分重要的。在大部分情形,數據倉庫是為業務部門建立的。所以數據倉庫的成功依賴於對業務部門需求的瞭解。由於這一點,由業務部門確定數據倉庫的內容是必須的。
    SAS快速建庫方法論也提供問卷和過程,它幫助企業確定數據倉庫內容和構架。它也幫助企業確定評價準則和清楚地界定數據倉庫項目。清楚地明白企業的需要和目標也將幫助說明數據倉庫項目與企業的關係以及數據倉庫的作用和企業成功的關係。


    6.關鍵成功因素
    除了對企業的業務需求和數據倉庫目的有一個清晰的瞭解外,還需要採取下列步驟確保數據倉庫項目滿足這些需要和目標:

    選擇公司可能的最高人員負責數據倉庫項目。他對項目成功負有全職。組成包括業務決策者和IT專家的跨部門項目組。數據倉庫成功的一個關鍵是業務專家和IT專家的密切合作,它將保證數據倉庫項目的各個方面都被顧及到。
    獲取項目成功所需要的資源投資的承諾。
    項目擁有權的一致意見。
    項目評價標準的一致意見。
    確保業務部門與IT部門一致地為項目成功進行努力。
    選擇可以提供數據倉庫完整解決方案的可靠和有能力的夥伴。
    若實施一個企業的數據倉庫,應該在完成第一循環或項目的模塊後,讓單位的其他成員知道其成功。若這一循環正確地實現了,其成功應該讓有關的每個人員清楚地看到,因為它是可見的且直接關係到企業的目標。回到列舉企業任務和處理的清單並從新確定其優先程度。再選擇擴展數據倉庫的下一個項目。
    B. SAS快速建立數據倉庫方法論的細節
    數據倉庫建立的過程一直還是比較新的,還缺少實踐經驗,並不為IT業界廣泛瞭解。此外,數據倉庫常是這樣的一個項目,它與單位的許多部門交叉,要求額外的計劃,交流和管理。在這些情況下,最好汲取其它方面的經驗並遵循一個合理、經驗證的方法論。
    至此,SAS研究所開發的SAS快速建庫方法論幫助企業開發一個高質量數據倉庫,它可以在預算的範圍內按時地滿足甚至超過用戶的需要和期望。它提供一個檢驗數據倉庫開發和實施是否成功的測試框架。它是基於SAS研究所的咨詢專家、合作夥伴和用戶的最佳實踐和經驗教訓,這些專家成功地實施了數據倉庫。這一方法論提供了經驗證的建庫框架,包括過程、問卷、工作表單和模板。若企業自己開發這些,將是耗時和難於管理的。運用SAS的快速建庫方法論,在實施數據倉庫的往復循環的各階段會快速地遞交結果,使得在一個很短的時間段內達到一個可量化的結果。方***是運用快速應用開發和SAS系統原型技術的一個分段式的處理。這是一個整合的,業務驅動的處理:各用戶部門在實施的各階段都有重要的輸入,為報告和分析目的而逐步但快速增長地使用數據倉庫,對此IT部門應當有準備。
    SAS系統提供的工具(例智能化的客戶機/服務器,多廠商構架等)可以幫助企業實現一個靈活和低風險的處理。相對於數據倉庫對企業的潛在回報,過程的每一步的投入(過程資源、開發人員和工作人員等)是非常低的。

    使得SAS快速建庫方法論成功的三個主要因素是:

    業務或用戶的關注;
    細緻的收集用戶需求和項目界定的研討會;
    使用快速應用開發(RAD)處理。
    這些特點在下一節討論。

    1.業務驅動
    SAS 快速建庫的方法論是一個高度地以業務為驅動的過程:

    瞭解數據倉庫的需要和將從數據倉庫中獲益的業務管理者必須參加。
    業務用戶都是項目組的成員。使用有用的技術收集、建立文檔和改善關於項目參加者需求的信息。
    度量項目業務得益的信息應在項目的早期階段就加以收集。
    重點是放在評估由數據倉庫得到的業務效益和投資回報。
    2.收集需求的研討會
    研討會確立像目標、範圍和優先這樣一些項目的高水平要素。這些是重要的,因為數據倉庫項目要影響許多不同的業務領域,這些領域會有不同的優先程度。研討會也可以縮短完成項目所需要的時間,因為它使人們聚集在一起,可減少個別交談收集信息的反覆次數。

    3.快速應用開發 (RAD)
    一個 RAD循環是對SAS 快速建庫方法論本質的一個寫照,因為需要盡快第看到他們努力的結果。快速應用開發基於反覆發展的循環。即將一個大項目分為小項目,或"構件",在此每個構件服務於單個操作單元或功能區域的信息需要。每個構件是一個功能的可管理的單元,是易於理解和可以快速向企業顯示價值的。
    運用 RAD 可以使項目開發組為企業用戶設定項目的優先,為每個構件設定主題以及為每個子項目清楚地劃定範圍。當每個局部任務完成後,會提出和明確進一步的需求。
    循環式的處理有如下的好處:

    有利於應用維護。
    改進適應需求改變的能力。
    減小無法管理項目的風險。
    及早提供用戶的反饋。
    及早提交用戶的可度量的好處。
    提交高質量的解決方案。
    及早提供結果。
    C.方法論的框架
    SAS快速建庫的方法論典型地分為概括如下的6步。這些步驟提供工作的邏輯分段和檢驗項目是否建立在一個堅實的基礎上。評估、需求調查和總結階段著眼於確認、理解和回顧項目目標和單位的目標。設計、構建和部署階段基於使用RAD 手段設計、開發和配置數據倉庫環境。以下的流程圖提供了方法論各個階段的一個總貌和流程。

    SAS 快速建庫方法論的各個階段在以下各節描述。

    1.評估階段
    在評估階段,對影響要求解決方案的用戶的現有情況和條件進行瞭解。瞭解的目的是分析用戶的問題和解決它的辦法。最初的評估要確認和澄清目標,確認為澄清目標所做的研究的任何需要,這一評估將導致建議開始、延遲或取消這個項目。確定初始階段項目組的成員和項目範圍、作用和主要的提交結果。

    2.需求調查階段
    在需求調查階段,項目組收集業務和IT方面的高水平要求。對部門目標和信息需求的信息進行收集。本階段的結果為提交一個報告,這個報告識別業務的目的、意義、信息要求和用戶界面。這些需求也將用於數據倉庫設計和項目的其它階段。而且,這個階段完成企業級的主題數據模型和數據倉庫主題的選取。與收集業務需求的同時,IT需求的調研也同步地進行。並對主題驅動數據倉庫的IT要求進行分析。

    3.設計階段
    在選取主題方面,項目組集中於收集詳細的信息要求和設計數據倉庫構架,包括數據,過程和應用模型。在這一階段,使用各種信息收集和驗證的手段,包括數據建模、過程建模、座談和原型展示。項目組評價技術構架,業務需求和信息需求。現有IT構架和要求的IT構架之間的差別是突出的,建議採用合適的數據倉庫設計和構架。

    4.構建階段
    在構建階段,包括構建物理的數據倉庫並組裝,應用和處理的編碼以及驗收測試。在這一階段數據倉庫的管理者和終端用戶的指導者應熟悉應用。當測試成功完成後,數據倉庫就交付用戶使用和維護。

    5.部署階段
    在部署階段,數據倉庫展示給其他業務用戶並開始進行使用應用的訓練。在部署後,數據倉庫管理者維護數據倉庫。對提出的意見進行必要的修改。

    6.總結階段
    在總結階段,對項目的成功及其對企業的作用進行評價。總結分三步進行。第一步總結早期項目實施成功和失敗的經驗和公佈以後努力的結果。第二步是應用配置是否如期望的實現了,如有必要須調整計劃。第三步評估項目對單位的影響和得益。

     

    storage

Log in to reply