一、 業務背景
數據倉庫的概念在二十世紀七十年代到八十年代形成,在理論層面上基本認同了以下的觀點:應當把那些新出現的、 不可以預知的、但又大量存在的分析型的負載從業務處理系統中剝離出來,采用專門的體系架構和設計來進行處理,這些理論創新引起了數據倉庫的誕生。
企業數據倉庫是企業單一的、中央的數據倉庫,集中存儲企業最小粒度的詳細數據,跨越企業所有的業務和功能領域。通過把所有數據收集并整合到單一的數據庫中,提供單一的視圖,提供跨部門、跨業務的分析能力,增強基于數據進行決策的能力。換言之,數據倉庫是銀行的決策分析信息平臺,它就仿佛人的大腦:一是擁有記憶,記錄銀行的各種歷史數據;二是包羅萬象,記錄銀行的各種明細數據;三是會思考,可以業務規則和業務邏輯進行決策分析。換言之,它就是銀行的智能中心。
數據倉庫在中國銀行業的實踐經歷了概念期的盲目認知階段, 難以見效的懷疑階段之后,如今逐漸回歸到了一個理性階段。
銘峻科技分析認為: 傳統的數據倉庫設計指導思想—“數據為王”是一種技術化的思路, 容易把數據倉庫的建設重點放在基礎軟硬件設計、基礎數據模型設計、 ETL 技術等, 而忽略了對應用效果的考慮。 中國銀行業目前基于數據倉庫的大部分應用還是以統計為主, 而對于分析和挖掘的需求僅限于來自于國外理念的信用卡業務和風險管理技術; 因此,同樣來自于國外理念的數據倉庫技術在面對國內的統計需求時, 容易出現“需求與模型錯配”, 增加數據加工的路徑和復雜度,影響數據的時效性和準確性。
基于此,銘峻科技認為, “應用為王、數據為本” 才是符合中國銀行業實際情況的數據倉庫建設的合理化方向。 其基本思路是:數據模型主題的設計、數據集市范圍的確定、數據標準的制定、數據管理的流程、數據加工的策略等關鍵任務均以應用為核心,避免僅從數據角度建模。同時, 也不能完全直接引入國外所謂的業務建模,因為從管理的角度看,中國本土文化決定了國內銀行業的管理理念和方法很難與國外相同, 意味著國外的業務建模很難適應國內的應用需求。 從這個意義上看, 國內銀行管理需求業務建模才是國內數據倉庫建設的本質,亦即“應用為王” 。
二、整體架構
我們充分分析了銀行業務系統以及管理應用需求,設計了銀行數據倉庫的整體技術架構,如下圖所示:

在技術架構體系中一共包括如下內容:
元數據管理:能夠為數據倉庫提供血統分析、影響行分析、孤立性分析等;
數據質量管理:是數據倉庫之上建立一套自檢查體系, 數據質量的內容包括數據的完整性、 唯一性、有效性、準確性、 一致性和時效性等;
數據服務區:是數據倉庫的核心,包含著臨時區、 PDM 區以及匯總區, 匯總區是基于基礎層建立的為跨主題和跨源系統的共性需求提供經過輕度匯總的當前和歷史數據;
ETL 統一管理:由銘峻科技自主開發了強大的ETL 管理調度工具, 簡單易用,具有強大性能優勢,在業界已實踐多年;
數據實驗室:數據實驗室通過快速的加載和分析新的業務數據來實現敏捷的業務分析,還可以從倉庫中現有的數據進行加載分析,能夠快速的建立業務分析的原型;
我們根據國內外先進銀行多年的數據類應用實踐,經過歸納總結,可以得出數據倉庫在銀行業的主要應用領域和業務價值創造機會,主要包括以下幾類:客戶管理、運營和績效管理、財務管理、風險管理、信息管理。在每一個領域內,又可進行細分,以充分發揮數據倉庫業務價值。如下圖所示:

基于上述理念,我們提出了典型的銀行數據分析類應用架構。

對于上述應用主題的集市建設,應遵循下列設計原則:
堅持需求驅動:數據倉庫是發展方向,也是新技術,前提是在引入該應用時,要有清醒的認識,時機要合適,規模要適當;
避免貪大求全:不要認為數據倉庫實現的功能無所不有,結果造成投入與期望不符。一方面,技術人員要為將來的使用人員如實地描畫未來數據倉庫的功能,另一方面,使用人員在提供自己需求時,能夠更客觀、實用、具體。把無關緊要的數據都放到數據倉庫中,容易導致過于龐大的數據庫響應緩慢、難于維護;
平臺環境適當:根據數據倉庫的特點,在計劃配臵方面,與 OLTP 應用環境是不同的。其特點是數據存儲的需求量大.其中不但包括大量的各級綜合數據及索引數據,還應當考慮更多的臨時空間用于排序操作和數據匯總;
確保數據質量:數據的抽取、轉換和裝載( ETL)是數據倉庫建設中一項非常重要而繁瑣的工作,在系統實施過程中需要由專人負責。
三、方案特點
落實數據標準。通過數據標準在數據倉庫中落地,全面加快客戶、產品、協議、交易、財務、資產等主題的基礎分析數據標準的推廣工作,進一步推動數據標準在全行業務層面和重要IT 系統中的落地,逐步實現數據標準的統一。
實現集中共享。通過實施數據倉庫,真正實現核心、信貸、資金、總賬等系統信息的物理和邏輯集中,同時對進入倉庫的數據按照標準規則進行清洗,并根據數據倉庫主題進行加載存儲,為海量數據計算及復雜模型處理提供強大的技術平臺,實現銀行數據的全面邏輯集中。數據是全行的資產,數據共享是實現數據最大化應用的前提好保障。
提升五大應用。 通過數據倉庫建設,全面提升銀行五大業務主題的應用,包括:客戶關系管理、風險管理、財務和績效管理、資產負債管理及監管合規等。
支持高層決策。通過數據倉庫建設,有效管理快速增長的數據,支持并基于管理駕駛艙系統,全面、及時、準確的展現總分行重要的運行狀況與趨勢,為高層管理決策提供支持。
削減手工報表。 在進一步統一和規范銀行重要報表工作流程的基礎上,數據倉庫重點提升和推廣開放數據服務和固定報表系統,將數據倉庫系統逐步滲透到日常工作的每個環節,最大限度減少手工報表。
挖掘數據價值。推動和引導業務人員開展即席查詢、組合分析、數據挖掘等商業智能應用,在保證數據安全的前提下,挖掘數據價值,提升銀行核心競爭力