共享數據平臺&主數據平臺
在DataV數據之路文章連載第一篇關于數據倉庫基礎概念介紹的文章中,我們提到數據倉庫的理論自始至終貫穿了數據技術的整個發展脈絡。在教育信息化領域中,數據倉庫的落地和演變過程也很有既視感。
啟蒙階段:共享數據平臺
在2000年-2010年(粗略估計,不要抬杠),教育信息化整體處于啟蒙階段,被廣泛認可的建設方針是“硬件集群、數據集成、應用集中”,在這樣的指導方針下,教育信息化軟件誕生了三大平臺“共享數據平臺、身份認證平臺、信息門戶平臺”,一直到現在,三大平臺的理論基礎依然存在。根據軟文的主旨,這三大平臺當中,我們只聊聊共享數據平臺。
高校共享數據平臺作為三大平臺之一主要有以下定位:
目標作用:打通數據孤島、實現數據共享。
核心技術:ETL、ESB。
建設效果:基本實現了教職工、學生以及身份信息的集中存儲,實現身份數據的共享和同步。基本實現了統一數據標準(落地強的高校),但絕大多數落地場景只完成了學號、工號、組織架構編碼等基礎校標的制定。先后形成了兩個版本的教育信息化國標版本,在高校初步形成了“數據倉庫明細表”的模型。
主要采用的工具:Oracle或IBM的數據倉庫構建工具,例如OWB(OracleWareHouse Builder),數據集成工具例如ODI(OracleData Integrator)、應用集成工具例如OSB(OracleService Bus)。
主要遇到的問題:
A、很多高校都會提出為什么要落地、冗余存儲一份共享數據?因為當年的存儲計算資源賊貴,而共享庫中間要落地一次數據導致數據交換延遲,還造成存儲冗余帶來額外的開銷。一般的可接受的回答是:按照2002年第一版試行的教育部《教育信息化行業標準》要求,對上可以用于數據上報,對中可以屏蔽業務源頭數據的結構變化(例如更換了系統),對下可以實現標準數據下發、訂閱,冗余本身也是數據倉庫的核心理念。
B、哪些數據應該作為共享數據?對于“共享”二字沒有標準,甚至沒有理論依據,所有數據共享按需分配,每個學校90%以上的共享都是人員基礎信息,而大量的業務數據在共享數據平臺中并沒有得到共享,究其原因主要還是當時高校信息化還停留在“面向管理”的階段,更多的割裂式閉環管理,對共享和交換的訴求并沒有那么強烈,所以共享數據只是一個圖騰,無法用現實刻畫。這時數據倉庫的ODS層的理念被派上了用場,共享庫被定義為ODS,業務數據都應該存進來,這個理由也基本上模糊了啥是共享數據的問題,總之基本上被接受了。
C、增量及變化數據同步如何處理?在“共享數據平臺”時期,各個廠商都會遇到“準實時”、“增量及變化數據同步”的場景,最典型的就是基本信息(Oracle數據庫居多)與統一身份認證(LDAP數據存儲居多)之間的同步問題,總之八仙過海各顯神通,例如借助Oracle數據庫minus函數,通過一張臨時基本信息表用于比對變化,短周期內實現數據同步等等,但基本都會依托數據庫自身的能力,很難形成“完美”的解決方案。針對這個問題,還是數據倉庫理論特性出來救場,T+1,完美的闡述了共享數據庫就是一個自帶延遲的體系。

在共享數據平臺建設的階段,迪塔維公司的創始人和核心骨干都參與其中,印象最深刻的是復旦大學共享數據平臺,學校先后在DB2和Oracle之間做了多次的驗證切換,核心的共享交換工具從OWB到ESB最后到ODI,逐步形成了教育信息化共享數據平臺的建設標準。記得我當時也參與了教育部標準制定的意見收集,復旦大學依托自身多年的共享數據建設經驗,為教育部2012年《教育信息化行業標準》提供了多個業務域的數據模型建設標準,成為當時的高校信息化建設的引路人。
發展階段:主數據平臺
以上是最早的高校數據中心建設方案的介紹,在共享數據平臺之后,出現了主數據平臺的概念,我就不再詳細展開介紹了,因為主數據平臺和共享數據平臺之間的區別只有兩點:
由虛到實:給共享數據下了一個定義,解決了什么數據是共享數據的問題,稱之為主數據。其實主數據是有標準定義的,也是數據倉庫中的一個概念,準確且通俗的來說,主數據就是各個業務系統之間交集的合集。明白了吧?說穿了還是需要共享的數據的合集,還是按需定義。
由分到合:主數據合并了信息標準、元數據、數據共享訂閱等共享數據平臺階段產生的各個分散的子模塊,變成了一個完整的數據資源管理平臺,簡稱主數據平臺。

所以,主數據平臺與共享數據平臺對比,并沒有質的突破,只是版本功能升級。高校信息化數據建設的真正突破和爆發是在2015年前后,隨著Hadoop架構和大數據相關技術基本成熟,逐漸開始了快速的架構和技術升級,迎來了一波大的突破,具體情況我們在下一期的軟文中繼續為您介紹。
作者:王珂
