企業數據集成是將不同來源的數據整合在一個數據庫中的過程,即異構數據之間的同步。將不同種類,不同版本的數據庫、文件、Mail等之間進行同步。由于不同的數據源定義屬性時命名規則不同,存入的數據格式、取值方式、單位都會有不同。因此即便兩個值代表的業務意義相同,也不代表存在數據庫中的值就是相同的。因此需要數據入庫前進行集成,去冗余,保證數據質量。數據集成可以認為是ETL(BI上的定義為:抽取——轉換——清洗——過濾——加載);但更強調自動化過程管理。
在實現機制上,應包括常見的集成模式:Split/Merge/Route/PS等;另外還應該具備建模(元數據管理)和治理(Governace)功能。
數據集成有什么意義呢?
數據集成意義主要是實現數據中心,例如企業級SID;或者遺留系統在數據層面的集成。在建立全局SID的基礎上,可以構建很多有意義的東西:例如Portal/CMS,報表,數據搜索,挖掘等等,這些可以概括地稱為BI,即商業智能。
因此,數據集成有兩個層面的意義:
1)操作層面
2)分析層面
數據集成的實現步驟:
1.界定數據交互的項別與內容,如:PDM系統和ERP系統之間的BOM數據;
2.指定數據交互周期,一天一次,還是一周一次;
3.選擇交互方式,通過數據庫,還是中間件技術來交互;
4.由ODS數據交互調度程序實現數據上載或是由外圍系統自行實現數據下載,從而實現數據的集成。
數據集成會出現的問題:
1.數據重復
檢查數據重復一般需要通過主要關鍵詞,最好對主要關鍵詞進行優化,過濾重復數據。在數據結構盡量調研每個字段的含義,拆分或整合。重復數據入庫,不僅會給日后的數據關聯造成極大的影響,也會影響數據分析與挖掘的效果,應盡量避免。
2.數據沖突
數據沖突就是兩個數據源中同樣的數據,但是取值記錄的不一樣。造成這種情況除了有人工誤入,還有可能是因為貨幣計量的方法不同,匯率不同,稅收水平不同、評分體系不同等等原因。
對待數據沖突問題,就需要對實際的業務知識有一定的理解。同時,對數據進行調研,盡量明確造成沖突的原因。如果數據的沖突實在無法避免,就要考慮沖突數據是否都要保留、是否要進行取舍,如何取舍等。
審核編輯 黃昊宇
-
數據庫
+關注
關注
7文章
3848瀏覽量
64689 -
ETL
+關注
關注
0文章
20瀏覽量
9421 -
數據集成
+關注
關注
0文章
53瀏覽量
9237
發布評論請先 登錄
相關推薦
評論