數倉建模全流程?
1.模型建立的過程
其實就是一個業務模型——gt概念模型——gt邏輯模型——gt物理模型的過程。讓讓我們詳細解釋在每個建模階段應該做些什么。
業務建模(需求溝通)
根據業務部門的劃分,明確部門之間的關系,然后規劃各部門的具體業務,與業務部門協商需求指標、存儲年限、維度等。
總的來說,就是知道自己需要什么指標,能提供什么數據。
業務建模耗時最長,與公司實際業務環境密切相關,需要根據實際生產環境和業務需求來確認數據倉庫使用的工具和平臺。
主要解決業務層面的分解和程序化。明確系統邊界,確定學科領域。
一個
一個
所以業務建模階段其實就是一個業務與業務人員梳理的過程。在這個過程中,不僅可以幫助我們的技術人員更好地了解業務,另一方面也可以發現業務流程中一些不合理的環節,并加以改進。
概念建模|領域建模(繪制并思考如何做)
抽象出業務模型,將相似的概念分組合并,提煉概念,抽象出實體之間的關系,明確各組概念之間的關系。
說白了就是繪圖,把指標需要的哪些數據封裝成一個實體,實體之間的關聯用ER圖表示。
先畫一個局部ER圖,再綜合畫一個全局ER圖。
主要是抽象業務模型,生成領域概念模型。
一個
一個
在原始數據庫的基礎上,建立相對穩定和完善的模型。由于數據倉庫是對原有數據庫系統中的數據進行整合和重組而形成的數據集,所以數據倉庫的概念模型設計首先要對原有數據庫系統進行分析和理解,看看原有數據庫系統中有什么,如何組織,如何分布,然后再考慮如何建立數據倉庫系統的概念模型。
數據倉庫的概念模型是為整個企業建立的,它為集成來自各種面向應用的數據庫的數據提供了統一的概念視圖。
概念模型是在更高的抽象層次上設計的,因此在建立概念模型時不必考慮具體技術條件的限制。
領域概念建模是使用實體建模的方法,從復雜的業務表示背后抽象出實體、事件、描述等抽象實體,從而找出業務表示后抽象實體之間的相互關聯,根據數據模型保證我們的數據倉庫數據的一致性和相關性。
邏輯建模(表格設計)
物化概念模型,具體考慮概念對應的屬性,考慮事件的事實屬性,考慮維度的維度屬性。
總的來說就是建表,前面已經畫了關系圖。這里,只考慮表中有哪些字段,如果是事實表,就考慮事實字段和業務。主鍵,如果是維度表,考慮維度屬性,SCD策略等等。您需要在這里確定數據的粒度。如果多個指標使用一個字段,則選擇粒度最小的指標。如果指標的度量不確定,則以毫秒級作為粒度。
物理建模(表格構建)
綜合現實的大數據平臺、采集工具、
怎樣才能成為數學建模工程師?
1.有扎實的數學基礎,接受過嚴格的科學思維訓練,初步掌握數學科學的思維方法;
2.具有應用數學知識解決實際問題的能力,特別是建立數學模型的初步能力,了解某一應用領域的基礎知識;
3.具備快速數學建模能力,對三維場景建模有一定了解,能夠完成數學公式的計算和推導;
4.熟練使用計算機(包括常用語言、工具和一些數學軟件),并具有編寫簡單應用程序的能力;
5、了解國家科技等相關政策法規;
6.了解數學科學的一些新發展和應用前景;
7.具有較強的語言表達能力,掌握信息查詢、文獻檢索和運用現代信息技術獲取相關信息的基本方法,具有一定的科研和教學能力。