溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

ETL架構(gòu)中的子系統(tǒng)有哪些

發(fā)布時(shí)間:2021-11-09 16:39:37 來(lái)源:億速云 閱讀:123 作者:iii 欄目:關(guān)系型數(shù)據(jù)庫(kù)

這篇文章主要講解了“ETL架構(gòu)中的子系統(tǒng)有哪些”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“ETL架構(gòu)中的子系統(tǒng)有哪些”吧!

三個(gè)簡(jiǎn)單的字母,E-T-L,很容易的讓大家忽視了38個(gè)ETL子系統(tǒng)在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中的重要性。

抽取-轉(zhuǎn)換-加載(ETL)系統(tǒng),或者非正式的稱為“后臺(tái)系統(tǒng)”,在建立整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中占據(jù)了70%的工作量和時(shí)間。但是這還不足以說(shuō)明ETL系統(tǒng)的復(fù)雜性。每個(gè)人都理解這三個(gè)字母的含義,E,從源系統(tǒng)中將數(shù)據(jù)取出來(lái);T,對(duì)這些數(shù)據(jù)做處理;L,加載到最終用戶訪問(wèn)的表中。

但是當(dāng)我們問(wèn)及如何來(lái)分解這三大步驟時(shí),很多設(shè)計(jì)人員都會(huì)說(shuō),“具體問(wèn)題,具體分析”。例如,這依賴于不同的數(shù)據(jù)源;這依賴于數(shù)據(jù)的特性;這依賴于腳本語(yǔ)言以及可以使用的ETL工具的情況;這依賴于員工的技術(shù)能力;這還依賴于最終用戶使用的查詢和報(bào)表工具。

“具體情況,具體分析”是一個(gè)很危險(xiǎn)的事情,因?yàn)樗苋菀追Q為系統(tǒng)混亂的一個(gè)借口。伴隨著幾千個(gè)成功數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的經(jīng)歷,我們整理出了一系列的最佳實(shí)踐。

最近的18個(gè)月,我們一直在鉆研ETL的實(shí)踐和ETL的產(chǎn)品。我們標(biāo)識(shí)出了在每一個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的后臺(tái)部分都會(huì)涉及到的38個(gè)子系統(tǒng)。壞消息是ETL系統(tǒng)確實(shí)占據(jù)了數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的大部分資源。好消息是如果你能掌握所有的這些子系統(tǒng),你就可以很容易的使用你的經(jīng)歷來(lái)建立成功的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。

1.抽取系統(tǒng)(Extract System)

主要功能包括源數(shù)據(jù)的適配器,推/拖/搬運(yùn)數(shù)據(jù)的工作調(diào)度,對(duì)源數(shù)據(jù)的過(guò)濾和排序功能,數(shù)據(jù)格式的轉(zhuǎn)換,遷移到ETL環(huán)境后的數(shù)據(jù)暫存功能。

2.變化數(shù)據(jù)捕獲系統(tǒng)(Change Data Capture System)

主要功能包括對(duì)源數(shù)據(jù)日志文件的閱讀功能,源數(shù)據(jù)日期和序列號(hào)的過(guò)濾功能,基于CRC算法的記錄比較功能。

3.數(shù)據(jù)概況分析系統(tǒng)(Data Profiling System)

主要功能包括字段屬性分析,如參照域的分析;結(jié)構(gòu)分析,如主外鍵關(guān)系分析;數(shù)據(jù)規(guī)則分析;值規(guī)則分析等。

4.數(shù)據(jù)清洗系統(tǒng)(Data Cleansing System)

主要功能包括一個(gè)典型的數(shù)據(jù)字典驅(qū)動(dòng)的系統(tǒng),用于解析個(gè)體和組織的名稱、地址等信息,也用來(lái)解析產(chǎn)品、場(chǎng)所等內(nèi)容;一個(gè)“De-duplication”系統(tǒng),用于鑒別和移除個(gè)體和組織信息,也用于產(chǎn)品和場(chǎng)所;一個(gè)“Surviving”系統(tǒng),使用特定的數(shù)據(jù)合并邏輯,用來(lái)保存特定數(shù)據(jù)源的指定字段,這個(gè)特定數(shù)據(jù)源的數(shù)據(jù)將成為數(shù)據(jù)倉(cāng)庫(kù)的最終版本;為所有的數(shù)據(jù)源維護(hù)后臺(tái)數(shù)據(jù)的對(duì)應(yīng)關(guān)系,如自然鍵和代理鍵對(duì)應(yīng)關(guān)系等內(nèi)容。

5.數(shù)據(jù)一致性處理系統(tǒng)(Data Conformer System)

主要功能包括標(biāo)識(shí)和生成專用的一致性維度屬性、一致性事實(shí)的度量屬性,這兩組屬性作為數(shù)據(jù)整合工作的基礎(chǔ),用來(lái)支持跨多個(gè)數(shù)據(jù)源的數(shù)據(jù)集成工作。

6.審計(jì)維度生成系統(tǒng)(Audit Dimension Assembler System)

主要功能是將與事實(shí)表相關(guān)的元數(shù)據(jù)內(nèi)容加載到一張審計(jì)維度表中,這樣最終用戶可以像查看普通維度一樣查看與事實(shí)表相關(guān)的元數(shù)據(jù)。

7.數(shù)據(jù)質(zhì)量過(guò)濾系統(tǒng)(Quality Screen Handler System)

主要功能是在ETL的處理過(guò)程中自動(dòng)的檢測(cè)所有的數(shù)據(jù)質(zhì)量問(wèn)題。檢測(cè)的結(jié)果將進(jìn)入錯(cuò)誤事件處理系統(tǒng)(詳見(jiàn)子系統(tǒng)8)。

8.錯(cuò)誤事件處理系統(tǒng)(Error Event Hander System)

主要功能是全面的記錄和報(bào)告在ETL處理中的所有的錯(cuò)誤事件。包括各類錯(cuò)誤的分枝處理邏輯,還包括對(duì)ETL處理中數(shù)據(jù)質(zhì)量的實(shí)時(shí)監(jiān)控。

9.代理鍵生成系統(tǒng)(Surrogate Key Create System)

主要功能是以一種魯棒的機(jī)制生成流水的代理鍵,生成規(guī)則不依賴與任何維度,也不依賴與任何數(shù)據(jù)庫(kù)實(shí)例,可以支持分布式系統(tǒng)。

10.緩慢變化維處理系統(tǒng)(Slowly Changing Dimension Processor,SCD)

主要功能是處理維度表的屬性隨時(shí)間變化的情況,處理方式為:類型1(直接覆蓋),類型2(生成新行),類型3(添加新列)。

11.遲到維度處理系統(tǒng)(Late Arriving Dimension Handler)

主要功能是當(dāng)維度數(shù)據(jù)的變化情況到達(dá)數(shù)據(jù)準(zhǔn)備區(qū)的時(shí)間晚于對(duì)應(yīng)的事實(shí)數(shù)據(jù)時(shí),對(duì)維度數(shù)據(jù)的插入和更新策略。

12.固定層級(jí)結(jié)構(gòu)生成系統(tǒng)(Fixed Hierarchy Dimension Builder)

主要功能是對(duì)維度表中各類多對(duì)一關(guān)系的層級(jí)結(jié)構(gòu)進(jìn)行數(shù)據(jù)有效性檢查和維護(hù)。

13.可變層級(jí)結(jié)構(gòu)生成系統(tǒng)(Variable Hierarchy Dimension Builder)

主要功能是對(duì)維度表中所有的層深可變的層級(jí)結(jié)構(gòu)的的數(shù)據(jù)有效性檢查和維度,例如組織的層級(jí)結(jié)構(gòu),零件的層級(jí)結(jié)構(gòu)等。

14.多值維度橋接表生成系統(tǒng)(Multivalued Dimension Bridge Table Builder)

主要功能是建立和維護(hù)橋接表,用來(lái)描述維度間的多對(duì)多關(guān)系。

15.雜項(xiàng)維度生成系統(tǒng)(Junk Dimension Builder)

主要功能是將來(lái)自多個(gè)數(shù)據(jù)源的多個(gè)低基數(shù)的標(biāo)志字段、狀態(tài)字段等小型維度建立成一個(gè)雜項(xiàng)維度,并對(duì)之進(jìn)行維護(hù)。

16.交易粒度事實(shí)表加載系統(tǒng)(Transaction grain fact table loader)

主要功能是更新交易粒度事實(shí)表,包括對(duì)數(shù)據(jù)、索引和分區(qū)的處理。通常是用來(lái)處理增量數(shù)據(jù),即最新的數(shù)據(jù)。需要使用代理鍵替換管道系統(tǒng)(詳見(jiàn)子系統(tǒng)19)。

17.周期快照事實(shí)表加載系統(tǒng)(Periodic snapshot grain fact table loader)

主要功能是更新周期快照事實(shí)表,包括對(duì)數(shù)據(jù)、索引和分區(qū)的處理。包括對(duì)當(dāng)期數(shù)據(jù)的增量更新策略。需要使用代理鍵替換管道系統(tǒng)(詳見(jiàn)子系統(tǒng)19)。

18.累計(jì)快照事實(shí)表加載系統(tǒng)(Accumulating snapshot grain fact table loader)

主要功能是更新累積快照事實(shí)表,包括對(duì)數(shù)據(jù)、索引和分區(qū)的處理,同時(shí)更新維度外鍵和累積事實(shí)。需要使用代理鍵替換管道系統(tǒng)(詳見(jiàn)子系統(tǒng)19)。

19.代理鍵替換管道系統(tǒng)(Surrogate key pipeline)

主要功能是使用多線程技術(shù)將來(lái)到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的自然鍵替換為代理鍵。

20.遲到事實(shí)處理系統(tǒng)(Late arriving fact handler)

主要功能是處理對(duì)遲到事實(shí)記錄的插入和更新策略。

21. 聚合生成系統(tǒng)(Aggregate builder)

主要功能是創(chuàng)建和維護(hù)數(shù)據(jù)庫(kù)物理結(jié)構(gòu),比如說(shuō)聚合表,用于和 query-rewrite 技術(shù)配合使用,以提高數(shù)據(jù)庫(kù)查詢性能。也包括獨(dú)立的聚合表和物化表。

22. 多維cube生成系統(tǒng)(Multidimensional cube builder)

主要功能是創(chuàng)建和維護(hù)星型架構(gòu)用于裝載多維cube,包括cube技術(shù)的一些專有工作,比如維度層次結(jié)構(gòu)的維護(hù)。

23. 實(shí)時(shí)分區(qū)生成系統(tǒng)(Real-time partition builder)

三種事實(shí)表類型(參照子系統(tǒng)16,17,18)的特殊邏輯在內(nèi)存中維護(hù)著一個(gè)“熱分區(qū)”,它只包含最近一次已經(jīng)統(tǒng)計(jì)到數(shù)據(jù)倉(cāng)庫(kù)表中以后的部分增量數(shù)據(jù)。

24. 維度管理子系統(tǒng)(Dimension manager system)

顧名思義,它是一個(gè)管理維度表的系統(tǒng)。它負(fù)責(zé)從集中存放維度表和事實(shí)表之間的維度一致性,請(qǐng)參照子系統(tǒng)25。

25.事實(shí)管理系統(tǒng)(Fact table provider system)

對(duì)應(yīng)于維度表管理系統(tǒng),它是一個(gè)事實(shí)表的管理系統(tǒng),它接收從維度管理系統(tǒng)發(fā)過(guò)來(lái)的一致性維度。包括本地鍵替換,維度版本檢查,和聚合表等維護(hù)系列工作。

26.任務(wù)調(diào)度系統(tǒng)(Job scheduler)

它負(fù)責(zé)ETL任務(wù)的安排和啟動(dòng)。它能夠等待各種系統(tǒng)條件包括對(duì)優(yōu)先級(jí)高的任務(wù)完成的依賴。能夠針對(duì)異常情況發(fā)送警告。

27.工作流程監(jiān)視系統(tǒng)(Workflow monitor)

它的主要功能是有控制臺(tái)和報(bào)表系統(tǒng)用以監(jiān)控ETL任務(wù)被任務(wù)調(diào)度系統(tǒng)啟動(dòng)以后的執(zhí)行狀況。包括處理的記錄條數(shù),錯(cuò)誤摘要,和執(zhí)行的活動(dòng)。

28.恢復(fù)和重做系統(tǒng)(Recovery and restart system)

當(dāng)任務(wù)執(zhí)行過(guò)程中任務(wù)暫停后的重新啟動(dòng),或者是恢復(fù)到任務(wù)執(zhí)行前的狀態(tài)重新執(zhí)行。這個(gè)子系統(tǒng)嚴(yán)重依賴于備份子系統(tǒng)(參考子系統(tǒng)38)。

29.并行處理和管道處理系統(tǒng)(Parallelizing/pipelining system)

它的主要功能是利用多處理器,網(wǎng)格計(jì)算資源以提高性能,和實(shí)現(xiàn)數(shù)據(jù)流處理。當(dāng)不是寫(xiě)硬盤(pán)操作或者是執(zhí)行過(guò)程中等待一個(gè)條件的發(fā)生的ETL的情況,是有必要采用并行化和管道化的。

30.異常放大系統(tǒng)(Problem escalation system)

它的主要功能是負(fù)責(zé)在一定的條件下提高錯(cuò)誤的級(jí)別以跟蹤和解決問(wèn)題。包括簡(jiǎn)單錯(cuò)誤日志記錄,操作者通知,管理員通知和系統(tǒng)開(kāi)發(fā)人員通知。

31.版本控制系統(tǒng)(Version control system)

使得元數(shù)據(jù)的歸檔能夠有堅(jiān)固的快照功能,可以查閱某一時(shí)刻改變前后的狀態(tài)。能夠遷入和遷出所有ETL模塊和任務(wù)。源代碼對(duì)比功能以快速展示改變前后的不同。

32.版本移植系統(tǒng)(Version migration system)

讓程序可以在開(kāi)發(fā)環(huán)境,測(cè)試環(huán)境,正式環(huán)境快速切換。版本控制系統(tǒng)的用于恢復(fù)移植的一個(gè)接口,也是配置完整數(shù)據(jù)庫(kù)連接信息的一個(gè)接口。使得代理鍵生成不依賴于數(shù)據(jù)庫(kù)的位置。

33.體系和依賴分析系統(tǒng)(Lineage and dependency analyzer)

對(duì)任何選中的數(shù)據(jù)組件,都要展示它的物理數(shù)據(jù)源和所有的后來(lái)的轉(zhuǎn)換,不管是選中ETL管道中間的組件,或者是選中最終的數(shù)據(jù)結(jié)果,都一樣展示。對(duì)任何選中的數(shù)據(jù)組件,都要展示它的下游的數(shù)據(jù)組件和可能會(huì)造成改變的最終數(shù)據(jù)結(jié)果的字段結(jié)構(gòu),不管是選中ETL管道中間的組件,或者是選中數(shù)據(jù)源,都一樣展示。

34.符合規(guī)定報(bào)告系統(tǒng)(Compliance reporter)

符合規(guī)定的規(guī)則以證明系統(tǒng)報(bào)告的可信度。證明數(shù)據(jù)和轉(zhuǎn)換沒(méi)有改變。展示誰(shuí)訪問(wèn)過(guò)或者改變過(guò)任何數(shù)據(jù)。

35.安全控制系統(tǒng)(Security system)

在ETL的管道中,實(shí)現(xiàn)對(duì)所有數(shù)據(jù)和元數(shù)據(jù)基于角色的權(quán)限控制。證明模塊的版本沒(méi)有改變。展示誰(shuí)做過(guò)任何更改。

36.備份系統(tǒng)(Backup system)

對(duì)數(shù)據(jù)和元數(shù)據(jù)的備份,用于以后的數(shù)據(jù)的恢復(fù),重啟,安全,和符合規(guī)定的要求。

37.元數(shù)據(jù)管理系統(tǒng)(Metadata repository manager)

用于捕獲和維護(hù)所有ETL的元數(shù)據(jù)的系統(tǒng),包括所有轉(zhuǎn)換邏輯。包括處理元數(shù)據(jù),技術(shù)元數(shù)據(jù)和業(yè)務(wù)邏輯元數(shù)據(jù)。

38.項(xiàng)目管理系統(tǒng)(Project management system)

對(duì)所有ETL任務(wù)進(jìn)行開(kāi)發(fā)的跟蹤系統(tǒng)。

感謝各位的閱讀,以上就是“ETL架構(gòu)中的子系統(tǒng)有哪些”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)ETL架構(gòu)中的子系統(tǒng)有哪些這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

etl
AI