您好,登錄后才能下訂單哦!
這篇文章主要講解了“done文件的數(shù)據(jù)監(jiān)控問題有哪些”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“done文件的數(shù)據(jù)監(jiān)控問題有哪些”吧!
除了像Alibaba
的 Dataworks 外,很難有另外的公司能夠把數(shù)據(jù)調(diào)度,數(shù)據(jù)監(jiān)控,數(shù)據(jù)血緣,元數(shù)據(jù)管理等作為一體化的平臺了,包括我司在內(nèi)的一些廠,往往把這些建設(shè)獨立開來,由不同的團隊負責(zé),其中數(shù)據(jù)平臺調(diào)度功能是絕大多數(shù)公司都有的基礎(chǔ)平臺,但是調(diào)度的功能程度就各不同了,下面的問題當(dāng)作拋磚引玉,指出在生產(chǎn)環(huán)境中常遇到的問題,如果后續(xù)有產(chǎn)出,后面盡量開源一些代碼出來,貼到本博客最后面。
監(jiān)控從大的層面來說有兩種,一種是監(jiān)控用來攔截的,即有依賴的,一種只是用來報警和分析的。
由于依賴接入源較多,以下問題常有發(fā)生:
一般處理過程:花費時間30m+ 處理-延時問題→ 去易創(chuàng)上找依賴圖,確認是哪個上游產(chǎn)出表沒有產(chǎn)出->復(fù)制表名->去數(shù)據(jù)地圖里面找負責(zé)人->一般會拉群跟進-->等處理完-->同步或者不同步/關(guān)注方→同步產(chǎn)出好了
處理過程: 需要對最終的產(chǎn)出標(biāo)簽的分布等進行質(zhì)量監(jiān)控,暫時沒有->如果發(fā)現(xiàn)以后->復(fù)制表名->去數(shù)據(jù)地圖里面找負責(zé)人->一般會拉群跟進-->等處理完-->同步或者不同步/關(guān)注方→回溯數(shù)據(jù)->通知使用方數(shù)據(jù)問題
花費時間60m +數(shù)據(jù)質(zhì)量問題 (條數(shù),時間戳)→ 一般只有等標(biāo)簽使用方發(fā)現(xiàn)才能意識到->問題復(fù)現(xiàn)->復(fù)制表名->去數(shù)據(jù)地圖里面找負責(zé)人->一般會拉群跟進-->等處理完→同步或者不同步/關(guān)注方→同步產(chǎn)出好了
有一些例行的,必須在每天xx點產(chǎn)出的數(shù)據(jù),如果沒有生成好,就要人為去挨個找上游負責(zé)人去找問題,與1.1.3中的問題類似,都是要手動找上游。
基于以上問題,我們發(fā)現(xiàn)這些問題,都是監(jiān)控不完善,完善的監(jiān)控應(yīng)該是怎么樣的呢?
在已知問題內(nèi),只要給表或者數(shù)據(jù)的標(biāo)簽分布加了監(jiān)控,那么當(dāng)出現(xiàn)問題時候,可以自動通知到數(shù)據(jù)使用方,數(shù)據(jù)發(fā)布方,當(dāng)問題拋出來給某人以后,他可以選擇,將此次報警置為處理中,后續(xù)在xx時間內(nèi)處理好,如果處理不好繼續(xù)報警,但是報警范圍可能更大,比如給負責(zé)人經(jīng)理電話,郵件,短信,拉群艾特等。這樣有另外一個好處是數(shù)據(jù)的sla在一定程度上保證了,可以過后來查問題,或者在未來的“某些特殊場合”使用到。
需求如上,那么設(shè)計
監(jiān)控獨立于調(diào)度系統(tǒng),與調(diào)度系統(tǒng)唯一的交互是done文件,調(diào)度在done文件產(chǎn)出后才繼續(xù)執(zhí)行。
1.2.0 為什么基于done文件呢?
任務(wù)依賴,對于任務(wù)依賴來說,為了對數(shù)據(jù)源的質(zhì)量檢測,就要對每個任務(wù)進行配置任務(wù)檢測依賴,會有兩個問題,其一是任務(wù)檢測腳本會更分散,其二,檢測邏輯很多是類似的,也會造成腳本冗余
表依賴,檢測位置是表的分區(qū),那么當(dāng)數(shù)據(jù)質(zhì)量檢測通過后,生成一個表的分區(qū),最終就是類似 dt=xxxx/rule=check_t1_count.done 類似這樣 通過add partition 來添加
文件依賴,跟表依賴類似之處就是生成一個done文件,區(qū)別之處在于可以直接通過服務(wù)來調(diào)用生成done,較方便所以選文件依賴
1.2.1 done文件由一個唯一的表名+任務(wù)id.done組成
1.2.2 單點報警 + 多層處理報警,如果A表怎么樣,B表怎么樣,就報警給誰,具體有產(chǎn)出延時,失敗報警
感謝各位的閱讀,以上就是“done文件的數(shù)據(jù)監(jiān)控問題有哪些”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對done文件的數(shù)據(jù)監(jiān)控問題有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。