您好,登錄后才能下訂單哦!
這篇文章給大家介紹如何進行Kettle的數(shù)據(jù)同步,內(nèi)容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
之前的業(yè)務需求是實現(xiàn)數(shù)據(jù)的增量同步,具體描述為:新增數(shù)據(jù)插入,變化數(shù)據(jù)更新,我使用輸出中的插入更新即可。
現(xiàn)在業(yè)務提出新的需求:除前面描述外,還要實現(xiàn)源表數(shù)據(jù)刪除時,目標表數(shù)據(jù)同樣刪除。
雖然我極其不推薦這樣做,原因有三:
(1)數(shù)據(jù)庫不應該真正存在delete操作,如果確實要刪除一條數(shù)據(jù)的話,理論上應該在數(shù)據(jù)庫中設置標志位,執(zhí)行update,不向前端業(yè)務顯示,但數(shù)據(jù)仍存在數(shù)據(jù)庫中,便于追溯和回退;
(2)ETL實現(xiàn)刪除數(shù)據(jù)的操作,一旦出現(xiàn)問題,很難查找和解釋原因,容易出現(xiàn)互相扯皮和推諉現(xiàn)象;
(3)我需要重新開發(fā)ETL。雖然個人難以接受,奈何業(yè)務需求是天,我也得硬著頭皮去完成,之后可能發(fā)生的事情,只能“走一步看一步”,聽天由命了。記錄關鍵過程如下:
1.轉(zhuǎn)換的核心對象共4個,包括2個輸入、1個合并記錄和1個數(shù)據(jù)同步
【表輸入在輸入中找:合并記錄在鏈接中;數(shù)據(jù)同步在輸出中】分別設置源數(shù)據(jù)和目標數(shù)據(jù),其中記錄數(shù)量限制為0就是全部同步。
2.合并記錄設置,要注意舊數(shù)據(jù)源是要同步的數(shù)據(jù),也就是目標數(shù)據(jù);新數(shù)據(jù)是來源數(shù)據(jù),也就是被同步的數(shù)據(jù)。標志字段隨便起名即可(要符合命名規(guī)范)。匹配的關鍵字段最好是主鍵(唯一值勉強也行),數(shù)據(jù)字段是要同步的列(注意,一定要包括關鍵字段,否則目標數(shù)據(jù)該列就是空值,千萬注意?。。?。如下圖:
3.合并完成后,標志字段的值有4種,分別是:
“Identical” : 關鍵字段在新舊數(shù)據(jù)源中都存在,且域值相同
“changed” : 關鍵字段在新舊數(shù)據(jù)源中都存在,但域值不同
“new” : 舊數(shù)據(jù)源中沒有找到該關鍵字段
“deleted”: 新數(shù)據(jù)源中沒有找到關鍵字段
則數(shù)據(jù)同步的配置需要注意以下幾點:
(1) 不論是查詢的關鍵字,還是更新字段,都要把標志字段去掉(注意,去掉標志字段!);其他字段根據(jù)業(yè)務需求,進行設置;
(2) 高級標簽中的規(guī)則要定義好,否則會報“It was not possible to find operation field [null] in the input stream!”錯誤。
4.根據(jù)需要是定時操作,還是手工操作,如果定時的話,重新建個作業(yè),設定開始相關的配置即可。
另外需要強調(diào)一下,如果源數(shù)據(jù)和目標數(shù)據(jù)字段不一樣的話,來源數(shù)據(jù)可以用as來改變列名,并一定注意名稱和列順序一致。
關于如何進行Kettle的數(shù)據(jù)同步就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。