溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

太平洋保險(xiǎn)家園大數(shù)據(jù)項(xiàng)目DSG應(yīng)用(30多個(gè)Oracle等實(shí)時(shí)同步到KAFKA)

發(fā)布時(shí)間:2020-07-25 14:20:14 來(lái)源:網(wǎng)絡(luò) 閱讀:3026 作者:gulibin 欄目:大數(shù)據(jù)

太平洋保險(xiǎn)集團(tuán)
“家園項(xiàng)目”大數(shù)據(jù)平臺(tái)DSG應(yīng)用(oracle&kafka)

項(xiàng)目背景
根據(jù)太平洋保險(xiǎn)集團(tuán)的IT建設(shè)規(guī)劃,在2017年年底,需要完成“一個(gè)太保,共同的家園”項(xiàng)目(簡(jiǎn)稱(chēng)家園項(xiàng)目),旨在給客戶提供更加便攜、全面的服務(wù),通過(guò)一個(gè)家園平臺(tái),就能夠完成所有的服務(wù)。
眾所周知,太平洋保險(xiǎn)的業(yè)務(wù)范圍非常廣泛,囊括了產(chǎn)險(xiǎn)、壽險(xiǎn)、車(chē)險(xiǎn)等業(yè)務(wù),同時(shí),一個(gè)險(xiǎn)種又由多個(gè)系統(tǒng)共同提供服務(wù)。現(xiàn)在要在一個(gè)平臺(tái)上完成這些服務(wù),數(shù)據(jù)的匯聚、集中、轉(zhuǎn)換就成了整個(gè)項(xiàng)目的核心與難點(diǎn)。

項(xiàng)目需求
根據(jù)太保家園項(xiàng)目的最終目標(biāo),在一期建設(shè)中,需要將太平洋保險(xiǎn)集團(tuán)下屬的壽險(xiǎn),產(chǎn)險(xiǎn),車(chē)險(xiǎn)等30多個(gè)核心系統(tǒng)數(shù)據(jù),通過(guò)實(shí)時(shí)同步復(fù)制的方式,統(tǒng)一集中到大數(shù)據(jù)平臺(tái)。其中涉及數(shù)據(jù)的轉(zhuǎn)換,標(biāo)化,清洗,去重等一系列過(guò)程,具體需求如下:
1、 需要將核心數(shù)據(jù)從30多個(gè)系統(tǒng)同步到大數(shù)據(jù)平臺(tái)的kafka組件。
2、 確保數(shù)據(jù)復(fù)制的實(shí)時(shí)性(秒級(jí))和數(shù)據(jù)的準(zhǔn)確性
3、 復(fù)制的數(shù)據(jù)需要加上時(shí)間,操作類(lèi)型等標(biāo)簽,便于后端應(yīng)用識(shí)別
4、 以生產(chǎn)環(huán)境的dg庫(kù)作為數(shù)據(jù)的匯聚源端,減輕對(duì)生產(chǎn)庫(kù)的影響
5、 入kafka的數(shù)據(jù)格式可靈活配置,以便更好的適配后端應(yīng)用
6、 需要具備數(shù)據(jù)操作統(tǒng)計(jì)和數(shù)據(jù)比對(duì)功能,便于核對(duì)數(shù)據(jù)的準(zhǔn)確性

項(xiàng)目難點(diǎn)
在實(shí)現(xiàn)整個(gè)家園項(xiàng)目的數(shù)據(jù)匯聚中,根據(jù)項(xiàng)目需求和實(shí)際的生產(chǎn)環(huán)境情況,要完成整個(gè)數(shù)據(jù)同步,主要存在以下一些難點(diǎn):

  1. 涉及的業(yè)務(wù)系統(tǒng)眾多。據(jù)初步規(guī)劃,此平臺(tái)需要接入的核心生產(chǎn)系統(tǒng)有30多個(gè),既有oracle,也有mysql、db2等,每個(gè)系統(tǒng)的基礎(chǔ)平臺(tái)和數(shù)據(jù)格式千差萬(wàn)別,
  2. 數(shù)據(jù)量大。目前整個(gè)平臺(tái)需要的數(shù)據(jù)容量超過(guò)30T。并且源端業(yè)務(wù)系統(tǒng)是非常嚴(yán)格的7x24小時(shí)系統(tǒng),這就給初始化帶來(lái)很大的難度。
  3. 網(wǎng)絡(luò)帶寬資源有限。生產(chǎn)環(huán)境數(shù)據(jù)都在上海數(shù)據(jù)中心,大數(shù)據(jù)平臺(tái)在成都數(shù)據(jù)中心,中間的網(wǎng)絡(luò)帶寬是所有業(yè)務(wù)系統(tǒng)共用,因此不能過(guò)大占用帶寬資源。
  4. 業(yè)務(wù)量大。數(shù)據(jù)庫(kù)每天的歸檔量均在800G以上,參與復(fù)制的核心表,每秒鐘均有幾百上千筆業(yè)務(wù)。
  5. 延遲時(shí)間短。由于家園平臺(tái)需要給客戶提供實(shí)時(shí)的業(yè)務(wù)咨詢(xún)與辦理服務(wù),復(fù)制的延遲不能超過(guò)10S,否則,用戶的體驗(yàn)度大打折扣,違背家園項(xiàng)目建設(shè)的初衷。
  6. 數(shù)據(jù)準(zhǔn)確性要求高。家園平臺(tái)承載著所有的查詢(xún)、部分業(yè)務(wù)辦理,如果數(shù)據(jù)不準(zhǔn)確,必然引起業(yè)務(wù)邏輯混亂,無(wú)法為用戶提供服務(wù)等問(wèn)題。

    解決方案
    在此方案中,采用DSG SuperSync產(chǎn)品完成oracle到kafka的數(shù)據(jù)復(fù)制,方案架構(gòu)如上圖所示。在太保的系統(tǒng)架構(gòu)中,生產(chǎn)中心位于上海,災(zāi)備中心位于成都。所有核心系統(tǒng)在本地生產(chǎn)中心均建有一級(jí)DG庫(kù),在成都災(zāi)備中心建有二級(jí)DG庫(kù)。同時(shí),此次項(xiàng)目的大數(shù)據(jù)中心也位于成都災(zāi)備中心?;谶@種架構(gòu)考慮,把數(shù)據(jù)量較大的全量同步放在成都的二級(jí)DG庫(kù)上,這樣可以節(jié)省上海到成都的帶寬資源,同時(shí)提高同步效率。同時(shí)增量同步放在上海本地的一級(jí)DG庫(kù),以滿足實(shí)時(shí)同步的要求。
    太平洋保險(xiǎn)家園大數(shù)據(jù)項(xiàng)目DSG應(yīng)用(30多個(gè)Oracle等實(shí)時(shí)同步到KAFKA)

    方案優(yōu)勢(shì)
    該方案具有以下優(yōu)勢(shì):

  7. 從架構(gòu)層面,依賴(lài)于DSG產(chǎn)品對(duì)異構(gòu)平臺(tái)的完美支持,將全量數(shù)據(jù)同步到集群的hdfs,增量數(shù)據(jù)同步到kafka,很好地解決了兩個(gè)數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬資源有限的問(wèn)題。
  8. 為減輕生產(chǎn)庫(kù)的壓力,支持以生產(chǎn)庫(kù)的DG庫(kù)作為源端進(jìn)行數(shù)據(jù)復(fù)制
  9. 通過(guò)cjson模板,可高度自定義入kafka的數(shù)據(jù)格式
  10. 可自定義輸出數(shù)據(jù)內(nèi)容,針對(duì)采集的數(shù)據(jù)可進(jìn)行增刪改操作后,投遞到kafka中
  11. 數(shù)據(jù)可校驗(yàn)。投遞入kafka的數(shù)據(jù),操作數(shù)據(jù)會(huì)通過(guò)明細(xì),定時(shí)統(tǒng)計(jì),累計(jì)統(tǒng)計(jì)三個(gè)維度進(jìn)行記錄,并把該記錄定時(shí)存放在指定位置,例如數(shù)據(jù)庫(kù)中,hdfs中或者文件系統(tǒng)中,以便后續(xù)業(yè)務(wù)進(jìn)行數(shù)據(jù)操作的回查,實(shí)現(xiàn)數(shù)據(jù)校驗(yàn)的功能。
  12. DSG SuperSync軟件支持不同平臺(tái)上的Oracle數(shù)據(jù)庫(kù)之間的快速同步,包括首次數(shù)據(jù)同步和增量數(shù)據(jù)復(fù)制。DSG SuperSync采用完全邏輯的方式進(jìn)行數(shù)據(jù)同步,可以跨越不同平臺(tái);并且在數(shù)據(jù)同步過(guò)程中,采用了DSG獨(dú)有的XF1文件格式、數(shù)據(jù)流壓縮技術(shù)和快速數(shù)據(jù)抽取和裝載技術(shù)。在配置多個(gè)同步通道的情況下,可以快速將現(xiàn)有數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)同步到目標(biāo)數(shù)據(jù)庫(kù),并在其后將同步期間的增量數(shù)據(jù)一并復(fù)制到目標(biāo)數(shù)據(jù)庫(kù)實(shí)現(xiàn)數(shù)據(jù)追平。目前DSG SuperSync支持主流平臺(tái)(HP/IBM/SUN/Comppaq/PC)上的Oracle各版本(Oracle8i – 10g)之間的數(shù)據(jù)復(fù)制。
  13. DSG SuperSync產(chǎn)品的數(shù)據(jù)復(fù)制效率,在該領(lǐng)域中是最高的。在kafka的投遞端,可以采用多線程、多并發(fā)等方式進(jìn)行加速投遞,現(xiàn)場(chǎng)效率可以達(dá)到每秒2萬(wàn)條的

    DSG簡(jiǎn)介
    DSG是領(lǐng)先的致力于數(shù)據(jù)存儲(chǔ)管理的專(zhuān)業(yè)廠商,提供優(yōu)秀的大數(shù)據(jù)管理軟件和數(shù)據(jù)安全、災(zāi)難恢復(fù)、數(shù)據(jù)抽取共享、數(shù)據(jù)歸檔檢索和一體化管理平臺(tái)在內(nèi)的解決方案,產(chǎn)品包括:備份、容災(zāi)、數(shù)據(jù)同步復(fù)制/抽取/共享、數(shù)據(jù)歸檔、數(shù)據(jù)稽核等,在國(guó)內(nèi)得到了廣泛的應(yīng)用。目前公司擁有員工近300余人、全國(guó)設(shè)有3個(gè)研發(fā)中心、20多個(gè)辦事處和分支機(jī)構(gòu),服務(wù)網(wǎng)點(diǎn)覆蓋全國(guó),在中國(guó)市場(chǎng)擁有數(shù)百家電信、金融和政府行業(yè)的高端用戶。
    SuperSync數(shù)據(jù)同步復(fù)制軟件應(yīng)用:(國(guó)內(nèi)800余家客戶,在原有強(qiáng)大的Oracle的實(shí)時(shí)同步復(fù)制/災(zāi)備外,還可以支持Mysql/Sql/DB2/PostgreSql/Hana/Qcubic/Redis/Teradata/浪潮K-DB/達(dá)夢(mèng)/南大Gbase等國(guó)內(nèi)外各類(lèi)數(shù)據(jù)庫(kù)與Hadoop、HBase、Phoneix、Storm、Flume、Spark、Kafka、tibc、阿里云間的實(shí)時(shí)同步復(fù)制,可根據(jù)kafka等格式需求定制(添加字段/數(shù)據(jù)轉(zhuǎn)換/分類(lèi)等),應(yīng)用在大數(shù)據(jù)共享、讀寫(xiě)分離和實(shí)時(shí)災(zāi)備等方面。

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI