溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

多來源數(shù)據(jù)采集、處理的數(shù)據(jù)流程

發(fā)布時間:2020-07-22 12:37:27 來源:網(wǎng)絡(luò) 閱讀:2578 作者:巧克力黒 欄目:大數(shù)據(jù)

數(shù)據(jù)平臺數(shù)據(jù)處理流程圖

  1. 數(shù)據(jù)準備:
    主要分為幾個來源:FTP數(shù)據(jù)來源,合作方推送的數(shù)據(jù),從攜程對外開放的API接口獲取數(shù)據(jù),酒店管理系統(tǒng)日志數(shù)據(jù)以及在線旅行社網(wǎng)站的數(shù)據(jù)源。
  2. 數(shù)據(jù)接入:
    針對數(shù)據(jù)多來源的特性開發(fā)針對特定場景的數(shù)據(jù)接入方式。
    a.FTP來源的數(shù)據(jù):采用shel腳本開發(fā),包括檢查數(shù)據(jù)是否準備就緒、開始下載、解密解包、lzop壓縮、put方式上傳文件到HDFS
    b.合作方推送的數(shù)據(jù):搭建簡單的web服務(wù),接受攜程推送的請求,利用Nginx完成請求負載,并利用Nginx記錄請求中的數(shù)據(jù),寫入文件。后續(xù)通過日志收集系統(tǒng)獲取數(shù)據(jù)(其實可以從合作方直接將數(shù)據(jù)推送Kafka的)
    c.合作方API接口數(shù)據(jù):開發(fā)程序形成生產(chǎn)者消費者模式,生產(chǎn)者將任務(wù)寫入隊列,消費者從隊列中獲取任務(wù)并利用線程池并發(fā)從合作方API接口獲取數(shù)據(jù)
    d.PMS日志數(shù)據(jù):主要由開源Flume組件完成
    e.網(wǎng)站數(shù)據(jù):利用爬蟲抓取網(wǎng)站數(shù)據(jù)

3.數(shù)據(jù)存儲:
分為實時和離線數(shù)據(jù)存儲兩種方式,分別通過Kafka和HDFS進行存儲
4.數(shù)據(jù)處理:
在數(shù)據(jù)處理環(huán)節(jié),主要利用MapReduce和Spark進行數(shù)據(jù)處理任務(wù)的開發(fā)。
5、數(shù)據(jù)查詢:
將Hive定義在數(shù)據(jù)查詢這一流程,用戶在使用數(shù)據(jù)平臺過程中,通過Hive對數(shù)據(jù)進行查詢。

多來源數(shù)據(jù)采集、處理的數(shù)據(jù)流程

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI