您好,登錄后才能下訂單哦!
大數(shù)據(jù)平臺(tái)搭建的層次有哪些,針對(duì)這個(gè)問題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。
大數(shù)據(jù)分析處理平臺(tái)就是整合當(dāng)前主流的各種具有不同側(cè)重點(diǎn)的大數(shù)據(jù)處理分析框架和工具,實(shí)現(xiàn)對(duì)數(shù)據(jù)的挖掘和分析,大數(shù)據(jù)平臺(tái)是隨著大數(shù)據(jù)技術(shù)的發(fā)展而逐漸被企業(yè)所關(guān)注的一個(gè)技術(shù),而今天我們就一起來了解一下,大數(shù)據(jù)平臺(tái)搭建都有哪些架構(gòu)層次。
1、數(shù)據(jù)傳輸層
Sqoop:支持RDBMS和HDFS之間的雙向數(shù)據(jù)遷移,通常用于抽取業(yè)務(wù)數(shù)據(jù)庫(比如MySQL、SQLServer、Oracle)的數(shù)據(jù)到HDFS.
Cannal:阿里開源的數(shù)據(jù)同步工具,通過監(jiān)聽MySQL binlog,實(shí)現(xiàn)增量數(shù)據(jù)訂閱和近實(shí)時(shí)同步。
Flume:用于海量日志采集、聚合和傳輸,將產(chǎn)生的數(shù)據(jù)保存到HDFS或者Hbase中。
Flume+Kafka:滿足實(shí)時(shí)流式日志的處理,后面再通過Spark Streaming等流式處理技術(shù),可完成日志的實(shí)時(shí)解析和應(yīng)用。
2、數(shù)據(jù)存儲(chǔ)層
HDFS:分布式文件系統(tǒng),它是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ),是Google GFS的開源實(shí)現(xiàn),可部署在廉價(jià)商用機(jī)器上,具備高容錯(cuò)、高吞吐和高擴(kuò)展性。
Hbase:分布式的、面向列的NoSQL KV數(shù)據(jù)庫,它是Google BigTable的開源實(shí)現(xiàn),利用HDFS作為其文件存儲(chǔ)系統(tǒng),適合大數(shù)據(jù)的實(shí)時(shí)查詢(比如:IM場(chǎng)景)。
Kudu:折中了HDFS和Hbase的分布式數(shù)據(jù)庫,既支持隨機(jī)讀寫、又支持OLAP分析的大數(shù)據(jù)存儲(chǔ)引擎(解決Hbase不適合批量分析的痛點(diǎn))。
3、資源管理層
Yarn:Hadoop的資源管理器,負(fù)責(zé)Hadoop集群資源的統(tǒng)一管理和調(diào)度,為運(yùn)算程序(MR任務(wù))提供服務(wù)器運(yùn)算資源(CPU、內(nèi)存),能支持MR、Spark、Flink等多種框架。
Kubernates:由Google開源,一種云平臺(tái)的容器化編排引擎,提供應(yīng)用的容器化管理,可在不同云、不同版本操作系統(tǒng)之間進(jìn)行遷移。目前,Spark、Storm已經(jīng)支持K8S。
4、數(shù)據(jù)計(jì)算層
大數(shù)據(jù)計(jì)算引擎決定了計(jì)算效率,是大數(shù)據(jù)平臺(tái)最核心的部分,它大致了經(jīng)歷以下4代的發(fā)展,又可以分成離線計(jì)算框架和實(shí)時(shí)計(jì)算框架。
5、離線計(jì)算框架
MapReduce:面向大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái)(將計(jì)算向數(shù)據(jù)靠攏、減少數(shù)據(jù)傳輸,這個(gè)設(shè)計(jì)思路非常巧妙)。
Hive:一個(gè)數(shù)據(jù)倉庫工具,能管理HDFS存儲(chǔ)的數(shù)據(jù),可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的SQL查詢功能(實(shí)際運(yùn)行時(shí),是將Hive SQL翻譯成了MapReduce任務(wù)),適用離線非實(shí)時(shí)數(shù)據(jù)分析。
Spark sql:引入RDD(彈性分布式數(shù)據(jù)集)這一特殊的數(shù)據(jù)結(jié)構(gòu),將SQL轉(zhuǎn)換成RDD的計(jì)算,并將計(jì)算的中間結(jié)果放在內(nèi)存中,因此相對(duì)于Hive性能更高,適用實(shí)時(shí)性要求較高的數(shù)據(jù)分析場(chǎng)景。
6、實(shí)時(shí)計(jì)算框架
Spark Streaming:實(shí)時(shí)流數(shù)據(jù)處理框架(按時(shí)間片分成小批次,s級(jí)延遲),可以接收Kafka、Flume、HDFS等數(shù)據(jù)源的實(shí)時(shí)輸入數(shù)據(jù),經(jīng)過處理后,將結(jié)果保存在HDFS、RDBMS、Hbase、Redis、Dashboard等地方。
Storm:實(shí)時(shí)流數(shù)據(jù)處理框架,真正的流式處理,每條數(shù)據(jù)都會(huì)觸發(fā)計(jì)算,低延遲(ms級(jí)延遲)。
Flink:更高級(jí)的實(shí)時(shí)流數(shù)據(jù)處理框架,相比Storm,延遲比storm低,而且吞吐量更高,另外支持亂序和調(diào)整延遲時(shí)間。
7、多維分析層
Kylin:分布式分析引擎,能在亞秒內(nèi)查詢巨大的Hive表,通過預(yù)計(jì)算(用空間換時(shí)間)將多維組合計(jì)算好的結(jié)果保存成Cube存儲(chǔ)在Hbase中,用戶執(zhí)行SQL查詢時(shí),將SQL轉(zhuǎn)換成對(duì)Cube查詢,具有快速查詢和高并發(fā)能力。
Druid:適用于實(shí)時(shí)數(shù)據(jù)分析的高容錯(cuò)、高性能開源分布式系統(tǒng),可實(shí)現(xiàn)在秒級(jí)以內(nèi)對(duì)十億行級(jí)別的表進(jìn)行任意的聚合分析。
關(guān)于大數(shù)據(jù)平臺(tái)搭建的層次有哪些問題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注億速云行業(yè)資訊頻道了解更多相關(guān)知識(shí)。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。