溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何進行大數(shù)據(jù)Spark中的核心RDD特征分析

發(fā)布時間:2021-12-17 11:11:19 來源:億速云 閱讀:152 作者:柒染 欄目:大數(shù)據(jù)

這篇文章給大家介紹如何進行大數(shù)據(jù)Spark中的核心RDD特征分析,內(nèi)容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。

 RDD特征概要總結:

a、RDD是Spark提供的核心抽象,全稱為Resillient Distributed Dataset,即彈性分布式數(shù)據(jù)集。

b、RDD在抽象上來說是一種元素集合,包含了數(shù)據(jù)。它是被分區(qū)的,分為多個分區(qū),每個分區(qū)分布在集群中的不同節(jié)點上,從而讓RDD中的數(shù)據(jù)可以被并行操作。

c、RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創(chuàng)建;有時也可以通過應用程序中的集合來創(chuàng)建。

d、RDD最重要的特性就是,提供了容錯性,可以自動從節(jié)點失敗中恢復過來。即如果某個節(jié)點上的RDD partition,因為節(jié)點故障,導致數(shù)據(jù)丟了,那么RDD會自動通過自己的數(shù)據(jù)來源重新計算該partition。這一切對使用者是透明的。

e、RDD的數(shù)據(jù)默認情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時,Spark會自動將RDD數(shù)據(jù)寫入磁盤。

下面我們一起來對其關鍵特征進行詳細分析

如何進行大數(shù)據(jù)Spark中的核心RDD特征分析

圖1-RDD分布式特征

分析:

RDD(Resilient Distributed Datasets)彈性分布式數(shù)據(jù)集,是分布式內(nèi)存的一個抽象概念。我們可以抽象的代表對應一個HDFS上的文件,但是他實際上是被分區(qū)的,分為多個分區(qū)撒落在Spark集群中的不同節(jié)點上。比如現(xiàn)在我們的一個RDD有40萬條數(shù)據(jù),并分為4個partition,這4個分區(qū)數(shù)據(jù)分別存儲在集群中的節(jié)點1、2、3、4中,而每個partition分到10萬條數(shù)據(jù)。如圖1所示,這樣的一個RDD將數(shù)據(jù)分布式撒落在集群的一批節(jié)點上,每個節(jié)點只是存儲RDD的部分partition,這就是RDD的分布式結構模型。

如何進行大數(shù)據(jù)Spark中的核心RDD特征分析

圖2-RDD彈性式特征

分析:

RDD的彈性特征說明,當RDD的每個partition數(shù)據(jù)都存放到Spark集群節(jié)點上時候,默認是都存放在內(nèi)存中的,但是如果內(nèi)存放不下這么多的數(shù)據(jù)時,我們該怎么辦呢?這時候RDD的彈性特征就表現(xiàn)出來了。如上圖2所示,在節(jié)點3內(nèi)存中最多只能存儲6萬數(shù)據(jù),結果我們需要存放一個partition數(shù)據(jù)為10萬,那么這時就得把partition中的剩余4萬數(shù)據(jù)寫入到磁盤上進行保存了。而這種存儲的分配針對用戶是透明的,我們不用管他怎么存儲,雖然這種存儲機制是有配置參數(shù)提供我們選擇的,后續(xù)深入講解時候會介紹到如何選擇存儲策略,這里就不加深難度了,所以,RDD的這種自動進行內(nèi)存和磁盤之間權衡和卻換的機制,就是RDD的彈性特征所在。

如何進行大數(shù)據(jù)Spark中的核心RDD特征分析

圖3-RDD容錯性特征

分析:

最后我們來看看RDD被分散的存放在集群的各個節(jié)點上了,那假如某個節(jié)點運行時候出現(xiàn)問題,數(shù)據(jù)該怎么辦呢?這里Spark的RDD支持了強大的容錯機制,如上圖3,在運行節(jié)點n時候出現(xiàn)了問題,這時候就需要重新獲取數(shù)據(jù)進行計算,那RDD將啟動容錯機制,嘗試尋找上游依賴數(shù)據(jù)源節(jié)點3來重新獲取數(shù)據(jù)進行計算,這里深入分析將會提出另外一個概念來了,那就是DAG(有向無環(huán)圖)、進一步了解RDD的依賴關系,與底層邏輯關系了。

關于如何進行大數(shù)據(jù)Spark中的核心RDD特征分析就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI