spark的靈魂：RDD和DataSet

發(fā)布時間：2020-07-27 11:01:10 來源：網(wǎng)絡(luò) 閱讀：340 作者：xiao酒窩欄目：大數(shù)據(jù)

spark建立在抽象的RDD上，把不同處理的數(shù)據(jù)的需求轉(zhuǎn)化為RDD，然后對RDD進(jìn)行一系列的算子運(yùn)算，從而得到結(jié)果。
RDD是一個容錯的，并行的數(shù)據(jù)結(jié)構(gòu)，可以將數(shù)據(jù)存儲到磁盤和內(nèi)存中，并能控制數(shù)據(jù)分區(qū)，并提供了豐富的API來操作數(shù)據(jù)。

1：RDD的定義及五大特性剖析
RDD是分布式內(nèi)存的一個抽象概念，是一種高度受限的共享內(nèi)存模型，即RDD時只讀的記錄分區(qū)的集合，能跨集群所有節(jié)點(diǎn)并行計算，是一種基于工作集的抽象模型。
（1）分區(qū)列表
（2）每一個分區(qū)都有一個計算函數(shù)
（3）依賴于其它RDD的列表
（4）key-value數(shù)據(jù)類型的RDD分區(qū)器
（5）每一個分區(qū)都有一個優(yōu)先位置列表
2：DataSet的定義及內(nèi)部機(jī)制剖析

向AI問一下細(xì)節(jié)

spark的靈魂：RDD和DataSet

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽