<div id="ynzbh"><del id="ynzbh"></del></div>

<ol id="ynzbh"></ol>

<table id="ynzbh"></table>

<b id="ynzbh"><dfn id="ynzbh"></dfn></b>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Spark入門及安裝與配置

發(fā)布時(shí)間：2020-06-16 18:25:52 來(lái)源：網(wǎng)絡(luò) 閱讀：365 作者：qq5b6035c07595e 欄目：大數(shù)據(jù)

以下是老男孩教育編寫的大數(shù)據(jù)資料，轉(zhuǎn)載請(qǐng)注明出處：http://www.oldboyedu.com

Hadoop

Hadoop是分布式計(jì)算引擎，含有四大模塊，common、hdfs、mapreduce和yarn。

并發(fā)和并行

并發(fā)通常指針對(duì)單個(gè)節(jié)點(diǎn)的應(yīng)對(duì)多個(gè)請(qǐng)求的能力，是單一節(jié)點(diǎn)上計(jì)算能力的衡量，并行通常針對(duì)集群來(lái)講，是利用多個(gè)節(jié)點(diǎn)進(jìn)行分布式協(xié)同作業(yè)，我們稱之為并行計(jì)算。

Spark

快如閃電集群計(jì)算引擎，應(yīng)用于大規(guī)模數(shù)據(jù)處理快速通用引擎，使用內(nèi)存計(jì)算。

1.Speed

內(nèi)存計(jì)算速度是hadoop的100倍以上，硬盤計(jì)算是Hadoop是10倍以上，Spark使用高級(jí)DAG(Direct acycle graph)執(zhí)行引擎。

2.易于使用

提供了80+高級(jí)算子，能夠輕松構(gòu)建并行應(yīng)用，也可以使用scala，python，r的shell進(jìn)行交互式操作。

3.通用性

對(duì)SQL、流計(jì)算、復(fù)雜分析可進(jìn)行組合應(yīng)用。spark提供了類庫(kù)棧，包括SQL、MLlib、graphx和Spark streaming。

4.架構(gòu)

包括： Spark core、 Spark SQL、 Spark streaming、 Spark mllib和 Spark graphx

5. 到處運(yùn)行

Spark可以運(yùn)行在hadoop、mesos、standalone和clound上，同時(shí)可以訪問(wèn)多種數(shù)據(jù)源，如hdfs、hbase、hive、Cassandra、 S3等。

spark集群部署模式

1.local

不需要啟動(dòng)任何Spark進(jìn)程，使用一個(gè)JVM運(yùn)行Spark所有組件，主要用于調(diào)試和測(cè)試。

2.standalone

獨(dú)立模式，需要安裝Spark集群，分別啟動(dòng)master節(jié)點(diǎn)和worker節(jié)點(diǎn)，master是管理節(jié)點(diǎn)，worker是task的執(zhí)行節(jié)點(diǎn)。

3.yarn

不需要單獨(dú)部署Spark集群，可以說(shuō)根本沒(méi)有Spark集群的概念。

該模式下，使用的完全是Hadoop的Job執(zhí)行流程，只是到末端啟動(dòng)任務(wù)時(shí)使用Spark的Task執(zhí)行發(fā)生，相當(dāng)于Spark是一個(gè)Hadoop的Job，將Spark的所有jar包打入job運(yùn)行的依賴包中，流程按照hadoop的執(zhí)行流程來(lái)進(jìn)行。

安裝spark

1.下載spark-2.1.0-bin-hadoop2.7.tgz

以下是Spark的官方下載地址：

https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

2.解壓文件到/soft目錄下

$>tar -xzvf spark-2.3.0-bin-hadoop2.7.tgz -C /soft

3.創(chuàng)建軟連接

創(chuàng)建軟連接后，編譯各種文件配置以及后期進(jìn)行版本升級(jí)和替換非常方便。

$>cd /soft

$>ln -s spark-2.3.0-bin-hadoop2.7 spark

4.配置環(huán)境變量

編輯/etc/profile環(huán)境變量文件：

$>sudo nano /etc/profile

在文件末尾添加如下內(nèi)容：

...

SPARK_HOME=/soft/spark

PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

注意：將Spark的bin目錄和sbin目錄都添加到環(huán)境變量path中，而且Linux使用“:”作為分隔符。

5.環(huán)境變量生效

$>source /etc/profile

6.進(jìn)入Spark-shell命令行

$>/soft/spark/spark-shell

#進(jìn)入scala命令提示符

$scala>

7.體驗(yàn)Spark-shell

因?yàn)镾park使用的scala語(yǔ)言，因此同Scala的使用完全一致。

$scala>1 + 1

#輸出結(jié)果

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
java中的public、static、void和main是什么意思
下一篇新聞：
php中處理websocket的流程和方法

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<samp id="9elkv"><del id="9elkv"></del></samp>

<table id="9elkv"><dfn id="9elkv"></dfn></table><div id="9elkv"></div><table id="9elkv"><nav id="9elkv"><input id="9elkv"></input></nav></table>