您好,登錄后才能下訂單哦!
小編給大家分享一下spark中四大組件分別是什么,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
spark四大組件分別為:1、SparkStreaming,針對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的組件;2、SparkSQL,用來(lái)操作結(jié)構(gòu)化數(shù)據(jù)的組件;3、GraphX,Spark面向圖計(jì)算提供的框架與算法庫(kù);4、MLlib,一個(gè)機(jī)器學(xué)習(xí)算法庫(kù)。
spark四大組件
1、SparkStreaming:
眾多應(yīng)用領(lǐng)域?qū)?shí)時(shí)數(shù)據(jù)的流式計(jì)算有著強(qiáng)烈的需求,例如網(wǎng)絡(luò)環(huán)境中的網(wǎng)頁(yè)服務(wù)器日志或是由用戶提交的狀態(tài)更新組成的消息隊(duì)列等,這些都是實(shí)時(shí)數(shù)據(jù)流。Spark Streaming是Spark平臺(tái)上針對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的組件,提供了豐富的處理數(shù)據(jù)流的API。由于這些API與Spark Core中的基本操作相對(duì)應(yīng),因此開(kāi)發(fā)者在熟知Spark核心概念與編程方法之后,編寫(xiě)Spark Streaming應(yīng)用程序會(huì)更加得心應(yīng)手。從底層設(shè)計(jì)來(lái)看,Spark Streaming支持與Spark Core同級(jí)別的容錯(cuò)性、吞吐量以及可伸縮性。
2、SparkSQL:
Spark SQL是Spark用來(lái)操作結(jié)構(gòu)化數(shù)據(jù)的組件。通過(guò)Spark SQL,用戶可以使用SQL或者Apache Hive版本的SQL方言(HQL)來(lái)查詢數(shù)據(jù)。Spark SQL支持多種數(shù)據(jù)源類型,例如Hive表、Parquet以及JSON等。Spark SQL不僅為Spark提供了一個(gè)SQL接口,還支持開(kāi)發(fā)者將SQL語(yǔ)句融入到Spark應(yīng)用程序開(kāi)發(fā)過(guò)程中,無(wú)論是使用Python、Java還是Scala,用戶可以在單個(gè)的應(yīng)用中同時(shí)進(jìn)行SQL查詢和復(fù)雜的數(shù)據(jù)分析。由于能夠與Spark所提供的豐富的計(jì)算環(huán)境緊密結(jié)合,Spark SQL得以從其他開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)工具中脫穎而出。Spark SQL在Spark l.0中被首次引入。在Spark SQL之前,美國(guó)加州大學(xué)伯克利分校曾經(jīng)嘗試修改Apache Hive以使其運(yùn)行在Spark上,進(jìn)而提出了組件Shark。然而隨著Spark SQL的提出與發(fā)展,其與Spark引擎和API結(jié)合得更加緊密,使得Shark已經(jīng)被Spark SQL所取代。
3、GraphX:
GraphX是Spark面向圖計(jì)算提供的框架與算法庫(kù)。GraphX中提出了彈性分布式屬性圖的概念,并在此基礎(chǔ)上實(shí)現(xiàn)了圖視圖與表視圖的有機(jī)結(jié)合與統(tǒng)一;同時(shí)針對(duì)圖數(shù)據(jù)處理提供了豐富的操作,例如取子圖操作subgraph、頂點(diǎn)屬性操作mapVertices、邊屬性操作mapEdges等。GraphX還實(shí)現(xiàn)了與Pregel的結(jié)合,可以直接使用一些常用圖算法,如PageRank、三角形計(jì)數(shù)等。
4、MLlib:
MLlib是Spark提供的一個(gè)機(jī)器學(xué)習(xí)算法庫(kù),其中包含了多種經(jīng)典、常見(jiàn)的機(jī)器學(xué)習(xí)算法,主要有分類、回歸、聚類、協(xié)同過(guò)濾等。MLlib不僅提供了模型評(píng)估、數(shù)據(jù)導(dǎo)入等額外的功能,還提供了一些更底層的機(jī)器學(xué)習(xí)原語(yǔ),包括一個(gè)通用的梯度下降優(yōu)化基礎(chǔ)算法。所有這些方法都被設(shè)計(jì)為可以在集群上輕松伸縮的架構(gòu)。
以上是“spark中四大組件分別是什么”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。