淺聊Spark的應(yīng)用場景有哪些？

發(fā)布時間：2020-07-17 00:04:26 來源：網(wǎng)絡(luò) 閱讀：409 作者：mo默羽欄目：大數(shù)據(jù)

　　Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境，是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎，現(xiàn)已形成一個高速發(fā)展應(yīng)用廣泛的生態(tài)系統(tǒng)，主要應(yīng)用場景如下：

　　1. Spark是基于內(nèi)存的迭代計算框架，適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場合。需要反復(fù)操作的次數(shù)越多，所需讀取的數(shù)據(jù)量越大，受益越大，數(shù)據(jù)量小但是計算密集度較大的場合，受益就相對較小;

　　2. 由于RDD的特性，Spark不適用那種異步細粒度更新狀態(tài)的應(yīng)用，例如web服務(wù)的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應(yīng)用模型不適合：

　　3. 數(shù)據(jù)量不是特別大，但是要求實時統(tǒng)計分析需求。

　　滿足以上條件的均可采用Spark技術(shù)進行處理，在實際應(yīng)用中，目前大數(shù)據(jù)在互聯(lián)網(wǎng)公司主要應(yīng)用在廣告、報表、推薦系統(tǒng)等業(yè)務(wù)上，在廣告業(yè)務(wù)方面需要大數(shù)據(jù)做應(yīng)用分析、效果分析、定向優(yōu)化等，在推薦系統(tǒng)方面則需要大數(shù)據(jù)優(yōu)化相關(guān)排名、個性化推薦以及熱點點擊分析等。

　　這些應(yīng)用場景的普遍特點是計算量大、效率要求高，Spark恰恰可以滿足這些要求，該項目一經(jīng)推出便受到開源社區(qū)的廣泛關(guān)注和好評，并在近兩年內(nèi)發(fā)展成為大數(shù)據(jù)處理領(lǐng)域炙手可熱的開源項目。

　　Spark使用Scala語言進行實現(xiàn)，它是一種面向?qū)ο?、函?shù)式編程語言，能夠像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集，具有運行速度快、易用性好、通用性強以及隨處運行等特點，適合大多數(shù)批處理工作，并已成為大數(shù)據(jù)時代企業(yè)大數(shù)據(jù)處理優(yōu)選技術(shù)，其中有代表性企業(yè)有騰訊、Yahoo、淘寶以及優(yōu)酷土豆等。

向AI問一下細節(jié)

淺聊Spark的應(yīng)用場景有哪些？

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽

淺聊Spark的應(yīng)用場景有哪些？