高速性:Spark 是一個(gè)基于內(nèi)存計(jì)算的分布式計(jì)算框架,可以比傳統(tǒng)的 MapReduce 作業(yè)快上幾個(gè)數(shù)量級(jí),因?yàn)樗梢栽趦?nèi)存中進(jìn)行數(shù)據(jù)處理,減少了磁盤(pán)讀寫(xiě)的開(kāi)銷(xiāo)。
易用性:Spark 提供了豐富的 API,支持多種語(yǔ)言(如 Scala、Java、Python 和 R),并且提供了豐富的高級(jí)功能(如 SQL 查詢(xún)、機(jī)器學(xué)習(xí)和圖計(jì)算),使得用戶(hù)可以輕松地開(kāi)發(fā)復(fù)雜的分布式應(yīng)用程序。
彈性:Spark 提供了彈性的分布式數(shù)據(jù)集(Resilient Distributed Dataset, RDD)抽象,可以在內(nèi)存中緩存數(shù)據(jù),容錯(cuò)性強(qiáng),可以在節(jié)點(diǎn)故障時(shí)自動(dòng)恢復(fù)數(shù)據(jù),保證作業(yè)的穩(wěn)定執(zhí)行。
通用性:Spark 不僅支持批處理作業(yè)(如 MapReduce),還支持交互式查詢(xún)、流處理和機(jī)器學(xué)習(xí)等多種應(yīng)用場(chǎng)景,因此可以滿(mǎn)足不同領(lǐng)域的需求。