您好,登錄后才能下訂單哦!
Apache軟件基金會(huì)于2月17日宣布,Apache Arrow晉升成為一個(gè)新的頂級(jí)項(xiàng)目(Top-Level Project),提供跨系統(tǒng)的數(shù)據(jù)層列式內(nèi)存分析(Columnar In-Memory Analytics),來(lái)加速大數(shù)據(jù)分析的效率和速度。ASF宣稱,Arrow可以百倍的提升大數(shù)據(jù)分析的性能,極大的降低跨系統(tǒng)間的溝通成本,支持多系統(tǒng)間運(yùn)作。
Arrow是數(shù)據(jù)結(jié)構(gòu)、算法和跨程序語(yǔ)言的組合,提供不同種類(lèi)系統(tǒng)間數(shù)據(jù)共享基礎(chǔ),包含SQL執(zhí)行引擎(如Drill和Impala)、數(shù)據(jù)分析系統(tǒng) (如Pandas和Spark)、流式和隊(duì)列系統(tǒng)(如Herron、Kafka和Storm),以及儲(chǔ)存系統(tǒng)(如Parquet、Kudu、Cassandra和HBase)。
另外,使用者現(xiàn)在可以用C、C++、Python和Java等程序語(yǔ)言來(lái)執(zhí)行Arrow的程序代碼,Apache Arrow和Drill項(xiàng)目副總裁Jacques Nadeau表示,在未來(lái)1至2個(gè)月內(nèi)還將增加對(duì)R、JavaScript和Julia的支持。
而Arrow除了支持傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)之外,也支持動(dòng)態(tài)Schema結(jié)構(gòu)的數(shù)據(jù),例如,Arrow可以處理物聯(lián)網(wǎng)、Log文件等常用的JSON格式 數(shù)據(jù)。在性能方面, Arrow特別優(yōu)化排序的局部性(Cache Locality)、流量管道(Pipelining)和單一指令多重?cái)?shù)據(jù)(Single Instruction Multiple Data,SIMD),來(lái)發(fā)揮CPU的性能。
ASF表示,在許高負(fù)載中,70%~80%的CPU資源都用在系統(tǒng)間串行化(Serialize)和解串行化 (Deserialize)數(shù)據(jù),而Arrow讓數(shù)據(jù)可以不必經(jīng)過(guò)串行化、解串行化或內(nèi)存復(fù)制,就能夠在系統(tǒng)和處理程序中共享,藉此提升CPU的使用性能。
此外,目前已經(jīng)有13個(gè)主要大數(shù)據(jù)開(kāi)源項(xiàng)目的開(kāi)發(fā)者連手打造Arrow項(xiàng)目,而這13個(gè)開(kāi)源項(xiàng)目包含了Calcite、Cassandra、 Drill、Hadoop、HBase、Impala、Kudu(培育期)、Parquet、Phoenix、Spark、Storm、Pandas和 Ibis。
Jacques Nadeau表示,ASF預(yù)期在未來(lái)幾年,世界上大多數(shù)的數(shù)據(jù)將會(huì)使用Arrow的技術(shù)來(lái)分析。
目前,Apache Arrow的代碼已經(jīng)可以在Apache2.0的許可下使用,
參考文檔:
http://www.itdadao.com/article/393103/
https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。