Hadoop2.6.0和Spark1.3.1怎么添加LZO壓縮支持

發(fā)布時(shí)間：2021-12-10 14:18:25 來源：億速云閱讀：160 作者：iii 欄目：云計(jì)算

本篇內(nèi)容主要講解“Hadoop2.6.0和Spark1.3.1怎么添加LZO壓縮支持”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“Hadoop2.6.0和Spark1.3.1怎么添加LZO壓縮支持”吧!

? 因?yàn)镸R在計(jì)算過程會產(chǎn)生大量的磁盤和網(wǎng)絡(luò)的IO，故如果能對MR的中間結(jié)果進(jìn)行壓縮，勢必能夠進(jìn)一步提升MR的計(jì)算性能。而LZO作為一種壓縮算法，在具有較高的壓縮比例和較好的壓縮速度的同時(shí)，也允許壓縮數(shù)據(jù)進(jìn)行block分片。所以現(xiàn)行的集群多采用LZO算法進(jìn)行壓縮。

本文主要針對Hadoop2.6.0，介紹下添加LZO支持所需要的四個(gè)步驟：

安裝LZO

在http://www.oberhumer.com/，下載LZO的tar包lzo-2.09.tar.gz
解壓tar包
安裝LZO

export CFLAGS=-64m
./configure --enable-shared --prefix=/usr/local/lzo/lzo-2.09
make
sudo make install
安裝Hadoop-LZO

將/usr/local/lzo包下所有數(shù)據(jù)，同步到集群其它所有節(jié)點(diǎn)

安裝Hadoop-LZO

git clone https://github.com/twitter/hadoop-lzo.git
修改pom文件，將hadoop.current.version從2.4.0修改為2.6.0
安裝Hadoop-LZO

export CFLAGS=-64m
export CXXFLAGS=-64m
export C_INCLUDE_PATH=/usr/local/lzo/lzo-2.09/include
export LIBRARY_PATH=/usr/local/lzo/lzo-2.09/lib
mvn clean package -Dmaven.test.skip=true
cd target/native/Linux-amd64-64
tar -cBf - -C lib . | tar -xBvf - -C ~
將~目錄下生成的libgplcompression.*拷貝到集群各個(gè)節(jié)點(diǎn)的$HADOOP_HOME/lib/native目錄下
將target目錄下生成的hadoop-lzo-0.4.20-SNAPSHOT.jar拷貝到集群各個(gè)節(jié)點(diǎn)的$HADOOP_HOME/share/hadoop/common目錄下

Hadoop配置文件修改

在hadoop-env.sh中，添加

export LD_LIBRARY_PATH=/usr/local/lzo/lzo-2.09/lib

在core-site.xml中，添加

<property>
	<name>io.compression.codecs</name>
	<value>org.apache.hadoop.io.compress.GzipCodec,
	       org.apache.hadoop.io.compress.DefaultCodec,
	       com.hadoop.compression.lzo.LzoCodec,
	       com.hadoop.compression.lzo.LzopCodec,
	       org.apache.hadoop.io.compress.BZip2Codec
        </value>
</property>

<property>
	<name>io.compression.codec.lzo.class</name>
	<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

在mapred-site.xml中，添加

<property>
	<name>mapred.compress.map.output</name>
	<value>true</value>
</property>

<property>
	<name>mapred.map.output.compression.codec</name>
	<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

<property>
	<name>mapred.child.env</name>
	<value>LD_LIBRARY_PATH=/usr/local/lzo/lzo-2.09/lib</value>
</property>

重新啟動集群后，即可使用LZO進(jìn)行數(shù)據(jù)的壓縮操作

Sparkp配置文件修改

在spark-env.sh中，添加如下配置即可

export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/data/hadoop-2.6.0/lib/native
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/data/hadoop-2.6.0/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar

到此，相信大家對“Hadoop2.6.0和Spark1.3.1怎么添加LZO壓縮支持”有了更深的了解，不妨來實(shí)際操作一番吧！這里是億速云網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

向AI問一下細(xì)節(jié)

Hadoop2.6.0和Spark1.3.1怎么添加LZO壓縮支持

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽