<th id="ewdgc"></th>

<strike id="ewdgc"></strike>

<strike id="ewdgc"><optgroup id="ewdgc"><div id="ewdgc"></div></optgroup></strike>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Hive On Spark

發(fā)布時間：2020-07-23 12:46:59 來源：網(wǎng)絡(luò) 閱讀：1081 作者：原生zzy 欄目：大數(shù)據(jù)

??自從公司使用大數(shù)據(jù)產(chǎn)品之后，就很少碰開源的東西了，集群出問題也是跟研發(fā)溝通，前些天有朋友問我，怎么能把hive底層的引擎換成spark，我想了想，是不是將hive的數(shù)據(jù)庫共享給spark然后用spark-shell不就好了，后來查了查資料，原來不是這樣的，這里面的操作還挺多了。哎，真的是，用了別人產(chǎn)品，開發(fā)是方便了，原理懂的就少了，小編一直還沉浸在用一條SQL底層就能轉(zhuǎn)換的spark程序并行執(zhí)行任務(wù)的幸福生活中。乘著周末，一個人享受著公司的WiFi和空調(diào)，把這個開源的hive引擎換成spark搞一搞，順便分享給大家，最重要的是死肥宅到技術(shù)宅的轉(zhuǎn)變。
??由于資金有限，只能使用虛擬機給大家演示，這里小編把自己的搭建的hadoop的平臺環(huán)境介紹一下，先帶大家回顧一下hadoopHA模式下，有哪些進程需要啟動：（hadoop是2.7.x版本的）
??→Namenode：（active-standby）：HDFS的主節(jié)點，用于元數(shù)據(jù)管理和管理從節(jié)點
??→ Datanode：HDFS的從節(jié)點，用于存儲數(shù)據(jù)
??→ ResourceMananger：yarn的主節(jié)點，用于資源調(diào)度
??→ Nodemanager：yarn的從節(jié)點，用于具體的執(zhí)行任務(wù)
??→ Zookeeper：服務(wù)協(xié)調(diào)（進程名QuorumPeerMain）
??→ JournalNode：用于主備namenode的元數(shù)據(jù)的共享
??→ DFSZKFailoverController：監(jiān)控著namenode的生死，時刻準備主備切換。
??大概就這么多吧，一個極為普通的hadoop平臺，小編這里用了3臺虛擬機：
Hive On Spark
每個節(jié)點上的服務(wù)：
hadoop01：

hadoop02：

hadoop03：

??抱怨服務(wù)分配不均勻的小伙伴，停下你們的鍵盤，小編只是演示，匆匆忙忙的搭建的。

1. 測試hive是否正常運行：

這里我在三臺機器上都分發(fā)了hive的安裝包： Hive On Spark
執(zhí)行命令啟動hive：（怎么快怎么來，不用beeline了）

[hadoop@hadoop01 applications]$ hive

Hive On Spark
運行幾個命令試試：

hive> use test;  #進入數(shù)據(jù)庫
hive> show tables;  #查看有哪些表
hive> create external table `user`(id string,name string) row format delimited fields terminated by ',' location "/zy/test/user";  #建表
#導入數(shù)據(jù)
[hadoop@hadoop01 ~]$ for i in `seq 100` ;do echo "10$i,zy$i">> user.txt ;done  ;
[hadoop@hadoop01 ~]$ hadoop fs -put user.txt /zy/test/user
hive> select * from `user`;

OK,hive是沒有問題的！

2. hive引擎換成spark

（1）版本確認

首先查看一下hive和spark版本的兼容：
Hive On Spark
這里小編的spark是2.0.0，hive是2.3.2。
Spark下載地址：https://archive.apache.org/dist/spark/spark-2.0.0/
Hive的下載地址：http://hive.apache.org/downloads.html
這里有spark需要去hive模塊編譯，這里小編將編譯好的spark提供給大家：
鏈接：https://pan.baidu.com/s/1tPu2a34JZgcjKAtJcAh-pQ 提取碼：kqvs
至于hive嘛，官網(wǎng)的就可以

（2）修改配置文件

#hive配置（hive-site.xml：
<configuration>
    <property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://hadoop03:3306/hivedb?createDatabaseIfNotExist=true</value>
        <description>JDBC connect string for a JDBC metastore</description>
        <!-- 如果 mysql 和 hive 在同一個服務(wù)器節(jié)點，那么請更改 hadoop02 位 localhost -->
    </property>
    <property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
        <description>Driver class name for a JDBC metastore</description>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
        <description>username to use against metastore database</description>
    </property>
    <property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>123456</value>
        <description>password to use against metastore database</description>
    </property>
    <!--指定hive數(shù)據(jù)倉庫的數(shù)據(jù)存儲在hdfs上的目錄：-->
    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value>
    </property>
    <!-- hive執(zhí)行引擎-->
    <property>
        <name>hive.execution.engine</name>
        <value>spark</value>
    </property>
    <property>
        <name>hive.enable.spark.execution.engine</name>
        <value>true</value>
    </property>
    <!-- spark家目錄-->
    <property>
        <name>spark.home</name>
        <value>/applications/spark-2.0.0-bin-hadoop2-without-hive</value>
    </property>
    <!--也可以在spark default中設(shè)置-->
    <property>
        <name>spark.master</name>
        <value>yarn</value>
    </property>
    <property>
        <name>spark.eventLog.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>spark.eventLog.dir</name>
        <value>hdfs://zy-hadoop:8020/spark-log</value>
        <description>必須要有這個目錄</description>
    </property>
    <property>
        <name>spark.executor.memory</name>
        <value>512m</value>
    </property>
    <property>
        <name>spark.driver.memory</name>
        <value>512m</value>
    </property>
    <property>
        <name>spark.serializer</name>
        <value>org.apache.spark.serializer.KryoSerializer</value>
    </property>
    <!--把spark jars下的jar包上傳到hdfs上，yarn模式下減少集群間的分發(fā)-->
    <property>
        <name>spark.yarn.jars</name>
        <value>hdfs://zy-hadoop:8020/spark-jars/*</value>
    </property>
    <property>
        <name>hive.spark.client.server.connect.timeout</name>
        <value>300000</value>
    </property>
    <!--下面的根據(jù)實際情況配置 -->
    <property>
        <name>spark.yarn.queue</name>
        <value>default</value>
    </property>
    <property>
        <name>spark.app.name</name>
        <value>zyInceptor</value>
    </property>
</configuration>

這里需要注意的一點是，hadoop是HA模式，所以hdfs的路徑應(yīng)該寫為：
hdfs://cluster_name:8020/path

#spark的配置(spark-env.sh)
#!/usr/bin/env bash
export JAVA_HOME=/applications/jdk1.8.0_73
export SCALA_HOME=/applications/scala-2.11.8
export HADOOP_HOME=/applications/hadoop-2.8.4
export HADOOP_CONF_DIR=/applications/hadoop-2.8.4/etc/hadoop
export HADOOP_YARN_CONF_DIR=/applications/hadoop-2.8.4/etc/hadoop
export SPARK_HOME=/applications/spark-2.0.0-bin-hadoop2-without-hive
export SPARK_WORKER_MEMORY=512m
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_DRIVER_MEMORY=512m
export SPARK_DIST_CLASSPATH=$(/applications/hadoop-2.8.4/bin/hadoop classpath)

（3） jar的配置

① 在hive lib找到以下jar包拷貝到spark jars目錄下：
hive-beeline-2.3.3.jar
hive-cli-2.3.3.jar
hive-exec-2.3.3.jar
hive-jdbc-2.3.3.jar
hive-metastore-2.3.3.jar

[hadoop@hadoop01 lib]$ cp hive-beeline-2.3.2.jar hive-cli-2.3.2.jar hive-exec-2.3.2.jar hive-jdbc-2.3.2.jar hive-metastore-2.3.2.jar  /applications/spark-2.0.0-bin-hadoop2.7/jars/

② 在spark jars中找到以下jar包拷貝到hive lib目錄下：
spark-network-common_2.11-2.0.0.jar
spark-core_2.11-2.0.0.jar
scala-library-2.11.8.jar
chill-java，
chill
jackson-module-paranamer，
jackson-module-scala，
jersey-container-servlet-core
jersey-server，
json4s-ast ，
kryo-shaded，
minlog，
scala-xml，
spark-launcher
spark-network-shuffle，
spark-unsafe ，
xbean-asm5-shaded

[hadoop@hadoop01 jars]$ cp spark-network-common_2.11-2.0.0.jar spark-core_2.11-2.0.0.jar scala-library-2.11.8.jar chill-java-0.8.0.jar chill_2.11-0.8.0.jar jackson-module-paranamer-2.6.5.jar jackson-module-scala_2.11-2.6.5.jar jersey-container-servlet-core-2.22.2.jar jersey-server-2.22.2.jar json4s-ast_2.11-3.2.11.jar kryo-shaded-3.0.3.jar minlog-1.3.0.jar scala-xml_2.11-1.0.2.jar spark-launcher_2.11-2.0.0.jar spark-network-shuffle_2.11-2.0.0.jar spark-unsafe_2.11-2.0.0.jar xbean-asm5-shaded-4.4.jar /applications/hive-2.3.2-bin/lib/

③ 配置文件的分發(fā)
將hadoop中的yarn-site.xml、hdfs-site.xml 放入spark的conf中
將hive-site.xml也放入spark的conf中

④ 分發(fā)jar包
在hive-site.xml配置了：spark.yarn.jars
這里我們先在hdfs中創(chuàng)建這個目錄：

[hadoop@hadoop01 conf]$ hadoop fs -mkdir /spark-jars

將spark的jars中的所有jar包放入這個目錄中：

[hadoop@hadoop01 jars]$ hadoop -put ./jars/*.jar /spark-jars

⑤ 啟動spark

[hadoop@hadoop01 jars]$ /applications/spark-2.0.0-bin-hadoop2-without-hive/sbin/start-all.sh

此時這個節(jié)點中會出現(xiàn)這幾個進程：
Hive On Spark

（4）完成以上步驟之后：

測試，在hive中運行一個SQL：
測試，在hive中運行一個SQL：
這里一般使用select count(1) from table; 來檢測！
Spark界面會出現(xiàn)：

Yarn的界面會有：

出現(xiàn)以上界面，表示hive on spark安裝成功?。?/p>

4. 遇到的問題：（版本不兼容）

Hive On Spark
原因：spark中不能含有hive的依賴，去掉-Phive進行編譯spark。
解決：編譯spark
下面是hive官網(wǎng)給出的教程：

#Prior to Spark 2.0.0:（他說的是優(yōu)先在spark2.0.0上，其實就是spark1.6版本的編譯）
./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"
#Since Spark 2.0.0:
./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"
 #Since Spark 2.3.0:
 ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided,orc-provided"

編譯成功之后，在執(zhí)行前面的內(nèi)容即可。
這里小編也有編譯好之后的spark：
鏈接：https://pan.baidu.com/s/1tPu2a34JZgcjKAtJcAh-pQ 提取碼：kqvs

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Centreon 配置飛信（fetion）錯誤解決一例
下一篇新聞：
天兔的安裝配置

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<center id="wgwx6"></center>