<li id="4z00k"><form id="4z00k"></form></li>

<th id="4z00k"><dd id="4z00k"><abbr id="4z00k"></abbr></dd></th>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何使用Hive集成Solr?

發(fā)布時間：2020-07-25 14:52:42 來源：網(wǎng)絡(luò) 閱讀：884 作者：葬月仙帝欄目：大數(shù)據(jù)

（一）Hive+Solr簡介

Hive作為Hadoop生態(tài)系統(tǒng)里面離線的數(shù)據(jù)倉庫，可以非常方便的使用SQL的方式來離線分析海量的歷史數(shù)據(jù)，并根據(jù)分析的結(jié)果，來干一些其他的事情，如報表統(tǒng)計查詢等。
Solr作為高性能的搜索服務(wù)器，能夠提供快速，強大的全文檢索功能。

（二）為什么需要hive集成solr？

有時候，我們需要將hive的分析完的結(jié)果，存儲到solr里面進行全文檢索服務(wù)，比如以前我們有個業(yè)務(wù)，對我們電商網(wǎng)站的搜索日志使用hive分析完后存儲到solr里面做報表查詢，因為里面涉及到搜索關(guān)鍵詞，這個字段是需要能分詞查詢和不分詞查詢的，通過分詞查詢可以查看改詞的相關(guān)的產(chǎn)品在某一段時間內(nèi)的一個走勢圖。有時候，我們又需要將solr里面的數(shù)據(jù)加載到hive里面，使用sql完成一些join分析功能，兩者之間優(yōu)劣互補，以更好的適應(yīng)我們的業(yè)務(wù)需求。當然網(wǎng)上已經(jīng)有一些hive集成solr的開源項目，但由于版本比較舊，所以無法在新的版本里面運行，經(jīng)過散仙改造修補后的可以運行在最新的版本。

（三）如何才能使hive集成solr？

所謂的集成，其實就是重寫hadoop的MR編程接口的一些組件而已。我們都知道MR的編程接口非常靈活，而且高度抽象，MR不僅僅可以從HDFS上加載數(shù)據(jù)源，也可以從任何非HDFS的系統(tǒng)中加載數(shù)據(jù)，當然前提是我們需要自定義：
InputFormat
OutputFormat
RecordReader
RecordWriter
InputSplit
組件，雖然稍微麻煩了點，但從任何地方加載數(shù)據(jù)這件事確實可以做到，包括mysql，sqlserver，oracle，mongodb， solr，es，redis等等。

上面說的是定制Hadoop的MR編程接口，在Hive里面除了上面的一些組件外，還需要額外定義SerDe組件和組裝StorageHandler，在hive里面 SerDe指的是 Serializer and Deserializer，也就是我們所說的序列化和反序列化，hive需要使用serde和fileinput來讀寫hive 表里面的一行行數(shù)據(jù)。
讀的流程：
HDFS files / every source -> InputFileFormat --> --> Deserializer --> Row object
寫的流程：
Row object --> Serializer --> --> OutputFileFormat --> HDFS files / every source

（四）hive集成solr后能干什么？

（1）讀取solr數(shù)據(jù)，以hive的支持的SQL語法，能進行各種聚合，統(tǒng)計，分析，join等
（2）生成solr索引，一句SQL，就能通過MR的方式給大規(guī)模數(shù)據(jù)構(gòu)建索引

（五）如何安裝部署以及使用？
源碼在這里，不在粘貼了，已經(jīng)上傳github了，有需要的朋友可以使用 git clonehttps://github.com/qindongliang/hive-solr 后，修改少許pom文件后，執(zhí)行
mvn clean package
命令構(gòu)建生成jar包，并將此jar包拷貝至hive的lib目錄即可

例子如下：
（1）hive讀取solr數(shù)據(jù)

建表：

Sql代碼如何使用Hive集成Solr?

--存在表就刪除
drop table if exists solr;
--創(chuàng)建一個外部表
create external table solr (
--定義字段，這里面的字段需要與solr的字段一致
rowkey string,
sname string
)
--定義存儲的storehandler
stored by "com.easy.hive.store.SolrStorageHandler"
--配置solr屬性
tblproperties('solr.url' = 'http://192.168.1.28:8983/solr/a',
'solr.query' = '*:*',
'solr.cursor.batch.size'='10000',
'solr.primary_key'='rowkey'
);
執(zhí)行bin/hive 命令，進行hive的命令行終端：
--查詢所有數(shù)據(jù)
select * from solr limit 5;
--查詢指定字段
select rowkey from solr;
--以mr的方式聚合統(tǒng)計solr數(shù)據(jù)
select sname ,count(*) as c from solr group by sname order by c desc

（2）使用hive給solr構(gòu)建索引的例子

首先構(gòu)建數(shù)據(jù)源表:

Sql代碼如何使用Hive集成Solr?

--如果存在就刪除
drop table if exists index_source;
--構(gòu)建一個數(shù)據(jù)表
CREATE TABLE index_source(id string, yname string,sname string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
--向數(shù)據(jù)源里面導(dǎo)入本地數(shù)據(jù)
load data local inpath '/ROOT/server/hive/test_solr' into table index_source;
其次，構(gòu)建solr的關(guān)聯(lián)表：
--刪除已經(jīng)存在的表
drop table if exists index_solr;
--創(chuàng)建關(guān)聯(lián)solr表
create external table index_solr (
id string,
yname string,
sname string
)
--定義存儲引擎
stored by "com.easy.hive.store.SolrStorageHandler"
--設(shè)置solr服務(wù)屬性
tblproperties('solr.url' = 'http://192.168.1.28:8983/solr/b',
'solr.query' = '*:*',
'solr.cursor.batch.size'='10000',
'solr.primary_key'='id'
);

最后，執(zhí)行下面的sql命令，即可給數(shù)據(jù)源中的數(shù)據(jù)，構(gòu)建solr索引：

Sql代碼如何使用Hive集成Solr?

--注冊hive-solr的jar包，否則MR方式運行的時候，將不能正常啟動
add jar /ROOT/server/hive/lib/hive-solr.jar;
--執(zhí)行插入命令
INSERT OVERWRITE TABLE index_solr SELECT * FROM index_source ;
--執(zhí)行成功之后，即可在solr的終端界面查看，也可以再hive里面執(zhí)行下面的solr查詢
select * from index_solr limit 10 ;

（六）他們還能其他的框架集成么？

當然，作為開源獨立的框架，我們可以進行各種組合， hive也可以和elasticsearch進行集成，也可以跟mongodb集成， solr也可以跟spark集成，也可以跟pig集成,但都需要我們自定義相關(guān)的組件才行,思路大致與這個項目的思路一致。

（七）本次測試通過的基礎(chǔ)環(huán)境

Apache Hadoop2.7.1
Apache Hive1.2.1
Apache Solr5.1.0

（八）感謝并參考的資料：

https://github.com/mongodb/mongo-hadoop/tree/master/hive/src/main/java/com/mongodb/hadoop/hive
https://github.com/lucidworks/hive-solr
https://github.com/chimpler/hive-solr
https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-HowtoWriteYourOwnSerDe

向AI問一下細節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
5G室內(nèi)基站要來，云桌面離移動辦公還會遠嗎
下一篇新聞：
RDD編程

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<strike id="wwj1a"></strike>

<strike id="wwj1a"></strike>

<strike id="wwj1a"></strike><strike id="wwj1a"><em id="wwj1a"><div id="wwj1a"></div></em></strike>