您好,登錄后才能下訂單哦!
這篇文章給大家介紹怎么使用Solr7對(duì)結(jié)構(gòu)化csv文件建立全文索引,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。
小編將介紹如何使用Solr對(duì)csv文件建立全文索引。
1.本次測(cè)試準(zhǔn)備生成一個(gè)1GB左右大小的csv文件,該數(shù)據(jù)文件共有十個(gè)字段,其中有int、double、string、date以及中文文本和英文文本等類型,多一些數(shù)據(jù)類型方便測(cè)試,下面是生成數(shù)據(jù)的Java代碼
https://github.com/fayson/cdhproject/blob/master/generatedata/src/main/java/com/cloudera/solr/GenerateSolrTestData.java
生成的數(shù)據(jù)一共60W條,大小1.1GB,十個(gè)字段分別為number,firstDouble,firstNo,secondDouble,secondNo,jarName,enText,cnText,firstTime,secondTime
在Solr Web頁(yè)面,選擇左側(cè)的【Collections】,然后單擊【Add collection】。創(chuàng)建一個(gè)Collection
Collection創(chuàng)建成功
將準(zhǔn)備好的csv文件導(dǎo)入到Solr中,Solr自帶的post.jar提供了這個(gè)功能,下面是post.jar的用法
參考help命令,使用下面的命令將csv文件導(dǎo)入到Solr中,并建立全文索引
java -Durl=http://localhost:8983/solr/test0723/update -Dtype=text/csv -Dc=test0723 -jar post.jar /tmp/solr/file/data.csv
csv文件導(dǎo)入成功,下一步在Solr上進(jìn)行查詢驗(yàn)證
1.進(jìn)入query界面
2.根據(jù)單個(gè)字段查詢
number
jarName
時(shí)間字段范圍查詢
3.根據(jù)英文文本中的內(nèi)容查找
4.根據(jù)中文文本中的內(nèi)容進(jìn)行查找
5.使用字段的組合進(jìn)行查找
在某個(gè)時(shí)間范圍內(nèi)的number在1到10000之間的英文文本中包含Cloudera的記錄
在number30000到40000的記錄中,firstDouble大于200,secondDouble小于500的記錄
jarName以spark開(kāi)頭,且中文文本中包含“查詢”的記錄
1.與上篇文檔中使用的dataimport的方式導(dǎo)入數(shù)據(jù)建立索引不同,本文檔使用Solr自帶的post.jar將csv文件導(dǎo)入并創(chuàng)建索引,經(jīng)過(guò)查詢測(cè)試,該方式能夠正常使用。
2.Solr在使用時(shí)間格式進(jìn)行查詢時(shí),只能使用UTC格式,Solr只能識(shí)別這種格式的時(shí)間,例如2018-03-06T02:37:02Z。
3.在使用多條件查詢時(shí),可以使用fq,在fq中可以添加多個(gè)檢索條件,其中范圍檢索可以使用{}、[]、TO搭配來(lái)實(shí)現(xiàn),例如firstTime:[2018-01-01T00:00:00Z TO 2018-01-31T23:59:59Z],表示firstTime在1月1日到1月31日之間的數(shù)據(jù)。
4.Solr的query頁(yè)面還有許多參數(shù)可以使用,例如sort可以對(duì)字段進(jìn)行排序,start、rows可以定義分頁(yè)的數(shù)量,wt可以指定檢索結(jié)果的格式等等。
關(guān)于怎么使用Solr7對(duì)結(jié)構(gòu)化csv文件建立全文索引就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。