溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

數(shù)據(jù)庫中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)

發(fā)布時(shí)間:2021-11-09 09:15:07 來源:億速云 閱讀:240 作者:小新 欄目:數(shù)據(jù)庫

這篇文章給大家分享的是有關(guān)數(shù)據(jù)庫中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過來看看吧。

1、batch-import原始項(xiàng)目地址:https://github.com/jexp/batch-import

這個(gè)工具是neo4j的作者之一Michael  Hunger所編寫,是在neo4j自帶批量導(dǎo)入工具基礎(chǔ)之上做的進(jìn)一步優(yōu)化,但是它在導(dǎo)入.gz壓縮文件時(shí),會出現(xiàn)關(guān)系無法導(dǎo)入的情況,所以如果要使用.gz壓縮包進(jìn)行導(dǎo)入,請使用我修改過的版本:https://github.com/mo9527/batch-import

2、環(huán)境準(zhǔn)備

jdk:7以上

內(nèi)存:8G以上,導(dǎo)入數(shù)據(jù)多的話會非常消耗內(nèi)存,我自己導(dǎo)入的是將近1.5億節(jié)點(diǎn),3億關(guān)系,用的是32G內(nèi)存

3、導(dǎo)入步驟

a)從github上clone下代碼,并使用maven進(jìn)行打包,打完包后的jar文件,與項(xiàng)目本身的依賴jar一起放到lib文件夾下,batch.properties文件和執(zhí)行導(dǎo)入的腳本放在lib同級目錄下,***的目錄結(jié)構(gòu)如下圖:

數(shù)據(jù)庫中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)

ps:file文件夾是我自己將要導(dǎo)入的csv文件和.gz壓縮包。

b)組裝csv文件

說起這一步,可能需要你們根據(jù)自己的實(shí)際業(yè)務(wù)需求,手動寫代碼導(dǎo)csv文件了,這里我只講一下csv文件格式一些要點(diǎn):

1)、節(jié)點(diǎn)csv文件

節(jié)點(diǎn)csv文件的***列是固定的,列值為此節(jié)點(diǎn)的label名稱,第二列是index,它的列頭是id:string:indexName  這種格式,解釋一下,id是這一列的property名字,可以根據(jù)需要自己命名,string為字段的數(shù)據(jù)類型,indexName是neo4j數(shù)據(jù)庫中將要導(dǎo)入的索引名稱,我自己的文件格式如下:

數(shù)據(jù)庫中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)

然后,后面的列就是節(jié)點(diǎn)的property了,沒什么特別的要求

2)、關(guān)系csv文件

先看下我的關(guān)系csv文件:

數(shù)據(jù)庫中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)

關(guān)系的csv文件前兩列要特別注意,***列是關(guān)系的起始節(jié)點(diǎn),第二列是關(guān)系的結(jié)束節(jié)點(diǎn),第三列是關(guān)系類型,后面的列是關(guān)系的property,可以隨意了。他github上的說明沒有說出一些注意點(diǎn),這里要特別標(biāo)明:

***列的起始節(jié)點(diǎn)的列頭,也就是id:string:buyerId這個(gè)東西,這個(gè)玩意一定要和節(jié)點(diǎn)csv文件(上圖)中定義的一模一樣,第二列也是如此,要和結(jié)束節(jié)點(diǎn)的csv文件里的一樣,不然他會找不到對應(yīng)的關(guān)系。

3)、修改batch.properties文件

主要修改兩個(gè)地方,

  • 如果是在現(xiàn)有的neo4j數(shù)據(jù)庫中進(jìn)行導(dǎo)入,請?jiān)O(shè)置:

batch_import.keep_db=true

  • 將節(jié)點(diǎn)csv文件中所有的索引名稱加入到文件中,例如上面這個(gè)節(jié)點(diǎn)csv文件中的索引名稱是buyerId,那就在文件中加入batch_import.node_index.buyerId=exact

以下是我本人的配置文件:

數(shù)據(jù)庫中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)

4、導(dǎo)入

linux和win環(huán)境的導(dǎo)入都差不多,只不過執(zhí)行的腳本不一樣,這里以win環(huán)境為例。

文件都準(zhǔn)備好了,現(xiàn)在開始導(dǎo)入了。

打開cmd,cd到導(dǎo)入腳本的目錄,也就是import.bat所在目錄,執(zhí)行命令:

import.bat test.db node.csv rel.csv

解釋一下命令的幾個(gè)參數(shù):***個(gè)參數(shù)是數(shù)據(jù)庫的目錄,可以絕對路徑指定到任意位置,第二個(gè)參數(shù)是節(jié)點(diǎn)csv文件,多個(gè)csv文件用逗號分隔,如果是壓縮包,一定要注意,這里有個(gè)坑,不能把所有類型的node都放到一個(gè)壓縮包中,一定要每個(gè)類型的node分開壓縮,不然它只會導(dǎo)入***個(gè)類型的node節(jié)點(diǎn),同理,關(guān)系的壓縮包也要分開壓縮,然后導(dǎo)入時(shí)用逗號分隔.gz文件。

好了,如果你的csv文件沒有問題,內(nèi)存足夠用的話,現(xiàn)在就開始等待吧。

如果想修改導(dǎo)入工具的Heap大小,可以修改腳本文件中的 set HEAP=4G

數(shù)據(jù)庫中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)

溫馨提示:如果節(jié)點(diǎn)文件中有中文的話,導(dǎo)入會非常慢的,除非你內(nèi)存有128G,我有一個(gè)節(jié)點(diǎn)文件,里面只有一列是中文,而且中文最長不超過4個(gè)漢字,2000多萬記錄導(dǎo)了2個(gè)小時(shí),注意我是32G內(nèi)存,其他4000多萬的節(jié)點(diǎn),沒有漢字的,基本上不超過2分鐘。

感謝各位的閱讀!關(guān)于“數(shù)據(jù)庫中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI