溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

為什么需要圖數(shù)據(jù)庫

發(fā)布時間:2021-11-30 09:59:22 來源:億速云 閱讀:148 作者:柒染 欄目:數(shù)據(jù)庫

這篇文章給大家介紹為什么需要圖數(shù)據(jù)庫,內(nèi)容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。

當前,互聯(lián)網(wǎng)數(shù)據(jù)呈指數(shù)級增長,但是以更快速度增加的是數(shù)據(jù)之間的關(guān)系。企業(yè)的 CIO 和 CTO  不僅要管理大量數(shù)據(jù),還要從現(xiàn)有的數(shù)據(jù)中挖掘商業(yè)價值,在這種情況下處理數(shù)據(jù)之間的關(guān)系比處理單個數(shù)據(jù)更為重要。

傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,在處理復雜數(shù)據(jù)關(guān)系運算上表現(xiàn)很差,隨著數(shù)據(jù)量和深度的增加,關(guān)系型數(shù)據(jù)庫無法在有效的時間內(nèi)計算出結(jié)果。所以,為了更好的利用數(shù)據(jù)間的連接,企業(yè)需要一種——將關(guān)系信息存儲為實體、靈活拓展數(shù)據(jù)模型的數(shù)據(jù)庫技術(shù),這項技術(shù)就是圖數(shù)據(jù)庫(Graph  Database)。

圖數(shù)據(jù)庫具有天然可解釋性

圖數(shù)據(jù)庫是基于圖模型,對圖數(shù)據(jù)進行存儲、操作和訪問的一項技術(shù),即使沒有專業(yè)的圖論知識儲備,也能輕松理解。它可以接受比實時查詢更為復雜的分析需求,來挖掘圖數(shù)據(jù)中的潛在價值。從分類上來說,圖數(shù)據(jù)庫屬于  NoSQL 的一種。

圖模型是圖數(shù)據(jù)庫中的重要概念。圖模型由兩個要素組成:節(jié)點和邊。每個節(jié)點代表一個實體(一個人,地方,事物或其他數(shù)據(jù)),每條邊代表兩個節(jié)點之間的連接,這種通用結(jié)構(gòu)可以對各種場景進行建模,如社交網(wǎng)絡(luò)以及由關(guān)系定義的任何其他事物。

例如:下面這個圖模型中包含 3 個節(jié)點:中國、四川、大熊貓。其中他們的兩條邊分別是:大熊貓是四川的特色、四川屬于中國。

為什么需要圖數(shù)據(jù)庫

圖模型的基礎(chǔ)要素:節(jié)點和邊

從上面的圖模型可以看出,圖數(shù)據(jù)庫的目標就是基于圖模型以一種直觀的方式模擬這些關(guān)系。因為是基于事物關(guān)系的模型表達,圖因此也具有天然的可解釋性。

圖數(shù)據(jù)庫在處理關(guān)聯(lián)數(shù)據(jù)時的優(yōu)勢

與關(guān)系型數(shù)據(jù)庫相比,圖數(shù)據(jù)庫在處理關(guān)聯(lián)數(shù)據(jù)時有三個非常突出的技術(shù)優(yōu)勢:

  • 高性能:隨著數(shù)據(jù)量的增多和關(guān)聯(lián)深度的增加,傳統(tǒng)關(guān)系型數(shù)據(jù)庫受制于檢索時需要多個表之間連接操作,數(shù)據(jù)寫入時也需考慮外鍵約束,從而導致較大的額外開銷,產(chǎn)生嚴重的性能問題。而圖模型固有的數(shù)據(jù)索引結(jié)構(gòu),使得它的數(shù)據(jù)查詢與分析速度更快。

  • 靈活:圖數(shù)據(jù)庫有非常靈活的數(shù)據(jù)模型,使用者可以根據(jù)業(yè)務變化隨時調(diào)整數(shù)據(jù)模型,比如任意添加或刪除頂點、邊,擴充或者縮小圖模型這些都可以輕松實現(xiàn),這種頻繁的  Schema 更改在關(guān)系型數(shù)據(jù)庫上不能到很好的支持。

  • 敏捷:圖數(shù)據(jù)庫的圖模型非常直觀,支持測試驅(qū)動開發(fā)模式,每次構(gòu)建時可進行功能測試和性能測試,符合當今比較流行的敏捷開發(fā)需求,對于提高生產(chǎn)和交付效率也有一定幫助。

我們可以繼續(xù)擴展前面介紹到的圖模型用例,來展示圖數(shù)據(jù)庫的優(yōu)勢。北京也屬于中國,長城位于北京,Tom 去過長城,火鍋店張師傅出生于四川,Tom  出生在中國喜歡大熊貓,張師傅在北京開店,Tom 是張師傅的顧客。

為什么需要圖數(shù)據(jù)庫

拓展后的圖模型

如果你是業(yè)務 / 產(chǎn)品工作人員,你一定希望你的產(chǎn)品或業(yè)務拓展到用戶的方方面面。如果你是開發(fā)人員你一定希望能夠簡單高效地描述這個紛繁復雜的世界。

在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,要想進行關(guān)聯(lián)查詢,我們需要建立多少張表呢?國家、省 / 市、人、動物、地標、動物與省 / 市的關(guān)系、國家與省 / 市的關(guān)系、人與省  / 市的關(guān)系、人與人..... 粗算一下 至少十幾張表。

構(gòu)建這些表倒沒什么。但如果,現(xiàn)在我們需要查詢:在哪些城市上班的人最喜歡大熊貓?

首先需要關(guān)聯(lián)動物表、人員表、人喜歡的動物表,關(guān)聯(lián)這三張表就可以查到 Tom  喜歡大熊貓。但是接下來你還需要再關(guān)聯(lián)兩張表,找到他們在哪個地標工作,然后再關(guān)聯(lián)兩張表找到這些地標在哪個城市。等等,還沒完,你還得 group by  一下,再排個序。

你會發(fā)現(xiàn)這個查詢實在太難了!但這恰恰是數(shù)據(jù)分析師最基本的工作,也是大數(shù)據(jù)時代海量信息處理的一個縮影。而使用圖數(shù)據(jù)庫,我們可以輕易的描述和查詢上圖所示的關(guān)系。在處理復雜數(shù)據(jù)關(guān)系運算上,圖數(shù)據(jù)庫查詢效率遠高于關(guān)系型數(shù)據(jù)庫。

圖數(shù)據(jù)庫的應用場景

圖數(shù)據(jù)庫技術(shù)已經(jīng)應用于現(xiàn)實生活中的方方面面,諸如 Google、Facebook 等科技巨頭已經(jīng)開始使用圖數(shù)據(jù)庫的力量來蓬勃發(fā)展業(yè)務。據(jù)  Gartner 在《十大數(shù)據(jù)分析技術(shù)趨勢》預測,2012 年至 2022 年,全球圖處理及圖數(shù)據(jù)庫的應用都將以每年 100% 的速度迅猛增長。

如果說知識圖譜是圖數(shù)據(jù)庫的底層應用場景,充分利用了圖模型在存儲和查詢的優(yōu)勢為多行業(yè)提供知識服務。那么金融風控則是具有行業(yè)特點的高階應用場景。

知識圖譜

知識圖譜作為圖數(shù)據(jù)庫的底層應用,已服務于多種行業(yè),包括:智能問答、搜索、個性化推薦等。以智能問答為例,產(chǎn)品主要分為聊天機器人、行業(yè)智能問答系統(tǒng)兩種。開放領(lǐng)域的知識圖譜能為聊天機器人提供廣泛知識,機器不僅能和使用者聊天還能提供日常知識。行業(yè)智能問答系統(tǒng)則使用行業(yè)知識圖譜,能夠為用戶有針對性的提供專業(yè)領(lǐng)域知識,在法律、醫(yī)療行業(yè)已得到運用。

在知識圖譜的應用落地上,主要有兩點因素影響著知識圖譜的質(zhì)量和實現(xiàn) -NLP 自然語言處理引擎、算法庫。NLP 自然語言處理引擎決定了 NLP  爬蟲平臺獲取數(shù)據(jù)的質(zhì)量和數(shù)量,而這些原始數(shù)據(jù)作為知識圖譜的知識原料又決定了知識圖譜的水平。算法庫中的圖算法決定了圖構(gòu)建、圖存儲和圖操作的能力,知識原料豐富而圖算法落后,依然不能構(gòu)建出強大的知識圖譜。

金融反欺詐

圖數(shù)據(jù)庫通過利用多維交叉關(guān)聯(lián)信息深度刻畫申請和交易行為,可以有效識別規(guī)?;?、隱蔽性的欺詐網(wǎng)絡(luò)和洗錢網(wǎng)絡(luò);結(jié)合機器學習、聚類分析、風險傳播等相關(guān)算法,可以實時計算用戶的風險評分,在風險行為發(fā)生前預先識別,有效幫助金融機構(gòu)提升效率、降低風險。應用圖數(shù)據(jù)庫的金融風控場景很多,例如個人信貸、洗錢路徑追蹤、個人  / 企業(yè)征信等

基于圖數(shù)據(jù)庫在金融風控的優(yōu)異表現(xiàn),很多企業(yè)表示對這項技術(shù)的看好,在這之中也有一些前瞻性的企業(yè)已率先使用此技術(shù)并取得競爭性優(yōu)勢。圖技術(shù)發(fā)展多年,這項技術(shù)仍然有很多企業(yè)沒有使用,是什么原因阻礙了技術(shù)的推進?

首先是數(shù)據(jù)存儲的問題,在反洗錢的場景中,需對用戶的借記卡和信用卡數(shù)據(jù)存儲分析。在存儲時發(fā)現(xiàn),僅 10 個月借記卡數(shù)據(jù) +1 個月信用卡數(shù)據(jù)規(guī)模就有 5 個  T,這樣的數(shù)據(jù)量是過去圖數(shù)據(jù)庫無法支持的。

第二點是多步分析問題。在反洗錢應用場景中需要做到 3-10 步以上的分析,而目前的圖數(shù)據(jù)庫在企業(yè)級場景下,2 度到 3  度查詢時就會出現(xiàn)超時或者內(nèi)存溢出的問題。這樣的性能對于欺詐甄別的幫助很小。

針對這些問題,圖數(shù)據(jù)庫廠商正在積極構(gòu)建成熟的解決方案來滿足這兩點要求,市面上有越來越多高性能圖數(shù)據(jù)庫出現(xiàn)。目前,部分企業(yè)采取的替代方案是通過圖數(shù)據(jù)庫 +  大數(shù)據(jù)平臺的方式實現(xiàn)大數(shù)據(jù)量的效果,但是這樣的解決方案由于技術(shù)門檻較高無法輕易掌握。

工業(yè)領(lǐng)域

圖模型具有強大的表現(xiàn)力對于快速更新的事物有很強的適應性,在工業(yè)領(lǐng)域用來管理快速變化的庫存、供應鏈關(guān)系。目前已有沃爾沃等汽車制造商,依靠圖數(shù)據(jù)庫優(yōu)化生產(chǎn)流程和供應鏈管理。

在制造業(yè),供應鏈的管理涉及到多人協(xié)作和實時庫存信息的反饋,包括匯總后的信息和明細數(shù)據(jù)的查詢,查詢過程涉及實體很多且關(guān)系復雜。此時圖數(shù)據(jù)庫在面對這類深度關(guān)聯(lián)的場景時,優(yōu)勢就顯現(xiàn)出來了,因為只需要通過邊的查詢就能找到相關(guān)聯(lián)的數(shù)據(jù),而無需對某一頂點做全局掃描,圖數(shù)據(jù)庫能夠做到對于流入數(shù)據(jù)的實時更新和數(shù)據(jù)深度遍歷。

圖數(shù)據(jù)庫技術(shù)的架構(gòu)

圖數(shù)據(jù)庫的技術(shù)架構(gòu)如下圖所示,整體上采用分層架構(gòu)的模式,由上至下分別是:接口層、計算層、存儲層。

為什么需要圖數(shù)據(jù)庫

圖數(shù)據(jù)庫的系統(tǒng)架構(gòu)

(1)接口層:接口層對外提供服務,有如下幾種方式:

  • 查詢語言接口:提供除該圖數(shù)據(jù)庫原有查詢語言之外的語言查詢,例如 Cypher、Gremlin 等主流圖查詢語言接口。

  • API:提供 ODBC、JDBC、RPC、RESTful 等接口與應用端交互。

  • SDK:在 Python、Java、C++ 等編程語言中通過庫函數(shù)的方式調(diào)用圖數(shù)據(jù)庫的接口。

  • 可視化組件:通過圖形化界面的形式展示和實現(xiàn)用戶的交互。

(2)計算層:提供對操作的處理和計算,包括語法解析、查詢引擎、優(yōu)化器、事務管理、任務調(diào)度和圖算法實現(xiàn)等。其中,圖算法可能是由圖數(shù)據(jù)庫本身提供,也可能是提供接口與圖處理引擎對接

(3)存儲層:圖數(shù)據(jù)庫有原生和非原生存儲兩種存儲方式,圖存儲引擎提供了圖數(shù)據(jù)結(jié)構(gòu)、索引邏輯上的管理。

圖查詢語言標準統(tǒng)一代表市場認可度提升

與關(guān)系型數(shù)據(jù)庫不同,圖數(shù)據(jù)庫領(lǐng)域目前沒有統(tǒng)一的查詢語言,大多數(shù)查詢語言與產(chǎn)品緊密關(guān)聯(lián)。當企業(yè)需要使用新的圖數(shù)據(jù)時需要重新學習語法,這帶來了不必要的學習成本。是否擁有一個統(tǒng)一的查詢語言標準,也標志著圖數(shù)據(jù)庫市場的成熟度。

在 2019 年 9 月 17 日,SQL 標準國際委員會投票決定,將 GQL 作為一種新的圖數(shù)據(jù)查詢標準語言。目前還無法確定 GQL  的第一個可實現(xiàn)版本,但很有可能在 2020 下半年會推出 GQL 圖查詢語言的完備草案。

查詢語言統(tǒng)一帶來的好處:

  • 降低企業(yè)學習成本—前期的學習成果是能夠積累在將來發(fā)揮作用的。新的查詢語言不只是簡單的語法,還是一種新的語言使用思考方式。統(tǒng)一語言后,使用不同的圖數(shù)據(jù)庫將只意味工具不同,但是語言基礎(chǔ)是相通的。

  • 提升技術(shù)成熟度—企業(yè)不只擔心學習成本,更擔心的是整個技術(shù)的成熟程度。如果業(yè)界有一門統(tǒng)一的查詢語言,也就是當企業(yè)認為這種分析方式是穩(wěn)定而成熟的,才會認可它。

云讓數(shù)據(jù)查詢和分析變得簡單易用

目前將圖數(shù)據(jù)庫上云的廠商并不多,少數(shù)圖數(shù)據(jù)庫廠商提供云上圖數(shù)據(jù)庫部署,供數(shù)據(jù)科學家,開發(fā)人員,業(yè)務分析師,學生和其他愛好者使用。開發(fā)者可以在短時間里通過簡單的步驟開啟基于圖的解決方案配置。

大數(shù)據(jù)時代時代的業(yè)務增長帶來了數(shù)據(jù)量的劇增和數(shù)據(jù)關(guān)聯(lián)的復雜化,與此同時企業(yè)對數(shù)據(jù)價值的期望也越來越高。根據(jù) DB Engines 近 7  年數(shù)據(jù)庫流行趨勢顯示,圖數(shù)據(jù)庫相較其他主流數(shù)據(jù)庫受歡迎程度遙遙領(lǐng)先,目前,國內(nèi)越來越多的廠商進入圖數(shù)據(jù)庫領(lǐng)域,開始構(gòu)建自己的圖數(shù)據(jù)庫,圖數(shù)據(jù)庫的建設(shè)既需要全面的大數(shù)據(jù)技術(shù)又需要圖數(shù)據(jù)庫工程師和業(yè)務專家的持續(xù)協(xié)作,是一項長期持續(xù)的工作,未來,圖數(shù)據(jù)庫技術(shù)必將成為最為熱點的技術(shù)之一。

關(guān)于為什么需要圖數(shù)據(jù)庫就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI