溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

HDFS分布式存儲(chǔ)有什么優(yōu)勢(shì)特點(diǎn)

發(fā)布時(shí)間:2021-12-09 14:37:37 來源:億速云 閱讀:849 作者:小新 欄目:大數(shù)據(jù)

這篇文章主要介紹了HDFS分布式存儲(chǔ)有什么優(yōu)勢(shì)特點(diǎn),具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

近年,隨著區(qū)塊鏈、大數(shù)據(jù)等技術(shù)的推動(dòng),全球數(shù)據(jù)量正在無限制地?cái)U(kuò)展和增加。分布式存儲(chǔ)的興起與互聯(lián)網(wǎng)的發(fā)展密不可分,互聯(lián)網(wǎng)公司由于其大數(shù)據(jù)、輕資產(chǎn)的特點(diǎn),通常使用大規(guī)模分布式存儲(chǔ)系統(tǒng)。

那么分布式存儲(chǔ)的種類有哪些呢?

分布式存儲(chǔ)包含的種類繁多,除了傳統(tǒng)意義上的分布式文件系統(tǒng)、分布式塊存儲(chǔ)和分布式對(duì)象存儲(chǔ)外,還包括分布式數(shù)據(jù)庫和分布式緩存等,但其中架構(gòu)無外乎于三種:
A、中間控制節(jié)點(diǎn)架構(gòu) - 以 HDFS 為代表的架構(gòu)是典型的代表
B、完全無中心架構(gòu) – 計(jì)算模式,以 Ceph 為代表的架構(gòu)是其典型的代表
C、完全無中心架構(gòu) – 一致性哈希,以 swift 為代表的架構(gòu)是其典型的代表

這里我們主要HDFS有哪些優(yōu)勢(shì)


HDFS分布式存儲(chǔ)有什么優(yōu)勢(shì)特點(diǎn)

HDFS(Hadoop Distributed File System)是hadoop項(xiàng)目的核心子項(xiàng)目,是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的, 可以運(yùn)行于廉價(jià)的商用服務(wù)器上。

它所具有的高容錯(cuò)、 高可靠性、 高可擴(kuò)展性、 高獲得性、 高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲(chǔ), 為超大數(shù)據(jù)集(Large Data Set) 的應(yīng)用處理帶來了很多便利。

HDFS是開源的,存儲(chǔ)著Hadoop應(yīng)用將要處理的數(shù)據(jù),類似于普通的Unix和linux文件系統(tǒng),不同的是它是實(shí)現(xiàn)了google的GFS文件系統(tǒng)的思想,是適用于大規(guī)模分布式數(shù)據(jù)處理相關(guān)應(yīng)用的、可擴(kuò)展的分布式文件系統(tǒng)。

HDFS的特點(diǎn)

1、海量數(shù)據(jù)存儲(chǔ): HDFS可橫向擴(kuò)展,其存儲(chǔ)的文件可以支持PB級(jí)別或更高級(jí)別的數(shù)據(jù)存儲(chǔ)。
  
2、高容錯(cuò)性:數(shù)據(jù)保存多個(gè)副本,副本丟失后自動(dòng)恢復(fù)??蓸?gòu)建在廉價(jià)的機(jī)器上,實(shí)現(xiàn)線性擴(kuò)展。當(dāng)集群增加新節(jié)點(diǎn)之后,namenode也可以感知,進(jìn)行負(fù)載均衡,將數(shù)據(jù)分發(fā)和備份數(shù)據(jù)均衡到新的節(jié)點(diǎn)上。

3、商用硬件:Hadoop并不需要運(yùn)行在昂貴且高可靠的硬件上。它是設(shè)計(jì)運(yùn)行在商用硬件(廉價(jià)商業(yè)硬件)的集群上的。

4、大文件存儲(chǔ):HDFS采用數(shù)據(jù)塊的方式存儲(chǔ)數(shù)據(jù),將數(shù)據(jù)物理切分成多個(gè)小的數(shù)據(jù)塊。所以再大的數(shù)據(jù),切分后,大數(shù)據(jù)變成了很多小數(shù)據(jù)。用戶讀取時(shí),重新將多個(gè)小數(shù)據(jù)塊拼接起來。

5、檢測(cè)和快速應(yīng)對(duì)硬件故障:在集群環(huán)境中,硬件故障是常見性問題。因?yàn)橛猩锨_(tái)服務(wù)器連在一起,故障率很高,因此故障檢測(cè)和自動(dòng)恢復(fù)hdfs文件系統(tǒng)的一個(gè)設(shè)計(jì)目標(biāo)。假設(shè)某一個(gè)datanode掛掉之后,因?yàn)閿?shù)據(jù)是有備份的,還可以從其他節(jié)點(diǎn)里找到。namenode通過心跳機(jī)制來檢測(cè)datanode是否還存活。

6、流式數(shù)據(jù)訪問:(HDFS不能做到低延遲的數(shù)據(jù)訪問,但是HDFS的吞吐量大)=》Hadoop適用于處理離線數(shù)據(jù),不適合處理實(shí)時(shí)數(shù)據(jù)。HDFS的數(shù)據(jù)處理規(guī)模比較大,應(yīng)用一次需要大量的數(shù)據(jù),同時(shí)這些應(yīng)用一般都是批量處理,而不是用戶交互式處理。應(yīng)用程序能以流的形式訪問數(shù)據(jù)庫。主要的是數(shù)據(jù)的吞吐量,而不是訪問速度。訪問速度最終是要受制于網(wǎng)絡(luò)和磁盤的速度,機(jī)器節(jié)點(diǎn)再多,也不能突破物理的局限。

HDFS分布式存儲(chǔ)有什么優(yōu)勢(shì)特點(diǎn)

HDFS-硬盤文件分布式公鏈
HDFS結(jié)合了區(qū)塊鏈的機(jī)制,保證了通訊安全,加入門檻低廉,文件和數(shù)據(jù)可以真正落地,不像市場(chǎng)那些IPFS,只能幣流通,無法應(yīng)用落地。我們將會(huì)直接改變未來,改變生態(tài)使用。
技術(shù)突破壁壘,降低資源損耗,為市場(chǎng)做出貢獻(xiàn),為世界做出改變。

HDFS亮點(diǎn):
1、廉價(jià)的硬盤存儲(chǔ)計(jì)算機(jī)和相關(guān)設(shè)備均可以加入成為節(jié)點(diǎn),HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。所以只需要你加入節(jié)點(diǎn)作為貢獻(xiàn),就能得到獎(jiǎng)勵(lì)機(jī)制。

2、數(shù)據(jù)的容錯(cuò)和恢復(fù)機(jī)制,滿足大于N+3保證數(shù)據(jù)完整性。
HDFS設(shè)計(jì)成能可靠地在集群中大量機(jī)器之間存儲(chǔ)大量的文件,它以塊序列的形式存儲(chǔ)文件。文件中除了最后一個(gè)塊,其他塊都有相同的大小。屬于文件的塊為了故障容錯(cuò)而被復(fù)制。當(dāng)他的節(jié)點(diǎn)超過3臺(tái)以上即便有節(jié)點(diǎn)損壞,或者關(guān)機(jī)都不影響文件的丟失和安全,不像IPFS當(dāng)節(jié)點(diǎn)關(guān)機(jī)文件也不存在了!

3、通訊協(xié)議,安全隱秘。所有的節(jié)點(diǎn)都是主動(dòng)點(diǎn)對(duì)點(diǎn)P2P,融合區(qū)塊鏈特性和機(jī)制。
P2P是一種分布式網(wǎng)絡(luò),網(wǎng)絡(luò)的參與者共享他們所擁有的一部分硬件資源(處理能力、存儲(chǔ)能力、網(wǎng)絡(luò)連接能力、打印機(jī)等),這些共享資源需要由網(wǎng)絡(luò)提供服務(wù)和內(nèi)容,能被其它對(duì)等節(jié)點(diǎn)(peer)直接訪問而無需經(jīng)過中間實(shí)體。在此網(wǎng)絡(luò)中的參與者既是資源(服務(wù)和內(nèi)容)提供者(server),又是資源(服務(wù)和內(nèi)容)獲取者(client)
RPC(Remote Procedure Call)抽象地封裝了Client Protocol和DataNode Protocol協(xié)議。按照設(shè)計(jì),名字節(jié)點(diǎn)不會(huì)主動(dòng)發(fā)起一個(gè)RPC,它只是被動(dòng)地對(duì)數(shù)據(jù)節(jié)點(diǎn)和客戶端發(fā)起的RPC作出反饋。

4、數(shù)據(jù)正確性
從數(shù)據(jù)節(jié)點(diǎn)上取一個(gè)文件塊有可能是壞塊,壞塊的出現(xiàn)可能是存儲(chǔ)設(shè)備錯(cuò)誤,網(wǎng)絡(luò)錯(cuò)誤或者軟件的漏洞。HDFS客戶端實(shí)現(xiàn)了HDFS文件內(nèi)容的校驗(yàn)。當(dāng)一個(gè)客戶端創(chuàng)建一個(gè)HDFS文件時(shí),它會(huì)為每一個(gè)文件塊計(jì)算一個(gè)校驗(yàn)碼并將校驗(yàn)碼存儲(chǔ)在同一個(gè)HDFS命名空間下一個(gè)單獨(dú)的隱藏文件中。當(dāng)客戶端訪問這個(gè)文件時(shí),它根據(jù)對(duì)應(yīng)的校驗(yàn)文件來驗(yàn)證從數(shù)據(jù)節(jié)點(diǎn)接收到的數(shù)據(jù)。

基于HDFS存儲(chǔ)生態(tài)構(gòu)建:

HDFS作為下一代個(gè)人數(shù)據(jù)存儲(chǔ)的承載著,基本面是負(fù)責(zé)將數(shù)據(jù)安全、有效的記錄到網(wǎng)上另一方面則是以龐大的個(gè)人數(shù)據(jù)為一套延伸出更多的基于數(shù)據(jù)之上的服務(wù),幫助用戶將個(gè)人數(shù)據(jù)充分利用起來,服務(wù)于用戶自身。

1)、數(shù)據(jù)直接利用

01、AI智能健康檢測(cè):接入AI 體系,在經(jīng)過用戶授權(quán)之后能夠?qū)崒?duì)用戶個(gè)人數(shù)據(jù)中與健康有關(guān)的數(shù)據(jù)進(jìn)行終身的跟蹤分析預(yù)判,幫助用戶找出潛在的健康威脅能夠作為醫(yī)院臨床診斷的重要依據(jù),建立普及全民的個(gè)人終身健康數(shù)據(jù)檔案。

02、辦公助手:對(duì)個(gè)人數(shù)據(jù)中辦公相關(guān)的文件進(jìn)行整理,幫助用戶提升辦公效率引入鏈上辦公工具,能夠在線實(shí)時(shí)編輯更新文件。

03、個(gè)人消費(fèi)偏好推薦:通過用戶的個(gè)人消費(fèi)偏好的識(shí)別,可以有針對(duì)性的為用戶在全網(wǎng)搜尋符合用戶的消費(fèi)喜好的商品提升生活的便捷性。

2)、數(shù)據(jù)的脫敏再利用

充分發(fā)揮數(shù)據(jù)的價(jià)值,不僅僅是服務(wù)于個(gè)人,在數(shù)據(jù)經(jīng)過脫敏之后,隱藏掉個(gè)人數(shù)據(jù)的信息以及數(shù)據(jù)涉及到的敏感內(nèi)容之后,可以選擇將數(shù)據(jù)提交給大數(shù)據(jù)中心以及AI智能大腦的訓(xùn)練之中,徹底發(fā)揮數(shù)據(jù)最大的價(jià)值最后更好的服務(wù)于每一個(gè)用戶的日常生活之中。

3)、基于個(gè)人數(shù)據(jù)之上信用體系
基于個(gè)人行為數(shù)據(jù),金融授信單位有更加充分的數(shù)據(jù)給到用戶進(jìn)行授信,將來每個(gè)人都能有基于個(gè)人行為的金融授信額度,可能帶來一場(chǎng)個(gè)人征信與金融行業(yè)的重大革命。

對(duì)于個(gè)人可信數(shù)據(jù)的利用還在不斷的開發(fā)當(dāng)中,HDFS最大的價(jià)值就在于為個(gè)人數(shù)據(jù)打造了一個(gè)安全、可信的載體并且設(shè)計(jì)了授權(quán)調(diào)用的機(jī)制用戶可以基于個(gè)人意愿授予第三方有限的數(shù)據(jù)調(diào)用全線,從個(gè)人數(shù)據(jù)到大數(shù)據(jù)之間形成一個(gè)閉環(huán)的體系。

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“HDFS分布式存儲(chǔ)有什么優(yōu)勢(shì)特點(diǎn)”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持億速云,關(guān)注億速云行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來學(xué)習(xí)!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI