您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關(guān)HDFS主要解決的問題以及與IPFS的區(qū)別是什么,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
HDFS主要解決什么問題,與IPFS有什么不同?
近年,隨著區(qū)塊鏈、大數(shù)據(jù)等技術(shù)的推動,全球數(shù)據(jù)量正在無限制地擴展和增加。分布式存儲的興起與互聯(lián)網(wǎng)的發(fā)展密不可分,互聯(lián)網(wǎng)公司由于其大數(shù)據(jù)、輕資產(chǎn)的特點,通常使用大規(guī)模分布式存儲系統(tǒng)。
與傳統(tǒng)的高端服務(wù)器、高端存儲器和高端處理器不同的是,互聯(lián)網(wǎng)公司的分布式存儲系統(tǒng)由數(shù)量眾多的、低成本和高性價比的普通 PC 服務(wù)器通過網(wǎng)絡(luò)連接而成。由于互聯(lián)網(wǎng)的業(yè)務(wù)發(fā)展迅猛,使得存儲系統(tǒng)架構(gòu)不能依靠傳統(tǒng)的縱向擴展的方式,即先買小型機,不夠時再買中型機,甚至大型機。互聯(lián)網(wǎng)后端的分布式系統(tǒng)要求支持橫向擴展,即通過增加普通 PC 服務(wù)器來提高存儲系統(tǒng)的整體處理能力。
另外,隨著服務(wù)器的不斷加入,需要能夠在軟件層面實現(xiàn)自動負(fù)載均衡,使得系統(tǒng)的處理能力得到線性擴展。在這種情況下,分布式存儲的成為大多數(shù)企業(yè)的必然選擇。
那么分布式存儲的種類有哪些呢?
分布式存儲包含的種類繁多,除了傳統(tǒng)意義上的分布式文件系統(tǒng)、分布式塊存儲和分布式對象存儲外,還包括分布式數(shù)據(jù)庫和分布式緩存等,但其中架構(gòu)無外乎于三種:
A、中間控制節(jié)點架構(gòu) - 以 HDFS 為代表的架構(gòu)是典型的代表
B、完全無中心架構(gòu) – 計算模式,以 Ceph 為代表的架構(gòu)是其典型的代表
C、完全無中心架構(gòu) – 一致性哈希,以 swift 為代表的架構(gòu)是其典型的代表
這里我們主要對比下HDFS與IPFS
HDFS的簡介
HDFS(Hadoop Distributed File System)是hadoop項目的核心子項目,是分布式計算中數(shù)據(jù)存儲管理的基礎(chǔ)。是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的, 可以運行于廉價的商用服務(wù)器上。
它所具有的高容錯、 高可靠性、 高可擴展性、 高獲得性、 高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲, 為超大數(shù)據(jù)集(Large Data Set) 的應(yīng)用處理帶來了很多便利。
HDFS是開源的,存儲著Hadoop應(yīng)用將要處理的數(shù)據(jù),類似于普通的Unix和linux文件系統(tǒng),不同的是它是實現(xiàn)了google的GFS文件系統(tǒng)的思想,是適用于大規(guī)模分布式數(shù)據(jù)處理相關(guān)應(yīng)用的、可擴展的分布式文件系統(tǒng)。
為什么需要HDFS?
小量的數(shù)據(jù),單機的磁盤是能夠很好地處理面對的數(shù)據(jù),但當(dāng)數(shù)據(jù)量巨大(PB)時,磁盤開始糾結(jié)處理我們需要的海量信息。我們無法提升單個磁盤的傳輸速度, 因為這個技術(shù)已經(jīng)沒有空間了 只能將大任務(wù)分解成小任務(wù) , 一塊磁盤分解成多個磁盤。 對多個磁盤上的文件進行管理, 就是分布式文件管理系統(tǒng)—HDFS
HDFS的功能
1)數(shù)據(jù)的分布式存儲和處理。
2)Hadoop 提供了一個命令接口來與 HDFS 進行交互。
3)namenode 和 datanode 的內(nèi)置服務(wù)器可幫助用戶輕松檢查群集的狀態(tài)。
4)對文件系統(tǒng)數(shù)據(jù)的流式處理訪問。
5)HDFS 提供文件權(quán)限和身份驗證。
HDFS系統(tǒng)架構(gòu) 及主要組件
在之前分步啟動Hadoop集群時大家應(yīng)該注意到了,集群中與HDFS相關(guān)的進程有兩類,分別是namenode與datanode。HDFS是一個主從架構(gòu)的系統(tǒng),其中namenode作為主節(jié)點管理著多個從工點datanode。其架構(gòu)圖如下所示:
Namenode:
管理維護著文件系統(tǒng)樹以及整個文件樹內(nèi)所有的文件和目錄即文件系統(tǒng)的元數(shù)據(jù); 控制客戶端對文件的訪問; 它還執(zhí)行文件系統(tǒng)操作, 如重命名,關(guān)閉和打開文件/目錄。DateNode:
管理所存儲的數(shù)據(jù);按照客戶端的請求, 執(zhí)行在文件系統(tǒng)上的讀寫操作;還根據(jù)NameNode的指令執(zhí)行操作如block的創(chuàng)建、 刪除和備份。
Block
通常用戶的數(shù)據(jù)存儲在HDFS上的文件中;該文件將被拆分為一個或多個片段, 并存儲在單個的數(shù)據(jù)節(jié)點;這些文件片段稱為blocks。 換句話說, HDFS可讀寫的最小數(shù)據(jù)量叫做Block。 默認(rèn)的block大小是64MB/128M(可根據(jù)配置增加)。
Rack
安裝集群計算機的機架,一個機架可以安裝幾臺計算機,在整個Hadoop集群中又會有幾個這樣的機架組成。
如果客戶端需要從某個文件讀取數(shù)據(jù),首先從 NameNode 獲取該文件的位置,然后從該 NameNode 獲取具體的數(shù)據(jù)。在該架構(gòu)中 NameNode 通常是主備部署( Secondary NameNode ),而 DataNode 則是由大量節(jié)點構(gòu)成一個集群。由于元數(shù)據(jù)的訪問頻度和訪問量相對數(shù)據(jù)都要小很多,因此 NameNode 通常不會成為性能瓶頸,而 DataNode 集群中的數(shù)據(jù)可以有副本,既可以保證高可用性,可以分散客戶端的請求。因此,通過這種分布式存儲架構(gòu)可以通過這種分布式存儲架構(gòu)可以通過橫向擴展 datanode 的數(shù)量來增加承載能力,也即實現(xiàn)了動態(tài)橫向擴展的能力。
通常,用戶數(shù)據(jù)存儲在 HDFS 的文件中。文件系統(tǒng)中的文件將分為一個或多個片段存儲在單個數(shù)據(jù)節(jié)點中。這些文件段稱為block。換句話說,HDFS 可以讀取或?qū)懭氲淖钚?shù)據(jù)量稱為block。默認(rèn)塊大小為 64MB,可以根據(jù) HDFS 配置進行更改。
HDFS的特點
1、故障檢測和恢復(fù) – 由于 HDFS 包含大量產(chǎn)品硬件,組件故障頻繁。因此,HDFS 應(yīng)具有快速自動故障檢測和恢復(fù)的機制。
2、數(shù)據(jù)集的管理 – HDFS 每個群集都有數(shù)百個節(jié)點來管理具有大型數(shù)據(jù)集的應(yīng)用程序。
3、數(shù)據(jù)硬件處理 – 當(dāng)計算在數(shù)據(jù)物理附近時,可以高效地完成請求的任務(wù)。特別是在涉及大量數(shù)據(jù)集時,它減少了網(wǎng)絡(luò)流量并提高了吞吐量。
IPFS的簡介
IPFS(Inter Planetary File System),又叫星際文件系統(tǒng)。IPFS在2015年開啟,目前已經(jīng)有5年時間了。IPFS和Filecoin一直熱度不斷,影響力也是越來越大。在這里我們先撇開區(qū)塊鏈部分的Filecoin不談,重點分析下IPFS在分布式存儲方面的應(yīng)用。
IPFS的工作原理
第一個原理,就是在IPFS系統(tǒng)中,每個文件都會被進行 Hash 處理,并生成數(shù)字指紋。
第二,就是我們要查找文件時,IPFS 通過使用一個分布式哈希表,可以快速找到擁有數(shù)據(jù)的節(jié)點進行檢索,并使用哈希驗證其是否為正確的數(shù)據(jù),從而找到我們想要的文件。
第三, IPFS會通過網(wǎng)絡(luò)刪除重復(fù)的、具有相同哈希值的文件,也就是說,它通過計算是可以判斷哪些文件是冗余重復(fù)的,并跟蹤每個文件的版本歷史記錄。
第四,每個網(wǎng)絡(luò)節(jié)點只存儲它感興趣的內(nèi)容,以及一些索引信息,有助于我們弄清楚誰在存儲什么。
第五,使用稱為 IPNS(去中心化命名系統(tǒng)),每個文件都可以被協(xié)作命名為易讀的名字,通過搜索,我們就能很容易地找到想要查看的文件。
由于,IPFS跟HTTP協(xié)議,都被稱為互聯(lián)網(wǎng)底層協(xié)議。那么上網(wǎng)的時候,我們經(jīng)常能看到這樣一串字符,http:// www.baidu.com,或者是http:// www.taobao.com、或是http:// www.aiqiyi.com等……,這就是我們俗稱所謂的域名。但IPFS有非常優(yōu)于HTTP的地方,主要體現(xiàn)在以下幾個方面:
IPFS它的安全性更高。一方面,IPFS中的每個文件及其中的所有塊,都被賦予了一個稱為加密散列的唯一指紋;另一方面,IPFS是一個點對點的分布式文件系統(tǒng),是可以用來存儲文件的,這個文件我們可以理解為:包括文本、圖片、音頻、視頻等等;再者,由于IPFS的工作機制是將整個文件進行拆散, 然后儲存在全球的不同節(jié)點。需要數(shù)據(jù)的時候,通過文件的索引從原來存儲的位置找回來,能夠保護數(shù)據(jù)的隱私與安全性。
舉例BAT,我們現(xiàn)在使用的云儲存方式是:我們把數(shù)據(jù)交給BAT(百度云、阿里云、騰訊云),需要數(shù)據(jù)的時候找BAT拿回來。這個過程看上去沒什么毛病,可一旦BAT的服務(wù)器停機,或者是你的隱私被偷窺了呢?
IPFS它的去中心化使得數(shù)據(jù)上傳、下載速度可以更快,還能夠讓數(shù)據(jù)永久化的存儲。因為IPFS是由全球的存儲節(jié)點構(gòu)成的,也就是說未來我們可以在世界的每個角落,都可以快速的訪問存儲在ipfs網(wǎng)絡(luò)上的文件。簡單地說就是把這些文件進行加密,然后存儲到電腦、手機等等這些使用硬盤的儀器當(dāng)中。
從上述的原理中我們可以清晰地看出,在存儲方面IPFS與傳統(tǒng)的分布式存儲是完全不同的,是完全去中心化的。
HDFS與IPFS對比
a 、應(yīng)用對象
HDFS主要是企業(yè)級的應(yīng)用,針對企業(yè)的大文件存儲,因為 HDFS 采用的是以元數(shù)據(jù)的方式進行文件管理,而元數(shù)據(jù)的相關(guān)目錄和塊等信息保存在 NameNode 的內(nèi)存中, 文件數(shù)量的增加會占用大量的 NameNode 內(nèi)存。如果存在大量的小文件,會占用大量內(nèi)存空間,引起整個分布式存儲性能下降,所以盡量使用 HDFS 存儲大文件比較合適。而IPFS主要是針對個人用戶市場,根據(jù)個人的文件進行存儲,存儲的節(jié)點越多,存儲的文件越多,整個文件系統(tǒng)的穩(wěn)定性也就越高。
b 、讀寫頻次
HDFS適合低寫入,多次讀取的業(yè)務(wù)。HDFS 的數(shù)據(jù)傳輸吞吐量比較高,但是數(shù)據(jù)讀取延時比較差,不適合頻繁的數(shù)據(jù)寫入。IPFS對于文件的讀取和寫入具有很強的包容性和擴展性,文件的讀取和寫入越多,整個基于IPFS的經(jīng)濟生態(tài)系統(tǒng)也就越繁榮,在系統(tǒng)中的用戶也就越受益。
c 、存儲環(huán)境
HDFS 采用多副本數(shù)據(jù)保護機制,使用普通的 X86 服務(wù)器就可以保障數(shù)據(jù)的可靠性,不推薦在虛擬化環(huán)境中使用。IPFS使用個人的普通服務(wù)器即可作為節(jié)點,運行IPFS系統(tǒng),提供去中心化的存儲服務(wù)
d、存儲系統(tǒng)
HDFS 主要針對大企業(yè),雖是分布式存儲,其主要的控制著仍是企業(yè)主體,屬于一個封閉的存儲系統(tǒng)。IPFS完全去中心化的操作,任何企業(yè)和個人都可以接入存儲網(wǎng)絡(luò)。
e、尋址方式
HDFS如果客戶端需要從某個文件讀取數(shù)據(jù),首先從 NameNode 獲取該文件的位置,然后從該 NameNode 獲取具體的數(shù)據(jù),IPFS則是直接從內(nèi)容所在的節(jié)點獲取文件,是基于內(nèi)容獲取的方式。
基于IPFS技術(shù)開發(fā)的應(yīng)用也不斷出現(xiàn),IPFS直接整合至Brave瀏覽器中,將 Hadoop 置于IPFS之上進行p2p數(shù)據(jù)分析,PeerPad利用IPFS構(gòu)建無服務(wù)器、實時的、離線協(xié)作式應(yīng)用等。在陸續(xù)與微軟、美國宇航局(NASA)等知名機構(gòu)、企業(yè)建立合作關(guān)系后,IPFS的實際應(yīng)用價值得到了進一步深化。
總結(jié)IPFS/IPSE分布式架構(gòu)的優(yōu)點:
去中心化
分布式節(jié)點網(wǎng)絡(luò),無單點問題
加密技術(shù)保護數(shù)據(jù)完整性和安全性
存儲成本和傳輸成本遠低于中心化系統(tǒng)
看完上述內(nèi)容,你們對HDFS主要解決的問題以及與IPFS的區(qū)別是什么有進一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注億速云行業(yè)資訊頻道,感謝大家的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。