溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)存儲HDFS的示例分析

發(fā)布時間:2021-12-09 09:48:40 來源:億速云 閱讀:179 作者:小新 欄目:大數(shù)據(jù)

這篇文章主要為大家展示了“大數(shù)據(jù)存儲HDFS的示例分析”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“大數(shù)據(jù)存儲HDFS的示例分析”這篇文章吧。


大數(shù)據(jù)存儲HDFS的示例分析


一、數(shù)據(jù)序列化框架:
FaceBook Thrift:具體序列化和RPC兩個功能。
Google Protocol Buffers(ProtoBuf):只有序列化功能,不具備RPC功能。
Apache Avro:具體序列化和RPC兩個功能。
二、序列化框架對比:
解析速度 時間由小到大:protobuf、thrift、Avro  
序列化大小,由小到大:avro、protobuf、thrift  
三、文件存儲格式:
常見存儲格式包括行式存儲(文本格式Text File、Key/Value二進(jìn)制存儲格式Sequence File)和列式存儲(ORC、Parquet、Carbon Data)
列式存儲對比:ORC通常作為數(shù)據(jù)表的數(shù)據(jù)格式應(yīng)用在hive和presto等計算引擎中,它們對ORC讀寫進(jìn)行了優(yōu)化,而Parquet提供了非常易用的讀寫API,用戶可在應(yīng)用程序(eg:spark、MapReduce等分布式程序)中直接讀寫Parquet格式的文件,而Carbon Data在索引和數(shù)據(jù)更新方面有良好支撐,可用在多維OLAP分析場景中。
四、分布式文件系統(tǒng)
分為文件級別的分布式系統(tǒng)和塊級別的分布式系統(tǒng)。
文件級別的分布式系統(tǒng):不足之處是難以負(fù)載均衡、難以并行處理
塊級別的分布式系統(tǒng):將文件分為等大的數(shù)據(jù)塊(eg:128M),并以數(shù)據(jù)塊為單位存儲到不同節(jié)點上,進(jìn)而解決文件級別的分布式系統(tǒng)存在的負(fù)載均衡和并行處理問題,HDFS即是塊級別的分布式文件系統(tǒng)。
五、HDFS基本架構(gòu):NameNode、DataNode、Client
HDFS關(guān)鍵技術(shù):容錯性設(shè)計、副本放置策略、異構(gòu)存儲介質(zhì)(ARCHIVE:高存儲密度但耗電較少的存儲介質(zhì),DISK:磁盤介質(zhì),這是HDFS默認(rèn)存儲介質(zhì),SSD:固態(tài)硬盤,RAM_DISK:數(shù)據(jù)被寫入內(nèi)存中,同時會往改存儲介質(zhì)中異步一份)、集中式緩存管理(HDFS允許用戶將一部分目錄或文件緩存在off-heap內(nèi)存中)
六、HDFS訪問方式:
1、HDFS shell命名:分為用戶命令和管理員命令
用戶命令:常用的有文件操作命令dfs(eg:創(chuàng)建、上傳、刪掉文件)、文件一致性檢查命令fsck(eg:查看文件塊信息)、分布式文件復(fù)制命令distcp(集群內(nèi)文件或者集群間文件并行復(fù)制)。
管理命令:對服務(wù)生命周期管理,eg:啟動、關(guān)閉NameNode/DataNode、限制目錄使用空間大小。
2、HDFS API:HDFS對外提供了豐富的編程API,允許用戶使用java以及其他編程語言編寫應(yīng)用程序訪問HDFS。
3、數(shù)據(jù)收集組件:Flume(提供的sink hdfs 能夠直接將收集到的數(shù)據(jù)寫入HDFS)、Sqoop(允許用戶指定數(shù)據(jù)寫入HDFS的目錄,文件格式支持Text、SequenceFile兩種格式,壓縮方式支持LZO、Snappy等主流壓縮編碼)
4、計算引擎方式:SQL方式,Hive、Impala及Presto等查詢引擎均允許用戶直接使用SQL訪問HDFS中的存儲文件。

以上是“大數(shù)據(jù)存儲HDFS的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI