溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

用戶(hù)登錄×

賬戶(hù)密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

Hadoop文件格式有哪些

發(fā)布時(shí)間：2021-12-08 10:54:19 來(lái)源：億速云閱讀：178 作者：小新欄目：系統(tǒng)運(yùn)維

這篇文章主要介紹了Hadoop文件格式有哪些，具有一定借鑒價(jià)值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

Hadoop 中的文件格式

1 SequenceFile

SequenceFile是Hadoop API 提供的一種二進(jìn)制文件，它將數(shù)據(jù)以<key,value>的形式序列化到文件中。這種二進(jìn)制文件內(nèi)部使用Hadoop 的標(biāo)準(zhǔn)的Writable 接口實(shí)現(xiàn)序列化和反序列化。它與Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 繼承自Hadoop API 的SequenceFile，不過(guò)它的key為空，使用value 存放實(shí)際的值，這樣是為了避免MR 在運(yùn)行map 階段的排序過(guò)程。如果你用Java API 編寫(xiě)SequenceFile，并讓Hive 讀取的話(huà)，請(qǐng)確保使用value字段存放數(shù)據(jù)，否則你需要自定義讀取這種SequenceFile 的InputFormat class 和OutputFormat class。

Hadoop文件格式有哪些

圖1：Sequencefile 文件結(jié)構(gòu)

2 RCFile

RCFile是Hive推出的一種專(zhuān)門(mén)面向列的數(shù)據(jù)格式。它遵循“先按列劃分，再垂直劃分”的設(shè)計(jì)理念。當(dāng)查詢(xún)過(guò)程中，針對(duì)它并不關(guān)心的列時(shí)，它會(huì)在IO上跳過(guò)這些列。需要說(shuō)明的是，RCFile在map階段從遠(yuǎn)端拷貝仍然是拷貝整個(gè)數(shù)據(jù)塊，并且拷貝到本地目錄后RCFile并不是真正直接跳過(guò)不需要的列，并跳到需要讀取的列，而是通過(guò)掃描每一個(gè)row group的頭部定義來(lái)實(shí)現(xiàn)的，但是在整個(gè)HDFS Block 級(jí)別的頭部并沒(méi)有定義每個(gè)列從哪個(gè)row group起始到哪個(gè)row group結(jié)束。所以在讀取所有列的情況下，RCFile的性能反而沒(méi)有SequenceFile高。

Hadoop文件格式有哪些

圖2：RCFile 文件結(jié)構(gòu)

3 Avro

Avro是一種用于支持?jǐn)?shù)據(jù)密集型的二進(jìn)制文件格式。它的文件格式更為緊湊，若要讀取大量數(shù)據(jù)時(shí)，Avro能夠提供更好的序列化和反序列化性能。并且Avro數(shù)據(jù)文件天生是帶Schema定義的，所以它不需要開(kāi)發(fā)者在API 級(jí)別實(shí)現(xiàn)自己的Writable對(duì)象。最近多個(gè)Hadoop 子項(xiàng)目都支持Avro 數(shù)據(jù)格式，如Pig 、Hive、Flume、Sqoop和Hcatalog。

Hadoop文件格式有哪些

圖3：Avro MR 文件格式

4. 文本格式

除上面提到的3種二進(jìn)制格式之外，文本格式的數(shù)據(jù)也是Hadoop中經(jīng)常碰到的。如TextFile 、XML和JSON。文本格式除了會(huì)占用更多磁盤(pán)資源外，對(duì)它的解析開(kāi)銷(xiāo)一般會(huì)比二進(jìn)制格式高幾十倍以上，尤其是XML 和JSON，它們的解析開(kāi)銷(xiāo)比Textfile 還要大，因此強(qiáng)烈不建議在生產(chǎn)系統(tǒng)中使用這些格式進(jìn)行儲(chǔ)存。如果需要輸出這些格式，請(qǐng)?jiān)诳蛻?hù)端做相應(yīng)的轉(zhuǎn)換操作。文本格式經(jīng)常會(huì)用于日志收集，數(shù)據(jù)庫(kù)導(dǎo)入，Hive默認(rèn)配置也是使用文本格式，而且常常容易忘了壓縮，所以請(qǐng)確保使用了正確的格式。另外文本格式的一個(gè)缺點(diǎn)是它不具備類(lèi)型和模式，比如銷(xiāo)售金額、利潤(rùn)這類(lèi)數(shù)值數(shù)據(jù)或者日期時(shí)間類(lèi)型的數(shù)據(jù)，如果使用文本格式保存，由于它們本身的字符串類(lèi)型的長(zhǎng)短不一，或者含有負(fù)數(shù)，導(dǎo)致MR沒(méi)有辦法排序，所以往往需要將它們預(yù)處理成含有模式的二進(jìn)制格式，這又導(dǎo)致了不必要的預(yù)處理步驟的開(kāi)銷(xiāo)和儲(chǔ)存資源的浪費(fèi)。

5. 外部格式

Hadoop實(shí)際上支持任意文件格式，只要能夠?qū)崿F(xiàn)對(duì)應(yīng)的RecordWriter和RecordReader即可。其中數(shù)據(jù)庫(kù)格式也是會(huì)經(jīng)常儲(chǔ)存在Hadoop中，比如Hbase，Mysql，Cassandra，MongoDB。這些格式一般是為了避免大量的數(shù)據(jù)移動(dòng)和快速裝載的需求而用的。他們的序列化和反序列化都是由這些數(shù)據(jù)庫(kù)格式的客戶(hù)端完成，并且文件的儲(chǔ)存位置和數(shù)據(jù)布局(Data Layout)不由Hadoop控制，他們的文件切分也不是按HDFS的塊大?。╞locksize）進(jìn)行切割。

文件存儲(chǔ)大小比較與分析

我們選取一個(gè)TPC-H標(biāo)準(zhǔn)測(cè)試來(lái)說(shuō)明不同的文件格式在存儲(chǔ)上的開(kāi)銷(xiāo)。因?yàn)榇藬?shù)據(jù)是公開(kāi)的，所以讀者如果對(duì)此結(jié)果感興趣，也可以對(duì)照后面的實(shí)驗(yàn)自行做一遍。Orders 表文本格式的原始大小為1.62G。我們將其裝載進(jìn)Hadoop 并使用Hive 將其轉(zhuǎn)化成以上幾種格式，在同一種LZO 壓縮模式下測(cè)試形成的文件的大小。

Orders_text1	1732690045	1.61G	非壓縮	TextFile
Orders_tex2	772681211	736M	LZO壓縮	TextFile
Orders_seq1	1935513587	1.80G	非壓縮	SequenceFile
Orders_seq2	822048201	783M	LZO壓縮	SequenceFile
Orders_rcfile1	1648746355	1.53G	非壓縮	RCFile
Orders_rcfile2	686927221	655M	LZO壓縮	RCFile
Orders_avro_table1	1568359334	1.46G	非壓縮	Avro
Orders_avro_table2	652962989	622M	LZO壓縮	Avro

表1：不同格式文件大小對(duì)比

從上述實(shí)驗(yàn)結(jié)果可以看到，SequenceFile無(wú)論在壓縮和非壓縮的情況下都比原始純文本TextFile大，其中非壓縮模式下大11%，壓縮模式下大6.4%。這跟SequenceFile的文件格式的定義有關(guān)： SequenceFile在文件頭中定義了其元數(shù)據(jù)，元數(shù)據(jù)的大小會(huì)根據(jù)壓縮模式的不同略有不同。一般情況下，壓縮都是選取block 級(jí)別進(jìn)行的，每一個(gè)block都包含key的長(zhǎng)度和value的長(zhǎng)度，另外每4K字節(jié)會(huì)有一個(gè)sync-marker的標(biāo)記。對(duì)于TextFile文件格式來(lái)說(shuō)不同列之間只需要用一個(gè)行間隔符來(lái)切分，所以TextFile文件格式比SequenceFile文件格式要小。但是TextFile 文件格式不定義列的長(zhǎng)度，所以它必須逐個(gè)字符判斷每個(gè)字符是不是分隔符和行結(jié)束符。因此TextFile 的反序列化開(kāi)銷(xiāo)會(huì)比其他二進(jìn)制的文件格式高幾十倍以上。

RCFile文件格式同樣也會(huì)保存每個(gè)列的每個(gè)字段的長(zhǎng)度。但是它是連續(xù)儲(chǔ)存在頭部元數(shù)據(jù)塊中，它儲(chǔ)存實(shí)際數(shù)據(jù)值也是連續(xù)的。另外RCFile 會(huì)每隔一定塊大小重寫(xiě)一次頭部的元數(shù)據(jù)塊（稱(chēng)為row group，由hive.io.rcfile.record.buffer.size控制，其默認(rèn)大小為4M），這種做法對(duì)于新出現(xiàn)的列是必須的，但是如果是重復(fù)的列則不需要。RCFile 本來(lái)應(yīng)該會(huì)比SequenceFile 文件大，但是RCFile 在定義頭部時(shí)對(duì)于字段長(zhǎng)度使用了Run Length Encoding進(jìn)行壓縮，所以RCFile 比SequenceFile又小一些。Run length Encoding針對(duì)固定長(zhǎng)度的數(shù)據(jù)格式有非常高的壓縮效率，比如Integer、Double和Long等占固定長(zhǎng)度的數(shù)據(jù)類(lèi)型。在此提一個(gè)特例——Hive 0.8引入的TimeStamp 時(shí)間類(lèi)型，如果其格式不包括毫秒，可表示為”YYYY-MM-DD HH:MM:SS”，那么就是固定長(zhǎng)度占8個(gè)字節(jié)。如果帶毫秒，則表示為”YYYY-MM-DD HH:MM:SS.fffffffff”，后面毫秒的部分則是可變的。

Avro文件格式也按group進(jìn)行劃分。但是它會(huì)在頭部定義整個(gè)數(shù)據(jù)的模式（Schema），而不像RCFile那樣每隔一個(gè)row group就定義列的類(lèi)型，并且重復(fù)多次。另外，Avro在使用部分類(lèi)型的時(shí)候會(huì)使用更小的數(shù)據(jù)類(lèi)型，比如Short或者Byte類(lèi)型，所以Avro的數(shù)據(jù)塊比RCFile 的文件格式塊更小。

序列化與反序列化開(kāi)銷(xiāo)分析

我們可以使用Java的profile工具來(lái)查看Hadoop 運(yùn)行時(shí)任務(wù)的CPU和內(nèi)存開(kāi)銷(xiāo)。以下是在Hive 命令行中的設(shè)置：

hive>set mapred.task.profile=true;
hive>set mapred.task.profile.params =-agentlib:hprof=cpu=samples,heap=sites, depth=6,force=n,thread=y,verbose=n,file=%s

當(dāng)map task 運(yùn)行結(jié)束后，它產(chǎn)生的日志會(huì)寫(xiě)在$logs/userlogs/job- 文件夾下。當(dāng)然，你也可以直接在JobTracker的Web界面的logs或jobtracker.jsp 頁(yè)面找到日志。

我們運(yùn)行一個(gè)簡(jiǎn)單的SQL語(yǔ)句來(lái)觀察RCFile 格式在序列化和反序列化上的開(kāi)銷(xiāo)：

hive> select O_CUSTKEY,O_ORDERSTATUS from orders_rc2 where O_ORDERSTATUS='P';

其中的O_CUSTKEY列為integer類(lèi)型，O_ORDERSTATUS為String類(lèi)型。在日志輸出的最后會(huì)包含內(nèi)存和CPU 的消耗。

下表是一次CPU 的開(kāi)銷(xiāo)：

rank	self	accum	count	trace	method
20	0.48%	79.64%	65	315554	org.apache.hadoop.hive.ql.io.RCFile$Reader.getCurrentRow
28	0.24%	82.07%	32	315292	org.apache.hadoop.hive.serde2.columnar.ColumnarStruct.init
55	0.10%	85.98%	14	315788	org.apache.hadoop.hive.ql.io.RCFileRecordReader.getPos
56	0.10%	86.08%	14	315797	org.apache.hadoop.hive.ql.io.RCFileRecordReader.next

表2：一次CPU的開(kāi)銷(xiāo)

其中第五列可以對(duì)照上面的Track信息查看到底調(diào)用了哪些函數(shù)。比如CPU消耗排名20的函數(shù)對(duì)應(yīng)Track：

TRACE 315554: (thread=200001)
    org.apache.hadoop.hive.ql.io.RCFile$Reader.getCurrentRow(RCFile.java:1434)
    org.apache.hadoop.hive.ql.io.RCFileRecordReader.next(RCFileRecordReader.java:88)
    org.apache.hadoop.hive.ql.io.RCFileRecordReader.next(RCFileRecordReader.java:39)
org.apache.hadoop.hive.ql.io.CombineHiveRecordReader.doNext(CombineHiveRecordReader.java:98)
org.apache.hadoop.hive.ql.io.CombineHiveRecordReader.doNext(CombineHiveRecordReader.java:42)    
org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.next(HiveContextAwareRecordReader.java:67)

其中，比較明顯的是RCFile，它為了構(gòu)造行而消耗了不必要的數(shù)組移動(dòng)開(kāi)銷(xiāo)。其主要是因?yàn)镽CFile 為了還原行，需要構(gòu)造RowContainer，順序讀取一行構(gòu)造RowContainer，然后給其中對(duì)應(yīng)的列進(jìn)行賦值，因?yàn)镽CFile早期為了兼容SequenceFile所以可以合并兩個(gè)block，又由于RCFile不知道列在哪個(gè)row group結(jié)束，所以必須維持?jǐn)?shù)組的當(dāng)前位置，類(lèi)似如下格式定義：

   Array<RowContainer extends List<Object>>

而此數(shù)據(jù)格式可以改為面向列的序列化和反序列化方式。如：

Map<array<col1Type>,array<col2Type>,array<col3Type>....>

這種方式的反序列化會(huì)避免不必要的數(shù)組移動(dòng)，當(dāng)然前提是我們必須知道列在哪個(gè)row group開(kāi)始到哪個(gè)row group結(jié)束。這種方式會(huì)提高整體反序列化過(guò)程的效率。

關(guān)于Hadoop文件格式的思考

1 高效壓縮

Hadoop目前尚未出現(xiàn)針對(duì)數(shù)據(jù)特性的高效編碼（Encoding）和解碼(Decoding)數(shù)據(jù)格式。尤其是支持Run Length Encoding、Bitmap 這些極為高效算法的數(shù)據(jù)格式。HIVE-2065 討論過(guò)使用更加高效的壓縮形式，但是對(duì)于如何選取列的順序沒(méi)有結(jié)論。關(guān)于列順序選擇可以看Daniel Lemire的一篇論文《Reordering Columns for Smaller Indexes》[1]。作者同時(shí)也是Hive 0.8中引入的bitmap 壓縮算法基礎(chǔ)庫(kù)的作者。該論文的結(jié)論是：當(dāng)某個(gè)表需要選取多個(gè)列進(jìn)行壓縮時(shí)，需要根據(jù)列的選擇性(selectivity)進(jìn)行升序排列，即唯一值越少的列排得越靠前。事實(shí)上這個(gè)結(jié)論也是Vertica多年來(lái)使用的數(shù)據(jù)格式。其他跟壓縮有關(guān)的還有HIVE-2604和HIVE-2600。

2 基于列和塊的序列化和反序列化

不論排序后的結(jié)果是不是真的需要，目前Hadoop的整體框架都需要不斷根據(jù)數(shù)據(jù)key進(jìn)行排序。除了上面提到的基于列的排序，序列化和反序列化之外，Hadoop的文件格式應(yīng)該支持某種基于塊（Block）級(jí)別的排序和序列化及反序列化方式，只有當(dāng)數(shù)據(jù)滿(mǎn)足需要時(shí)才進(jìn)行這些操作。來(lái)自Google Tenzing論文中曾將它作為MR 的優(yōu)化手段提到過(guò)。

“Block Shuffle：正常來(lái)說(shuō)，MR 在Shuffle 的時(shí)候使用基于行的編碼和解碼。為了逐個(gè)處理每一行,數(shù)據(jù)必須先排序。然而，當(dāng)排序不是必要的時(shí)候這種方式并不高效,我們?cè)诨谛械膕huffle基礎(chǔ)上實(shí)現(xiàn)了一種基于block的shuffle方式，每一次處理大概1M的壓縮block，通過(guò)把整個(gè)block當(dāng)成一行，我們能夠避免MR框架上的基于行的序列化和反序列化消耗，這種方式比基于行的shuffle 快上3倍以上?！?/p>

3 數(shù)據(jù)過(guò)濾（Skip List）

除常見(jiàn)的分區(qū)和索引之外，使用排序之后的塊（Block）間隔也是常見(jiàn)列數(shù)據(jù)庫(kù)中使用的過(guò)濾數(shù)據(jù)的方法。Google Tenzing同樣描述了一種叫做ColumnIO 的數(shù)據(jù)格式，ColumnIO在頭部定義該Block的最大值和最小值，在進(jìn)行數(shù)據(jù)判斷的時(shí)候，如果當(dāng)前Block的頭部信息里面描述的范圍中不包含當(dāng)前需要處理的內(nèi)容，則會(huì)直接跳過(guò)該塊。Hive社區(qū)里曾討論過(guò)如何跳過(guò)不需要的塊，可是因?yàn)闆](méi)有排序所以一直沒(méi)有較好的實(shí)現(xiàn)方式。包括RCFile格式，Hive的index 機(jī)制里面目前還沒(méi)有一個(gè)高效的根據(jù)頭部元數(shù)據(jù)就可以跳過(guò)塊的實(shí)現(xiàn)方式。

4 延遲物化

真正好的列數(shù)據(jù)庫(kù)，都應(yīng)該可以支持直接在壓縮數(shù)據(jù)之上不需要通過(guò)解壓和排序就能夠直接操作塊。通過(guò)這種方式可以極大的降低MR 框架或者行式數(shù)據(jù)庫(kù)中先解壓，再反序列化，然后再排序所帶來(lái)的開(kāi)銷(xiāo)。Google Tenzing里面描述的Block Shuffle 也屬于延遲物化的一種。更好的延遲物化可以直接在壓縮數(shù)據(jù)上進(jìn)行操作，并且可以做內(nèi)部循環(huán)，此方面在論文《Integrating Compression and Execution in Column-Oriented Database System》[5]的5.2 章節(jié)有描述。不過(guò)考慮到它跟UDF 集成也有關(guān)系，所以，它會(huì)不會(huì)將文件接口變得過(guò)于復(fù)雜也是一件有爭(zhēng)議的事情。

5 與Hadoop框架集成

無(wú)論文本亦或是二進(jìn)制格式，都只是最終的儲(chǔ)存格式。Hadoop運(yùn)行時(shí)產(chǎn)生的中間數(shù)據(jù)卻沒(méi)有辦法控制。包括一個(gè)MR Job在map和reduce之間產(chǎn)生的數(shù)據(jù)或者DAG Job上游reduce 和下游map之間的數(shù)據(jù)，尤其是中間格式并不是列格式，這會(huì)產(chǎn)生不必要的IO和CPU 開(kāi)銷(xiāo)。比如map 階段產(chǎn)生的spill，reduce 階段需要先copy 再sort-merge。如果這種中間格式也是面向列的，然后將一個(gè)大塊切成若干小塊，并在頭部加上每個(gè)小塊的最大最小值索引，就可以避免大量sort-mege操作中解壓—反序列化—排序—合并（Merge）的開(kāi)銷(xiāo)，從而縮短任務(wù)的運(yùn)行時(shí)間。

其他文件格式

Hadoop社區(qū)也曾有對(duì)其他文件格式的研究。比如，IBM 研究過(guò)面向列的數(shù)據(jù)格式并發(fā)表論文《Column-Oriented Storage Techniques for MapReduce》[4]，其中特別提到IBM 的CIF（Column InputFormat)文件格式在序列化和反序列化的IO消耗上比RCFile 的消耗要小20倍。里面提到的將列分散在不同的HDFS Block 塊上的實(shí)現(xiàn)方式RCFile 也有考慮過(guò)，但是最后因?yàn)橹亟M行的消耗可能會(huì)因分散在遠(yuǎn)程機(jī)器上產(chǎn)生的延遲而最終放棄了這種實(shí)現(xiàn)。此外，最近Avro也在實(shí)現(xiàn)一種面向列的數(shù)據(jù)格式，不過(guò)目前Hive 與Avro 集成尚未全部完成。

感謝你能夠認(rèn)真閱讀完這篇文章，希望小編分享的“Hadoop文件格式有哪些”這篇文章對(duì)大家有幫助，同時(shí)也希望大家多多支持億速云，關(guān)注億速云行業(yè)資訊頻道，更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
怎么使用RocketMQ事務(wù)消息解決分布式事務(wù)
下一篇新聞：
hadoop2.7本機(jī)運(yùn)行mapreduce顯示拒絕連接怎么辦

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專(zhuān)題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢(xún)

7*24小時(shí)在線(xiàn)電話(huà)：400-100-2938

7*24小時(shí)在線(xiàn) QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼