您好,登錄后才能下訂單哦!
Hive與Impala都是構(gòu)建在Hadoop之上的數(shù)據(jù)查詢工具,那么在實(shí)際的應(yīng)用中,它們是如何加載和存儲(chǔ)數(shù)據(jù)的呢?
Hive和Impala存儲(chǔ)和加載表,和所有的關(guān)系型數(shù)據(jù)庫一樣,有自己的數(shù)據(jù)管理結(jié)構(gòu),從它的Server到Database再到表和視圖。
在其他的數(shù)據(jù)庫中,表都是以自己特定的文件格式來存儲(chǔ)的,比如Oracle有自己的存儲(chǔ)格式,而對(duì)Hive而言,一個(gè)表就是包含一個(gè)或多個(gè)文件的HDFS目錄,這個(gè)文件是屬于表下面的內(nèi)容,默認(rèn)存儲(chǔ)路徑:/user/hive/warehouse/<table_name>,支持多種存儲(chǔ)格式。
以上就是數(shù)據(jù)的存儲(chǔ),那么每一個(gè)表、每一個(gè)結(jié)構(gòu)都有自己的列或者類型定義的信息,這些信息該如何去保存呢?它們存儲(chǔ)在Metastore里,而所有的數(shù)據(jù)都存儲(chǔ)在HDFS之上,所以我們想要獲得表結(jié)構(gòu)信息,就需要知道hive的元數(shù)據(jù)中每個(gè)表的含義和結(jié)構(gòu)。在hive中,有簡單的命令可以大概的查看表的結(jié)構(gòu)信息:describe formatted tableName;hive metastore表結(jié)構(gòu)如下:
因?yàn)镠ive和Impala使用相同的數(shù)據(jù),表在HDFS,元數(shù)據(jù)在Metastore,所以以上的存儲(chǔ)及結(jié)構(gòu)介紹同樣適用于Impala。
數(shù)據(jù)加載及存儲(chǔ)示例:
在這里呢我們必須要區(qū)分兩個(gè)概念:數(shù)據(jù)和元數(shù)據(jù)。數(shù)據(jù)指的是你存儲(chǔ)和處理的信息,比如賬單記錄、傳感器讀數(shù)和服務(wù)日志等。而元數(shù)據(jù)用來描述數(shù)據(jù)的形態(tài),比如字段名和順序等。
關(guān)于Hive和Impala的介紹,是自己經(jīng)驗(yàn)的分享,希望可以幫助大家了解和認(rèn)識(shí)到Hive和Impala的功能,平常的時(shí)候我們做技術(shù)的也可以多關(guān)注一些大數(shù)據(jù)資訊。比如微信服務(wù)號(hào)“大數(shù)據(jù)cn”,“大數(shù)據(jù)時(shí)代學(xué)習(xí)中心”,對(duì)于改善我們自己的知識(shí)架構(gòu)來說都是有很大的幫助和促進(jìn)作用的。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。