溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Hive和Impala加載和存儲(chǔ)數(shù)據(jù)功能曝光

發(fā)布時(shí)間:2020-06-06 17:48:39 來源:網(wǎng)絡(luò) 閱讀:2895 作者:caosheng03 欄目:大數(shù)據(jù)


Hive與Impala都是構(gòu)建在Hadoop之上的數(shù)據(jù)查詢工具,那么在實(shí)際的應(yīng)用中,它們是如何加載和存儲(chǔ)數(shù)據(jù)的呢?

Hive和Impala存儲(chǔ)和加載表,和所有的關(guān)系型數(shù)據(jù)庫一樣,有自己的數(shù)據(jù)管理結(jié)構(gòu),從它的Server到Database再到表和視圖。

在其他的數(shù)據(jù)庫中,表都是以自己特定的文件格式來存儲(chǔ)的,比如Oracle有自己的存儲(chǔ)格式,而對(duì)Hive而言,一個(gè)表就是包含一個(gè)或多個(gè)文件的HDFS目錄,這個(gè)文件是屬于表下面的內(nèi)容,默認(rèn)存儲(chǔ)路徑:/user/hive/warehouse/<table_name>,支持多種存儲(chǔ)格式。

以上就是數(shù)據(jù)的存儲(chǔ),那么每一個(gè)表、每一個(gè)結(jié)構(gòu)都有自己的列或者類型定義的信息,這些信息該如何去保存呢?它們存儲(chǔ)在Metastore里,而所有的數(shù)據(jù)都存儲(chǔ)在HDFS之上,所以我們想要獲得表結(jié)構(gòu)信息,就需要知道hive的元數(shù)據(jù)中每個(gè)表的含義和結(jié)構(gòu)。在hive中,有簡單的命令可以大概的查看表的結(jié)構(gòu)信息:describe formatted tableName;hive metastore表結(jié)構(gòu)如下:

Hive和Impala加載和存儲(chǔ)數(shù)據(jù)功能曝光

因?yàn)镠ive和Impala使用相同的數(shù)據(jù),表在HDFS,元數(shù)據(jù)在Metastore,所以以上的存儲(chǔ)及結(jié)構(gòu)介紹同樣適用于Impala。

數(shù)據(jù)加載及存儲(chǔ)示例

Hive和Impala加載和存儲(chǔ)數(shù)據(jù)功能曝光

在這里呢我們必須要區(qū)分兩個(gè)概念:數(shù)據(jù)和元數(shù)據(jù)。數(shù)據(jù)指的是你存儲(chǔ)和處理的信息,比如賬單記錄、傳感器讀數(shù)和服務(wù)日志等。而元數(shù)據(jù)用來描述數(shù)據(jù)的形態(tài),比如字段名和順序等。

Hive和Impala加載和存儲(chǔ)數(shù)據(jù)功能曝光

 關(guān)于Hive和Impala的介紹,是自己經(jīng)驗(yàn)的分享,希望可以幫助大家了解和認(rèn)識(shí)到Hive和Impala的功能,平常的時(shí)候我們做技術(shù)的也可以多關(guān)注一些大數(shù)據(jù)資訊。比如微信服務(wù)號(hào)“大數(shù)據(jù)cn”,“大數(shù)據(jù)時(shí)代學(xué)習(xí)中心”,對(duì)于改善我們自己的知識(shí)架構(gòu)來說都是有很大的幫助和促進(jìn)作用的。


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI