您好,登錄后才能下訂單哦!
這篇文章主要講解了“2021最新版的大數(shù)據(jù)面試題有哪些”,文中的講解內(nèi)容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“2021最新版的大數(shù)據(jù)面試題有哪些”吧!
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
答案 C datanode
a)3 份
b)2 份
c)1 份
d)不確定
答案 A 默認 3 份
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
答案 D
a)32MB
b)64MB
c)128MB
答案:B
a)CPU
b)網(wǎng)絡
c)磁盤 IO
d)內(nèi)存
答案:C 磁盤
a)它是 NameNode 的熱備
b)它對內(nèi)存沒有要求
c)它的目的是幫助 NameNode 合并編輯日志,減少 NameNode 啟動時間
d)SecondaryNameNode 應與 NameNode 部署到一個節(jié)點
答案 C。
a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper
答案 ABD
a)數(shù)據(jù)經(jīng)過 NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block,依次上傳
c)Client 只上傳數(shù)據(jù)到一臺 DataNode,然后由 NameNode 負責 Block 復制工作
答案 B 分析:Client 向 NameNode 發(fā)起文件寫入的請求。NameNode 根據(jù)文件大小和文件塊配置情況,返回給 Client 它所管理部分 DataNode 的信息。Client 將文件劃分為多個 Block,根據(jù) DataNode 的地址信息,按順序寫入到每一個 DataNode 塊中。具體查看 HDFS 體系結構簡介及優(yōu)缺點。
a)單機版
b)偽分布式
c)分布式
答案 ABC 單機版,偽分布式只是學習用的。
Hadoop 的核心配置通過兩個 xml 文件來完成:1,hadoop-default.xml;2,hadoop-site.xml。這些文件都使用 xml 格式,因此每個 xml 中都有一些屬性,包括名稱和值,但是當下這些文件都已不復存在。
Hadoop 現(xiàn)在擁有 3 個配置文件:1,core-site.xml;2,hdfs-site.xml;3,mapred-site.xml。這些文件都保存在 conf/子目錄下。
這個命令可以檢查 Namenode、Datanode、Task Tracker、 Job Tracker 是否正常工作。
流程:
1、 client 鏈接 namenode 存數(shù)據(jù)
2、 namenode 記錄一條數(shù)據(jù)位置信息(元數(shù)據(jù)),告訴 client 存哪。
3、 client 用 hdfs 的 api 將數(shù)據(jù)塊(默認是 64M)存儲到 datanode 上。
4、 datanode 將數(shù)據(jù)水平備份。并且備份完將反饋 client。
5、 client 通知 namenode 存儲塊完畢。
6、 namenode 將元數(shù)據(jù)同步到內(nèi)存中。
7、 另一塊循環(huán)上面的過程。
流程:
1、 client 鏈接 namenode,查看元數(shù)據(jù),找到數(shù)據(jù)的存儲位置。
2、 client 通過 hdfs 的 api 并發(fā)讀取數(shù)據(jù)。
3、 關閉連接。
wordcount 的例子
現(xiàn)在有 10 個文件夾,每個文件夾都有 1000000 個 url.現(xiàn)在讓你找出 top1000000url。
解答:topk
(還可以用 treeMap, 到 1000000 了每來一個都加進去, 刪掉最小的)
combiner 是 reduce 的實現(xiàn),在 map 端運行計算任務,減少 map 端的輸出數(shù)據(jù)。
作用就是優(yōu)化。
但是 combiner 的使用場景是 mapreduce 的 map 和 reduce 輸入輸出一樣。
內(nèi)部表:加載數(shù)據(jù)到 hive 所在的 hdfs 目錄,刪除時,元數(shù)據(jù)和數(shù)據(jù)文件都刪除
外部表:不加載數(shù)據(jù)到 hive 所在的 hdfs 目錄,刪除時,只刪除表結構
hbase 存儲時,數(shù)據(jù)按照 Row key 的字典序(byte order)排序存儲。設計 key 時,要充分排序
存儲這個特性,將經(jīng)常一起讀取的行存儲放到一起。(位置相關性)一個列族在數(shù)據(jù)底層是一個文件,所以將經(jīng)常一起查詢的列放到一個列族中,列族盡量少, 減少文件的尋址時間。
可以。設置 reduce 數(shù)為 0 即可
datanode 在強制關閉或者非正常斷電不會備份
出現(xiàn)在 map 階段的 map 方法后。
hdfs 有 namenode、secondraynamenode、datanode 組成。
為 n+1 模式
namenode 負責管理 datanode 和記錄元數(shù)據(jù)
secondraynamenode 負責合并日志
datanode 負責存儲數(shù)據(jù)
這個 datanode 的數(shù)據(jù)會在其他的 datanode 上重新做備份。
在 mapreduce 提交 job 的獲取 id 之后,會將所有文件存儲到分布式緩存上,這樣文件可以被所有的 mapreduce 共享。
通過頁面監(jiān)控,腳本監(jiān)控。
1、因為外部表不會加載數(shù)據(jù)到 hive,減少數(shù)據(jù)傳輸、數(shù)據(jù)還能共享。
2、hive 不會修改數(shù)據(jù),所以無需擔心數(shù)據(jù)的損壞
3、 刪除表時,只刪除表結構、不刪除數(shù)據(jù)。
感謝各位的閱讀,以上就是“2021最新版的大數(shù)據(jù)面試題有哪些”的內(nèi)容了,經(jīng)過本文的學習后,相信大家對2021最新版的大數(shù)據(jù)面試題有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。