2021最新版的大數(shù)據(jù)面試題有哪些

發(fā)布時間：2021-10-12 11:09:59 來源：億速云閱讀：144 作者：iii 欄目：編程語言

這篇文章主要講解了“2021最新版的大數(shù)據(jù)面試題有哪些”，文中的講解內(nèi)容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“2021最新版的大數(shù)據(jù)面試題有哪些”吧！

1、選擇題

1.1.下面哪個程序負責 HDFS 數(shù)據(jù)存儲。

a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker

答案 C datanode

1.2.HDfS 中的 block 默認保存幾份？

a)3 份
b)2 份
c)1 份
d)不確定

答案 A 默認 3 份

1.3.下列哪個程序通常與 NameNode 在一個節(jié)點啟動?

a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker

答案 D

1.4.HDFS 默認 Block Size

a)32MB

b)64MB

c)128MB

答案：B

1.5.下列哪項通常是集群的最主要瓶頸

a)CPU
b)網(wǎng)絡
c)磁盤 IO
d)內(nèi)存

答案：C 磁盤

1.6.關于 SecondaryNameNode 哪項是正確的？

a)它是 NameNode 的熱備
b)它對內(nèi)存沒有要求
c)它的目的是幫助 NameNode 合并編輯日志，減少 NameNode 啟動時間
d)SecondaryNameNode 應與 NameNode 部署到一個節(jié)點

答案 C。

1.7.下列哪項可以作為集群的管理？

a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper

答案 ABD

1.8.Client 端上傳文件的時候下列哪項正確

a)數(shù)據(jù)經(jīng)過 NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block，依次上傳
c)Client 只上傳數(shù)據(jù)到一臺 DataNode，然后由 NameNode 負責 Block 復制工作

答案 B 分析：Client 向 NameNode 發(fā)起文件寫入的請求。NameNode 根據(jù)文件大小和文件塊配置情況，返回給 Client 它所管理部分 DataNode 的信息。Client 將文件劃分為多個 Block，根據(jù) DataNode 的地址信息，按順序寫入到每一個 DataNode 塊中。具體查看 HDFS 體系結構簡介及優(yōu)缺點。

1.9.下列哪個是 Hadoop 運行的模式

a)單機版
b)偽分布式
c)分布式

答案 ABC 單機版,偽分布式只是學習用的。

2、面試題

2.1. Hadoop 的核心配置是什么？

Hadoop 的核心配置通過兩個 xml 文件來完成：1，hadoop-default.xml；2，hadoop-site.xml。這些文件都使用 xml 格式，因此每個 xml 中都有一些屬性，包括名稱和值，但是當下這些文件都已不復存在。

2.2.那當下又該如何配置？

Hadoop 現(xiàn)在擁有 3 個配置文件：1，core-site.xml；2，hdfs-site.xml；3，mapred-site.xml。這些文件都保存在 conf/子目錄下。

2.3.“jps”命令的用處？

這個命令可以檢查 Namenode、Datanode、Task Tracker、 Job Tracker 是否正常工作。

2.4.mapreduce 的原理?

2021最新版的大數(shù)據(jù)面試題有哪些

2.5. HDFS 存儲的機制?

2021最新版的大數(shù)據(jù)面試題有哪些

流程：

1、 client 鏈接 namenode 存數(shù)據(jù)

2、 namenode 記錄一條數(shù)據(jù)位置信息（元數(shù)據(jù)），告訴 client 存哪。

3、 client 用 hdfs 的 api 將數(shù)據(jù)塊（默認是 64M）存儲到 datanode 上。

4、 datanode 將數(shù)據(jù)水平備份。并且備份完將反饋 client。

5、 client 通知 namenode 存儲塊完畢。

6、 namenode 將元數(shù)據(jù)同步到內(nèi)存中。

7、另一塊循環(huán)上面的過程。

2021最新版的大數(shù)據(jù)面試題有哪些

流程：

1、 client 鏈接 namenode，查看元數(shù)據(jù)，找到數(shù)據(jù)的存儲位置。

2、 client 通過 hdfs 的 api 并發(fā)讀取數(shù)據(jù)。

3、關閉連接。

2.6.舉一個簡單的例子說明 mapreduce 是怎么來運行的 ?

wordcount 的例子

2.7.用 mapreduce 來實現(xiàn)下面需求？

現(xiàn)在有 10 個文件夾,每個文件夾都有 1000000 個 url.現(xiàn)在讓你找出 top1000000url。

解答：topk

(還可以用 treeMap, 到 1000000 了每來一個都加進去, 刪掉最小的)

2.8.hadoop 中 Combiner 的作用?

combiner 是 reduce 的實現(xiàn)，在 map 端運行計算任務，減少 map 端的輸出數(shù)據(jù)。

作用就是優(yōu)化。

但是 combiner 的使用場景是 mapreduce 的 map 和 reduce 輸入輸出一樣。

2.9.簡述 hadoop 安裝

2021最新版的大數(shù)據(jù)面試題有哪些

2.10. 請列出 hadoop 進程名

2021最新版的大數(shù)據(jù)面試題有哪些

2.11. 解決下面的錯誤

2021最新版的大數(shù)據(jù)面試題有哪些

2.12. 寫出下面的命令

2021最新版的大數(shù)據(jù)面試題有哪些

2.13. 簡述 hadoop 的調(diào)度器

2021最新版的大數(shù)據(jù)面試題有哪些

2.14. 列出你開發(fā) mapreduce 的語言

2021最新版的大數(shù)據(jù)面試題有哪些

2.15. 書寫程序

2021最新版的大數(shù)據(jù)面試題有哪些

2.16. 不同語言的優(yōu)缺點

2021最新版的大數(shù)據(jù)面試題有哪些

2.17. hive 有哪些保存元數(shù)據(jù)的方式，個有什么特點。

2021最新版的大數(shù)據(jù)面試題有哪些

2.18. combiner 和 partition 的作用

2021最新版的大數(shù)據(jù)面試題有哪些

2.19. hive 內(nèi)部表和外部表的區(qū)別

內(nèi)部表：加載數(shù)據(jù)到 hive 所在的 hdfs 目錄，刪除時，元數(shù)據(jù)和數(shù)據(jù)文件都刪除
外部表：不加載數(shù)據(jù)到 hive 所在的 hdfs 目錄，刪除時，只刪除表結構

2.20. hbase 的 rowkey 怎么創(chuàng)建好？列族怎么創(chuàng)建比較好？

hbase 存儲時，數(shù)據(jù)按照 Row key 的字典序(byte order)排序存儲。設計 key 時，要充分排序
存儲這個特性，將經(jīng)常一起讀取的行存儲放到一起。(位置相關性)一個列族在數(shù)據(jù)底層是一個文件，所以將經(jīng)常一起查詢的列放到一個列族中，列族盡量少，減少文件的尋址時間。

2.21. 用 mapreduce 怎么處理數(shù)據(jù)傾斜問題？

2021最新版的大數(shù)據(jù)面試題有哪些

2.22. hadoop 框架中怎么來優(yōu)化

2021最新版的大數(shù)據(jù)面試題有哪些

2.23. 我們開發(fā) job 時，是否可以去掉 reduce 階段。

可以。設置 reduce 數(shù)為 0 即可

2.24. datanode 在什么情況下不會備份

datanode 在強制關閉或者非正常斷電不會備份

2.25. combiner 出現(xiàn)在那個過程

出現(xiàn)在 map 階段的 map 方法后。

2.26. hdfs 的體系結構

hdfs 有 namenode、secondraynamenode、datanode 組成。
為 n+1 模式
namenode 負責管理 datanode 和記錄元數(shù)據(jù)
secondraynamenode 負責合并日志
datanode 負責存儲數(shù)據(jù)

2.27. 3 個 datanode 中有一個 datanode 出現(xiàn)錯誤會怎樣？

這個 datanode 的數(shù)據(jù)會在其他的 datanode 上重新做備份。

2.28. 描述一下 hadoop 中，有哪些地方使用了緩存機制，作用分別是什么？

在 mapreduce 提交 job 的獲取 id 之后，會將所有文件存儲到分布式緩存上，這樣文件可以被所有的 mapreduce 共享。

2.29. 如何確定 hadoop 集群的健康狀態(tài)

通過頁面監(jiān)控,腳本監(jiān)控。

2.30. 生產(chǎn)環(huán)境中為什么建議使用外部表？

1、因為外部表不會加載數(shù)據(jù)到 hive，減少數(shù)據(jù)傳輸、數(shù)據(jù)還能共享。

2、hive 不會修改數(shù)據(jù)，所以無需擔心數(shù)據(jù)的損壞

3、刪除表時，只刪除表結構、不刪除數(shù)據(jù)。

感謝各位的閱讀，以上就是“2021最新版的大數(shù)據(jù)面試題有哪些”的內(nèi)容了，經(jīng)過本文的學習后，相信大家對2021最新版的大數(shù)據(jù)面試題有哪些這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節(jié)

2021最新版的大數(shù)據(jù)面試題有哪些

1、選擇題

1.1.下面哪個程序負責 HDFS 數(shù)據(jù)存儲。

1.2.HDfS 中的 block 默認保存幾份？

1.3.下列哪個程序通常與 NameNode 在一個節(jié)點啟動?

1.4.HDFS 默認 Block Size

1.5.下列哪項通常是集群的最主要瓶頸

1.6.關于 SecondaryNameNode 哪項是正確的？

1.7.下列哪項可以作為集群的管理？

1.8.Client 端上傳文件的時候下列哪項正確

1.9.下列哪個是 Hadoop 運行的模式

2、面試題

2.1. Hadoop 的核心配置是什么？

2.2.那當下又該如何配置？

2.3.“jps”命令的用處？

2.4.mapreduce 的原理?

2.5. HDFS 存儲的機制?

2.6.舉一個簡單的例子說明 mapreduce 是怎么來運行的 ?

2.7.用 mapreduce 來實現(xiàn)下面需求？

2.8.hadoop 中 Combiner 的作用?

2.9.簡述 hadoop 安裝

2.10. 請列出 hadoop 進程名

2.11. 解決下面的錯誤

2.12. 寫出下面的命令

2.13. 簡述 hadoop 的調(diào)度器

2.14. 列出你開發(fā) mapreduce 的語言

2.15. 書寫程序

2.16. 不同語言的優(yōu)缺點

2.17. hive 有哪些保存元數(shù)據(jù)的方式，個有什么特點。

2.18. combiner 和 partition 的作用

2.19. hive 內(nèi)部表和外部表的區(qū)別

2.20. hbase 的 rowkey 怎么創(chuàng)建好？列族怎么創(chuàng)建比較 好？

2.21. 用 mapreduce 怎么處理數(shù)據(jù)傾斜問題？

2.22. hadoop 框架中怎么來優(yōu)化

2.23. 我們開發(fā) job 時，是否可以去掉 reduce 階段。

2.24. datanode 在什么情況下不會備份

2.25. combiner 出現(xiàn)在那個過程

2.26. hdfs 的體系結構

2.27. 3 個 datanode 中有一個 datanode 出現(xiàn)錯誤會怎樣？

2.28. 描述一下 hadoop 中，有哪些地方使用了緩存機制， 作用分別是什么？

2.29. 如何確定 hadoop 集群的健康狀態(tài)

2.30. 生產(chǎn)環(huán)境中為什么建議使用外部表？

猜你喜歡

最新資訊

相關推薦

相關標簽

1、選擇題

1.1.下面哪個程序負責 HDFS 數(shù)據(jù)存儲。

1.2.HDfS 中的 block 默認保存幾份？

1.6.關于 SecondaryNameNode 哪項是正確的？

1.7.下列哪項可以作為集群的管理？

2、面試題

2.1. Hadoop 的核心配置是什么？

2.2.那當下又該如何配置？

2.3.“jps”命令的用處？

2.7.用 mapreduce 來實現(xiàn)下面需求？

2.17. hive 有哪些保存元數(shù)據(jù)的方式，個有什么特點。

2.20. hbase 的 rowkey 怎么創(chuàng)建好？列族怎么創(chuàng)建比較好？

2.21. 用 mapreduce 怎么處理數(shù)據(jù)傾斜問題？

2.23. 我們開發(fā) job 時，是否可以去掉 reduce 階段。

2.27. 3 個 datanode 中有一個 datanode 出現(xiàn)錯誤會怎樣？

2.28. 描述一下 hadoop 中，有哪些地方使用了緩存機制，作用分別是什么？

2.30. 生產(chǎn)環(huán)境中為什么建議使用外部表？