您好,登錄后才能下訂單哦!
本篇內容主要講解“大數(shù)據(jù)處理架構Hadoop習題有哪些”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“大數(shù)據(jù)處理架構Hadoop習題有哪些”吧!
答:
Hadoop的核心是分布式文件系統(tǒng)HDFS和MapReduce,HDFS是谷歌文件系統(tǒng)GFS的開源實現(xiàn),MapReduces是針對谷歌MapReduce的開源實現(xiàn)。
答:
高可靠性,高效性,高可擴展性,高容錯性,成本低,運行在Linux平臺,支持多種編程語言
答:2007年,雅虎在Sunnyvale總部建立了M45——一個包含了4000個處理器和1.5PB容量的Hadooop集群系統(tǒng);
Facebook主要將Hadoop平臺用于日志處理,推薦系統(tǒng)和數(shù)據(jù)倉庫等方面;
百度主要使用Hadoop于日志的存儲和統(tǒng)計、網(wǎng)頁數(shù)據(jù)的分析和挖掘、商業(yè)分析、在線數(shù)據(jù)反饋、網(wǎng)頁聚類等。
答:
Commeon是為Hadoop其他子項目提供支持的常用工具,主要包括文件系統(tǒng)、RPC和串行化庫。
Avro是為Hadoop的子項目,用于數(shù)據(jù)序列化的系統(tǒng),提供了豐富的數(shù)據(jù)結構類型、快速可壓縮的二進制數(shù)據(jù)格式、存儲持續(xù)性數(shù)據(jù)的文件集、遠程調用的功能和簡單的動態(tài)語言集成功能。
HDFS是Hadoop項目的兩個核心之一,它是針對谷歌文件系統(tǒng)的開源實現(xiàn)。
HBase是一個提高可靠性、高性能、可伸縮、實時讀寫、分布式的列式數(shù)據(jù)庫,一般采用HDFS作為其底層數(shù)據(jù)存儲。
MapReduce是針對谷歌MapReduce的開源實現(xiàn),用于大規(guī)模數(shù)據(jù)集的并行運算。
Zoookepper是針對谷歌Chubby的一個開源實現(xiàn),是高效和可靠的協(xié)同工作系統(tǒng),提供分布式鎖之類的基本服務,用于構建分布式應用,減輕分布式應用程序所承擔的協(xié)調任務。
Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具,可以用于對Hadoop文件中的數(shù)據(jù)集進行數(shù)據(jù)整理、特殊查詢和分布存儲。
Pig是一種數(shù)據(jù)流語言和運行環(huán)境,適合于使用Hadoop和MapReducce平臺上查詢大型半結構化數(shù)據(jù)集。
Sqoop可以改進數(shù)據(jù)的互操作性,主要用來在Hadoop配合關系數(shù)據(jù)庫之間交換數(shù)據(jù)。
Chukwa是一個開源的、用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),可以將各種類型的數(shù)據(jù)收集成適合Hadoop處理的文件,并保存在HDFS中供Hadoop進行各種 MapReduce操作。
到此,相信大家對“大數(shù)據(jù)處理架構Hadoop習題有哪些”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內容。