您好,登錄后才能下訂單哦!
這篇文章主要講解了“Hadoop常用的場景有哪些”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“Hadoop常用的場景有哪些”吧!
Hadoop是什么?
隨著數(shù)據(jù)量的急劇增加,遇到的兩個最直接的問題就是數(shù)據(jù)存儲和計算(分析/利用)。
Hadoop是由Apache基金會所開發(fā)的一個用Java實現(xiàn)的分布式基礎(chǔ)框架,也可以看做是一個支持開發(fā)、運(yùn)行由通用計算設(shè)備組成的大型集群上的分布式應(yīng)用的平臺。Hadoop中的兩個最重要的組件—HDFS和MapReduce就是用來解決海量數(shù)據(jù)(分布式)存儲、海量數(shù)據(jù)(分布式)計算的。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲。
Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點(diǎn),并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
HDFS有兩種節(jié)點(diǎn),NameNode和DataNode。DataNode主要用來存儲數(shù)據(jù),NameNode管理著整個文件系統(tǒng)的交互。相對于普通的文件系統(tǒng),HDFS顯著的特點(diǎn)是分布式海量存儲、備份機(jī)制。
Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。MapReduce:并行計算框架,MapReduce其實是一種分布式計算模型,多個計算機(jī)并行計算,共同做一件事情。
Hadoop的應(yīng)用場景:
簡單認(rèn)識了什么是Hadoop,再來了解一下Hadoop一般都適用于哪些場景。
Hadoop主要應(yīng)用于大數(shù)據(jù)量的離線場景,特點(diǎn)是大數(shù)據(jù)量、離線。
數(shù)據(jù)量大:一般真正線上用Hadoop的,集群規(guī)模都在上百臺到幾千臺的機(jī)器。這種情況下,T級別的數(shù)據(jù)也是很小的。
離線:Mapreduce框架下,很難處理實時計算,作業(yè)都以日志分析這樣的線下作業(yè)為主。另外,集群中一般都會有大量作業(yè)等待被調(diào)度,保證資源充分利用。
另外,由于HDFS設(shè)計的特點(diǎn),Hadoop適合處理文件塊大的文件。大量的小文件使用Hadoop來處理效率會很低。
Hadoop常用的場景有:
大數(shù)據(jù)量存儲:分布式存儲(各種云盤,百度,360~還有云平臺均有hadoop應(yīng)用)
l 日志處理
l 海量計算,并行計算
l 數(shù)據(jù)挖掘(比如廣告推薦等)
l 行為分析,用戶建模等
感謝各位的閱讀,以上就是“Hadoop常用的場景有哪些”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對Hadoop常用的場景有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。