溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

apache hadoop指的是什么

發(fā)布時(shí)間:2020-10-30 13:59:33 來源:億速云 閱讀:131 作者:小新 欄目:建站服務(wù)器

這篇文章主要介紹apache hadoop指的是什么,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

 Apache Hadoop是一套用于在由通用硬件構(gòu)建的大型集群上運(yùn)行應(yīng)用程序的框架。它實(shí)現(xiàn)了Map/Reduce編程范型,計(jì)算任務(wù)會(huì)被分割成小塊(多次)運(yùn)行在不同的節(jié)點(diǎn)上。

除此之外,它還提供了一款分布式文件系統(tǒng)(HDFS),數(shù)據(jù)被存儲(chǔ)在計(jì)算節(jié)點(diǎn)上以提供極高的跨數(shù)據(jù)中心聚合帶寬。

框架作用

Apache Hadoop大數(shù)據(jù)歸屬的新選擇

物理DAS仍然是Apache Hadoop最好的存儲(chǔ)介質(zhì),因?yàn)橄嚓P(guān)的高水平的專業(yè)和業(yè)務(wù)的公司的都是經(jīng)過研究和實(shí)踐來確定存儲(chǔ)介質(zhì)。但這樣基于HDFS的Apache Hadoop數(shù)據(jù)儲(chǔ)存卻有很大的問題。

首先,默認(rèn)方案是所有Apache Hadoop資料進(jìn)行復(fù)制,移動(dòng),然后備份。HDFS是基于Apache Hadoop大數(shù)據(jù)塊的I/O優(yōu)化,省去了Apache Hadoop數(shù)據(jù)交互的時(shí)間。以后的使用通常意味著Apache Hadoop數(shù)據(jù)復(fù)制出來。盡管有本地快照,但他們并不完全一致或時(shí)間點(diǎn)不完全可恢復(fù)。

對(duì)于這些和其他原因,企業(yè)存儲(chǔ)廠商聰明的將HDFS做改變,一些技術(shù)狂人類型的大數(shù)據(jù)專家使Apache Hadoop計(jì)算利用外部存儲(chǔ)。但對(duì)許多企業(yè)來說,Apache Hadoop提供了一個(gè)很好的妥協(xié):無需高維護(hù)存儲(chǔ)或存儲(chǔ)新的維護(hù)方式的適應(yīng),但這有一定的成本。

許多Apache Hadoop供應(yīng)商,提供對(duì)Apache Hadoop集群遠(yuǎn)程HDFS的接口,是生意量比較大的Apache Hadoop企業(yè)首選。因?yàn)樗麄儗⑹窃趇silon里,進(jìn)行任何其他Apache Hadoop數(shù)據(jù)處理大數(shù)據(jù)的保護(hù),其中包括Apache Hadoop安全和其他問題。另一個(gè)好處是,在外部存儲(chǔ)的數(shù)據(jù)通??梢栽L問其他Apache Hadoop協(xié)議的儲(chǔ)存,支持工作流和限制數(shù)據(jù)的傳輸和企業(yè)內(nèi)需要的數(shù)據(jù)副本。Apache Hadoop也基于這樣的原理處理大數(shù)據(jù),一個(gè)大的數(shù)據(jù)參考架構(gòu),結(jié)合一個(gè)組合的存儲(chǔ)解決方案,直接進(jìn)入Apache Hadoop集群。

另外值得一提的是,虛擬化Apache Hadoop大數(shù)據(jù)分析。理論上,所有計(jì)算和存儲(chǔ)節(jié)點(diǎn)可以都可以進(jìn)行虛擬化。VMware和RedHat/OpenStack有Hadoop的虛擬化解決方案。然而,幾乎所有的Apache Hadoop主機(jī)節(jié)點(diǎn)不能解決企業(yè)的存儲(chǔ)問題。它模擬Apache Hadoop計(jì)算方面使企業(yè)把現(xiàn)有的數(shù)據(jù)集——SAN/NAS——加速和轉(zhuǎn)儲(chǔ)到它Apache Hadoop的HDFS的覆蓋之下。在這種方式中,Apache Hadoop大數(shù)據(jù)分析可以做到一個(gè)數(shù)據(jù)中心的數(shù)據(jù)沒有任何變動(dòng),從而使用新的Apache Hadoop存儲(chǔ)架構(gòu)和新的數(shù)據(jù)流或數(shù)據(jù)管理的所有變化。

大多數(shù)Apache Hadoop分布都是從近Apache Hadoop的開源HDFS(目前軟件定義的存儲(chǔ)大數(shù)據(jù))開始,區(qū)別是Apache Hadoop采取了不同的方法。這基本上就是企業(yè)Apache Hadoop所需存儲(chǔ),從而建立自己的兼容存儲(chǔ)層在Apache Hadoop HDFS上。MAPR版本是完全有能力處理I/O快照復(fù)制的支持,Apache Hadoop同時(shí)和原生支持的其他協(xié)議兼容,如NFS。Apache Hadoop也非常有效,并有助于主要提供企業(yè)業(yè)務(wù)智能應(yīng)用程序,運(yùn)行決策支持解決方案依賴于大數(shù)據(jù)的歷史和實(shí)時(shí)信息。類似的想法,IBM已經(jīng)出爐的高性能計(jì)算系統(tǒng)存儲(chǔ)API為Apache Hadoop發(fā)行版作為一種替代HDFS

另一個(gè)Apache Hadoop有趣的解決方案可以幫助解決數(shù)據(jù)的問題。一個(gè)是dataguise,數(shù)據(jù)安全啟動(dòng),能切實(shí)有效地保護(hù)Apache Hadoop的大數(shù)據(jù)集的一些獨(dú)特的IP,Apache Hadoop可以在一個(gè)大的數(shù)據(jù)聚類自動(dòng)識(shí)別和全局覆蓋或加密敏感資料。水平線數(shù)據(jù)科學(xué)是這個(gè)領(lǐng)域的新興技術(shù),如果你連線登陸你的數(shù)據(jù)文件到Apache Hadoop,無論數(shù)據(jù)在哪里,即使是HDFS,Apache Hadoop都將自動(dòng)儲(chǔ)存。Apache Hadoop 大數(shù)據(jù)提供的產(chǎn)出物有助于快速建立商業(yè)應(yīng)用,利用數(shù)據(jù)的來源和位置來統(tǒng)計(jì)商業(yè)所需的資料。

如果你一直持有Apache Hadoop的管理或企業(yè)數(shù)據(jù)中心存儲(chǔ)的興趣,這是一個(gè)好時(shí)機(jī)去update自己對(duì)Apache Hadoop大數(shù)據(jù)的了解,如果你想跟得上Apache Hadoop大數(shù)據(jù)的腳步,就不應(yīng)該拒絕Apache Hadoop新技術(shù)的應(yīng)用。

以上是apache hadoop指的是什么的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI