apache hadoop指的是什么

發(fā)布時(shí)間：2020-10-30 13:59:33 來源：億速云閱讀：131 作者：小新欄目：建站服務(wù)器

這篇文章主要介紹apache hadoop指的是什么，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

Apache Hadoop是一套用于在由通用硬件構(gòu)建的大型集群上運(yùn)行應(yīng)用程序的框架。它實(shí)現(xiàn)了Map/Reduce編程范型，計(jì)算任務(wù)會(huì)被分割成小塊（多次）運(yùn)行在不同的節(jié)點(diǎn)上。

除此之外，它還提供了一款分布式文件系統(tǒng)（HDFS），數(shù)據(jù)被存儲(chǔ)在計(jì)算節(jié)點(diǎn)上以提供極高的跨數(shù)據(jù)中心聚合帶寬。

框架作用

Apache Hadoop大數(shù)據(jù)歸屬的新選擇

物理DAS仍然是Apache Hadoop最好的存儲(chǔ)介質(zhì)，因?yàn)橄嚓P(guān)的高水平的專業(yè)和業(yè)務(wù)的公司的都是經(jīng)過研究和實(shí)踐來確定存儲(chǔ)介質(zhì)。但這樣基于HDFS的Apache Hadoop數(shù)據(jù)儲(chǔ)存卻有很大的問題。

首先，默認(rèn)方案是所有Apache Hadoop資料進(jìn)行復(fù)制，移動(dòng)，然后備份。HDFS是基于Apache Hadoop大數(shù)據(jù)塊的I/O優(yōu)化，省去了Apache Hadoop數(shù)據(jù)交互的時(shí)間。以后的使用通常意味著Apache Hadoop數(shù)據(jù)復(fù)制出來。盡管有本地快照，但他們并不完全一致或時(shí)間點(diǎn)不完全可恢復(fù)。

對(duì)于這些和其他原因，企業(yè)存儲(chǔ)廠商聰明的將HDFS做改變，一些技術(shù)狂人類型的大數(shù)據(jù)專家使Apache Hadoop計(jì)算利用外部存儲(chǔ)。但對(duì)許多企業(yè)來說，Apache Hadoop提供了一個(gè)很好的妥協(xié)：無需高維護(hù)存儲(chǔ)或存儲(chǔ)新的維護(hù)方式的適應(yīng)，但這有一定的成本。

許多Apache Hadoop供應(yīng)商，提供對(duì)Apache Hadoop集群遠(yuǎn)程HDFS的接口，是生意量比較大的Apache Hadoop企業(yè)首選。因?yàn)樗麄儗⑹窃趇silon里，進(jìn)行任何其他Apache Hadoop數(shù)據(jù)處理大數(shù)據(jù)的保護(hù)，其中包括Apache Hadoop安全和其他問題。另一個(gè)好處是，在外部存儲(chǔ)的數(shù)據(jù)通?？梢栽L問其他Apache Hadoop協(xié)議的儲(chǔ)存，支持工作流和限制數(shù)據(jù)的傳輸和企業(yè)內(nèi)需要的數(shù)據(jù)副本。Apache Hadoop也基于這樣的原理處理大數(shù)據(jù)，一個(gè)大的數(shù)據(jù)參考架構(gòu)，結(jié)合一個(gè)組合的存儲(chǔ)解決方案，直接進(jìn)入Apache Hadoop集群。

另外值得一提的是，虛擬化Apache Hadoop大數(shù)據(jù)分析。理論上，所有計(jì)算和存儲(chǔ)節(jié)點(diǎn)可以都可以進(jìn)行虛擬化。VMware和RedHat/OpenStack有Hadoop的虛擬化解決方案。然而，幾乎所有的Apache Hadoop主機(jī)節(jié)點(diǎn)不能解決企業(yè)的存儲(chǔ)問題。它模擬Apache Hadoop計(jì)算方面使企業(yè)把現(xiàn)有的數(shù)據(jù)集——SAN/NAS——加速和轉(zhuǎn)儲(chǔ)到它Apache Hadoop的HDFS的覆蓋之下。在這種方式中，Apache Hadoop大數(shù)據(jù)分析可以做到一個(gè)數(shù)據(jù)中心的數(shù)據(jù)沒有任何變動(dòng)，從而使用新的Apache Hadoop存儲(chǔ)架構(gòu)和新的數(shù)據(jù)流或數(shù)據(jù)管理的所有變化。

大多數(shù)Apache Hadoop分布都是從近Apache Hadoop的開源HDFS（目前軟件定義的存儲(chǔ)大數(shù)據(jù)）開始，區(qū)別是Apache Hadoop采取了不同的方法。這基本上就是企業(yè)Apache Hadoop所需存儲(chǔ)，從而建立自己的兼容存儲(chǔ)層在Apache Hadoop HDFS上。MAPR版本是完全有能力處理I/O快照復(fù)制的支持，Apache Hadoop同時(shí)和原生支持的其他協(xié)議兼容，如NFS。Apache Hadoop也非常有效，并有助于主要提供企業(yè)業(yè)務(wù)智能應(yīng)用程序，運(yùn)行決策支持解決方案依賴于大數(shù)據(jù)的歷史和實(shí)時(shí)信息。類似的想法，IBM已經(jīng)出爐的高性能計(jì)算系統(tǒng)存儲(chǔ)API為Apache Hadoop發(fā)行版作為一種替代HDFS

另一個(gè)Apache Hadoop有趣的解決方案可以幫助解決數(shù)據(jù)的問題。一個(gè)是dataguise，數(shù)據(jù)安全啟動(dòng)，能切實(shí)有效地保護(hù)Apache Hadoop的大數(shù)據(jù)集的一些獨(dú)特的IP，Apache Hadoop可以在一個(gè)大的數(shù)據(jù)聚類自動(dòng)識(shí)別和全局覆蓋或加密敏感資料。水平線數(shù)據(jù)科學(xué)是這個(gè)領(lǐng)域的新興技術(shù)，如果你連線登陸你的數(shù)據(jù)文件到Apache Hadoop，無論數(shù)據(jù)在哪里，即使是HDFS，Apache Hadoop都將自動(dòng)儲(chǔ)存。Apache Hadoop 大數(shù)據(jù)提供的產(chǎn)出物有助于快速建立商業(yè)應(yīng)用，利用數(shù)據(jù)的來源和位置來統(tǒng)計(jì)商業(yè)所需的資料。

如果你一直持有Apache Hadoop的管理或企業(yè)數(shù)據(jù)中心存儲(chǔ)的興趣，這是一個(gè)好時(shí)機(jī)去update自己對(duì)Apache Hadoop大數(shù)據(jù)的了解，如果你想跟得上Apache Hadoop大數(shù)據(jù)的腳步，就不應(yīng)該拒絕Apache Hadoop新技術(shù)的應(yīng)用。

以上是apache hadoop指的是什么的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對(duì)大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問一下細(xì)節(jié)

apache hadoop指的是什么

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽