HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用

發(fā)布時間：2021-08-31 17:40:50 來源：億速云閱讀：113 作者：chen 欄目：開發(fā)技術(shù)

這篇文章主要講解了“HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用”吧！

HadoopStudio開發(fā)部署MapReduce應(yīng)用

HadoopStudio是基于Hadoop框架的MapReduce應(yīng)用集成開發(fā)和部署環(huán)境。HadoopStudio以NetBeans模塊插件的方式使用，可在NetBeans插件中心獲取。開發(fā)者可以通過HadoopStudio的可視化界面，部署分布在不同節(jié)點(diǎn)的計算任務(wù)，并監(jiān)控MapReduce處理過程中各階段的輸入、輸出以及交互過程。

針對MapReduce任務(wù)執(zhí)行過程的各要素，HadoopStudio提供了HDFS、JobTracker以及Cluster節(jié)點(diǎn)的配置工具。使用HadoopStudio配置之前，需要預(yù)先在目標(biāo)機(jī)器上部署Hadoop作業(yè)執(zhí)行環(huán)境，在UbuntuLinux上的Hadoop配置過程，已有詳盡教程（單節(jié)點(diǎn)，多節(jié)點(diǎn)）可供參考。

在HadoopStudio中對作業(yè)節(jié)點(diǎn)配置，首先需要定義負(fù)責(zé)數(shù)據(jù)存儲的Filesystems節(jié)點(diǎn)，可選節(jié)點(diǎn)包含本地磁盤訪問、HDFS文件系統(tǒng)和AmazonS3連接三種方式。HDFS節(jié)點(diǎn)的配置，需要指定NameNode節(jié)點(diǎn)的地址、訪問端口和登錄用戶名，其中登錄用戶名為可選項。對于目前***的r0.20版本，F(xiàn)ilesystems節(jié)點(diǎn)的端口配置由conf/hadoop-site.xml改為在conf/core-site.xml中設(shè)定。

在HadoopCluster配置部分，添加遠(yuǎn)程計算節(jié)點(diǎn)對應(yīng)的JobTracker，指定節(jié)點(diǎn)的地址，并在下拉列表中選擇之前添加的Filesystems節(jié)點(diǎn)，添加的節(jié)點(diǎn)則會出現(xiàn)在Hadoop可用節(jié)點(diǎn)的列表中。在主節(jié)點(diǎn)計算任務(wù)啟動之后，包含DataNode、TaskTracker、JobTracker、NameNode、SecondaryNameNode進(jìn)程。對于數(shù)據(jù)處理，集群中結(jié)點(diǎn)由一個NameNode和若干DataNode組成，SecondaryNameNode為NameNode的備份。計算任務(wù)中，節(jié)點(diǎn)由一個JobTracker和若干TaskTracker組成，JobTracker負(fù)責(zé)任務(wù)調(diào)度，TaskTracker執(zhí)行并行計算任務(wù)。TaskTracker須運(yùn)行在DataNode上以獲取用于計算的數(shù)據(jù)。

對于已編寫的計算任務(wù)，HadoopStudio提供了簡化的作業(yè)部署流程。首先在HadoopJobs中添加生成好的jar包（如Hadoop自帶的Hadoop-*-examples.jar示例），之后選擇要執(zhí)行的主類并添加依賴項，并選擇執(zhí)行任務(wù)的目標(biāo)Cluster節(jié)點(diǎn)和目標(biāo)Filesystems后即可啟動計算任務(wù)。同時，HadoopStudio提供了實時顯示的MapReduce任務(wù)工作流視圖，可顯示任務(wù)執(zhí)行過程中的作業(yè)類型、完成情況、執(zhí)行狀態(tài)、起止時間、報錯信息以及輸出結(jié)果等內(nèi)容。

Hadoop應(yīng)用開發(fā)方面，HadoopStudio將Hadoop類庫進(jìn)行打包，可直接在項目中添加所有依賴項。編碼過程中，HadoopStudio為每種作業(yè)的提供了模板，并能夠在代碼編輯的同時自動對模板視圖進(jìn)行更新。

目前HadoopStudio支持Hadoop0.18.x版本的ClientAPI和Hadoop0.20.x的Client與Server的API，并且支持不同版本Hadoop的混合使用。但HadoopStudio目前的文檔比較簡單，感興趣的朋友可以在freshmeat.net的項目站點(diǎn)跟蹤HadoopStudio的***信息。

感謝各位的閱讀，以上就是“HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關(guān)知識點(diǎn)的文章，歡迎關(guān)注！

向AI問一下細(xì)節(jié)

HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽