溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用

發(fā)布時間:2021-08-31 17:40:50 來源:億速云 閱讀:113 作者:chen 欄目:開發(fā)技術(shù)

這篇文章主要講解了“HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用”吧!

HadoopStudio開發(fā)部署MapReduce應(yīng)用

HadoopStudio是基于Hadoop框架的MapReduce應(yīng)用集成開發(fā)和部署環(huán)境。HadoopStudio以NetBeans模塊插件的方式使用,可在NetBeans插件中心獲取。開發(fā)者可以通過HadoopStudio的可視化界面,部署分布在不同節(jié)點(diǎn)的計算任務(wù),并監(jiān)控MapReduce處理過程中各階段的輸入、輸出以及交互過程。

針對MapReduce任務(wù)執(zhí)行過程的各要素,HadoopStudio提供了HDFS、JobTracker以及Cluster節(jié)點(diǎn)的配置工具。使用HadoopStudio配置之前,需要預(yù)先在目標(biāo)機(jī)器上部署Hadoop作業(yè)執(zhí)行環(huán)境,在UbuntuLinux上的Hadoop配置過程,已有詳盡教程(單節(jié)點(diǎn),多節(jié)點(diǎn))可供參考。

在HadoopStudio中對作業(yè)節(jié)點(diǎn)配置,首先需要定義負(fù)責(zé)數(shù)據(jù)存儲的Filesystems節(jié)點(diǎn),可選節(jié)點(diǎn)包含本地磁盤訪問、HDFS文件系統(tǒng)和AmazonS3連接三種方式。HDFS節(jié)點(diǎn)的配置,需要指定NameNode節(jié)點(diǎn)的地址、訪問端口和登錄用戶名,其中登錄用戶名為可選項。對于目前***的r0.20版本,F(xiàn)ilesystems節(jié)點(diǎn)的端口配置由conf/hadoop-site.xml改為在conf/core-site.xml中設(shè)定。

在HadoopCluster配置部分,添加遠(yuǎn)程計算節(jié)點(diǎn)對應(yīng)的JobTracker,指定節(jié)點(diǎn)的地址,并在下拉列表中選擇之前添加的Filesystems節(jié)點(diǎn),添加的節(jié)點(diǎn)則會出現(xiàn)在Hadoop可用節(jié)點(diǎn)的列表中。在主節(jié)點(diǎn)計算任務(wù)啟動之后,包含DataNode、TaskTracker、JobTracker、NameNode、SecondaryNameNode進(jìn)程。對于數(shù)據(jù)處理,集群中結(jié)點(diǎn)由一個NameNode和若干DataNode組成,SecondaryNameNode為NameNode的備份。計算任務(wù)中,節(jié)點(diǎn)由一個JobTracker和若干TaskTracker組成,JobTracker負(fù)責(zé)任務(wù)調(diào)度,TaskTracker執(zhí)行并行計算任務(wù)。TaskTracker須運(yùn)行在DataNode上以獲取用于計算的數(shù)據(jù)。

對于已編寫的計算任務(wù),HadoopStudio提供了簡化的作業(yè)部署流程。首先在HadoopJobs中添加生成好的jar包(如Hadoop自帶的Hadoop-*-examples.jar示例),之后選擇要執(zhí)行的主類并添加依賴項,并選擇執(zhí)行任務(wù)的目標(biāo)Cluster節(jié)點(diǎn)和目標(biāo)Filesystems后即可啟動計算任務(wù)。同時,HadoopStudio提供了實時顯示的MapReduce任務(wù)工作流視圖,可顯示任務(wù)執(zhí)行過程中的作業(yè)類型、完成情況、執(zhí)行狀態(tài)、起止時間、報錯信息以及輸出結(jié)果等內(nèi)容。

Hadoop應(yīng)用開發(fā)方面,HadoopStudio將Hadoop類庫進(jìn)行打包,可直接在項目中添加所有依賴項。編碼過程中,HadoopStudio為每種作業(yè)的提供了模板,并能夠在代碼編輯的同時自動對模板視圖進(jìn)行更新。

目前HadoopStudio支持Hadoop0.18.x版本的ClientAPI和Hadoop0.20.x的Client與Server的API,并且支持不同版本Hadoop的混合使用。但HadoopStudio目前的文檔比較簡單,感興趣的朋友可以在freshmeat.net的項目站點(diǎn)跟蹤HadoopStudio的***信息。

感謝各位的閱讀,以上就是“HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對HadoopStudio中怎么實現(xiàn)MapReduce應(yīng)用這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI