溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Spark開(kāi)發(fā)過(guò)程當(dāng)中遇到的坑有哪些

發(fā)布時(shí)間:2021-12-16 16:41:37 來(lái)源:億速云 閱讀:126 作者:iii 欄目:云計(jì)算

本篇內(nèi)容介紹了“Spark開(kāi)發(fā)過(guò)程當(dāng)中遇到的坑有哪些”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

先說(shuō)背景:

3臺(tái)服務(wù)器,hadoop, hbase, spark都是集群環(huán)境,都建在這3臺(tái)服務(wù)器上。

計(jì)劃用driver的方式,遠(yuǎn)程執(zhí)行spark application。

坑1:開(kāi)發(fā)用的是ubuntu虛擬機(jī),自動(dòng)生成的ip地址,跟服務(wù)器集群不在一個(gè)網(wǎng)段上,導(dǎo)致服務(wù)器集群無(wú)法正常和driver通信,之后把虛擬機(jī)網(wǎng)絡(luò)設(shè)置為橋接模式,done!

坑2:關(guān)于setJars,大部分的資料包括apache官方的資料,都是基于spark submit或者是shell方式給出的例子,根本沒(méi)提到setJars什么事,導(dǎo)致出現(xiàn)各種各樣的莫名其妙的問(wèn)題,后來(lái)才知道需要用setJars把driver的jar包給到spark cluster,done!

坑3:還是關(guān)于setJars,由于需要訪問(wèn)hbase,所以引入了hbase的jar包,最初以為把jar包放到lib當(dāng)中,包含在driver的jar當(dāng)中即可,后來(lái)發(fā)現(xiàn)不行,需要單獨(dú)的把以來(lái)的jar包給過(guò)去,done!(能不能在spark的環(huán)境變量當(dāng)中,設(shè)置一下依賴的外部jar包?嘗試了SPARK_CLASSPATH,發(fā)現(xiàn)不行,不知道有什么其他的辦法。)

坑4:額~~~,還是關(guān)于setJars,使用saveAsHadoopDataset直接把RDD存到hbase當(dāng)中,代碼看我之前的帖子,啟動(dòng)輸出一些日志之后,日志就不動(dòng)了!各種找問(wèn)題,到處發(fā)帖子求助!沒(méi)人搭理!最后自己把spark日志等級(jí)調(diào)到debug,發(fā)現(xiàn)了sockettimeoutexception,又發(fā)現(xiàn)是連接的10620端口,懷疑端口占用,就把region server port改成了別的,錯(cuò)誤依舊。無(wú)奈去吃飯,吃完飯回來(lái),spark經(jīng)過(guò)n次的重試終于放棄,然后給出了一個(gè)錯(cuò)誤日志,居然是缺少jar包。加了個(gè)metrics-core-2.2.0.jar,done!

“Spark開(kāi)發(fā)過(guò)程當(dāng)中遇到的坑有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI