溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

發(fā)布時(shí)間:2021-12-17 14:09:07 來源:億速云 閱讀:416 作者:柒染 欄目:大數(shù)據(jù)

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析,很多新手對此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。

下面利用KNIME基于Spark決策樹模型算法,通過對泰坦尼克的包含乘客及船員的特征屬性的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,得出決策樹幸存模型,并利用測試數(shù)據(jù)集對模型進(jìn)行測試。

1、從Kaggle網(wǎng)站下載訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集

2、在KNIME創(chuàng)建新的Workflow,起名:TitanicKNIMESpark

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

3. 讀取訓(xùn)練數(shù)據(jù)集

KNIME支持從Hadoop集群讀取數(shù)據(jù),本文為了簡化流程直接從本地讀取數(shù)據(jù)集。

在Node Repository的搜索框里輸入CSV Reader,找到CSV Reader節(jié)點(diǎn),并將它拖入畫布。

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

雙擊或右擊CSV Reader對節(jié)點(diǎn)進(jìn)行配置,設(shè)置數(shù)據(jù)集的目錄。

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊File table查看結(jié)果

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

4.利用Missing Value節(jié)點(diǎn)對缺失值進(jìn)行處理

類似第三步的操作找到Missing Value節(jié)點(diǎn),并拖入畫布(本文以下操作類似,不再重復(fù)),并根據(jù)需要設(shè)置屬性,這里采用簡單取平均值的方法處理缺失值。建立CSV Reader節(jié)點(diǎn)到Missing Value節(jié)點(diǎn)的連接。

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Output Table查看結(jié)果

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

5、添加Create Spark Context節(jié)點(diǎn),設(shè)置Spark Context

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

6 .添加Table to Spark節(jié)點(diǎn),將KNIME數(shù)據(jù)表轉(zhuǎn)換成Spark的DataFrame/RDD,配置Table to Spark節(jié)點(diǎn)并建立Missing Value節(jié)點(diǎn)到Table to Spark節(jié)點(diǎn)的連接,建立Create Spark Context節(jié)點(diǎn)到Table to Spark節(jié)點(diǎn)的連接。

這里采用默認(rèn)配置。

7. 添加Spark Normalizer節(jié)點(diǎn),將Survived屬性從數(shù)字類型轉(zhuǎn)換成為字符類型,配置Spark Normalizer節(jié)點(diǎn)并建立Table to Spark節(jié)點(diǎn)到Spark Normalizer節(jié)點(diǎn)的連接。

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Normalized Spark DataFrame/RDD查看結(jié)果.

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

8. 添加Spark Decision Tree Learner節(jié)點(diǎn),配置決策樹算法參數(shù),并建立Spark Normalizer節(jié)點(diǎn)到Spark Decision Tree Learner節(jié)點(diǎn)的連接。

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Decision Tree Model查看結(jié)果.

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

9利用測試數(shù)據(jù)集和Spark Predictor節(jié)點(diǎn)對模型進(jìn)行測試。

復(fù)制CSV Reader,Missing Value和Table to Spark節(jié)點(diǎn)并參考3,4,6步進(jìn)行配置讀取測試數(shù)據(jù)集并對數(shù)據(jù)進(jìn)行處理和轉(zhuǎn)換。添加Spark Predictor節(jié)點(diǎn), 配置 Spark Predictor節(jié)點(diǎn),并將新添加的Table to Spark節(jié)點(diǎn)以及Spark Decision Tree Learner節(jié)點(diǎn)和Spark Predictor相連接。

CSV Reader配置測試數(shù)據(jù)集。

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

Spark Predictor節(jié)點(diǎn)配置Prediction column

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Labled Data查看結(jié)果.

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

10.可以添加其他節(jié)點(diǎn)對結(jié)果進(jìn)行后續(xù)處理,這里添加只添加Spark Column Filter節(jié)點(diǎn)過濾掉不需要的column。

添加Spark Column Filter節(jié)點(diǎn)并進(jìn)行配置。

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Filtered Spark DataFrame/RDD查看結(jié)果。

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

最終整個(gè)workflow如下圖所示

利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進(jìn)一步的了解或閱讀更多相關(guān)文章,請關(guān)注億速云行業(yè)資訊頻道,感謝您對億速云的支持。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI