您好,登錄后才能下訂單哦!
利用KNIME基于Spark決策樹模型算法進(jìn)行測試的示例分析,很多新手對此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
下面利用KNIME基于Spark決策樹模型算法,通過對泰坦尼克的包含乘客及船員的特征屬性的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,得出決策樹幸存模型,并利用測試數(shù)據(jù)集對模型進(jìn)行測試。
1、從Kaggle網(wǎng)站下載訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集
2、在KNIME創(chuàng)建新的Workflow,起名:TitanicKNIMESpark
3. 讀取訓(xùn)練數(shù)據(jù)集
KNIME支持從Hadoop集群讀取數(shù)據(jù),本文為了簡化流程直接從本地讀取數(shù)據(jù)集。
在Node Repository的搜索框里輸入CSV Reader,找到CSV Reader節(jié)點(diǎn),并將它拖入畫布。
雙擊或右擊CSV Reader對節(jié)點(diǎn)進(jìn)行配置,設(shè)置數(shù)據(jù)集的目錄。
右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊File table查看結(jié)果
4.利用Missing Value節(jié)點(diǎn)對缺失值進(jìn)行處理
類似第三步的操作找到Missing Value節(jié)點(diǎn),并拖入畫布(本文以下操作類似,不再重復(fù)),并根據(jù)需要設(shè)置屬性,這里采用簡單取平均值的方法處理缺失值。建立CSV Reader節(jié)點(diǎn)到Missing Value節(jié)點(diǎn)的連接。
右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Output Table查看結(jié)果
5、添加Create Spark Context節(jié)點(diǎn),設(shè)置Spark Context
6 .添加Table to Spark節(jié)點(diǎn),將KNIME數(shù)據(jù)表轉(zhuǎn)換成Spark的DataFrame/RDD,配置Table to Spark節(jié)點(diǎn)并建立Missing Value節(jié)點(diǎn)到Table to Spark節(jié)點(diǎn)的連接,建立Create Spark Context節(jié)點(diǎn)到Table to Spark節(jié)點(diǎn)的連接。
這里采用默認(rèn)配置。
7. 添加Spark Normalizer節(jié)點(diǎn),將Survived屬性從數(shù)字類型轉(zhuǎn)換成為字符類型,配置Spark Normalizer節(jié)點(diǎn)并建立Table to Spark節(jié)點(diǎn)到Spark Normalizer節(jié)點(diǎn)的連接。
右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Normalized Spark DataFrame/RDD查看結(jié)果.
8. 添加Spark Decision Tree Learner節(jié)點(diǎn),配置決策樹算法參數(shù),并建立Spark Normalizer節(jié)點(diǎn)到Spark Decision Tree Learner節(jié)點(diǎn)的連接。
右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Decision Tree Model查看結(jié)果.
9利用測試數(shù)據(jù)集和Spark Predictor節(jié)點(diǎn)對模型進(jìn)行測試。
復(fù)制CSV Reader,Missing Value和Table to Spark節(jié)點(diǎn)并參考3,4,6步進(jìn)行配置讀取測試數(shù)據(jù)集并對數(shù)據(jù)進(jìn)行處理和轉(zhuǎn)換。添加Spark Predictor節(jié)點(diǎn), 配置 Spark Predictor節(jié)點(diǎn),并將新添加的Table to Spark節(jié)點(diǎn)以及Spark Decision Tree Learner節(jié)點(diǎn)和Spark Predictor相連接。
CSV Reader配置測試數(shù)據(jù)集。
Spark Predictor節(jié)點(diǎn)配置Prediction column
右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Labled Data查看結(jié)果.
10.可以添加其他節(jié)點(diǎn)對結(jié)果進(jìn)行后續(xù)處理,這里添加只添加Spark Column Filter節(jié)點(diǎn)過濾掉不需要的column。
添加Spark Column Filter節(jié)點(diǎn)并進(jìn)行配置。
右擊節(jié)點(diǎn),點(diǎn)擊Excute, 然后右擊節(jié)點(diǎn),點(diǎn)擊Filtered Spark DataFrame/RDD查看結(jié)果。
最終整個(gè)workflow如下圖所示
看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進(jìn)一步的了解或閱讀更多相關(guān)文章,請關(guān)注億速云行業(yè)資訊頻道,感謝您對億速云的支持。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。