您好,登錄后才能下訂單哦!
一、Mahout簡(jiǎn)介
Mahout 是一個(gè)很強(qiáng)大的數(shù)據(jù)挖掘工具,是一個(gè)分布式機(jī)器學(xué)習(xí)算法的集合,包括:被稱(chēng)為T(mén)aste的分布式協(xié)同過(guò)濾的實(shí)現(xiàn)、分類(lèi)、聚類(lèi)等。Mahout最大的優(yōu)點(diǎn)就是基于hadoop實(shí)現(xiàn),把很多以前運(yùn)行于單機(jī)上的算法,轉(zhuǎn)化為了MapReduce模式,這樣大大提升了算法可處理的數(shù)據(jù)量和處理性能。
在Mahout實(shí)現(xiàn)的機(jī)器學(xué)習(xí)算法:
算法類(lèi) | 算法名 | 中文名 |
分類(lèi)算法 | Logistic Regression | 邏輯回歸 |
Bayesian | 貝葉斯 | |
SVM | 支持向量機(jī) | |
Perceptron | 感知器算法 | |
Neural Network | 神經(jīng)網(wǎng)絡(luò) | |
Random Forests | 隨機(jī)森林 | |
Restricted Boltzmann Machines | 有限波爾茲曼機(jī) | |
聚類(lèi)算法 | Canopy Clustering | Canopy聚類(lèi) |
K-means Clustering | K均值算法 | |
Fuzzy K-means | 模糊K均值 | |
Expectation Maximization | EM聚類(lèi)(期望最大化聚類(lèi)) | |
Mean Shift Clustering | 均值漂移聚類(lèi) | |
Hierarchical Clustering | 層次聚類(lèi) | |
Dirichlet Process Clustering | 狄里克雷過(guò)程聚類(lèi) | |
Latent Dirichlet Allocation | LDA聚類(lèi) | |
Spectral Clustering | 譜聚類(lèi) | |
關(guān)聯(lián)規(guī)則挖掘 | Parallel FP Growth Algorithm | 并行FP Growth算法 |
回歸 | Locally Weighted Linear Regression | 局部加權(quán)線(xiàn)性回歸 |
降維/維約簡(jiǎn) | Singular Value Decomposition | 奇異值分解 |
Principal Components Analysis | 主成分分析 | |
Independent Component Analysis | 獨(dú)立成分分析 | |
Gaussian Discriminative Analysis | 高斯判別分析 | |
進(jìn)化算法 | 并行化了Watchmaker框架 | |
推薦/協(xié)同過(guò)濾 | Non-distributed recommenders | Taste(UserCF, ItemCF, SlopeOne) |
Distributed Recommenders | ItemCF | |
向量相似度計(jì)算 | RowSimilarityJob | 計(jì)算列間相似度 |
VectorDistanceJob | 計(jì)算向量間距離 | |
非Map-Reduce算法 | Hidden Markov Models | 隱馬爾科夫模型 |
集合方法擴(kuò)展 | Collections | 擴(kuò)展了java的Collections類(lèi) |
二、Mahout安裝、配置
一、下載Mahout
http://archive.apache.org/dist/mahout/
二、解壓
tar -zxvf mahout-distribution-0.9.tar.gz
三、配置環(huán)境變量
3.1、配置Mahout環(huán)境變量
# set mahout environment
export MAHOUT_HOME=/usr/local/mahout-distribution-0.9
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATHma
四、驗(yàn)證Mahout是否安裝成功
執(zhí)行命令mahout。若列出一些算法,則成功,如圖:
五、使用Mahout 之入門(mén)級(jí)使用
5.1、啟動(dòng)Hadoop
5.2、下載測(cè)試數(shù)據(jù)
a.下載一個(gè)文件synthetic_control.data,下載地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把這個(gè)文件放在$MAHOUT_HOME目錄下。
5.3、上傳測(cè)試數(shù)據(jù)
c.創(chuàng)建測(cè)試目錄testdata,并把數(shù)據(jù)導(dǎo)入到這個(gè)tastdata目錄中(這里的目錄的名字只能是testdata)
hadoop fs -mkdir –p /user/root/testdata
hadoop fs -put synthetic_control.data /user/root/testdata
5.4 使用Mahout中的kmeans聚類(lèi)算法,執(zhí)行命令:
mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
花費(fèi)5分鐘左右完成聚類(lèi)。
5.5 查看聚類(lèi)結(jié)果
執(zhí)行hadoop fs -ls/user/root/output,查看聚類(lèi)結(jié)果。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。