<button id="swkde"><tbody id="swkde"><optgroup id="swkde"></optgroup></tbody></button>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

R語言數(shù)據(jù)挖掘?qū)崙?zhàn)系列（1）

發(fā)布時(shí)間：2020-06-27 13:15:51 來源：網(wǎng)絡(luò) 閱讀：918 作者：PXZ6603 欄目：編程語言

R語言數(shù)據(jù)挖掘?qū)崙?zhàn)（1）

一、數(shù)據(jù)挖掘基礎(chǔ)

數(shù)據(jù)挖掘：從數(shù)據(jù)中“淘金”，從大量數(shù)據(jù)（包括文本）中挖掘出隱含的、未知的、對(duì)決策有潛在價(jià)值的關(guān)系、模式和趨勢(shì)，并用這些知識(shí)和規(guī)則建立用于決策支持的模型，提供預(yù)測(cè)性決策支持的方法、工具和過程。

數(shù)據(jù)挖掘的任務(wù)

利用分類與預(yù)測(cè)、聚類分析、關(guān)聯(lián)規(guī)則、時(shí)序模式、偏差檢測(cè)、智能推薦等方法，幫助企業(yè)提取數(shù)據(jù)中蘊(yùn)含的商業(yè)價(jià)值，提高企業(yè)的競(jìng)爭(zhēng)力。

數(shù)據(jù)挖掘建模過程

定義挖掘目標(biāo)，即決定到底想干什么？

數(shù)據(jù)取樣。抽取一個(gè)與挖掘目標(biāo)相關(guān)的樣本數(shù)據(jù)子集。抽取數(shù)據(jù)的標(biāo)準(zhǔn)：一是相關(guān)性，二是可靠性，三是有效性。衡量取樣數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)包括：（1）資料完整無缺，各類指標(biāo)項(xiàng)齊全；（2）數(shù)據(jù)準(zhǔn)確無誤，反映的都是正常（而不是異常）狀態(tài)下的水平。常見抽樣方法有：隨機(jī)抽樣、等距抽樣、分層抽樣、從起始順序抽樣、分類抽樣等。

數(shù)據(jù)探索。數(shù)據(jù)探索和預(yù)處理的目的是保證樣本數(shù)據(jù)的質(zhì)量、從而為保證模型質(zhì)量奠定基礎(chǔ)。常用數(shù)據(jù)探索方法有：異常值分析、缺失值分析、相關(guān)性分析、周期性分析等。

數(shù)據(jù)預(yù)處理。當(dāng)采樣數(shù)據(jù)維度過大時(shí)，如何進(jìn)行降維處理、缺失值處理等都是數(shù)據(jù)預(yù)處理要解決的問題。常用的數(shù)據(jù)預(yù)處理方法包括：數(shù)據(jù)篩選、數(shù)據(jù)變量轉(zhuǎn)換、缺失值處理、壞數(shù)據(jù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化、主成分分析、屬性選擇、數(shù)據(jù)規(guī)約等。

挖掘建模。本次建模屬于數(shù)據(jù)挖掘應(yīng)用中哪類問題（分類、聚類、關(guān)聯(lián)規(guī)則、時(shí)序模式或智能推薦），選用哪種算法進(jìn)行模型構(gòu)建？

模型評(píng)價(jià)。從這些模型中自動(dòng)找出一個(gè)最好的模型，根據(jù)業(yè)務(wù)對(duì)模型進(jìn)行解釋和應(yīng)用。

常用數(shù)據(jù)挖掘建模工具

（1）R。

R是一種為統(tǒng)計(jì)計(jì)算和圖形顯示而設(shè)計(jì)的語言環(huán)境，是貝爾實(shí)驗(yàn)室的Rick Becker、John Chambers和Allan Wilks開發(fā)的S語言的一種實(shí)現(xiàn)。

（2）Python。

Python是一門簡(jiǎn)單易學(xué)且功能強(qiáng)大的編程語言，擁有高效的高級(jí)數(shù)據(jù)結(jié)構(gòu)，并且能夠用簡(jiǎn)單而又高效的方式進(jìn)行面向?qū)ο缶幊獭?/span>

（3）SAS Enterprise Miner

Enterprise Miner(EM)是SAS推出的一個(gè)集成的數(shù)據(jù)挖掘系統(tǒng)，允許使用和比較不同的技術(shù)，同時(shí)還集成了復(fù)雜的數(shù)據(jù)庫管理軟件。

（4）IBM SPSS Modeler

它封裝了最先進(jìn)的統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘技術(shù)，來獲得預(yù)測(cè)知識(shí)并將相應(yīng)的決策方案部署到現(xiàn)有的業(yè)務(wù)系統(tǒng)和業(yè)務(wù)過程中。擁有直觀的操作界面、自動(dòng)化的數(shù)據(jù)準(zhǔn)備和成熟的預(yù)測(cè)分析模型。

（5）SQL Server

Microsoft的SQL Server中集成了數(shù)據(jù)挖掘組件——Analysis Servers。在SQL Server 2008中提供了決策樹算法、聚類分析算法、Naive Bayes算法、關(guān)聯(lián)規(guī)則算法、時(shí)序算法、神經(jīng)網(wǎng)絡(luò)算法、線性回歸算法等9中常用的數(shù)據(jù)挖掘算法。但是平臺(tái)移植性相對(duì)較差。

（6）MATLAB

MATLAB是美國(guó)Mathworks公司開發(fā)的應(yīng)用軟件，具備強(qiáng)大的科學(xué)及工程計(jì)算能力，它不但具有以矩陣計(jì)算為基礎(chǔ)的強(qiáng)大數(shù)學(xué)計(jì)算能力和分析能力，而且還具有豐富的可視化圖形表現(xiàn)功能和方便的程序設(shè)計(jì)能力。

（7）WEKA

WEKA(Waikato Environment for Knowledge Analysis)是一款知名度較高的開源機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘軟件。

（8）TipDM

TipDM(頂尖數(shù)據(jù)挖掘平臺(tái))使用Java語言開發(fā)，能從各種數(shù)據(jù)源獲取數(shù)據(jù)，建立多種數(shù)據(jù)挖掘模型。目前已集成數(shù)十種預(yù)測(cè)算法和分析技術(shù)，基本覆蓋了國(guó)內(nèi)外主流挖掘系統(tǒng)支持的算法。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
php常量賦值
下一篇新聞：
統(tǒng)御項(xiàng)目管理系統(tǒng)方法論

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<track id="yfhke"><tt id="yfhke"></tt></track>