溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

python數(shù)據(jù)挖掘基礎(chǔ)知識點(diǎn)有哪些

發(fā)布時(shí)間:2021-11-23 09:50:05 來源:億速云 閱讀:184 作者:iii 欄目:大數(shù)據(jù)

這篇文章主要講解了“python數(shù)據(jù)挖掘基礎(chǔ)知識點(diǎn)有哪些”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“python數(shù)據(jù)挖掘基礎(chǔ)知識點(diǎn)有哪些”吧!

數(shù)據(jù)挖掘基礎(chǔ)

數(shù)據(jù)挖掘是從大量數(shù)據(jù)(包括文本)中挖掘出隱含的、先前未知的、對決策有潛在價(jià)值的關(guān)系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預(yù)測性決策支持的方法、工具和過程。

1.3、數(shù)據(jù)挖掘的基本任務(wù)

數(shù)據(jù)挖掘的基本任務(wù)包括利用分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、時(shí)序模式、偏差檢測、智能推薦等方法,幫助企業(yè)提取數(shù)據(jù)中的商業(yè)價(jià)值,提高企業(yè)的競爭力。

1.4、數(shù)據(jù)挖掘建模過程

1.4.1、 定義挖掘目標(biāo)

理解挖掘任務(wù),定義挖掘目標(biāo)

1.4.2、 數(shù)據(jù)取樣

抽取數(shù)據(jù)的標(biāo)準(zhǔn),一是相關(guān)性,二是可靠性,三是有效性,而不是動用全部企業(yè)數(shù)據(jù)。通過對數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,還可以使我們想要尋找的規(guī)律性更加凸顯出來。

衡量數(shù)據(jù)取樣的質(zhì)量標(biāo)準(zhǔn):
1)資料完整無缺,各類指標(biāo)項(xiàng)齊全。
2)數(shù)據(jù)準(zhǔn)確無誤,反應(yīng)的都是正常(而不是異常)狀態(tài)下的水平。
對獲取的數(shù)據(jù),可從中進(jìn)行抽樣操作。抽樣的方式是多種多樣的,常見的方式如下:

  • 隨機(jī)抽樣

  • 等距抽樣

  • 分層抽樣

  • 從起始順序抽樣

  • 分類抽樣

1.4.3、數(shù)據(jù)探索

數(shù)據(jù)探索主要包括:異常值分析,缺失值分析,相關(guān)分析和周期性分析等。

1.4.4、數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)篩選、數(shù)據(jù)變量轉(zhuǎn)換、數(shù)據(jù)缺失值處理、壞數(shù)據(jù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化、主成分分析、屬性選擇、數(shù)據(jù)規(guī)約等。

1.4.5、挖掘建模

樣本抽取完成并經(jīng)預(yù)處理之后,接下來要考慮的問題是:本次建模屬于數(shù)據(jù)挖掘應(yīng)用中的哪類問題(分類、聚類、關(guān)聯(lián)規(guī)則、時(shí)序模式或者智能推薦),選用哪種算法進(jìn)行模型構(gòu)建?這一步是數(shù)據(jù)挖掘工作中的核心環(huán)節(jié)。

1.4.6、模型評價(jià)

模型評價(jià)的目的之一就是從這些模型中自動找出一個(gè)最好的模型,另外就是要根據(jù)業(yè)務(wù)對模型進(jìn)行解釋和應(yīng)用。

1.5、常用的數(shù)據(jù)挖掘建模工具

數(shù)據(jù)挖掘是一個(gè)反復(fù)探索的過程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實(shí)施經(jīng)驗(yàn)與企業(yè)的 業(yè)務(wù)邏輯和需求緊密結(jié)合,并在實(shí)施過程中不斷地磨合,才能取得好的效果。下面簡單介紹 幾種常用的數(shù)據(jù)挖掘建模工具。

  • SAS Enterprise Miner,集成數(shù)據(jù)挖掘系統(tǒng)

  • IBM SPSS Modeler,

  • SQL Server,

  • Python,面向?qū)ο蟮慕忉屝透呒壘幊陶Z言

  • WEKA,知名度較高的機(jī)器徐文琪和數(shù)據(jù)挖掘軟件

  • KNIME,可以擴(kuò)展使用WEKA中的挖掘算法

  • RapidMiner,

  • TipDM,數(shù)據(jù)挖掘建模平臺

(1) SAS Enterprise Miner
Enterprise Miner ( EM)是SAS推出的一個(gè)集成的數(shù)據(jù)挖掘系統(tǒng),允許使用和比較不 同的技術(shù),同時(shí)還集成了復(fù)雜的數(shù)據(jù)庫管理軟件。它的運(yùn)行方式是通過在一個(gè)工作空間 (workspace)中按照一定的順序添加各種可以實(shí)現(xiàn)不同功能的節(jié)點(diǎn),然后對不同節(jié)點(diǎn)進(jìn)行相 應(yīng)的設(shè)置,最后運(yùn)行整個(gè)工作流程(workflow),便可以得到相應(yīng)的結(jié)果。

(2 ) IBM SPSS Modeler
IBM SPSS Modeler原名Clementine, 2009年被IBM公司收購后對產(chǎn)品的性能和功能 進(jìn)行了大幅度改進(jìn)和提升。它封裝了最先進(jìn)的統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘技術(shù)來獲得預(yù)測知識,并 將相應(yīng)的決策方案部署到現(xiàn)有的業(yè)務(wù)系統(tǒng)和業(yè)務(wù)過程中,從而提髙企業(yè)的效益。IBM SPSS Modeler擁有直觀的操作界面、自動化的數(shù)據(jù)準(zhǔn)備和成熟的預(yù)測分析模型,結(jié)合商業(yè)技術(shù)可 以快速建立預(yù)測性模型。

(3 ) SQL Server
Microsoft 公司的 SQL Server 中集成了數(shù)據(jù)挖掘組件---- Analysis Servers,借助 SQL Server 的數(shù)據(jù)庫管理功能,可以無縫地集成在SQL Server數(shù)據(jù)庫中。在SQL Server 2008中提供了 決策樹算法、聚類分析算法、Naive Bayes算法、關(guān)聯(lián)規(guī)則算法、時(shí)序算法、神經(jīng)網(wǎng)絡(luò)算法、 線性回歸算法等9種常用的數(shù)據(jù)挖掘算法。但是,預(yù)測建模的實(shí)現(xiàn)是基于SQL Server平臺 的,平臺移植性相對較差。

(4) Python
Python ( Matrix Laboratory,矩陣實(shí)驗(yàn)室)是美國Mathworks公司開發(fā)的應(yīng)用軟件,具 備強(qiáng)大的科學(xué)及工程計(jì)算能力,它不但具有以矩陣計(jì)算為基礎(chǔ)的強(qiáng)大數(shù)學(xué)計(jì)算能力和分析功 能,而且還具有豐富的可視化圖形表現(xiàn)功能和方便的程序設(shè)計(jì)能力。Python并不提供一個(gè)專 門的數(shù)據(jù)挖掘環(huán)境,但它提供非常多的相關(guān)算法的實(shí)現(xiàn)函數(shù),是學(xué)習(xí)和開發(fā)數(shù)據(jù)挖掘算法的 很好選擇。

(5 ) WEKA
WEKA ( Waikato Environment for Knowledge Analysis)是一款知名度較高的開源機(jī)器學(xué) 習(xí)和數(shù)據(jù)挖掘軟件。高級用戶可以通過Java編程和命令行來調(diào)用其分析組件。同時(shí),WEKA 也為普通用戶提供了圖形化界面,稱為WEKA Knowledge Flow Environment和WEKA Explorer, 可以實(shí)現(xiàn)預(yù)處理、分類、聚類、關(guān)聯(lián)規(guī)則、文本挖掘、可視化等。

(6 ) KNIME
KNIME ( Konstanz InformationMiner, http://www.knime.org)是基于 Java 開發(fā)的,可以 擴(kuò)展使用Weka中的挖掘算法。KNIME釆用類似數(shù)據(jù)流(data flow)的方式來建立分析挖掘 流程。挖掘流程由一系列功能節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)有輸入/輸出端口,用于接收數(shù)據(jù)或模型、 導(dǎo)出結(jié)果。

(7 ) RapidMiner
RapidMiner 也稱為 YALE ( Yet Another Learning Environment, https://rapidminer.com),提 供圖形化界面,釆用類似Windows資源管理器中的樹狀結(jié)構(gòu)來組織分析組件,樹上每個(gè)節(jié)點(diǎn) 表示不同的運(yùn)算符(operator)o YALE中提供了大量的運(yùn)算符,包括數(shù)據(jù)處理、變換、探索、 建模、評估等各個(gè)環(huán)節(jié)。YALE是用Java開發(fā)的,基于Weka來構(gòu)建,可以調(diào)用Weka中的 各種分析組件。RapidMiner有拓展的套件Radoop,可以和Hadoop集成起來,在Hadoop集 群上運(yùn)行任務(wù)。

(8) TipDM
TipDM (頂尖數(shù)據(jù)挖掘平臺)使用Java語言開發(fā),能從各種數(shù)據(jù)源獲取數(shù)據(jù),建立多種 數(shù)據(jù)挖掘模型。TipDM目前已集成數(shù)十種預(yù)測算法和分析技術(shù),基本覆蓋了國外主流挖掘系 統(tǒng)支持的算法。TipDM支持?jǐn)?shù)據(jù)挖掘流程所需的主要過程:數(shù)據(jù)探索(相關(guān)性分析、主成分 分析、周期性分析);數(shù)據(jù)預(yù)處理(屬性選擇、特征提取、壞數(shù)據(jù)處理、空值處理);預(yù)測建 模(參數(shù)設(shè)置、交叉驗(yàn)證、模型訓(xùn)練、模型驗(yàn)證、模型預(yù)測);聚類分析、關(guān)聯(lián)規(guī)則挖掘等一 系列功能。

感謝各位的閱讀,以上就是“python數(shù)據(jù)挖掘基礎(chǔ)知識點(diǎn)有哪些”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對python數(shù)據(jù)挖掘基礎(chǔ)知識點(diǎn)有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI