<td id="9an8i"><label id="9an8i"></label></td>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

數(shù)據(jù)挖掘的意思是什么

發(fā)布時(shí)間：2020-07-24 16:12:55 來源：億速云閱讀：359 作者：Leah 欄目：互聯(lián)網(wǎng)科技

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)碛嘘P(guān)數(shù)據(jù)挖掘的意思是什么，文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

數(shù)據(jù)挖掘（Data Mining）就是從大量的數(shù)據(jù)中，提取隱藏在其中的，事先不知道的、但潛在有用的信息的過程。數(shù)據(jù)挖掘的目標(biāo)是建立一個(gè)決策模型，根據(jù)過去的行動(dòng)數(shù)據(jù)來預(yù)測未來的行為。

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。

數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)，并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)（依靠過去的經(jīng)驗(yàn)法則）和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。

數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(knowledge discovery in database, KDD)不可缺少的一部分，而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過程，該過程包括一系列轉(zhuǎn)換步驟，從數(shù)據(jù)的預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘的起源

來自不同學(xué)科的研究者匯集到一起，開始著手開發(fā)可以處理不同數(shù)據(jù) 類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學(xué)和算法之上，而在數(shù)據(jù)挖掘領(lǐng)域達(dá)到高潮。

特別地，數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想：(1)來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn)；(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法建模技術(shù)和學(xué)習(xí)理論。

數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想，這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。

一些其他領(lǐng)域也起到重要的支撐作用。數(shù)據(jù)庫系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能（并行）計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù)，并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。

數(shù)據(jù)挖掘的意思是什么

KDD(Knowledge Discovery from Database)

數(shù)據(jù)清理
消除噪聲和不一致的數(shù)據(jù)；
數(shù)據(jù)集成
多種數(shù)據(jù)源可以組合在一起；
數(shù)據(jù)選擇
從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù)；
數(shù)據(jù)變換
通過匯總或聚集操作，把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式；
數(shù)據(jù)挖掘
基本步驟，使用智能方法提取數(shù)據(jù)模式；
模式評(píng)估
根據(jù)某種興趣度，識(shí)別代表知識(shí)的真正有趣的模式；
知識(shí)表示
使用可視化和知識(shí)表示技術(shù)，向用戶提供挖掘的知識(shí)。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘方法論

業(yè)務(wù)理解（business understanding）
從商業(yè)角度理解項(xiàng)目的目標(biāo)和要求，接著把這些理解知識(shí)通過理論分析轉(zhuǎn)化為數(shù)據(jù)挖掘可操作的問題，制定實(shí)現(xiàn)目標(biāo)的初步規(guī)劃；
數(shù)據(jù)理解（data understanding）
數(shù)據(jù)理解階段開始于原始數(shù)據(jù)的收集，然后是熟悉數(shù)據(jù)、甄別數(shù)據(jù)質(zhì)量問題、探索對(duì)數(shù)據(jù)的初步理解、發(fā)覺令人感興趣的子集以形成對(duì)探索信息的假設(shè)；
數(shù)據(jù)準(zhǔn)備（data preparation）
數(shù)據(jù)準(zhǔn)備階段指從最初原始數(shù)據(jù)中未加工的數(shù)據(jù)構(gòu)造數(shù)據(jù)挖掘所需信息的活動(dòng)。數(shù)據(jù)準(zhǔn)備任務(wù)可能被實(shí)施多次，而且沒有任何規(guī)定的順序。這些任務(wù)的主要目的是從源系統(tǒng)根據(jù)維度分析的要求，獲取所需要的信息，需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、構(gòu)造、整合等數(shù)據(jù)預(yù)處理工作；
建模（modeling）
在此階段，主要是選擇和應(yīng)用各種建模技術(shù)。同時(shí)對(duì)它們的參數(shù)進(jìn)行調(diào)優(yōu)，以達(dá)到最優(yōu)值。通常對(duì)同一個(gè)數(shù)據(jù)挖掘問題類型，會(huì)有多種建模技術(shù)。一些技術(shù)對(duì)數(shù)據(jù)形式有特殊的要求，常常需要重新返回到數(shù)據(jù)準(zhǔn)備階段；
模型評(píng)估（evaluation）
在模型部署發(fā)布前，需要從技術(shù)層面判斷模型效果和檢查建立模型的各個(gè)步驟，以及根據(jù)商業(yè)目標(biāo)評(píng)估模型在實(shí)際商業(yè)場景中的實(shí)用性。此階段關(guān)鍵目的是判斷是否存在一些重要的商業(yè)問題仍未得到充分考慮；
模型部署（deployment）
模型完成后，由模型使用者（客戶）根據(jù)當(dāng)時(shí)背景和目標(biāo)完成情況，封裝滿足業(yè)務(wù)系統(tǒng)使用需求。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘任務(wù)

通常，數(shù)據(jù)挖掘任務(wù)分為下面兩大類。

預(yù)測任務(wù)。這些任務(wù)的目標(biāo)是根據(jù)其他屬性的值，預(yù)測特定屬性的值。被預(yù)測的屬性一般稱目標(biāo)變量(targetvariable)或因變量(dependentvariable), 而用來做預(yù)測的屬性稱說明變量(explanatoryvariable)或自變量(independentvariable)。
描述任務(wù)。其目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式（相關(guān)、趨勢、聚類、軌跡和異常）。本質(zhì)上，描述性數(shù)據(jù)挖掘任務(wù)通常是探查性的，并且常常需要后處理技術(shù)驗(yàn)證和解釋結(jié)果。

預(yù)測建模(predictivemodeling) 涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。

有兩類預(yù)測建模任務(wù)：分類(classification)，用于預(yù)測離散的目標(biāo)變量；回歸(regression)，用于預(yù)測連續(xù)的目標(biāo)變量。

例如，預(yù)測一個(gè)Web用戶是否會(huì)在網(wǎng)上書店買書是分類任務(wù)，因?yàn)樵撃繕?biāo)變量是二值的，而預(yù)測某股票的未來價(jià)格則是回歸任務(wù)，因?yàn)閮r(jià)格具有連續(xù)值屬性。

兩項(xiàng)任務(wù)目標(biāo)都是訓(xùn)練一個(gè)模型，使目標(biāo)變量預(yù)測值與實(shí)際值之間的誤差達(dá)到最小。預(yù)測建?？梢杂脕泶_定顧客對(duì)產(chǎn)品促銷活動(dòng)的反應(yīng)，預(yù)測地球生態(tài)系統(tǒng)的擾動(dòng)，或根據(jù)檢查結(jié)果判斷病人是否患有某種疾病。

關(guān)聯(lián)分析(association analysis) 用來發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。

所發(fā)現(xiàn)的模式通常用蘊(yùn)涵規(guī)則或特征子集的形式表示。由于搜索空間是指數(shù)規(guī)模的，關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取最有趣的模式。關(guān)聯(lián)分析的應(yīng)用包括找出具有相關(guān)功能的基因組、識(shí)別用戶一起訪問的Web頁面、理解地球氣候系統(tǒng)不同元素之間的聯(lián)系等。

聚類分析(cluster analysis)旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群，使得與屬于不同簇的觀測值相比，屬于同一簇的觀測值相互之間盡可能類似。聚類可用來對(duì)相關(guān)的顧客分組、找出顯著影響地球氣候的海洋區(qū)域以及壓縮數(shù)據(jù)等。

異常檢測(anomaly detection) 的任務(wù)是識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測值。

這樣的觀測值稱為異常點(diǎn)(anomaly)或離群點(diǎn)(outlier)。異常檢測算法的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn)，而避免錯(cuò)誤地將正常的對(duì)象標(biāo)注為異常點(diǎn)換言之，一個(gè)好的異常檢測器必須具有高檢測率和低誤報(bào)率。

異常檢測的應(yīng)用包括檢測欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式、生態(tài)系統(tǒng)擾動(dòng)等。

上述就是小編為大家分享的數(shù)據(jù)挖掘的意思是什么了，如果剛好有類似的疑惑，不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
門禁系統(tǒng)的指紋識(shí)別功能所運(yùn)用的計(jì)算機(jī)技術(shù)有哪些
下一篇新聞：
Cisco之ARP配置

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<i id="pcsnu"><optgroup id="pcsnu"></optgroup></i>