溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

數(shù)據(jù)挖掘的意思是什么

發(fā)布時(shí)間:2020-07-24 16:12:55 來源:億速云 閱讀:359 作者:Leah 欄目:互聯(lián)網(wǎng)科技

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)碛嘘P(guān)數(shù)據(jù)挖掘的意思是什么,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

數(shù)據(jù)挖掘(Data Mining)就是從大量的數(shù)據(jù)中,提取隱藏在其中的,事先不知道的、但潛在有用的信息的過程。數(shù)據(jù)挖掘的目標(biāo)是建立一個(gè)決策模型,根據(jù)過去的行動(dòng)數(shù)據(jù)來預(yù)測未來的行為。

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。

數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。

數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過程,該過程包括一系列轉(zhuǎn)換步驟, 從數(shù)據(jù)的預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘的起源

來自不同學(xué)科的研究者匯集到一起,開始著手開發(fā)可以處理不同數(shù)據(jù) 類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學(xué)和算法之上,而在數(shù)據(jù)挖掘領(lǐng)域達(dá)到高潮。

特別地,數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1)來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn);(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法建模技術(shù)和學(xué)習(xí)理論。

數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。

一些其他領(lǐng)域也起到重要的支撐作用。數(shù)據(jù)庫系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。

數(shù)據(jù)挖掘的意思是什么

KDD(Knowledge Discovery from Database)

  • 數(shù)據(jù)清理

    消除噪聲和不一致的數(shù)據(jù);

  • 數(shù)據(jù)集成

    多種數(shù)據(jù)源可以組合在一起;

  • 數(shù)據(jù)選擇

    從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù);

  • 數(shù)據(jù)變換

    通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式;

  • 數(shù)據(jù)挖掘

    基本步驟,使用智能方法提取數(shù)據(jù)模式;

  • 模式評(píng)估

    根據(jù)某種興趣度,識(shí)別代表知識(shí)的真正有趣的模式;

  • 知識(shí)表示

    使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí)。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘方法論

  • 業(yè)務(wù)理解(business understanding)

    從商業(yè)角度理解項(xiàng)目的目標(biāo)和要求,接著把這些理解知識(shí)通過理論分析轉(zhuǎn)化為數(shù)據(jù)挖掘可操作的問題,制定實(shí)現(xiàn)目標(biāo)的初步規(guī)劃;

  • 數(shù)據(jù)理解(data understanding)

    數(shù)據(jù)理解階段開始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù)、甄別數(shù)據(jù)質(zhì)量問題、探索對(duì)數(shù)據(jù)的初步理解、發(fā)覺令人感興趣的子集以形成對(duì)探索信息的假設(shè);

  • 數(shù)據(jù)準(zhǔn)備(data preparation)

    數(shù)據(jù)準(zhǔn)備階段指從最初原始數(shù)據(jù)中未加工的數(shù)據(jù)構(gòu)造數(shù)據(jù)挖掘所需信息的活動(dòng)。數(shù)據(jù)準(zhǔn)備任務(wù)可能被實(shí)施多次,而且沒有任何規(guī)定的順序。這些任務(wù)的主要目的是從源系統(tǒng)根據(jù)維度分析的要求,獲取所需要的信息,需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、構(gòu)造、整合等數(shù)據(jù)預(yù)處理工作;

  • 建模(modeling)

    在此階段,主要是選擇和應(yīng)用各種建模技術(shù)。同時(shí)對(duì)它們的參數(shù)進(jìn)行調(diào)優(yōu),以達(dá)到最優(yōu)值。通常對(duì)同一個(gè)數(shù)據(jù)挖掘問題類型,會(huì)有多種建模技術(shù)。一些技術(shù)對(duì)數(shù)據(jù)形式有特殊的要求,常常需要重新返回到數(shù)據(jù)準(zhǔn)備階段;

  • 模型評(píng)估(evaluation)

    在模型部署發(fā)布前,需要從技術(shù)層面判斷模型效果和檢查建立模型的各個(gè)步驟,以及根據(jù)商業(yè)目標(biāo)評(píng)估模型在實(shí)際商業(yè)場景中的實(shí)用性。此階段關(guān)鍵目的是判斷是否存在一些重要的商業(yè)問題仍未得到充分考慮;

  • 模型部署(deployment)

    模型完成后,由模型使用者(客戶)根據(jù)當(dāng)時(shí)背景和目標(biāo)完成情況,封裝滿足業(yè)務(wù)系統(tǒng)使用需求。

數(shù)據(jù)挖掘的意思是什么

數(shù)據(jù)挖掘任務(wù)

通常,數(shù)據(jù)挖掘任務(wù)分為下面兩大類。

  • 預(yù)測任務(wù)。這些任務(wù)的目標(biāo)是根據(jù)其他屬性的值,預(yù)測特定屬性的值。被預(yù)測的屬性一 般稱目標(biāo)變量(targetvariable)或因變量(dependentvariable), 而用來做預(yù)測的屬性稱說明變量(explanatoryvariable)或自變量(independentvariable)。

  • 描述任務(wù)。其目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異常)。本質(zhì)上,描述性數(shù)據(jù)挖掘任務(wù)通常是探查性的,并且常常需要后處理技術(shù)驗(yàn)證和解釋結(jié)果。

    數(shù)據(jù)挖掘的意思是什么

預(yù)測建模(predictivemodeling) 涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。

有兩類預(yù)測建模任務(wù):分類(classification),用于預(yù)測離散的目標(biāo)變量;回歸(regression),用于預(yù)測連續(xù)的目標(biāo)變量。

例如,預(yù)測一個(gè)Web用戶是否會(huì)在網(wǎng)上書店買書是分類任務(wù),因?yàn)樵撃繕?biāo)變量是二值的,而預(yù)測某股票的未來價(jià)格則是回歸任務(wù),因?yàn)閮r(jià)格具有連續(xù)值屬性。

兩項(xiàng)任務(wù)目標(biāo)都是訓(xùn)練一個(gè)模型,使目標(biāo)變量預(yù)測值與實(shí)際值之間的誤差達(dá)到最小。預(yù)測建??梢杂脕泶_定顧客對(duì)產(chǎn)品促銷活動(dòng)的反應(yīng),預(yù)測地球生態(tài)系統(tǒng)的擾動(dòng),或根據(jù)檢查結(jié)果判斷病人是否患有某種疾病。

關(guān)聯(lián)分析(association analysis) 用來發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。

所發(fā)現(xiàn)的模式通常用蘊(yùn)涵規(guī)則或特征子集的形式表示。由于搜索空間是指數(shù)規(guī)模的,關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取最有趣的模式。關(guān)聯(lián)分析的應(yīng)用包括找出具有相關(guān)功能的基因組、識(shí)別用戶一起訪問的Web頁面、 理解地球氣候系統(tǒng)不同元素之間的聯(lián)系等。

聚類分析(cluster analysis)旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比, 屬于同一簇的觀測值相互之間盡可能類似。聚類可用來對(duì)相關(guān)的顧客分組、找出顯著影響 地球氣候的海洋區(qū)域以及壓縮數(shù)據(jù)等。

異常檢測(anomaly detection) 的任務(wù)是識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測值。

這樣的觀測值稱為異常點(diǎn)(anomaly)或離群點(diǎn)(outlier)。異常檢測算法的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn),而避免錯(cuò)誤地將正常的對(duì)象標(biāo)注為異常點(diǎn)換言之,一個(gè)好的異常檢測器必須具有高檢測率和低誤報(bào)率。

異常檢測的應(yīng)用包括檢測欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式、生態(tài)系統(tǒng)擾動(dòng)等。

上述就是小編為大家分享的數(shù)據(jù)挖掘的意思是什么了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI