溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

數(shù)據(jù)挖掘一般有哪些步驟?

發(fā)布時間:2020-04-09 14:04:27 來源:億速云 閱讀:198 作者:小新 欄目:大數(shù)據(jù)

  數(shù)據(jù)挖掘一般有哪些步驟?數(shù)據(jù)挖掘基本步驟,數(shù)據(jù)挖掘過程定義問題、建立數(shù)據(jù)挖掘庫、分析數(shù)據(jù)、準備數(shù)據(jù)、建立模型、評價模型和實施。挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。下面跟小編一起來看看吧。

數(shù)據(jù)挖掘一般有哪些步驟?

  數(shù)據(jù)挖掘指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術等,高度自動化地分析企業(yè)的數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。
  數(shù)據(jù)挖掘步驟。數(shù)據(jù)挖掘通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術,主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示三個步驟。數(shù)據(jù)準備是從相關的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式將找出的規(guī)律表示出來。數(shù)據(jù)挖掘的任務有關聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。
  數(shù)據(jù)挖掘步驟:
  1、定義問題
  在開始知識發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。
  2、建立數(shù)據(jù)挖掘庫
  建立數(shù)據(jù)挖掘庫包括以下幾個步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質量評估和數(shù)據(jù)清理,合并與整合,構建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫,維護數(shù)據(jù)挖掘庫。
  3、分析數(shù)據(jù)
  分析的目的是找到對預測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些事情。

數(shù)據(jù)挖掘一般有哪些步驟?
  4、準備數(shù)據(jù)
  建立模型之前的最后一步數(shù)據(jù)準備工作??梢园汛瞬襟E分為四個部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉換變量。
  5、建立模型
  建立模型是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數(shù)據(jù)集來驗證模型的準確性。訓練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分,一個用于模型訓練,另一個用于模型測試。
  6、評價模型
  模型建立好之后,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數(shù)據(jù)有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多少。經(jīng)驗證明,有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實世界中測試模型很重要。先在小范圍內應用,取得測試數(shù)據(jù),覺得滿意之后再向大范圍推廣實施。模型建立并經(jīng)驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的數(shù)據(jù)集上。

  以上就是數(shù)據(jù)挖掘一般有哪些步驟的簡略介紹,當然詳細使用上面的不同還得要大家自己使用過才領會。如果想了解更多,歡迎關注億速云行業(yè)資訊頻道哦!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內容。

AI