溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

大數(shù)據(jù)中的數(shù)據(jù)挖掘與建模是怎樣的

發(fā)布時(shí)間:2022-01-18 10:45:33 來源:億速云 閱讀:150 作者:柒染 欄目:大數(shù)據(jù)

這篇文章主要為大家分析了大數(shù)據(jù)中的數(shù)據(jù)挖掘與建模是怎樣的的相關(guān)知識點(diǎn),內(nèi)容詳細(xì)易懂,操作細(xì)節(jié)合理,具有一定參考價(jià)值。如果感興趣的話,不妨跟著跟隨小編一起來看看,下面跟著小編一起深入學(xué)習(xí)“大數(shù)據(jù)中的數(shù)據(jù)挖掘與建模是怎樣的”的知識吧。

紙上得來終覺淺,絕知此事要躬行。  

數(shù)據(jù)挖掘是基于統(tǒng)計(jì)學(xué)原理,利用機(jī)器學(xué)習(xí)中的算法工具實(shí)現(xiàn)價(jià)值信息的發(fā)現(xiàn)。機(jī)器學(xué)習(xí)是一種實(shí)現(xiàn)人工智能的方法,深度學(xué)習(xí)是實(shí)現(xiàn)機(jī)器學(xué)習(xí)的一種技術(shù)。

四大經(jīng)典算法:分類、關(guān)聯(lián)、聚類、回歸

一、監(jiān)督學(xué)習(xí)  (通俗來說就是已知樣本類別,即知道當(dāng)前的樣本是哪一類的樣本。)

1、分類分析:找出一組對象的共同特點(diǎn)并按照分類模式將他們分為不同類,分為線性分類和非線性分類。

線性分類典型的算法包括邏輯回歸和線性判別分析。
非線性分類經(jīng)典算法包括K近鄰(KNN)、支持向量機(jī)(SVM)、決策樹(D Tree)、樸素貝葉斯(NB)
2、回歸分析:反映事務(wù)數(shù)據(jù)屬性在時(shí)間上的特征,預(yù)測數(shù)據(jù)間的相關(guān)關(guān)系,與分類區(qū)別在于,分類是預(yù)測目標(biāo)的離散變量,而回歸是預(yù)測目標(biāo)的連續(xù)變量。
典型的回歸分析模型包括線性回歸分析、支持向量機(jī)(回歸)、K近鄰(回歸)。

二、無監(jiān)督學(xué)習(xí)(事先沒有任何訓(xùn)練數(shù)據(jù)樣本,需要直接對數(shù)據(jù)進(jìn)行建模,即不提供經(jīng)驗(yàn)和訓(xùn)練樣本,完全靠自己摸索)

1、關(guān)聯(lián)分析:描述數(shù)據(jù)庫中數(shù)據(jù)之間存在關(guān)系的規(guī)則。
關(guān)聯(lián)規(guī)則挖掘中有4個(gè)指標(biāo):置信度、支持度、期望置信度、提升度。
典型算法:Apriori算法、FP-Tree算法、PrefixSpan算法。
2、聚類分析:訓(xùn)練樣本標(biāo)簽信息未知,通過學(xué)習(xí)揭示數(shù)據(jù)內(nèi)在性質(zhì)及規(guī)律。
典型算法:K均值算法(K-means)、DBSCAN(具有噪聲的基于密度的聚類方法)。

三、沃爾瑪經(jīng)典營銷案例:啤酒與尿布

模型發(fā)現(xiàn):  20世紀(jì)90年代的美國沃爾瑪超市中,管理人員分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:  在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會(huì)經(jīng)常出現(xiàn)在同一個(gè)購物籃中。
原因分析:  在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。  父親在購買尿布的同時(shí),往往會(huì)順便為自己購買啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購物籃的現(xiàn)象。
模型應(yīng)用:  在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購物;  而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入。
理論支撐:  1993年美國學(xué)者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購買行為。  艾格拉沃從數(shù)學(xué)及計(jì)算機(jī)算法角度提 出了商品關(guān)聯(lián)關(guān)系的計(jì)算方法——Apriori算法。

關(guān)于“大數(shù)據(jù)中的數(shù)據(jù)挖掘與建模是怎樣的”就介紹到這了,更多相關(guān)內(nèi)容可以搜索億速云以前的文章,希望能夠幫助大家答疑解惑,請多多支持億速云網(wǎng)站!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI