溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

發(fā)布時間:2020-08-16 17:29:12 來源:ITPUB博客 閱讀:140 作者:dicksonjyl560101 欄目:互聯(lián)網(wǎng)科技

數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

 

https://mp.weixin.qq.com/s/eRBYjneWBTu6ep4UNGNUuw

 

作者  James Le

編譯   路雪、劉曉坤、蔣思源

本文轉(zhuǎn)自機器之心(almosthuman2014),轉(zhuǎn)載需授權(quán)

 

「數(shù)據(jù)科學(xué)家比程序員擅長統(tǒng)計,比統(tǒng)計學(xué)家擅長編程。」本文介紹了數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù),包括線性回歸、分類、重采樣、降維、無監(jiān)督學(xué)習(xí)等。

 

不管你對數(shù)據(jù)科學(xué)持什么態(tài)度,都不可能忽略分析、組織和梳理數(shù)據(jù)的重要性。Glassdoor 網(wǎng)站根據(jù)大量雇主和員工的反饋數(shù)據(jù)制作了「美國最好的 25 個職位」榜單,其中第一名就是數(shù)據(jù)科學(xué)家。盡管排名已經(jīng)頂尖了,但數(shù)據(jù)科學(xué)家的工作內(nèi)容一定不會就此止步。隨著深度學(xué)習(xí)等技術(shù)越來越普遍、深度學(xué)習(xí)等熱門領(lǐng)域越來越受到研究者和工程師以及雇傭他們的企業(yè)的關(guān)注,數(shù)據(jù)科學(xué)家繼續(xù)走在創(chuàng)新和技術(shù)進步的前沿。

 

盡管具備強大的編程能力非常重要,但數(shù)據(jù)科學(xué)不全關(guān)于軟件工程(實際上,只要熟悉 Python 就足以滿足編程的需求)。數(shù)據(jù)科學(xué)家需要同時具備編程、統(tǒng)計學(xué)和批判思維能力。正如 Josh Wills 所說:「數(shù)據(jù)科學(xué)家比程序員擅長統(tǒng)計學(xué),比統(tǒng)計學(xué)家擅長編程。」我自己認識很多軟件工程師希望轉(zhuǎn)型成為數(shù)據(jù)科學(xué)家,但是他們盲目地使用 TensorFlow 或 Apache Spark 等機器學(xué)習(xí)框架處理數(shù)據(jù),而沒有全面理解其背后的統(tǒng)計學(xué)理論知識。因此他們需要系統(tǒng)地研究統(tǒng)計機器學(xué)習(xí),該學(xué)科脫胎于統(tǒng)計學(xué)和泛函分析,并結(jié)合了信息論、最優(yōu)化理論和線性代數(shù)等多門學(xué)科。

 

為什么學(xué)習(xí)統(tǒng)計學(xué)習(xí)?理解不同技術(shù)背后的理念非常重要,它可以幫助你了解如何使用以及什么時候使用。同時,準確評估一種方法的性能也非常重要,因為它能告訴我們某種方法在特定問題上的表現(xiàn)。此外,統(tǒng)計學(xué)習(xí)也是一個很有意思的研究領(lǐng)域,在科學(xué)、工業(yè)和金融領(lǐng)域都有重要的應(yīng)用。最后,統(tǒng)計學(xué)習(xí)是訓(xùn)練現(xiàn)代數(shù)據(jù)科學(xué)家的基礎(chǔ)組成部分。統(tǒng)計學(xué)習(xí)方法的經(jīng)典研究主題包括:

  • 線性回歸模型

  • 感知機

  • 近鄰法

  • 樸素貝葉斯法

  • 決策樹

  • Logistic  回歸于最大熵模型

  • 支持向量機

  • 提升方法

  • EM  算法

  • 隱馬爾可夫模型

  • 條件隨機場

之后我將介紹 10 項統(tǒng)計技術(shù),幫助數(shù)據(jù)科學(xué)家更加高效地處理大數(shù)據(jù)集的統(tǒng)計技術(shù)。在此之前,我想先厘清統(tǒng)計學(xué)習(xí)和機器學(xué)習(xí)的區(qū)別:

  • 機器學(xué)習(xí)是偏向人工智能的分支。

  • 統(tǒng)計學(xué)習(xí)方法是偏向統(tǒng)計學(xué)的分支。

  • 機器學(xué)習(xí)更側(cè)重大規(guī)模應(yīng)用和預(yù)測準確率。

  • 統(tǒng)計學(xué)系側(cè)重模型及其可解釋性,以及精度和不確定性。

  • 二者之間的區(qū)別越來越模糊。

 

1.  線性回歸

 

在統(tǒng)計學(xué)中,線性回歸通過擬合因變量和自變量之間的最佳線性關(guān)系來預(yù)測目標變量。最佳擬合通過盡量縮小預(yù)測的線性表達式和實際觀察結(jié)果間的距離總和來實現(xiàn)。沒有其他位置比該形狀生成的錯誤更少,從這個角度來看,該形狀的擬合是「最佳」。線性回歸的兩個主要類型是簡單線性回歸和多元線性回歸。

 

簡單線性回歸使用一個自變量通過擬合最佳線性關(guān)系來預(yù)測因變量的變化情況。多元線性回歸使用多個自變量通過擬合最佳線性關(guān)系來預(yù)測因變量的變化趨勢。

  數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

任意選擇兩個日常使用且相關(guān)的物體。比如,我有過去三年月支出、月收入和每月旅行次數(shù)的數(shù)據(jù)?,F(xiàn)在我需要回答以下問題:

  • 我下一年月支出是多少?

  • 哪個因素(月收入或每月旅行次數(shù))在決定月支出方面更重要?

  • 月收入和每月旅行次數(shù)與月支出之間是什么關(guān)系?

 

2.  分類

 

分類是一種數(shù)據(jù)挖掘技術(shù),為數(shù)據(jù)分配類別以幫助進行更準確的預(yù)測和分析。分類是一種高效分析大型數(shù)據(jù)集的方法,兩種主要的分類技術(shù)是:logistic 回歸和判別分析(Discriminant Analysis)。

 

logistic  回歸是適合在因變量為二元類別的回歸分析。和所有回歸分析一樣,logistic 回歸是一種預(yù)測性分析。logistic 回歸用于描述數(shù)據(jù),并解釋二元因變量和一或多個描述事物特征的自變量之間的關(guān)系。logistic 回歸可以檢測的問題類型如下:

  • 體重每超出標準體重一磅或每天每抽一包煙對得肺癌概率(是或否)的影響。

  • 卡路里攝入、脂肪攝入和年齡對心臟病是否有影響(是或否)?

  數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

在判別分析中,兩個或多個集合和簇等可作為先驗類別,然后根據(jù)度量的特征把一個或多個新的觀察結(jié)果分類成已知的類別。判別分析對每個對應(yīng)類中的預(yù)測器分布 X 分別進行建模,然后使用貝葉斯定理將其轉(zhuǎn)換成根據(jù) X 的值評估對應(yīng)類別的概率。此類模型可以是線性判別分析(Linear Discriminant Analysis),也可以是二次判別分析(Quadratic Discriminant Analysis)。

  •  

  • 線性判別分析(LDA):為每個觀察結(jié)果計算「判別值」來對它所處的響應(yīng)變量類進行分類。這些分值可以通過找到自變量的線性連接來獲得。它假設(shè)每個類別的觀察結(jié)果都從多變量高斯分布中獲取,預(yù)測器變量的協(xié)方差在響應(yīng)變量 Y 的所有 k 級別中都很普遍。

  • 二次判別分析(QDA):提供另外一種方法。和 LDA 類似,QDA 假設(shè) Y 每個類別的觀察結(jié)果都從高斯分布中獲取。但是,與 LDA 不同的是,QDA 假設(shè)每個類別具備自己的協(xié)方差矩陣。也就是說,預(yù)測器變量在 Y 的所有 k 級別中不是普遍的。

 

3.  重采樣方法

 

重采樣方法(Resampling)包括從原始數(shù)據(jù)樣本中提取重復(fù)樣本。這是一種統(tǒng)計推斷的非參數(shù)方法。即,重采樣不使用通用分布來逼近地計算概率 p 的值。

 

重采樣基于實際數(shù)據(jù)生成一個獨特的采樣分布。它使用經(jīng)驗性方法,而不是分析方法,來生成該采樣分布。重采樣基于數(shù)據(jù)所有可能結(jié)果的無偏樣本獲取無偏估計。為了理解重采樣的概念,你應(yīng)該先了解自助法(Bootstrapping)和交叉驗證(Cross-Validation):

  數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

自助法(Bootstrapping)適用于多種情況,如驗證預(yù)測性模型的性能、集成方法、偏差估計和模型方差。它通過在原始數(shù)據(jù)中執(zhí)行有放回取樣而進行數(shù)據(jù)采樣,使用「未被選中」的數(shù)據(jù)點作為測試樣例。我們可以多次執(zhí)行該操作,然后計算平均值作為模型性能的估計。

 

交叉驗證用于驗證模型性能,通過將訓(xùn)練數(shù)據(jù)分成 k 部分來執(zhí)行。我們將 k-1 部分作為訓(xùn)練集,「留出」的部分作為測試集。將該步驟重復(fù) k 次,最后取 k 次分值的平均值作為性能估計。

 

通常對于線性模型而言,普通最小二乘法是擬合數(shù)據(jù)時主要的標準。下面 3 個方法可以提供更好的預(yù)測準確率和模型可解釋性。

 

 

4.  子集選擇

 

該方法將挑選 p 個預(yù)測因子的一個子集,并且我們相信該子集和所需要解決的問題十分相關(guān),然后我們就能使用該子集特征和最小二乘法擬合模型。

數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

  • 最佳子集的選擇:我們可以為 p 個預(yù)測因子的每個組合擬合單獨的 OLS 回歸,然后再考察各模型擬合的情況。該算法分為兩個階段:(1)擬合包含 k 個預(yù)測因子的所有模型,其中 k 為模型的最大長度;(2)使用交叉驗證預(yù)測損失選擇單個模型。使用驗證或測試誤差十分重要,且不能簡單地使用訓(xùn)練誤差評估模型的擬合情況,這因為 RSS 和 R^2 隨變量的增加而單調(diào)遞增。最好的方法就是通過測試集中最高的 R^2 和最低的 RSS 來交叉驗證地選擇模型。

  • 前向逐步地選擇會考慮 p 個預(yù)測因子的一個較小子集。它從不含預(yù)測因子的模型開始,逐步地添加預(yù)測因子到模型中,直到所有預(yù)測因子都包含在模型。添加預(yù)測因子的順序是根據(jù)不同變量對模型擬合性能提升的程度來確定的,我們會添加變量直到再沒有預(yù)測因子能在交叉驗證誤差中提升模型。

  • 后向逐步選擇先從模型中所有 p 預(yù)測器開始,然后迭代地移除用處最小的預(yù)測器,每次移除一個。

  • 混合法遵循前向逐步方法,但是在添加每個新變量之后,該方法可能還會移除對模型擬合無用的變量。

 

5. Shrinkage

 

這種方法涉及到使用所有 p 個預(yù)測因子進行建模,然而,估計預(yù)測因子重要性的系數(shù)將根據(jù)最小二乘誤差向零收縮。這種收縮也稱之為正則化,它旨在減少方差以防止模型的過擬合。由于我們使用不同的收縮方法,有一些變量的估計將歸零。因此這種方法也能執(zhí)行變量的選擇,將變量收縮為零最常見的技術(shù)就是 Ridge 回歸和 Lasso 回歸。

數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解


 

  • Ridge  回歸非常類似于最小二乘法,只不過它通過最小化一個稍微不同的數(shù)值來估計系數(shù)。Ridge 回歸和 OLS 一樣尋求減少 RSS 的系數(shù)估計。然而當系數(shù)收縮逼近零值時,它們都會對這種收縮進行懲罰。我們不需要數(shù)學(xué)分析就能看出 Ridge 回歸很擅長于將特征收縮到最小的可能空間中。如主成分分析,Ridge 回歸將數(shù)據(jù)投影到 D 維空間,并在系數(shù)空間內(nèi)收縮較低方差的成分而保留有較高方差的成分。

  • Ridge  回歸至少有一個缺點,它需要包含最終模型所有 p 個預(yù)測因子,這主要是因為罰項將會令很多預(yù)測因子的系數(shù)逼近零,但又一定不會等于零。這對于預(yù)測準確度來說通常并不是什么問題,但卻令模型的結(jié)果更難以解釋。Lasso 就克服了這一缺點,因為它在 s 組后小的時候能迫使一些預(yù)測因子的系數(shù)歸零。因為 s = 1 將導(dǎo)致正規(guī)的 OLS 回歸,而當 s 逼近 0 時,系數(shù)將收縮到零。因此 Lasso 回歸同樣是執(zhí)行變量選擇的一個好方法。

  •  

6.  降維

 

降維算法將 p+1 個系數(shù)的問題簡化為 M+1 個系數(shù)的問題,其中 M<p。算法執(zhí)行包括計算變量的 M 個不同線性組合或投射(projection)。然后這 M 個投射作為預(yù)測器通過最小二乘法擬合一個線性回歸模型。兩個主要的方法是主成分回歸(principal component regression)和偏最小二乘法(partial least squares)。

數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解


  • 主成分回歸(PCR)可以看成一種從大型變量集合中導(dǎo)出低維特征集合的方法。數(shù)據(jù)中的第一主成分(first principal component)是指觀察數(shù)據(jù)沿著這個變量方向的變化最大。換言之,第一主成分是最接近擬合數(shù)據(jù)的線,總共可以用 p 個不同的主成分擬合。第二主成分是和第一主成分不相關(guān)的變量的線性組合,且在該約束下有最大的方差。其主要思想是主成分能在各個互相垂直的方向使用數(shù)據(jù)的線性組合捕捉到最大的方差。使用這種方法,我們還能結(jié)合相關(guān)變量的效應(yīng)從數(shù)據(jù)中獲取更多的信息,畢竟在常規(guī)的最小二乘法中需要舍棄其中一個相關(guān)變量。

  •  

  • 上面描述的 PCR 方法需要提取 X 的線性組合,以獲得對的預(yù)測器的最優(yōu)表征。由于 X 的輸出 Y 不能不能用于幫助決定主成分方向,這些組合(方向)使用無監(jiān)督方法提取。即,Y 不能監(jiān)督主成分的提取,從而無法保證這些方向是預(yù)測器的最優(yōu)表征,也無法保證能獲得最優(yōu)預(yù)測輸出(雖然通常假定如此)。偏最小二乘法(PLS)是一種監(jiān)督方法,作為 PCR 的代替方法。和 PCR 類似,PLS 也是一種降維方法,它首先提取一個新的較小的特征集合(原始特征的線性組合),然后通過最小二乘法將原來的模型擬合為一個新的具有 M 個特征的線性模型。

 

 

7.  非線性模型

 

在統(tǒng)計學(xué)中,非線性回歸屬于一種回歸分析形式,其中,觀測數(shù)據(jù)使用模型參數(shù)的非線性組合的函數(shù)(依賴于一個或多個獨立變量)建模。其使用逐次逼近法擬合數(shù)據(jù)。下方是幾種處理非線性模型的重要技術(shù)。

  • 階梯函數(shù)(step function),變量為實數(shù),可以寫成區(qū)間的指示函數(shù)的有限線性組合的形式。非正式的解釋是,階梯函數(shù)是一種分段常數(shù)函數(shù),只有有限的部分。

  • 分段函數(shù)(piecewise function)通過多個子函數(shù)定義,每一個子函數(shù)被定義在主函數(shù)定義域的確定的區(qū)間上。分段實際上是一種表示函數(shù)的方式,而不是函數(shù)自身的特征,但通過額外的限定條件,它可以用于描述函數(shù)的本質(zhì)。例如,一個分段多項式函數(shù)是一個在每一個子定義上為多項式的函數(shù),其中每一個多項式都可能是不同的。

  數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

  • 樣條曲線(spline)是一種用多項式分段定義的特殊函數(shù)。在計算機圖形學(xué)中,樣條曲線是一種分段多項式參數(shù)化曲線。由于結(jié)構(gòu)的簡單性、評估的簡易和高精度、通過曲線擬合和交互曲線設(shè)計以逼近復(fù)雜曲線的能力,樣條曲線很常用。

  • 廣義加性模型(generalized additive model)是一種廣義線性模型,其中線性預(yù)測器線性依賴于某些預(yù)測器變量的未知平滑函數(shù),其主要作用就是推測這些平滑函數(shù)。

  •  

8.  基于樹的方法

 

基于樹的方法可以用于回歸和分類問題,包括將預(yù)測器空間分層或分割成幾個簡單區(qū)域。由于用于預(yù)測器空間的分離規(guī)則集合可以總結(jié)為一個樹,這類方法被稱為決策樹方法。以下的方法是幾種不同的樹,它們可以組合起來輸出單個一致的預(yù)測。

  • bagging  能減少預(yù)測的方差,即通過從原始數(shù)據(jù)中生成額外的數(shù)據(jù)(通過組合和重復(fù)生成和原始數(shù)據(jù)大小相同的多段數(shù)據(jù))用于訓(xùn)練。通過增大訓(xùn)練集無法提高模型的預(yù)測能力,只能減小方差,仔細地調(diào)整預(yù)測以得到期望的輸出。

  • boosting  是一種計算輸出的方法,即使用多個不同的模型,然后使用加權(quán)平均的方法對結(jié)果取平均值。我們一般通過改變這些方法所占的權(quán)重而結(jié)合各方法的優(yōu)勢,此外,我們還可以使用不同的精細調(diào)整獲得對更寬泛輸入數(shù)據(jù)的預(yù)測能力。

  • 數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

  • 隨機森林算法(random forest algorithm)實際上和 bagging 算法很相似,同樣是對訓(xùn)練集提取隨機 bootstrap 樣本。然而,除了 bootstrap 樣本以外,還可以提取特征的隨機子集以訓(xùn)練單個樹;而在 bagging 中,需要給每個樹提供整個特征集。由于特征選擇是隨機的,相比常規(guī)的 bagging 算法,每個樹之間更加獨立,從而通常能獲得更好的預(yù)測性能(得益于更好的方差—偏差權(quán)衡)。且計算速度也更快,因為每個樹只需要學(xué)習(xí)特征的一個子集。

 

9.  支持向量機

支持向量機(SVM)是一種常用的監(jiān)督學(xué)習(xí)分類技術(shù)。通俗地說,它用于尋找對兩類點集做出最佳分離的超平面(hyperplane,在 2D 空間中是線,在 3D 空間中是面,在高維空間中是超平面。更正式的說法是,一個超平面是一個 n 維空間的 n-1 維子空間)。而支持向量機是保留最大的間隔的分離超平面,因此本質(zhì)上,它是一個約束最優(yōu)化問題,其中支持向量機的間隔在約束下被最大化,從而完美地對數(shù)據(jù)進行分類(硬間隔分類器)。

  數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

那些「支持」著超平面的數(shù)據(jù)點被稱為「支持向量」。在上圖中,填充藍色圓和兩個填充方塊就是支持向量。在兩類數(shù)據(jù)不是線性可分的例子中,數(shù)據(jù)點將被投射到一個更高維空間中,使得數(shù)據(jù)變得線性可分。包含多個類別的數(shù)據(jù)點的問題可以分解成多個「一對一」(one-versus-one)或「一對剩余」(one-versus-rest)的二分類問題。

 

 

10.  無監(jiān)督學(xué)習(xí)

 

目前為止,我們都只討論過監(jiān)督學(xué)習(xí)技術(shù),其中數(shù)據(jù)分類都是已知的,且提供給算法的經(jīng)驗都是實體和其分類的關(guān)系。當數(shù)據(jù)的分類是未知的時候,就需要使用另一種技術(shù)了。它們被稱為無監(jiān)督的,因為它們需要自己去發(fā)現(xiàn)數(shù)據(jù)中的模式。聚類(clustring)是無監(jiān)督學(xué)習(xí)的一種,其中數(shù)據(jù)將根據(jù)相關(guān)性被分為多個群集。下方是幾種最常用的無監(jiān)督學(xué)習(xí)算法:

  數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計技術(shù)詳解

  • 主成分分析:通過保留具備最大方差和互相不相關(guān)的特征之間的線性連接,而幫助生成數(shù)據(jù)集的低維表示。該線性降維技術(shù)有助于理解無監(jiān)督學(xué)習(xí)中的隱變量交互。

  • 均值聚類:根據(jù)數(shù)據(jù)到集群中心的距離將其分成 k 個不同的集群。

  • 層次聚類:通過數(shù)據(jù)的層級表示而構(gòu)建不同的集群。

 

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI