Python中怎么使用sklearn進(jìn)行特征降維

發(fā)布時(shí)間：2023-05-05 15:19:09 來(lái)源：億速云閱讀：111 作者：iii 欄目：開(kāi)發(fā)技術(shù)

本篇內(nèi)容介紹了“Python中怎么使用sklearn進(jìn)行特征降維”的有關(guān)知識(shí)，在實(shí)際案例的操作過(guò)程中，不少人都會(huì)遇到這樣的困境，接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

特征降維

0維標(biāo)量
1維向量
2維矩陣

概念

降維是指在某些限定條件下，降低隨機(jī)變量（特征）個(gè)數(shù)，得到一組“不相關(guān)”主變量的過(guò)程

注：正是因?yàn)樵谶M(jìn)行訓(xùn)練的時(shí)候，我們都是使用特征進(jìn)行學(xué)習(xí)，如果特征本身存在問(wèn)題或者特征之間相關(guān)性較強(qiáng)，對(duì)于算法學(xué)習(xí)預(yù)測(cè)會(huì)影響較大

降維的兩種方式：

特征選擇主成分分析（可以理解為一種特征提取的方式）

特征選擇

①定義

數(shù)據(jù)中包含冗余或相關(guān)變量（或稱特征、屬性、指標(biāo)等），旨在從原有特征中找出主要特征。

②方法

Filter(過(guò)濾式)：主要探究特征本身特點(diǎn)、特征與特征和目標(biāo)值之間關(guān)聯(lián)

方差選擇法：低方差特征過(guò)濾
相關(guān)系數(shù)

Embedded(嵌入式)：算法自動(dòng)選擇特征（特征與目標(biāo)值之間的關(guān)聯(lián)）

決策樹(shù)：信息熵、信息增益
正則化:L1、L2
深度學(xué)習(xí)：卷積等

③模塊

sklearn.feature_selection

過(guò)濾式

①低方差特征過(guò)濾

刪除低方差的一些特征

特征方差?。耗硞€(gè)特征很多樣本的值比較相近
特征方差大：某個(gè)特征很多樣本的值都有差別

API

sklearn.feature_selection.VarianceThreshold(threshold=0.0)
-刪除所有低方差特征
-Variance.fit_transform(X)
X:numpy array格式的數(shù)據(jù)[n_samples,n_features]
返回值：訓(xùn)練集差異低于threshold的特征將被刪除。默認(rèn)值是保留所有非零方差特征，即刪除所有樣本中具有相同值的特征

代碼演示

from sklearn.feature_selection import VarianceThreshold
import pandas as pd
def variance_demo():
    #1.獲取數(shù)據(jù)
    data=pd.read_csv("data.TXT")
    print("data:\n", data)
    #2.實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer=VarianceThreshold(threshold=7)
    #3.調(diào)用fit_transform
    result=transfer.fit_transform(data)
    print("result:\n", result,result.shape)
    return None

②相關(guān)系數(shù)

皮爾遜相關(guān)系數(shù)（Pearson Correlation Coefficient）

反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)

公式

Python中怎么使用sklearn進(jìn)行特征降維

特點(diǎn)

相關(guān)系數(shù)的值介于-1與+1之間，即-1<=r<=+1,其性質(zhì)如下：

當(dāng)r>0時(shí)，表示兩變量正相關(guān)，r<0時(shí)，兩變量為負(fù)相關(guān)
當(dāng)|r|=1時(shí)，表示兩變量為完全相關(guān)，當(dāng)r=0時(shí)，表示兩變量間無(wú)相關(guān)關(guān)系
當(dāng)0<|r|<1時(shí)，表示兩變量存在一定程度的相關(guān)。且|r|越接近1，兩變量間線性關(guān)系越密切；|r|越接近于0，表示兩變量的線性相關(guān)越弱
一般可按三級(jí)劃分：|r|<0.4為低度相關(guān)；0.4<=|r|<0.7為顯著性相關(guān)；0.7<=|r|<1為高度線性相關(guān)

API

from scipy.stats import pearsonr
-x:array
-y:array
-Returns:(Pearson`s correlation coefficient,p-value)

代碼演示

from scipy.stats import pearsonr
def p_demo():
    # 1.獲取數(shù)據(jù)
    data = pd.read_csv("data.TXT")
    print("data:\n", data)
    # 2.計(jì)算兩個(gè)變量之間的相關(guān)系數(shù)
    r=pearsonr(data["one"],data["two"])
    print("相關(guān)系數(shù):\n", r)
    return None

如果特征與特征之間相關(guān)性很高，通過(guò)以下方法處理：

①選取其中一個(gè)

②加權(quán)求和

③主成分分析

定義

高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)的過(guò)程，在此過(guò)程中可能會(huì)舍棄原有數(shù)據(jù)、創(chuàng)造新的變量

作用

是數(shù)據(jù)維數(shù)壓縮，盡可能降低原數(shù)據(jù)維數(shù)（復(fù)雜度），損失少量信息

應(yīng)用

回歸分析或者聚類分析當(dāng)中

API

sklearn.decomposition.PCA(n_components=None)

-將數(shù)據(jù)分解為較低維數(shù)空間
-n_components：
   ·小數(shù)：表示保留百分之多少的信息
   ·整數(shù)：減少到多少特征
-PCA.fit_transform(X)
   X:numpy array格式的數(shù)據(jù)[n_samples,n_features]
-返回值：轉(zhuǎn)換后指定維度的array

使用

from sklearn.decomposition import PCA
def pca_demo():
    data=[[2,8,4,5],[6,3,0,8],[5,4,9,1]]
    #1.實(shí)例化一個(gè)轉(zhuǎn)換器類
    transfer=PCA(n_components=2)
    #2.調(diào)用fit_transform
    result=transfer.fit_transform(data)
    print("result:\n",result)
    return None

“Python中怎么使用sklearn進(jìn)行特征降維”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

向AI問(wèn)一下細(xì)節(jié)

Python中怎么使用sklearn進(jìn)行特征降維

特征降維

特征選擇

過(guò)濾式

①低方差特征過(guò)濾

②相關(guān)系數(shù)

③主成分分析

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽