python基礎(chǔ)中K近鄰算法是怎樣的

發(fā)布時間：2021-11-15 09:19:00 來源：億速云閱讀：161 作者：柒染欄目：開發(fā)技術(shù)

python基礎(chǔ)中K近鄰算法是怎樣的，相信很多沒有經(jīng)驗的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個問題。

一、k-近鄰算法原理及API

1.k-近鄰算法原理

如果一個樣本在特征空間中的k個最相似（即特征空間中最鄰近）的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別。（相似的樣本，特征之間的值應(yīng)該都是相近的。）

樣本之間的距離求法：

python基礎(chǔ)中K近鄰算法是怎樣的

2.k-近鄰算法API

python基礎(chǔ)中K近鄰算法是怎樣的

3.k-近鄰算法特點

k值取很小，容易受異常點的影響。

k值取很大，容易受k值數(shù)量（類別）波動

優(yōu)點：簡單，易于理解，易于實現(xiàn)，無需估計參數(shù)，無需訓(xùn)練（不需要迭代）

缺點：懶惰算法，對測試樣本分類時的計算量大，內(nèi)存開銷大

綜上，使用該算法時必須指定K值，K值選擇不當(dāng)則分類精度不能保證。同時若樣本數(shù)量非常多，算法花費的時間就會很長，因此使用場景一般是小數(shù)據(jù)場景。

二、k-近鄰算法案例分析案例信息概述

knn使用案例：以預(yù)測客人的入住位置（假設(shè)住的是酒店）為例。準(zhǔn)備好的數(shù)據(jù)中的特征為：酒店編號（place_id）、入住登記（row_id）、客人橫坐標(biāo)（x）、客人縱坐標(biāo)（y）、時間戳（time）、客人定位準(zhǔn)確度（accuracy）

也就是說，我們的目標(biāo)是預(yù)測客人將會入住哪個編號的酒店。則此問題是一個分類問題。根據(jù)k-近鄰算法，我們通常考慮讓客人入住距離他最近的酒店。但同時，根據(jù)給出的其他信息，是否入住某酒店還會受其他因素影響，比如入住時間，定位準(zhǔn)確度。

因此，我們第一步對數(shù)據(jù)進行處理的時候，需要將我們認為對客人入住有影響的所有因素考慮在內(nèi)。比如客人的坐標(biāo)、入住時間、定位準(zhǔn)確度。

接下來對特征進行處理，把需要的添加進列表，不需要的刪除，或者篩選部分數(shù)據(jù)。最終處理好后，將目標(biāo)值單獨拿出來作為y_train，就可以使用x_train和y_train來訓(xùn)練算法了。

第一部分：處理數(shù)據(jù)

1.數(shù)據(jù)量縮小

假設(shè)已導(dǎo)入了data數(shù)據(jù)，由于數(shù)據(jù)量太大，因此為了演示的速度，將數(shù)據(jù)量縮小。

代碼：

data.query('x>0.1 & x<0.2 & y>0.5 & y<0.6')

選擇x的坐標(biāo)范圍，以及y的坐標(biāo)范圍

2.處理時間

時間給出的是時間戳格式，需要使用pd.to_date_time進行轉(zhuǎn)化

代碼：

time = pd.to_date_time(data['time'], unit='s')

此時得出的時間是類似于這樣：1970-01-01 18:09:40

3.進一步處理時間

將時間提取出來，轉(zhuǎn)換成 ”可以任意提取，年月日時分秒均可“ 的字典格式

代碼：

time_value = pd.DatetimeIndex(time)

4.提取并構(gòu)造時間特征

直接將提取的時間特征，選擇一個特征名，加入原數(shù)據(jù)表中即可，想加幾個加幾個

代碼：

data['day'] = time_value.day

5.刪除無用特征

使用drop方法，方法中，axis=1代表整列。只要認為沒有用的特征，均可刪除

代碼：data = data.drop(['row'], axis=1)

6.簽到數(shù)量少于3次的地點，刪除

首先對數(shù)據(jù)進行分組，要刪除地點，就以地點來分組，并統(tǒng)計其他特征基于地點的數(shù)量

代碼：

place_count = data.groupby('place_id').count()

此處返回的數(shù)據(jù)表，索引就是地點place_id，其他的特征對應(yīng)的列，數(shù)據(jù)都變成了“基于place_id”所進行的數(shù)量統(tǒng)計。

關(guān)于groupby().count()的解釋，以一個簡單的數(shù)據(jù)為例：

python基礎(chǔ)中K近鄰算法是怎樣的

原來的特征有5個，分別為：year, team, rank, points, goals，現(xiàn)在按照year來分組并統(tǒng)計數(shù)量，那么第一行第一列的數(shù)據(jù)“4”，意思就是：在2014年，有4個team

回到本例，row_id代表的是“登記事件的id”，也就是說每次有人登記入住一個place，那么place_id對應(yīng)的就會有一個row_id數(shù)據(jù)出現(xiàn)。若同一個地方有三個人登記了，那么同一個place_id對應(yīng)的row_id就會有三個。

因此，本例中按照groupby.count()處理之后，place_id和row_id對應(yīng)的關(guān)系就是：在place_id中的a這個地方，row_id對應(yīng)的數(shù)量為3。也就是相當(dāng)于在a地點，有3人登記入住了。

接下來，將入住人數(shù)少于3的place_id刪除：

place_count[place_count.row_id>3] 
# 選擇入住人數(shù)大于三人的數(shù)據(jù)

tf = place_count[place_count.row_id>3].reset_index() #將索引重置，place_id還放回到特征

data = data[data['place_id'].isin (tf.place_id)]
#對data中的數(shù)據(jù)進行篩選

7.提取目標(biāo)值y

提取之后，需將原數(shù)據(jù)表中的目標(biāo)值那一列刪除

y = data['place_id']
x = data.drop(['place_id'], axis=1)

8.數(shù)據(jù)分割

前面需要導(dǎo)入分割方法：from sklearn.model_selection import train_test_split

代碼：

x_train, x_test, y_train,
 y_test = train_test_split(x, y, test_size=0.25)

至此，數(shù)據(jù)處理完畢。數(shù)據(jù)處理過程中，我們需要考慮有哪些數(shù)據(jù)是需要舍棄的，有哪些是需要我們構(gòu)造的，是否需要對特征進行篩選，條件如何設(shè)置等。最終，將我們需要的目標(biāo)值提取出來，剩余的作為訓(xùn)練集。并調(diào)用分割方法，按一定的比例進行數(shù)據(jù)分割。（此處25%的數(shù)據(jù)作為測試集）

第二部分：特征工程

標(biāo)準(zhǔn)化

先導(dǎo)入標(biāo)準(zhǔn)化類：from sklearn.preprocessing import StandardScaler

訓(xùn)練集和測試集，標(biāo)準(zhǔn)化的時候，所使用的均值與標(biāo)準(zhǔn)差，都是訓(xùn)練集的！因此，對測試集標(biāo)準(zhǔn)化的時候，只調(diào)用transform方法即可。

x_train = std.fit_transform(x_train)

x_test = transform(x_test)

第三部分：進行算法流程

1.算法執(zhí)行

先導(dǎo)入算法：from sklearn.neighbors import KNeighborsClassifier

使用該算法，將訓(xùn)練集數(shù)據(jù)輸入，即可訓(xùn)練完畢，得到一個模型。

代碼：

knn = KNeighborsClassifier(x_train, y_train)

2.預(yù)測結(jié)果

使用predict方法，輸入測試集數(shù)據(jù)即可得出預(yù)測的y

代碼：

y_predict = knn.predict(x_test)

3.檢驗效果

使用score方法，輸入測試集數(shù)據(jù)，以及測試集的目標(biāo)值，即可得出分數(shù)

代碼：

score = knn.score(x_test, y_test)

看完上述內(nèi)容，你們掌握python基礎(chǔ)中K近鄰算法是怎樣的的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細節(jié)

python基礎(chǔ)中K近鄰算法是怎樣的

一、k-近鄰算法原理及API

1.k-近鄰算法原理

2.k-近鄰算法API

3.k-近鄰算法特點

二、k-近鄰算法案例分析案例信息概述

第一部分：處理數(shù)據(jù)

1.數(shù)據(jù)量縮小

2.處理時間

3.進一步處理時間

4.提取并構(gòu)造時間特征

5.刪除無用特征

6.簽到數(shù)量少于3次的地點，刪除

7.提取目標(biāo)值y

8.數(shù)據(jù)分割

第二部分：特征工程

標(biāo)準(zhǔn)化

第三部分：進行算法流程

1.算法執(zhí)行

2.預(yù)測結(jié)果

3.檢驗效果

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽

一、k-近鄰算法原理及API

二、k-近鄰算法案例分析案例信息概述

6.簽到數(shù)量少于3次的地點，刪除