溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python模擬樸素貝葉斯程序舉例分析

發(fā)布時間:2021-11-25 09:14:40 來源:億速云 閱讀:156 作者:iii 欄目:大數(shù)據(jù)

這篇文章主要介紹“python模擬樸素貝葉斯程序舉例分析”,在日常操作中,相信很多人在python模擬樸素貝葉斯程序舉例分析問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”python模擬樸素貝葉斯程序舉例分析”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

  • 樸素貝葉斯思想:運用了條件概率公式P(Y,X) = P(Y)P(X|Y)。由樣本分別求得P(Y)和P(X|Y),進而估計出在X條件下Y的概率。不同Y對應的概率的最大值就是我們想要的X的分類。換句話說,我們想要知道X的分類,那么通過樣本求出不同類別(即不同Y)時的P(Y)和P(X|Y),然后計算X發(fā)生條件下,可能類別Y的概率,最大的概率就是我們預測的概率。

  • 注意,通常X對應很多分量,X=(X1,X2,······)。這時候貝葉斯估計假設(shè):用于分類的特征在類確定的條件下是條件獨立的。所以上面的P(X|Y)計算公式為:

python模擬樸素貝葉斯程序舉例分析

  1. 樸素貝葉斯代碼的實現(xiàn)

import numpy as np
import pandas as pd
import math
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


class NaiveBayes:
    def __init__(self):
        self.model = None

    # 數(shù)學期望
    @staticmethod
    def mean(X):
        return sum(X) / float(len(X))

    # 標準差
    def stdev(self, X):
        avg = self.mean(X)
        return math.sqrt(sum([pow(x - avg, 2) for x in X]) / float(len(X)))

    # 概率密度函數(shù)
    def gaussian_probability(self, x, mean, stdev):
        exponent = math.exp(-(math.pow(x - mean, 2) /
                              (2 * math.pow(stdev, 2))))
        return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent

    # 分類別求出數(shù)學期望和標準差
    def summarize(self, train_data):
        a = list(zip(*train_data))
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train_data)]
        # *train_data將train_data拆分成n個一維數(shù)組
        # 再將這個一維數(shù)組壓縮在一起。
        # 注意:這里壓縮的時候,一共壓縮成了四個一維數(shù)組,
        # 即每個原數(shù)組的第一維進行壓縮,每個原數(shù)組的第二維進行壓縮······
        # 然后分別對四個一維數(shù)組進行求均值和標準差,即對四個特征求響應的數(shù)字特征
        return summaries

    # 處理X_train,y_train
    def fit(self, X, y):
        labels = list(set(y))  # set將y刪除掉重復的,list將set結(jié)果轉(zhuǎn)成列表。這里labels=[0.0, 1.0]
        data = {label: [] for label in labels}  # 轉(zhuǎn)成字典。輸出{0.0: [], 1.0: []}
        for f, label in zip(X, y):
            data[label].append(f)  # 將上面的字典添加屬于這個類的值。即類型是label的f
        self.model = {
            label: self.summarize(value) for label, value in data.items()
            # 從上述字典中,一個label及其對應的屬于這個label的數(shù)據(jù),進行數(shù)字特征的計算
            # 結(jié)果格式:  {0:[(均值, 標準差), (均值, 標準差), (均值, 標準差), (均值, 標準差)],
            #             1: [(均值, 標準差), (均值, 標準差), (均值, 標準差), (均值, 標準差)]}
            # 0后邊的四項分別對應:label是0的樣品的四個特征的均值和標準差
        }
        return 'gaussianNB train done!'

    # 計算概率
    def calculate_probabilities(self, input_data):
        probabilities = {}
        for label, value in self.model.items():
            probabilities[label] = 1
            for i in range(len(value)):
                mean, stdev = value[i]
                probabilities[label] *= self.gaussian_probability(
                    input_data[i], mean, stdev)
        return probabilities

    # 類別
    def predict(self, X_test):
        label = sorted(
            self.calculate_probabilities(X_test).items(),
            key=lambda x: x[-1])[-1][0]
        return label

    def score(self, X_test, y_test):
        right = 0
        for X, y in zip(X_test, y_test):
            label = self.predict(X)
            if label == y:
                right += 1
        if right / float(len(X_test))==1.0:
            return "perfect!"
        else:
            return right / float(len(X_test))


def create_data():
    iris = load_iris()
    df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    data = np.array(df.iloc[:100, :])
    return data[:, :-1], data[:, -1], df


X, y, DF = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
model = NaiveBayes()
model.fit(X_train, y_train)
print(model.score(X_test, y_test))

結(jié)果比較理想

  1. 直接運用sklearn中現(xiàn)有的包進行模擬

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import BernoulliNB, MultinomialNB # 伯努利模型和多項式模型


# data
def create_data():
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = [
        'sepal length', 'sepal width', 'petal length', 'petal width', 'label'
    ]
    data = np.array(df.iloc[:100, :])
    return data[:, :-1], data[:, -1]


X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

clf = GaussianNB()
clf.fit(X_train, y_train)
print("GaussianNB:")
print(clf.score(X_test, y_test))
print(clf.predict([[4.4,  3.2,  1.3,  0.2]]))

clf2 = BernoulliNB()
clf2.fit(X_train, y_train)
print("\nBernoulliNB:")
print(clf2.score(X_test, y_test))
print(clf2.predict([[4.4,  3.2,  1.3,  0.2]]))

clf3 = MultinomialNB()
clf3.fit(X_train, y_train)
print("\nMultinomialNB:")
print(clf3.score(X_test, y_test))
print(clf3.predict([[4.4,  3.2,  1.3,  0.2]]))

輸出結(jié)果

GaussianNB:
1.0
[0.]

BernoulliNB:
0.4666666666666667
[1.]

MultinomialNB:
1.0
[0.]

可以看到,高斯模型和多項式模型較好的進行了預測,但是伯努利模型預測結(jié)果較差。

原因:數(shù)據(jù)不符合伯努利分布。

到此,關(guān)于“python模擬樸素貝葉斯程序舉例分析”的學習就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續(xù)學習更多相關(guān)知識,請繼續(xù)關(guān)注億速云網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI