python模擬樸素貝葉斯程序舉例分析

發(fā)布時間：2021-11-25 09:14:40 來源：億速云閱讀：156 作者：iii 欄目：大數(shù)據(jù)

這篇文章主要介紹“python模擬樸素貝葉斯程序舉例分析”，在日常操作中，相信很多人在python模擬樸素貝葉斯程序舉例分析問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”python模擬樸素貝葉斯程序舉例分析”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

樸素貝葉斯思想：運用了條件概率公式P(Y,X) = P(Y)P(X|Y)。由樣本分別求得P(Y)和P(X|Y)，進而估計出在X條件下Y的概率。不同Y對應的概率的最大值就是我們想要的X的分類。換句話說，我們想要知道X的分類，那么通過樣本求出不同類別（即不同Y）時的P(Y)和P(X|Y)，然后計算X發(fā)生條件下，可能類別Y的概率，最大的概率就是我們預測的概率。
注意，通常X對應很多分量，X=(X1,X2,······)。這時候貝葉斯估計假設(shè)：用于分類的特征在類確定的條件下是條件獨立的。所以上面的P(X|Y)計算公式為：

python模擬樸素貝葉斯程序舉例分析

樸素貝葉斯代碼的實現(xiàn)

import numpy as np
import pandas as pd
import math
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


class NaiveBayes:
    def __init__(self):
        self.model = None

    # 數(shù)學期望
    @staticmethod
    def mean(X):
        return sum(X) / float(len(X))

    # 標準差
    def stdev(self, X):
        avg = self.mean(X)
        return math.sqrt(sum([pow(x - avg, 2) for x in X]) / float(len(X)))

    # 概率密度函數(shù)
    def gaussian_probability(self, x, mean, stdev):
        exponent = math.exp(-(math.pow(x - mean, 2) /
                              (2 * math.pow(stdev, 2))))
        return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent

    # 分類別求出數(shù)學期望和標準差
    def summarize(self, train_data):
        a = list(zip(*train_data))
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train_data)]
        # *train_data將train_data拆分成n個一維數(shù)組
        # 再將這個一維數(shù)組壓縮在一起。
        # 注意：這里壓縮的時候，一共壓縮成了四個一維數(shù)組，
        # 即每個原數(shù)組的第一維進行壓縮，每個原數(shù)組的第二維進行壓縮······
        # 然后分別對四個一維數(shù)組進行求均值和標準差，即對四個特征求響應的數(shù)字特征
        return summaries

    # 處理X_train,y_train
    def fit(self, X, y):
        labels = list(set(y))  # set將y刪除掉重復的，list將set結(jié)果轉(zhuǎn)成列表。這里labels=[0.0, 1.0]
        data = {label: [] for label in labels}  # 轉(zhuǎn)成字典。輸出{0.0: [], 1.0: []}
        for f, label in zip(X, y):
            data[label].append(f)  # 將上面的字典添加屬于這個類的值。即類型是label的f
        self.model = {
            label: self.summarize(value) for label, value in data.items()
            # 從上述字典中，一個label及其對應的屬于這個label的數(shù)據(jù)，進行數(shù)字特征的計算
            # 結(jié)果格式：  {0：[(均值， 標準差), (均值， 標準差), (均值， 標準差), (均值， 標準差)],
            #             1: [(均值， 標準差), (均值， 標準差), (均值， 標準差), (均值， 標準差)]}
            # 0后邊的四項分別對應：label是0的樣品的四個特征的均值和標準差
        }
        return 'gaussianNB train done!'

    # 計算概率
    def calculate_probabilities(self, input_data):
        probabilities = {}
        for label, value in self.model.items():
            probabilities[label] = 1
            for i in range(len(value)):
                mean, stdev = value[i]
                probabilities[label] *= self.gaussian_probability(
                    input_data[i], mean, stdev)
        return probabilities

    # 類別
    def predict(self, X_test):
        label = sorted(
            self.calculate_probabilities(X_test).items(),
            key=lambda x: x[-1])[-1][0]
        return label

    def score(self, X_test, y_test):
        right = 0
        for X, y in zip(X_test, y_test):
            label = self.predict(X)
            if label == y:
                right += 1
        if right / float(len(X_test))==1.0:
            return "perfect!"
        else:
            return right / float(len(X_test))


def create_data():
    iris = load_iris()
    df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    data = np.array(df.iloc[:100, :])
    return data[:, :-1], data[:, -1], df


X, y, DF = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
model = NaiveBayes()
model.fit(X_train, y_train)
print(model.score(X_test, y_test))

結(jié)果比較理想

直接運用sklearn中現(xiàn)有的包進行模擬

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import BernoulliNB, MultinomialNB # 伯努利模型和多項式模型


# data
def create_data():
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = [
        'sepal length', 'sepal width', 'petal length', 'petal width', 'label'
    ]
    data = np.array(df.iloc[:100, :])
    return data[:, :-1], data[:, -1]


X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

clf = GaussianNB()
clf.fit(X_train, y_train)
print("GaussianNB:")
print(clf.score(X_test, y_test))
print(clf.predict([[4.4,  3.2,  1.3,  0.2]]))

clf2 = BernoulliNB()
clf2.fit(X_train, y_train)
print("\nBernoulliNB:")
print(clf2.score(X_test, y_test))
print(clf2.predict([[4.4,  3.2,  1.3,  0.2]]))

clf3 = MultinomialNB()
clf3.fit(X_train, y_train)
print("\nMultinomialNB:")
print(clf3.score(X_test, y_test))
print(clf3.predict([[4.4,  3.2,  1.3,  0.2]]))

輸出結(jié)果

GaussianNB:
1.0
[0.]

BernoulliNB:
0.4666666666666667
[1.]

MultinomialNB:
1.0
[0.]

可以看到，高斯模型和多項式模型較好的進行了預測，但是伯努利模型預測結(jié)果較差。

原因：數(shù)據(jù)不符合伯努利分布。

到此，關(guān)于“python模擬樸素貝葉斯程序舉例分析”的學習就結(jié)束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續(xù)學習更多相關(guān)知識，請繼續(xù)關(guān)注億速云網(wǎng)站，小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

向AI問一下細節(jié)

python模擬樸素貝葉斯程序舉例分析

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標簽