您好,登錄后才能下訂單哦!
這篇文章將為大家詳細(xì)講解有關(guān)Python中進(jìn)行統(tǒng)計(jì)建模的方法是什么,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
前言
大家好,在之前的文章中我們已經(jīng)講解了很多Python數(shù)據(jù)處理的方法比如讀取數(shù)據(jù)、缺失值處理、數(shù)據(jù)降維等,也介紹了一些數(shù)據(jù)可視化的方法如Matplotlib、pyecharts等,那么在掌握了這些基礎(chǔ)技能之后,要進(jìn)行更深入的分析就需要掌握一些常用的建模方法,本文將講解如何利用Python進(jìn)行統(tǒng)計(jì)分析。和之前的文章類似,本文只講如何用代碼實(shí)現(xiàn),不做理論推導(dǎo)與過(guò)多的結(jié)果解釋(事實(shí)上常用的模型可以很輕松的查到完美的推導(dǎo)與解析)。因此讀者需要掌握一些基本的統(tǒng)計(jì)模型比如回歸模型、時(shí)間序列等。
Statsmodels簡(jiǎn)介
在Python 中統(tǒng)計(jì)建模分析最常用的就是Statsmodels模塊。Statsmodels是一個(gè)主要用來(lái)進(jìn)行統(tǒng)計(jì)計(jì)算與統(tǒng)計(jì)建模的Python庫(kù)。主要有以下功能:
安裝 brew install Statsmodels
文檔 github.com/statsmodels/statsmodels
線性回歸模型:普通最小二乘估計(jì)
線性模型有普通最小二乘(OLS)廣義最小二乘(GLS)、加權(quán)最小二乘(WLS)等,Statsmodels對(duì)線性模型有較好的支持,來(lái)看個(gè)最簡(jiǎn)單的例子:普通最小二乘(OLS)
首先導(dǎo)入相關(guān)包
%matplotlib inline import numpy as np import statsmodels.api as sm import matplotlib.pyplot as plt from statsmodels.sandbox.regression.predstd import wls_prediction_std np.random.seed(9876789)
然后創(chuàng)建數(shù)據(jù),先設(shè)置樣本量為100
nsample = 100 #樣本數(shù)量
然后設(shè)置x1和x2,x1是0到10等差排列,x2是x1的平方
x = np.linspace(0, 10, 100) X = np.column_stack((x, x**2))
再設(shè)置beta、誤差項(xiàng)與響應(yīng)變量y
beta = np.array([1, 0.1, 10]) e = np.random.normal(size=nsample) X = sm.add_constant(X) y = np.dot(X, beta) + e
接著建立回歸模型
model = sm.OLS(y, X) results = model.fit() print(results.summary())
查看模型結(jié)果
是不是和R語(yǔ)言輸出的結(jié)果形式很接近?回歸系數(shù)值、P-value、R-squared等評(píng)估回歸模型的參數(shù)值全部都有,還可以使用dir(results)獲得全部變量的值并調(diào)取出來(lái)
print('Parameters: ', results.params) print('R2: ', results.rsquared)
那么回歸模型的就是y=1.3423-0.0402x1+10.0103x2,當(dāng)然這個(gè)模型可以繼續(xù)優(yōu)化那么就交給讀者完成。接下來(lái)我們來(lái)繪制一下樣本點(diǎn)與回歸曲線
y_fitted = results.fittedvalues fig, ax = plt.subplots(figsize=(8,6)) ax.plot(x, y, 'o', label='data') ax.plot(x, y_fitted, 'r--.',label='OLS') ax.legend(loc='best')
時(shí)間序列:ARMA
關(guān)于時(shí)間序列的模型有很多,我們選擇ARMA模型示例,首先導(dǎo)入相關(guān)包并生成數(shù)據(jù)
%matplotlib inline import numpy as np import statsmodels.api as sm import pandas as pd from statsmodels.tsa.arima_process import arma_generate_sample np.random.seed(12345) arparams = np.array([.75, -.25]) maparams = np.array([.65, .35]) arparams = np.r_[1, -arparams] maparams = np.r_[1, maparams] nobs = 250 y = arma_generate_sample(arparams, maparams, nobs)
接著,我們可以添加一些日期信息。對(duì)于本例,我們將使用pandas時(shí)間序列并建立模型
dates = sm.tsa.datetools.dates_from_range('1980m1', length=nobs) y = pd.Series(y, index=dates) arma_mod = sm.tsa.ARMA(y, order=(2,2)) arma_res = arma_mod.fit(trend='nc', disp=-1)
最后再做一下預(yù)測(cè)
import matplotlib.pyplot as plt fig, ax = plt.subplots(figsize=(10,8)) fig = arma_res.plot_predict(start='1999-06-30', end='2001-05-31', ax=ax) legend = ax.legend(loc='upper left')
回歸診斷:估計(jì)回歸模型
首先導(dǎo)入相關(guān)包
%matplotlib inline from statsmodels.compat import lzip import numpy as np import pandas as pd import statsmodels.formula.api as smf import statsmodels.stats.api as sms import matplotlib.pyplot as plt
然后加載數(shù)據(jù)
url = 'https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/HistData/Guerry.csv' dat = pd.read_csv(url)
擬合模型
results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()
查看結(jié)果
print(results.summary())
回歸診斷:殘差的正態(tài)性
Jarque-Bera test:
name = ['Jarque-Bera', 'Chi^2 two-tail prob.', 'Skew', 'Kurtosis'] test = sms.jarque_bera(results.resid) lzip(name, test) ####結(jié)果 [('Jarque-Bera', 3.3936080248431666), ('Chi^2 two-tail prob.', 0.1832683123166337), ('Skew', -0.48658034311223375), ('Kurtosis', 3.003417757881633)]
Omni test:
name = ['Chi^2', 'Two-tail probability'] test = sms.omni_normtest(results.resid) lzip(name, test) ####結(jié)果 [('Chi^2', 3.713437811597181), ('Two-tail probability', 0.15618424580304824)]
回歸診斷:異方差
Breush-Pagan test:
name = ['Lagrange multiplier statistic', 'p-value', 'f-value', 'f p-value'] test = sms.het_breuschpagan(results.resid, results.model.exog) lzip(name, test) ###結(jié)果 [('Lagrange multiplier statistic', 4.893213374093957), ('p-value', 0.08658690502352209), ('f-value', 2.503715946256434), ('f p-value', 0.08794028782673029)] Goldfeld-Quandt test
name = ['F statistic', 'p-value']
test = sms.het_goldfeldquandt(results.resid, results.model.exog)
lzip(name, test)
####結(jié)果
[('F statistic', 1.1002422436378152), ('p-value', 0.3820295068692507)]
回歸診斷:多重共線性
檢查多重共線性可以使用
np.linalg.cond(results.model.exog)
結(jié)果是702.1792145490062,說(shuō)明存在較強(qiáng)多重共線性。
關(guān)于Python中進(jìn)行統(tǒng)計(jì)建模的方法是什么就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。