溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

一行Python命令搞定前期數(shù)據(jù)探索性的方法是什么

發(fā)布時(shí)間：2021-10-28 18:04:54 來(lái)源：億速云閱讀：131 作者：iii 欄目：編程語(yǔ)言

這篇文章主要講解了“一行Python命令搞定前期數(shù)據(jù)探索性的方法是什么”，文中的講解內(nèi)容簡(jiǎn)單清晰，易于學(xué)習(xí)與理解，下面請(qǐng)大家跟著小編的思路慢慢深入，一起來(lái)研究和學(xué)習(xí)“一行Python命令搞定前期數(shù)據(jù)探索性的方法是什么”吧！

對(duì)于每個(gè)從事和數(shù)據(jù)科學(xué)有關(guān)的人來(lái)說(shuō)，前期的數(shù)據(jù)清洗和探索一定是個(gè)花費(fèi)時(shí)間的工作。毫不夸張的說(shuō)，80%的時(shí)間我們都花在了前期的數(shù)據(jù)工作中，包括清洗、處理、EDA（Exploratory Data Analysis，探索性數(shù)據(jù)分析）等。前期的工作不僅關(guān)乎數(shù)據(jù)的質(zhì)量，也關(guān)乎最終模型預(yù)測(cè)效果的好壞。

每當(dāng)我們手上出現(xiàn)一份新的數(shù)據(jù)時(shí)，我們都需要事先通過(guò)人為地觀察、字段釋義等方式預(yù)先對(duì)數(shù)據(jù)進(jìn)行熟悉與理解。在清洗、處理完數(shù)據(jù)之后才會(huì)開始真正的 EDA 過(guò)程。

這個(gè)過(guò)程最通用的操作無(wú)非就是對(duì)現(xiàn)有的數(shù)據(jù)做基本性的統(tǒng)計(jì)、描述，包括平均值、方差、最大值與最小值、頻數(shù)、分位數(shù)、分布等。實(shí)際上往往都是比較固定且機(jī)械的。

在 R 語(yǔ)言中 skimr 包提供了豐富的數(shù)據(jù)探索性統(tǒng)計(jì)信息，比 Pandas 中的 describe() 基本統(tǒng)計(jì)信息更為豐富一些。

一行Python命令搞定前期數(shù)據(jù)探索性的方法是什么

01-skmir

但在 Python 社區(qū)中，我們同樣也可以實(shí)現(xiàn) skmir 的功能，甚至比 skmir 有過(guò)之而無(wú)不及。那就是使用 pandas-profiling 庫(kù)來(lái)幫助我們搞定前期的數(shù)據(jù)探索工作。

快速使用

通過(guò) pip install pandas-profiling 之后我們就可以直接導(dǎo)入并使用了。我們只需要通過(guò)其一行核心代碼 ProfileReport(df, **kwargs) 即可實(shí)現(xiàn)：

import pandas as pd  import seaborn as sns  from pandas_profiling import ProfileReport  titanic = sns.load_dataset("Titanic")  ProfileReport(titanic, title = "The EDA of Titanic Dataset")

如果我們是在 Jupyter Notebook 中使用，則會(huì)在 Jupyter Notebook 中渲染最后直接輸出到單元格中。

一行Python命令搞定前期數(shù)據(jù)探索性的方法是什么

02-profile

pandas-profiling 庫(kù)也擴(kuò)展了 DataFrame 對(duì)象方法，這意味著我們也可以通過(guò)像調(diào)用方法一樣使用 DataFrame.profile_report() 來(lái)實(shí)現(xiàn)和上述一樣的效果。

無(wú)論使用哪種方式，最后都是生成一個(gè) ProfileReport 對(duì)象；如果要進(jìn)一步貼合 Jupyter Notebook，可以直接調(diào)用 to_widgets() 和 to_notebook_iframe() 來(lái)分別生成掛架或?qū)?yīng)的組件，在展示效果上會(huì)更加美觀，而不是在輸出欄進(jìn)行展示。

一行Python命令搞定前期數(shù)據(jù)探索性的方法是什么

03-widgets

如果不在 Jupyter Notebook 中直接使用，而是使用其他 IDE，那么我們可以通過(guò) to_file() 方法來(lái)直接將報(bào)告輸出，需要注意的是最后保存的文件名需要加上擴(kuò)展名 .html。

另外，Pandas-profiling 還和多個(gè)框架、云上平臺(tái)等進(jìn)行了集成，能夠讓我們方便的進(jìn)行調(diào)用，詳情見官網(wǎng)（https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/integrations.html）。

進(jìn)一步定制報(bào)告信息

雖然生成的探索性報(bào)告基本上已經(jīng)能滿足我們了解數(shù)據(jù)的簡(jiǎn)單需求，但是當(dāng)中輸出的信息也有些不足或是冗余。好在 pandas-profiling 也給我們提供了自己定制的可能。這些定制的配置最終會(huì)寫入到 yaml 文件中。

在官方文檔中列出了幾個(gè)我們能夠進(jìn)一步調(diào)整的部分，分別對(duì)應(yīng)了報(bào)告 Tab 欄的各部分標(biāo)簽：

vars：主要用于調(diào)整數(shù)據(jù)中字段或變量在報(bào)告中的呈現(xiàn)的統(tǒng)計(jì)指標(biāo)
missing_diagrams：主要涉及到關(guān)于缺失值字段的可視化展示
correlations：顧名思義即調(diào)整有關(guān)各字段或變量之間相關(guān)關(guān)系的部分，包括是否計(jì)算相關(guān)系數(shù)、以及相關(guān)的閾值等
interactions：主要涉及兩兩字段或變量之前的相關(guān)關(guān)系圖呈現(xiàn)
samples：分別對(duì)應(yīng)了 Pandas 中 head() 和 tail() 方法，即預(yù)覽前后多少條數(shù)據(jù)

這些部分還有許多可以指定的參數(shù)，感興趣的朋友可以直接參考官方文檔（https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/pages/advanced_usage.html），本文就不多加贅述了。

于是我們可以直接在代碼中手動(dòng)寫入并進(jìn)行調(diào)整，就像這樣：

profile_config = {      "progress_bar": False,       "sort": "ascending",      "vars": {          "num": {"chi_squared_threshold": 0.95},          "cat": {"n_obs": 10}      },       "missing_diagrams": {          'heatmap': False,          'dendrogram': False,      }  }  profile = titanic.profile_report(**profile_config)  profile.to_file("titanic-EDA-report.html")

將所有配置的信息寫在一個(gè)字典變量中，再通過(guò) **variable 的形式將鍵值對(duì)進(jìn)行解包使其能夠根據(jù)鍵來(lái)對(duì)應(yīng)到相應(yīng)的參數(shù)中。

除了代碼中的配置寫法外，如果你稍微了解一點(diǎn) yaml 配置文件的寫法，那么我們也無(wú)需在代碼中逐個(gè)寫入，而是可以通過(guò)在 yaml 文件中修改。修改的不僅官方文檔中所列出的配置選項(xiàng)，還能修改未列出的參數(shù)。由于配置文件過(guò)長(zhǎng)，這里我只放出基于官方默認(rèn)配置文件 config_default.yaml 自己做出修改的部分：

# profile_config.yml  vars:      num:          quantiles:                - 0.25                - 0.5                - 0.75          skewness_threshold: 10          low_categorical_threshold: 5          chi_squared_threshold: 0.95      cat:          length: True          unicode: True          cardinality_threshold: 50          n_obs: 5          chi_squared_threshold: 0.95          coerce_str_to_date: False      bool:          n_obs: 3      file:          active: False      image:          active: False          exif: True          hash: True  sort: "desceding"

修改完 yaml 文件之后，我們只需在生成報(bào)告時(shí)通過(guò) config_file 參數(shù)指定配置文件所在的路徑即可，就像這樣：

df.profile_report(config_file = "你的文件路徑.yml")

通過(guò)將配置文件與核心代碼相分離，以提高我們代碼的簡(jiǎn)潔性與可讀性。

感謝各位的閱讀，以上就是“一行Python命令搞定前期數(shù)據(jù)探索性的方法是什么”的內(nèi)容了，經(jīng)過(guò)本文的學(xué)習(xí)后，相信大家對(duì)一行Python命令搞定前期數(shù)據(jù)探索性的方法是什么這一問(wèn)題有了更深刻的體會(huì)，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云，小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章，歡迎關(guān)注！

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Java開發(fā)中進(jìn)程和線程有哪些區(qū)別
下一篇新聞：
Mysql數(shù)據(jù)分組排名實(shí)現(xiàn)的示例分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<source id="rorjr"><th id="rorjr"></th></source>

<table id="rorjr"><strike id="rorjr"><legend id="rorjr"></legend></strike></table>