溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

怎么使用Python庫

發(fā)布時間:2021-11-20 11:06:31 來源:億速云 閱讀:212 作者:iii 欄目:編程語言

本篇內(nèi)容介紹了“怎么使用Python庫”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

數(shù)據(jù)科學(xué)的五個重要步驟包括:

  • 獲取數(shù)據(jù)

  • 清理數(shù)據(jù)

  • 探索數(shù)據(jù)

  • 構(gòu)建數(shù)據(jù)

  • 呈現(xiàn)數(shù)據(jù)

這五個步驟只是經(jīng)驗之談,并不是什么標(biāo)準(zhǔn)答案。但是如果仔細(xì)思考,就會發(fā)現(xiàn)這五個步驟是非常合理的。

怎么使用Python庫

1. 獲取數(shù)據(jù)

獲取數(shù)據(jù)是解決數(shù)據(jù)科學(xué)問題的關(guān)鍵一步。你需要提出一個問題并最終解決它。這取決于你是如何以及從何處獲取數(shù)據(jù)的。獲取數(shù)據(jù)最好的方法就是從Kaggle上下載或從網(wǎng)絡(luò)上抓取。

當(dāng)然,你也可以采用適當(dāng)?shù)姆椒ê凸ぞ邚木W(wǎng)絡(luò)上抓取數(shù)據(jù)。

網(wǎng)絡(luò)數(shù)據(jù)抓取最重要、最常用的庫包括:

  • Beautiful Soup

  • Requests

  • Pandas

Beautiful Soup是一個可從HTML和XML文件中提取數(shù)據(jù)的Python庫。推薦讀者閱讀Beautiful Soup庫官方文檔。

如果已經(jīng)安裝Python,只需輸入以下命令,即可安裝Beautiful Soup。文中所涉及的庫全部給出了安裝方法。但是我更推薦讀者使用Google  Colab,便于練習(xí)代碼。在Google Colab中,無需手動安裝,只需要輸入“importlibrary_name”,Colab就會自動安裝。

pip install beautifulsoup4

導(dǎo)入Beautiful Soup庫:

from bs4 import BeautifulSoupBeautifulSoupSoup = BeautifulSoup(page_name.text, ‘html.parser’)

Python的Requests庫采用更加簡單易用的方式發(fā)送HTTP請求。Requests庫中有很多種方法,其中最常用的是request.get()。在URL轉(zhuǎn)發(fā)成功或失敗的情況下,request.get()都能夠返回URL轉(zhuǎn)發(fā)狀態(tài)。

安裝Requets:

pip install requests

導(dǎo)入Requests庫:

import requestsrequestspaga_name = requests.get('url_name')

Pandas是一種方便易用的高性能數(shù)據(jù)結(jié)構(gòu),同時也是Python編程語言分析工具。Pandas提供了一種能夠清晰、簡潔地存儲數(shù)據(jù)的數(shù)據(jù)框架。

安裝Pandas:

pip install pandas

導(dǎo)入Pandas庫:

import pandas as pd

2. 清理數(shù)據(jù)

清理數(shù)據(jù)有許多重要的步驟,往往包括清除重復(fù)行、清除異常值、查找缺失值和空值,以及將對象值轉(zhuǎn)換成空值并繪制成圖表等。

數(shù)據(jù)清理常用的庫包括:

  • Pandas

  • NumPy

Pandas可以說是數(shù)據(jù)科學(xué)中的“萬金油”;到處都可用。

NumPy即Numeric  Python,是一個支持科學(xué)計算的Python庫。眾所周知,Python本身并不支持矩陣數(shù)據(jù)結(jié)構(gòu),而Python中的NumPy庫則支持創(chuàng)建和運行矩陣計算。

運行以下命令下載NumPy(確保已經(jīng)安裝了Python):

python -m pip install --user numpy scipy matplotlib ipython jupyter pandas sympy nose

導(dǎo)入NumPy庫:

import numpy as np

3. 探索數(shù)據(jù)

探索性數(shù)據(jù)分析(Exploratory Data Analysis,  EDA)是用于增強信息索引理解的工具,通過有規(guī)律地刪減和用圖表繪制索引基本特征實現(xiàn)。使用EDA能夠幫助用戶更加深入、清晰地探索數(shù)據(jù),展現(xiàn)重要信息采集的發(fā)布或情況。

運行EDA常用的庫包括:

  • Pandas

  • Seaborn

  • Matplotlib.pyplot

Seaborn是一個Python數(shù)據(jù)可視化庫,為繪制數(shù)據(jù)圖表提供了一個高級接口。安裝最新版本的Seaborn:

pip install seaborn

使用Seaborn,可以輕松繪制條形圖、散點圖、熱力圖等圖表。導(dǎo)入Seaborn:

import seaborn as sns

Matplotlib是一個Python  2D圖形繪圖庫,能夠在多種環(huán)境中繪制圖表,可替代Seaborn。事實上,Seaborn是基于Matplotlib開發(fā)的。

安裝Matplotlib:

python -m pip install -U matplotlib

導(dǎo)入Matplotlib.pyplot庫:

import matplotlib.pyplot as plt

4. 構(gòu)建模型

構(gòu)建模型是數(shù)據(jù)科學(xué)中的關(guān)鍵一步。由于這一步要求根據(jù)要解決的問題和所獲取的數(shù)據(jù)來構(gòu)建機(jī)器學(xué)習(xí)模型,所以和其他步驟相比難度更大。在這一步中,問題陳述是至關(guān)重要的一點,因為它會影響對問題的定義和提出的解決方法。網(wǎng)絡(luò)上大部分公開的數(shù)據(jù)集都是基于某一個問題收集的,因此解決問題的能力就尤為重要。而且,由于沒有某個特定的算法最適合自己,你需要在多種算法中進(jìn)行選擇,考慮數(shù)據(jù)適合用回歸、分類、聚類還是降維算法。

選擇算法經(jīng)常是一件讓人頭疼的事。讀者可以使用SciKit learn算法選擇路徑圖來記錄追蹤哪個算法的性能最優(yōu)。下圖展示了一張SciKit  learn的路徑圖:

怎么使用Python庫

不難猜出,建模時最常用的庫是:

(1) SciKit learn

SciKit learn是Python中一個便于使用的構(gòu)建機(jī)器學(xué)習(xí)模型的庫。它是基于NumPy、SciPy和Matplotlib開發(fā)的。

導(dǎo)入scikit learn:

import sklearn

安裝scikit learn:

pip install -U scikit-learn

5. 呈現(xiàn)數(shù)據(jù)

這是數(shù)據(jù)科學(xué)的最后一步,也是很多人不想做的一步——畢竟沒有人想要公開發(fā)表他們的數(shù)據(jù)發(fā)現(xiàn)。呈現(xiàn)數(shù)據(jù)也是有法可循的,并且這個方法極為重要,因為無論如何,成果最終還是要向人們展示的。而且由于人們并不關(guān)心所使用的的算法,他們只關(guān)心結(jié)果,所以展示還要做到簡潔明了。

同時,安裝如下指令給notebook配備展示選項:

pip install RISE

“怎么使用Python庫”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI