<pre id="cqctj"><label id="cqctj"></label></pre>

<ruby id="cqctj"></ruby>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python中Pandas庫有什么用

發(fā)布時間：2021-11-30 14:51:12 來源：億速云閱讀：3537 作者：小新欄目：大數(shù)據(jù)

這篇文章主要介紹了Python中Pandas庫有什么用，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

Pandas庫是Python中最流行的數(shù)據(jù)操作庫。受到R語言的frames啟發(fā)，它提供了一種通過其data-frame API操作數(shù)據(jù)的簡單方法。

0 1

了解Pandas

要很好地理解pandas，關(guān)鍵之一是要理解pandas是一系列其他python庫的包裝器。主要的有Numpy、SQL alchemy、Matplot lib和openpyxl。

data frame的核心內(nèi)部模型是一系列NumPy數(shù)組和pandas函數(shù)。

pandas利用其他庫來從data frame中獲取數(shù)據(jù)。例如，SQL alchemy通過read_sql和to_sql函數(shù)使用;openpyxl和xlsx writer用于read_excel和to_excel函數(shù)。而Matplotlib和Seaborn則用于提供一個簡單的接口，使用諸如df.plot()這樣的命令來繪制data frame中可用的信息。

0 2

Numpy的Pandas-高效的Pandas

您經(jīng)常聽到的抱怨之一是Python很慢，或者難以處理大量數(shù)據(jù)。通常情況下，這是由于編寫的代碼的效率很低造成的。原生Python代碼確實比編譯后的代碼要慢。不過，像Pandas這樣的庫提供了一個用于編譯代碼的python接口，并且知道如何正確使用這個接口。

向量化操作

與底層庫Numpy一樣，pandas執(zhí)行向量化操作的效率比執(zhí)行循環(huán)更高。這些效率是由于向量化操作是通過C編譯代碼執(zhí)行的，而不是通過本機python代碼執(zhí)行的。另一個因素是向量化操作的能力，它可以對整個數(shù)據(jù)集進(jìn)行操作，而不只是對一個子數(shù)據(jù)集進(jìn)行操作。

應(yīng)用接口允許通過使用CPython接口進(jìn)行循環(huán)來獲得一些效率:

df.apply(lambda x: x['col_a'] * x['col_b'], axis=1)

但是，大部分性能收益可以通過使用向量化操作本身獲得，可以直接在pandas中使用，也可以直接調(diào)用它的內(nèi)部Numpy數(shù)組。

03

通過DTYPES高效地存儲數(shù)據(jù)

當(dāng)通過read_csv、read_excel或其他數(shù)據(jù)幀讀取函數(shù)將數(shù)據(jù)幀加載到內(nèi)存中時，pandas會進(jìn)行類型推斷，這可能是低效的。這些api允許您明確地利用dtypes指定每個列的類型。指定dtypes允許在內(nèi)存中更有效地存儲數(shù)據(jù)。

df.astype({'testColumn': str, 'testCountCol': float})

Dtypes是來自Numpy的本機對象，它允許您定義用于存儲特定信息的確切類型和位數(shù)。

例如，Numpy的類型np.dtype(' int32 ')表示一個32位長的整數(shù)。pandas默認(rèn)為64位整數(shù)，我們可以節(jié)省一半的空間使用32位:

Python中Pandas庫有什么用

04

處理帶有塊的大型數(shù)據(jù)集

pandas允許按塊(chunk)加載數(shù)據(jù)幀中的數(shù)據(jù)。因此，可以將數(shù)據(jù)幀作為迭代器處理，并且能夠處理大于可用內(nèi)存的數(shù)據(jù)幀。

Python中Pandas庫有什么用

在讀取數(shù)據(jù)源時定義塊大小和get_chunk方法的組合允許panda以迭代器的方式處理數(shù)據(jù)，如上面的示例所示，其中數(shù)據(jù)幀一次讀取兩行。然后我們可以遍歷這些塊:

i = 0for a in df_iter:  # do some processing  chunk = df_iter.get_chunk()  i += 1  new_chunk = chunk.apply(lambda x: do_something(x), axis=1)  new_chunk.to_csv("chunk_output_%i.csv" % i )

它的輸出可以被提供到一個CSV文件，pickle，導(dǎo)出到數(shù)據(jù)庫，等等…

感謝你能夠認(rèn)真閱讀完這篇文章，希望小編分享的“Python中Pandas庫有什么用”這篇文章對大家有幫助，同時也希望大家多多支持億速云，關(guān)注億速云行業(yè)資訊頻道，更多相關(guān)知識等著你來學(xué)習(xí)!

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
Java常見基礎(chǔ)面試題答案有哪些
下一篇新聞：
C/C++?Qt?TreeWidget單層樹形組件怎么應(yīng)用

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼