pandas實(shí)現(xiàn)to_sql將DataFrame保存到數(shù)據(jù)庫(kù)中

發(fā)布時(shí)間：2020-10-04 04:20:53 來(lái)源：腳本之家閱讀：425 作者：ledao 欄目：開(kāi)發(fā)技術(shù)

目的

在數(shù)據(jù)分析時(shí)，我們有中間結(jié)果，或者最終的結(jié)果，需要保存到數(shù)據(jù)庫(kù)中；或者我們有一個(gè)中間的結(jié)果，如果放到數(shù)據(jù)庫(kù)中通過(guò)sql操作會(huì)更加的直觀，處理后再將結(jié)果讀取到DataFrame中。這兩個(gè)場(chǎng)景，就需要用到DataFrame的to_sql操作。

具體的操作

連接數(shù)據(jù)庫(kù)代碼

import pandas as pd
from sqlalchemy import create_engine
# default
engine = create_engine('mysql+pymysql://ledao:ledao123@localhost/pandas_learn')
original_data = pd.read_sql_table('cellfee', engine)
original_data

結(jié)果如下所示。

pandas實(shí)現(xiàn)to_sql將DataFrame保存到數(shù)據(jù)庫(kù)中

對(duì)數(shù)據(jù)進(jìn)行匯總，每個(gè)小區(qū)的電費(fèi)進(jìn)行求和放到Series中，然后將所有小區(qū)的總電費(fèi)放到DataFrame中，最后將DataFrame保存到數(shù)據(jù)庫(kù)中，代碼如下所示。

all_cells = []
for k, v in original_data.groupby(by=['cityid', 'cellid']):
onecell = pd.Series(data=[k[0], k[1], v['fee'].sum()], index=['cityid', 'cellid', 'fee_sum'])
all_cells.append(onecell)
all_cells = pd.DataFrame(all_cells)
all_cells.to_sql(name='cells_fee', con=engine, chunksize=1000, if_exists='replace', index=None)

對(duì)于DataFrame的to_sql函數(shù)，需要注意的參數(shù)在代碼中已經(jīng)寫(xiě)出來(lái)，其中比較重要的是chunksize、if_exists和index。
chunksize可以設(shè)置一次入庫(kù)的大??；if_exists設(shè)置如果數(shù)據(jù)庫(kù)中存在同名表怎么辦，‘replace'表示將表原來(lái)數(shù)據(jù)刪除放入當(dāng)前數(shù)據(jù)；‘a(chǎn)ppend'表示追加；‘fail'則表示將拋出異常，結(jié)束操作，默認(rèn)是‘fail'；index=接受boolean值，表示是否將DataFrame的index也作為表的列存儲(chǔ)。

最終存表的結(jié)果如下圖所示。

pandas實(shí)現(xiàn)to_sql將DataFrame保存到數(shù)據(jù)庫(kù)中

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持億速云。

向AI問(wèn)一下細(xì)節(jié)

pandas實(shí)現(xiàn)to_sql將DataFrame保存到數(shù)據(jù)庫(kù)中

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽