您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關(guān)pandas如何提升計算效率的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
Pandas是為一次性處理整個行或列的矢量化操作而設(shè)計的,循環(huán)遍歷每個單元格、行或列并不是它的設(shè)計用途。所以,在使用Pandas時,你應該考慮高度可并行化的矩陣運算。
盡量使用列號或者行號進行矩陣檢索,避免使用for循環(huán)。
1.1使用for循環(huán)
import os import pandas as pd import datetime path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv' def read_csv(target_csv): target = pd.read_csv(path,header=None,sep=',') return target start_time = datetime.datetime.now() a = read_csv(path) for i in range(10000): b = a.iloc[i] end_time = datetime.datetime.now() print(end_time-start_time)
耗時:0:00:02.455211
1.2使用行號檢索
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv' def read_csv(target_csv): target = pd.read_csv(path,header=None,sep=',') return target start_time = datetime.datetime.now() a = read_csv(path) b = a.iloc[10000] end_time = datetime.datetime.now() print(end_time-start_time)
耗時:0:00:00.464756
2.0 如果必須使用for循環(huán)如何提高效率
我們可以做的最簡單但非常有價值的加速是使用Pandas的內(nèi)置 .iterrows() 函數(shù)。
在上一節(jié)中編寫for循環(huán)時,我們使用了 range() 函數(shù)。然而,當我們在Python中對大范圍的值進行循環(huán)時,生成器往往要快得多。
Pandas的 .iterrows() 函數(shù)在內(nèi)部實現(xiàn)了一個生成器函數(shù),該函數(shù)將在每次迭代中生成一行Dataframe。更準確地說,.iterrows() 為DataFrame中的每一行生成(index, Series)的對(元組)。這實際上與在原始Python中使用 enumerate() 之類的東西是一樣的,但運行速度要快得多!
生成器(Generators)
生成器函數(shù)允許你聲明一個行為類似迭代器的函數(shù),也就是說,它可以在for循環(huán)中使用。這大大簡化了代碼,并且比簡單的for循環(huán)更節(jié)省內(nèi)存。
當你想要處理一個龐大的列表時,比如10億個浮點數(shù),問題就出現(xiàn)了。使用for循環(huán),在內(nèi)存中創(chuàng)建了大量的內(nèi)存huge列表,并不是每個人都有無限的RAM來存儲這樣的東西!
生成器將創(chuàng)建元素時,僅在需要時將它們存儲在內(nèi)存中。一次一個。這意味著,如果必須創(chuàng)建10億個浮點數(shù),那么只能一次將它們存儲在內(nèi)存中。Python中的range()函數(shù)使用生成器來構(gòu)建列表。
也就是說,如果你想多次迭代列表并且它足夠小以適應內(nèi)存,那么使用for循環(huán)和range函數(shù)會更好。這是因為每次訪問list值時,生成器和range都會重新生成它們,而range是一個靜態(tài)列表,并且內(nèi)存中已存在整數(shù)以便快速訪問。
2.1使用range
import os import pandas as pd import datetime path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv' def read_csv(target_csv): target = pd.read_csv(path,header=None,sep=',') return target start_time = datetime.datetime.now() a = read_csv(path) for data_row in range(a.shape[0]): b = a.iloc[data_row] end_time = datetime.datetime.now() print(end_time-start_time)
耗時:0:00:07.642816
2.2使用 .iterrows() 代替 range
import os import pandas as pd import datetime path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv' def read_csv(target_csv): target = pd.read_csv(path,header=None,sep=',') return target start_time = datetime.datetime.now() a = read_csv(path) for index,data_row in a.iterrows(): b = data_row end_time = datetime.datetime.now() print(end_time-start_time)
耗時:0:00:03.513161
iterrows()函數(shù)極大地提高了速度,但我們還遠遠沒有完成。請始終記住,當使用為向量操作設(shè)計的庫時,可能有一種方法可以在完全沒有for循環(huán)的情況下最高效地完成任務(wù)。
為我們提供此功能的Pandas功能是 .apply() 函數(shù)。apply()函數(shù)接受另一個函數(shù)作為輸入,并沿著DataFrame的軸(行、列等)應用它。在傳遞函數(shù)的這種情況下,lambda通??梢苑奖愕貙⑺袃?nèi)容打包在一起。
感謝各位的閱讀!關(guān)于“pandas如何提升計算效率”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。