溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

有哪些實(shí)用的數(shù)據(jù)科學(xué)Python庫

發(fā)布時(shí)間:2023-04-17 09:53:16 來源:億速云 閱讀:125 作者:iii 欄目:編程語言

這篇文章主要介紹了有哪些實(shí)用的數(shù)據(jù)科學(xué)Python庫的相關(guān)知識,內(nèi)容詳細(xì)易懂,操作簡單快捷,具有一定借鑒價(jià)值,相信大家閱讀完這篇有哪些實(shí)用的數(shù)據(jù)科學(xué)Python庫文章都會有所收獲,下面我們一起來看看吧。

一、Wget

從網(wǎng)絡(luò)上提取數(shù)據(jù)是數(shù)據(jù)科學(xué)家的重要任務(wù)之一。Wget 是一個(gè)免費(fèi)的實(shí)用程序,可以用于從網(wǎng)絡(luò)上下載非交互式的文件。它支持 HTTP、HTTPS 和 FTP 協(xié)議,以及通過 HTTP 的代理進(jìn)行文件檢索。由于它是非交互式的,即使用戶沒有登錄,它也可以在后臺工作。所以下次當(dāng)你想要下載一個(gè)網(wǎng)站或者一個(gè)頁面上的所有圖片時(shí),wget 可以幫助你。

安裝:

$ pip install wget

例子:

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
'razorback.mp3'
二、Pendulum

對于那些在 python 中處理日期時(shí)間時(shí)會感到沮喪的人來說,Pendulum 很適合你。它是一個(gè)簡化日期時(shí)間操作的 Python 包。它是 Python 原生類的簡易替代。請參閱文檔深入學(xué)習(xí)。

安裝:

$ pip install pendulum

例子:

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3
三、imbalanced-learn

可以看出,當(dāng)每個(gè)類的樣本數(shù)量基本相同時(shí),大多數(shù)分類算法的效果是最好的,即需要保持?jǐn)?shù)據(jù)平衡。但現(xiàn)實(shí)案例中大多是不平衡的數(shù)據(jù)集,這些數(shù)據(jù)集對機(jī)器學(xué)習(xí)算法的學(xué)習(xí)階段和后續(xù)預(yù)測都有很大影響。幸運(yùn)的是,這個(gè)庫就是用來解決此問題的。它與 scikit-learn 兼容,是 scikit-lear-contrib 項(xiàng)目的一部分。下次當(dāng)你遇到不平衡的數(shù)據(jù)集時(shí),請嘗試使用它。

安裝:

$ pip install -U imbalanced-learn

# 或者

$ conda install -c conda-forge imbalanced-learn
四、FlashText

在 NLP 任務(wù)中,清理文本數(shù)據(jù)往往需要替換句子中的關(guān)鍵字或從句子中提取關(guān)鍵字。通常,這種操作可以使用正則表達(dá)式來完成,但是如果要搜索的術(shù)語數(shù)量達(dá)到數(shù)千個(gè),這就會變得很麻煩。Python 的 FlashText 模塊是基于 FlashText 算法為這種情況提供了一個(gè)合適的替代方案。FlashText 最棒的一點(diǎn)是,不管搜索詞的數(shù)量如何,運(yùn)行時(shí)間都是相同的。你可以在這里了解更多內(nèi)容。

安裝:

$ pip install flashtext

例子:

提取關(guān)鍵字

from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(,)

keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found
['New York', 'Bay Area']

替換關(guān)鍵字

keyword_processor.add_keyword('New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

new_sentence
'I love New York and NCR region.'
Fuzzywuzzy
五、fuzzywuzzy

這個(gè)庫的名字聽起來很奇怪,但是在字符串匹配方面,fuzzywuzzy 是一個(gè)非常有用的庫??梢院芊奖愕貙?shí)現(xiàn)計(jì)算字符串匹配度、令牌匹配度等操作,也可以很方便地匹配保存在不同數(shù)據(jù)庫中的記錄。

安裝:

$ pip install fuzzywuzzy

例子:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# 簡單匹配度

fuzz.ratio("this is a test", "this is a test!")
97

# 模糊匹配度
fuzz.partial_ratio("this is a test", "this is a test!")
 100
六、PyFlux

時(shí)間序列分析是機(jī)器學(xué)習(xí)領(lǐng)域中最常見的問題之一。PyFlux 是 Python 中的一個(gè)開源庫,它是為處理時(shí)間序列問題而構(gòu)建的。該庫擁有一系列優(yōu)秀的現(xiàn)代時(shí)間序列模型,包括但不限于 ARIMA、GARCH 和 VAR 模型。簡而言之,PyFlux 為時(shí)間序列建模提供了一種概率方法。值得嘗試一下。

安裝

pip install pyflux
七、Ipyvolume

結(jié)果展示也是數(shù)據(jù)科學(xué)中的一個(gè)重要方面。能夠?qū)⒔Y(jié)果進(jìn)行可視化將具有很大優(yōu)勢。IPyvolume 是一個(gè)可以在 Jupyter notebook 中可視化三維體和圖形(例如三維散點(diǎn)圖等)的 Python 庫,并且只需要少量配置。但它目前還是 1.0 之前的版本階段。用一個(gè)比較恰當(dāng)?shù)谋扔鱽斫忉尵褪牵篒Pyvolume 的 volshow 對于三維數(shù)組就像 matplotlib 的 imshow 對于二維數(shù)組一樣好用??梢栽谶@里獲取更多。

使用 pip

$ pip install ipyvolume

使用 Conda/Anaconda

$ conda install -c conda-forge ipyvolume

例子

動(dòng)畫

有哪些實(shí)用的數(shù)據(jù)科學(xué)Python庫

體繪制

有哪些實(shí)用的數(shù)據(jù)科學(xué)Python庫

八、Dash

Dash 是一個(gè)高效的用于構(gòu)建 web 應(yīng)用程序的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基礎(chǔ)上設(shè)計(jì)而成的,綁定了很多比如下拉框、滑動(dòng)條和圖表的現(xiàn)代 UI 元素,你可以直接使用 Python 代碼來寫相關(guān)分析,而無需再使用 javascript。Dash 非常適合構(gòu)建數(shù)據(jù)可視化應(yīng)用程序。然后,這些應(yīng)用程序可以在 web 瀏覽器中呈現(xiàn)。用戶指南可以在這里獲取。

安裝

pip install dash==0.29.0# 核心 dash 后端
pip install dash-html-components==0.13.2# HTML 組件
pip install dash-core-components==0.36.0# 增強(qiáng)組件
pip install dash-table==3.1.3# 交互式 DataTable 組件(最新?。?/pre>

例子下面的例子展示了一個(gè)具有下拉功能的高度交互式圖表。當(dāng)用戶在下拉菜單中選擇一個(gè)值時(shí),應(yīng)用程序代碼將動(dòng)態(tài)地將數(shù)據(jù)從 Google Finance 導(dǎo)出到 panda DataFrame。

有哪些實(shí)用的數(shù)據(jù)科學(xué)Python庫

九、Gym

OpenAI 的 Gym 是一款用于增強(qiáng)學(xué)習(xí)算法的開發(fā)和比較工具包。它兼容任何數(shù)值計(jì)算庫,如 TensorFlow 或 Theano。Gym 庫是測試問題集合的必備工具,這個(gè)集合也稱為環(huán)境 —— 你可以用它來開發(fā)你的強(qiáng)化學(xué)習(xí)算法。這些環(huán)境有一個(gè)共享接口,允許你進(jìn)行通用算法的編寫。

安裝

pip install gym

例子這個(gè)例子會運(yùn)行CartPole-v0環(huán)境中的一個(gè)實(shí)例,它的時(shí)間步數(shù)為 1000,每一步都會渲染整個(gè)場景。

關(guān)于“有哪些實(shí)用的數(shù)據(jù)科學(xué)Python庫”這篇文章的內(nèi)容就介紹到這里,感謝各位的閱讀!相信大家對“有哪些實(shí)用的數(shù)據(jù)科學(xué)Python庫”知識都有一定的了解,大家如果還想學(xué)習(xí)更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI