您好,登錄后才能下訂單哦!
這篇文章給大家介紹怎樣用Python執(zhí)行常見(jiàn)的SQL任務(wù),內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。
數(shù)據(jù)從業(yè)者有許多工具可用于分割數(shù)據(jù)。有些人使用Excel,有些人使用SQL,有些人使用Python。對(duì)于某些任務(wù),使用Python的優(yōu)點(diǎn)是顯而易見(jiàn)的。以更快的速度處理更大的數(shù)據(jù)集。使用基于Python構(gòu)建的開(kāi)源機(jī)器學(xué)習(xí)庫(kù)。你可以輕松導(dǎo)入和導(dǎo)出不同格式的數(shù)據(jù)。
由于其多功能性,Python可以成為任何數(shù)據(jù)分析師工具箱的重要組成部分。但是,這很難開(kāi)始。大多數(shù)數(shù)據(jù)分析師可能熟悉SQL或Excel。本教程是涉及幫助你將技能和技術(shù)從EXcel和SQL轉(zhuǎn)移到Python。
首先,讓我們來(lái)設(shè)置Python。最簡(jiǎn)單的方法就是使用JupyterNotebook和Anaconda。這個(gè)可視化界面將允許你插入Python代碼并立即查看輸出。這也將使你輕松跟隨本教程的其余部分。
我們從基礎(chǔ)開(kāi)始:打開(kāi)一個(gè)數(shù)據(jù)集。
你可以導(dǎo)入.sql數(shù)據(jù)庫(kù)并用SQL查詢中處理它們。在Excel中,你可以雙擊一個(gè)文件,然后在電子表格模式下開(kāi)始處理它。在Python中,有更多復(fù)雜的特性,得益于能夠處理許多不同類型的文件格式和數(shù)據(jù)源的。
使用一個(gè)數(shù)據(jù)處理庫(kù)Pandas,你可以使用read方法導(dǎo)入各種文件格式。,使用這個(gè)方法所能導(dǎo)入完整的文件格式清單是在Pandas文檔中。你可以導(dǎo)入從CSV和Excel文件到HTML文件中的所有內(nèi)容!
使用Python的最大優(yōu)點(diǎn)之一是能夠從網(wǎng)絡(luò)的巨大范圍中獲取數(shù)據(jù)的能力,而不是只能訪問(wèn)手動(dòng)下載的文件。在Python的requests庫(kù)可以幫助你分類不同的網(wǎng)站,并從它們獲取數(shù)據(jù),而B(niǎo)eautifulSoup庫(kù)可以幫助你處理和過(guò)濾數(shù)據(jù),那么你精確得到你所需要的。如果你要去這條路線,請(qǐng)小心使用權(quán)問(wèn)題。
首先,導(dǎo)入我們需要的庫(kù)。
需要Pandas庫(kù)處理我們的數(shù)據(jù)。需要numpy庫(kù)來(lái)執(zhí)行數(shù)值的操作和轉(zhuǎn)換。我們需要requests庫(kù)來(lái)從網(wǎng)站獲取HTML數(shù)據(jù)。需要BeautifulSoup來(lái)處理這些數(shù)據(jù)。最后,需要Python(re)的正則表達(dá)式庫(kù)來(lái)更改在處理數(shù)據(jù)時(shí)將出現(xiàn)的某些字符串。
在Python中,不需要知道很多關(guān)于正則表達(dá)式的知識(shí),但它們是一個(gè)強(qiáng)大的工具,可用于匹配和替換某些字符串或子字符串。
這是一個(gè)更具技術(shù)性的解釋,詳細(xì)說(shuō)明如何使用Python代碼來(lái)獲取HTML表格。
你可以將上面的代碼復(fù)制粘貼到你自己的Anaconda中,如果你用一些Python代碼運(yùn)行,可以迭代它!
下面是代碼的輸出,如果你不修改它,就是所謂的字典。
你會(huì)注意到逗號(hào)分隔起來(lái)的括號(hào)的key-value列表。每個(gè)括號(hào)內(nèi)的列表都代表了我們dataframe中的一行,每列都以key表示:我們正在處理一個(gè)國(guó)家的排名,人均GDP(以美元表示)及其名稱(用「國(guó)家」)。
有關(guān)數(shù)據(jù)結(jié)構(gòu),如列表和詞典,如何在Python中的運(yùn)行的更多信息,本教程將有所幫助。
幸運(yùn)的是,為了將數(shù)據(jù)移動(dòng)到Pandasdataframe中,我們不需要理解這些數(shù)據(jù),這是將數(shù)據(jù)聚合到SQL表或Excel電子表格的類似方式。使用一行代碼,我們已經(jīng)將這些數(shù)據(jù)分配并保存到Pandasdataframe中–事實(shí)證明是這種情況,字典是要轉(zhuǎn)換為dataframe的完美數(shù)據(jù)格式。
通過(guò)這個(gè)簡(jiǎn)單的Python賦值給變量gdp,我們現(xiàn)在有了一個(gè)dataframe,可以在我們編寫(xiě)gdp的時(shí)候打開(kāi)和瀏覽。我們可以為該詞添加Python方法,以創(chuàng)建其中的數(shù)據(jù)的策略視圖。作為我們剛剛在Python中使用等號(hào)和賦值的一點(diǎn)深入了解,教程很有幫助。
關(guān)于怎樣用Python執(zhí)行常見(jiàn)的SQL任務(wù)就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。