溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python爬蟲(chóng)之利用Github搜索資源的方法

發(fā)布時(shí)間:2020-11-20 10:58:02 來(lái)源:億速云 閱讀:684 作者:小新 欄目:編程語(yǔ)言

小編給大家分享一下Python爬蟲(chóng)之利用Github搜索資源的方法,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

這段時(shí)間以來(lái),我發(fā)現(xiàn)大家都把Github掛在嘴上,但是不少人其實(shí)并不會(huì)用Github。具體怎么說(shuō)呢,比方說(shuō)實(shí)現(xiàn)某些簡(jiǎn)單的功能的時(shí)候,自己可能需要花2-3小時(shí)去實(shí)現(xiàn),那么大家愿意自己去實(shí)現(xiàn)。

具體一些,比方說(shuō)我以前寫(xiě)一個(gè)簡(jiǎn)單的爬蟲(chóng)采集大眾點(diǎn)評(píng)的一些數(shù)據(jù)的時(shí)候,我可能需要花時(shí)間去了解網(wǎng)站結(jié)構(gòu)然后寫(xiě)爬蟲(chóng),寫(xiě)下來(lái)沒(méi)個(gè)半天不行。但是這種網(wǎng)站你上Github搜索「大眾點(diǎn)評(píng)爬蟲(chóng)」或者「dazhongdianping」等等關(guān)鍵詞。你會(huì)發(fā)發(fā)現(xiàn)有一堆的爬蟲(chóng)項(xiàng)目,你直接拿來(lái)稍微改一下就能用了。

這個(gè)直接能節(jié)省你半天甚至一天的時(shí)間,你可以節(jié)省這一天的時(shí)間用在更有意義的事情上面,比如說(shuō)做深入的挖掘分析。

我們很多搞技術(shù)的人經(jīng)常會(huì)陷入所有事情都要親自干的這種誤區(qū)。但記住并不是所有事情都要親力親為的,有時(shí)候只是浪費(fèi)時(shí)間。比你成功的人通常不會(huì)重復(fù)造輪子,而是會(huì)利用資源。

在利用Github搜索資源的時(shí)候其實(shí)也是有一些小技巧的。也不能稱(chēng)之為技巧,但你往下看肯定是讓你非常受益的。

1、awesome + xx

awesome這個(gè)單詞表示的棒極了一類(lèi)意思,如果你在Github中搜索awesome + xxxg關(guān)鍵詞,你就能搜索這個(gè)關(guān)鍵詞的資源大全,比方說(shuō):

awesome python

awesome go

awesome linux

你就會(huì)發(fā)現(xiàn)關(guān)于這些東西的學(xué)習(xí)資料真的是一大堆一大堆的。無(wú)論是書(shū)籍資源,庫(kù)資源,還是學(xué)習(xí)視頻、學(xué)習(xí)筆記,應(yīng)有盡有。會(huì)了這個(gè)技能你再也不用到處求學(xué)習(xí)資源了。

Python爬蟲(chóng)之利用Github搜索資源的方法

2、功能 + 網(wǎng)站

我在上面舉了個(gè)例子。比方說(shuō)當(dāng)你想采集某個(gè)網(wǎng)站的時(shí)候,你可以在Github里面搜「網(wǎng)站名稱(chēng) +Scrapy」,如果搜不到可以搜「網(wǎng)站名稱(chēng)+采集」,還可以搜「網(wǎng)站名稱(chēng)+Python」等等。

如果你想做一個(gè)仿大眾點(diǎn)評(píng)的App,那么你在Github上搜「仿大眾點(diǎn)評(píng)」,你就能快速找到別人做的一個(gè)大眾點(diǎn)評(píng)項(xiàng)目,拿來(lái)幾乎可以直接用了,想一想這節(jié)省了你多少時(shí)間?

有時(shí)候你找不到,可能僅僅是你關(guān)鍵詞弄得不對(duì),記得換一換關(guān)鍵詞,比如說(shuō)英文搜索,拼音搜索,大多時(shí)候就能搜到了。

3、接口

大家在開(kāi)發(fā)調(diào)用一些數(shù)據(jù)接口查詢(xún)的時(shí)候,個(gè)人開(kāi)發(fā)者一般來(lái)說(shuō)都有一些調(diào)用的限制,必須要成為企業(yè)或者付費(fèi)才能調(diào)高這些限制。

比如說(shuō)百度的地圖的路線規(guī)劃API,普通開(kāi)發(fā)者的Key一天只能調(diào)用2000次,而且并發(fā)只有20次,這個(gè)數(shù)量肯定不夠,但是我們個(gè)人開(kāi)發(fā)者又不愿意花錢(qián)去搞這件事情,怎么辦呢?

Python爬蟲(chóng)之利用Github搜索資源的方法

我們看到這個(gè)接口調(diào)用是這樣調(diào)用的,只要在最后寫(xiě)上開(kāi)發(fā)者的AK就行了,所以我們把這個(gè)網(wǎng)址中不是自定義的內(nèi)容直接拿到Github里面搜就可以了。全是你想要的東西。

Python爬蟲(chóng)之利用Github搜索資源的方法

其實(shí)類(lèi)似的操作很多的,比方說(shuō)搜數(shù)據(jù)庫(kù)的密碼。你想想在開(kāi)發(fā)的過(guò)程中哪些東西是約定俗成不會(huì)變的,你在GitHub中就能搜索到了。當(dāng)然并沒(méi)有讓你去干壞事撒。

類(lèi)似的小技巧其實(shí)挺多的,Github其實(shí)真是一個(gè)藏寶的地方,關(guān)鍵是你會(huì)不會(huì)用。要會(huì)發(fā)揮想象力,多想多動(dòng)手,千萬(wàn)不要不想只動(dòng)手。

以上是Python爬蟲(chóng)之利用Github搜索資源的方法的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI