溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

爬蟲分享風(fēng)云2號(hào)衛(wèi)星氣象照片

發(fā)布時(shí)間:2020-08-14 20:23:56 來源:ITPUB博客 閱讀:160 作者:opengps 欄目:軟件技術(shù)

爬蟲概述

早在2016年,我用我的 阿里云ECS上運(yùn)行了一個(gè)長(zhǎng)期性質(zhì)的爬蟲程序,內(nèi)容是采集風(fēng)云二號(hào)氣象衛(wèi)星照片,現(xiàn)在假期終于有時(shí)間回來查看結(jié)果,簡(jiǎn)單統(tǒng)計(jì)如下(附圖):

圖片總數(shù):45869 個(gè)文件

最早文件:201609131345.jpg

最晚文件:201910091415.jpg

爬蟲分享風(fēng)云2號(hào)衛(wèi)星氣象照片

爬蟲運(yùn)行過程

1,數(shù)據(jù)源:

當(dāng)時(shí)意外獲得一個(gè)長(zhǎng)期有效的數(shù)據(jù)來源,其URL參數(shù),為時(shí)間格式,也就是說有著明顯的規(guī)律。適合爬蟲運(yùn)行

2,爬蟲運(yùn)行:

這個(gè)爬蟲的運(yùn)行條件其實(shí)有2個(gè):1定時(shí)下載;2不停機(jī)運(yùn)行;

既然是氣象數(shù)據(jù),當(dāng)然得定時(shí)抓取,所以我寫了一個(gè)windows服務(wù),置于后臺(tái)連續(xù)運(yùn)行。雖然中間由于服務(wù)器其他問題導(dǎo)致中斷過幾次,不過架不住時(shí)間長(zhǎng)久,因此還是成功連續(xù)采集了很多數(shù)據(jù)。

還有個(gè)要求就是不能關(guān)機(jī),程序需要連續(xù)運(yùn)行。我的最終方案就是使用 云服務(wù)器ECS部署運(yùn)行。避免使用個(gè)人PC長(zhǎng)期開機(jī)來運(yùn)行。

3,處理存儲(chǔ):

首先,這個(gè)程序既然要長(zhǎng)期運(yùn)行,那么非常避諱的一點(diǎn)就是所有結(jié)果都集中在一個(gè)本地文件夾里,因此我選用了阿里云對(duì)象存儲(chǔ)OSS,同時(shí)由于我需要不關(guān)機(jī),所以我最終是 云服務(wù)器ECS+ 對(duì)象存儲(chǔ)OSS,ECS和OSS使用了同地域的,因此內(nèi)網(wǎng)打通傳輸很快。這樣我就只在本地做一個(gè)臨時(shí)存儲(chǔ),轉(zhuǎn)存OSS后不再占用本地硬盤,這樣一來我才可以放心啟動(dòng)后“免維護(hù)”運(yùn)行這好幾年。

4,爬蟲關(guān)停

爬蟲的關(guān)停并非我本意,是我假期期間查看日志才知道數(shù)據(jù)源已經(jīng)失效了。因此本爬蟲壽終正寢。雖然我可以去尋找一下新的有效數(shù)據(jù)源,但是由于老數(shù)據(jù)我都沒用好,那么新的數(shù)據(jù)就暫時(shí)先不去尋找了。

爬蟲工作完成,最終成果下載

我選用了阿里云推薦的OSS客戶端工具,由于我提前規(guī)劃好了ECS和OSS同地域,因此可以直接內(nèi)網(wǎng)下載到我的ECS,速度還是很快的,工具顯示大于60MB/s。工具部分截圖如圖:

爬蟲分享風(fēng)云2號(hào)衛(wèi)星氣象照片

為了避免OSS公網(wǎng)下載流量的費(fèi)用支出(其實(shí)是窮:直接下載6G大小文件,忙時(shí)價(jià)格為1塊5毛錢),我將OSS數(shù)據(jù)內(nèi)網(wǎng)下載后,走ECS的出帶寬下載回我PC本地。本地查看:

爬蟲分享風(fēng)云2號(hào)衛(wèi)星氣象照片


原文地址:  https://www.opengps.cn/Blog/View.aspx?id=590 文章的更新編輯依此鏈接為準(zhǔn)。歡迎關(guān)注源站原創(chuàng)文章!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI