溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Python爬蟲技術(shù)的發(fā)展史

發(fā)布時間:2020-11-03 11:05:23 來源:億速云 閱讀:458 作者:小新 欄目:編程語言

小編給大家分享一下Python爬蟲技術(shù)的發(fā)展史,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

從98年google以搜索技術(shù)起家開始,互聯(lián)網(wǎng)至今,以提供內(nèi)容為主的互聯(lián)網(wǎng)企業(yè)每一家都離不開小爬蟲的幫助,大到互聯(lián)網(wǎng)巨頭,小到剛成立沒幾天的創(chuàng)業(yè)公司, 在早期沒有足夠內(nèi)容來撐住自家網(wǎng)站和app時,都會采取抓取手段來補充內(nèi)容,讓自家產(chǎn)品顯得內(nèi)容滿滿。

還有好些公司的商業(yè)模式就建立在爬蟲技術(shù)之上的,比如搜索引擎公司、大數(shù)據(jù)處理公司、網(wǎng)絡(luò)輿情監(jiān)控公司,沒有數(shù)據(jù),他們的公司就沒法運轉(zhuǎn)。
另外現(xiàn)如今互聯(lián)網(wǎng)公司的獲客成本上升,出現(xiàn)了增長黑客這個概念,里面的大量運營技巧都是要依賴于爬蟲技術(shù)的手段來驅(qū)動,這里不是指抓數(shù)據(jù),而是模仿用戶請求,模仿用戶操作,自動發(fā)貼等手法來新增和激活用戶。

接下來就來淺談幾家在這方面做得成功的公司。

1.提到爬蟲,必然會說起搜索引擎,它是直接利用爬蟲抓取信息來構(gòu)建底層服務(wù)的。簡單粗暴,但是直接有效,而如今世界上最大的兩家搜索引擎服務(wù)公司(google和百度),已分別是7千億和600億美金市值。

2.現(xiàn)在已是國民資訊app的今日頭條,早期通過抓取數(shù)百家機構(gòu)的新聞源,然后以技術(shù)手段來分發(fā)給用戶,做到千人千面的閱讀體驗,現(xiàn)在已是中國互聯(lián)網(wǎng)公司第三極。

這也是一個在早期直接利用爬蟲手段而成功的例子,如果不抓取別人的新聞資訊,今日頭條根本不可能成功。

3.做職場社交,獲得2億美金投資的脈脈,早期直接抓取微博用戶信息,用來彌補自身用戶數(shù)量的不足,完成了脈脈早期幾百萬用戶積累,不過脈脈抓取微博用戶信息已被法院判決為非法,做社交媒體和輿情監(jiān)控的估計沒幾家沒抓過微博的數(shù)據(jù)吧。要小心噢。

當下隨著國家知識產(chǎn)權(quán)法規(guī)越來越完善和嚴格,這種直接抓取別人信息然后直接商業(yè)化的行為夠你進去蹲幾年了。所以要慎重哦?。?!

每個時代都有它所謂的企業(yè)原罪,8090年代是企業(yè)產(chǎn)權(quán)不明,要論互聯(lián)網(wǎng)時代的原罪估計就是企業(yè)早期冷啟動時抓取的內(nèi)容是否應(yīng)該直接商業(yè)化吧。

如果現(xiàn)在再做一個類似搜索引擎和今日頭條的產(chǎn)品,不解決版權(quán)問題,會隨時被請喝茶吧。那么現(xiàn)在爬蟲抓取的內(nèi)容就不能商業(yè)化了嗎?
也不盡然,比如政府公開的數(shù)據(jù)是可以直接商用的。

4.在企業(yè)工商信息查詢領(lǐng)域另辟蹊徑的天眼查/企查查。 這兩家企業(yè)把各個省,市的官方幾千萬家工商信息抓取出來,結(jié)構(gòu)化整合后提供給用戶查詢,讓人眼前一亮。

這個APP已成為創(chuàng)業(yè)者,投資人,老板們的標配APP,查詢法人信息,企業(yè)股權(quán)結(jié)構(gòu)等等一目了然。類似的數(shù)據(jù)還有商標,專利,法院判決文書等等

另外在電商領(lǐng)域抓取各家電商平臺做比價網(wǎng)站一直是一個商業(yè)模式,比如即將在A股上市的什么值得買,把各家電商網(wǎng)站的商品和價格抓取過來,把他們的價格差異展示出來,方便用戶查看哪家網(wǎng)站的便宜,但是后來各家電商網(wǎng)站都把價格信息圖片化之后,解析準確價格的難度就加大了不少。

再比如在納斯達克上市,后又被私有化的去哪兒網(wǎng),在早期能夠崛起成為一個機票和酒店預(yù)定的流量入口,就是他的搜索比價模式,實時抓取各家機票和酒店信息,把價格差異展示出來,而這正擊中了用戶想要買便宜的需求。

用抓取的數(shù)據(jù)發(fā)展成為一個商業(yè)模式的例子還有很多,以上舉了幾個較為知名的,還有老猿了解的很多個人站長,自由職業(yè)者都是靠著抓取和整合數(shù)據(jù)做出了不錯的流量和用戶,每年有不菲的收入,在面朝大海,春暖花開的地方,吃著火鍋,喝著小酒,以后再為大家一一道來。

看完了這篇文章,相信你對Python爬蟲技術(shù)的發(fā)展史有了一定的了解,想了解更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI