溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

網(wǎng)絡(luò)江湖里爬蟲玩的是一場“無間道”

發(fā)布時間:2020-08-11 21:08:06 來源:ITPUB博客 閱讀:137 作者:許此一生 欄目:云計算

電影《無間道》中,梁朝偉扮演在黑幫臥底的警察雖然能力出眾,但也像普通人一樣向往平靜的生活,當(dāng)與其單線聯(lián)系的黃警官被殺,他在警局的檔案又被在警局臥底的偽警察劉建明徹底刪除后,再無法證明其真警察的身份,最后被一名偽警察槍殺……

一個永遠(yuǎn)無法證明自己身份的人,空有軀殼,無法掌握自己的人生軌跡。臥底無疑才華卓越不然也不會被選中,但最終逃不出別人的控制。當(dāng)然這個職業(yè)也被打上很多亮麗的標(biāo)簽,#能力優(yōu)秀#、#聰明#、#超強(qiáng)生命力#……

其實,今天不是想來談?wù)撆P底的,只是想引出我們要講的爬蟲,因為它可以比喻潛藏在網(wǎng)絡(luò)江湖里的“專業(yè)臥底”: 超強(qiáng)獲取情報的能力、命運不由已,為惡為善全憑他人掌控,搖擺不定。唯一不可否認(rèn)的是,業(yè)內(nèi)都看中他的“才華”。

灼灼其華,爬蟲是優(yōu)秀的。

就像《無間道》里黑幫臥底的真警察陳永仁一樣,能活著是因為他的能力,他的優(yōu)秀。爬蟲亦如此,在網(wǎng)絡(luò)江湖世界里混的風(fēng)生水起:

1. 搜索引擎爬蟲

搜索引擎爬蟲是最常見的善意爬蟲,當(dāng)用戶用搜索引擎搜索信息時,爬蟲會代替人工自動從各類網(wǎng)站爬取相關(guān)信息,并整理索引,將真正有價值的內(nèi)容呈現(xiàn)在用戶面前。由于網(wǎng)站在搜索引擎上的排名越靠前,就會帶來更多的訪問量,而流量能轉(zhuǎn)化價值,因此各大網(wǎng)站就會爭先恐后地開門歡迎搜索引擎類爬蟲,以獲得更多的曝光。這類爬蟲不僅服務(wù)了用戶,也服務(wù)了網(wǎng)站服務(wù)商。

2. 海量信息處理

數(shù)字時代,咨詢公司可以利用爬蟲技術(shù)快速獲取海量信息,并可以將海量信息進(jìn)行專業(yè)化處理和分析歸類,從而為咨詢服務(wù)提供有利的數(shù)據(jù)支撐,用更多的數(shù)據(jù)信息樣本來支持更準(zhǔn)確的決策。不僅如此,很多企業(yè)也會用爬蟲來進(jìn)行輿情監(jiān)控,對及時發(fā)現(xiàn)負(fù)面輿情,做好公關(guān)危機(jī)有很大幫助。

3. 替代重復(fù)勞動力

在網(wǎng)絡(luò)工作中會遇到很多需要大量重復(fù)勞動的工作,比如在幾百臺目標(biāo)機(jī)器上部署類似的程序,優(yōu)秀的工程師們骨子里總是帶著hack精神,以機(jī)器代替人工,解放雙手,寫一些自動化腳本來支持日常網(wǎng)絡(luò)中的部署、測試、運維等內(nèi)容。那些能批量自動化完成一系列Web請求最終達(dá)到某種目的的程序,便屬于廣義上的“爬蟲”。這樣的爬蟲代表著一種理念,科技解放人力,讓人有時間去做更有價值的事。

爬蟲更愿意與人為善,一邊為正義大展身手的同時,爬蟲也同樣有著自己的個性。每一個故事中的臥底從來都是“高利用率的”,因為他們的智慧不斷為其效力的一方創(chuàng)造驚喜和價值,這樣也使得他更容易獲得信任,這就是無間之道。爬蟲的無間在于,化數(shù)據(jù)為商機(jī):

1. 站在行業(yè)肩膀上的創(chuàng)意

總聽人抱怨說創(chuàng)業(yè)維艱,上百家團(tuán)購如今清盤后只剩幾家存活,網(wǎng)絡(luò)打車平臺互相收購留一家獨大,P2P互金行業(yè)因政策監(jiān)管紛紛倒閉。

但也有人推陳出新,站在行業(yè)的肩膀上,用爬蟲玩得風(fēng)生水起。

一玩:“貨比三家”的流量:

用戶面對互聯(lián)網(wǎng)上眼花繚亂的產(chǎn)品,會有選擇困難癥:

#我想買個冰箱,……到底哪個平臺物美價廉?

#我想買張機(jī)票,……到底哪個平臺的機(jī)票時間合適價格便宜?

#我想租個房子,鏈家,我愛我家,安居客……到底哪個中介提供的服務(wù)性價比最高?

當(dāng)用戶猶豫不決時,爬蟲上場了,它爬走了各家的信息,動了別人的奶酪。

二玩:“洗牌重組”的資源

在全民健身的時代,大部分人以為健身房的年卡很劃算,可是年卡到手后一年也就去了10天。原本心里盤算著健身房里那么多器械只需要花費6元/天(~=2200元/365天)的成本卻變成了200元/次,莫名提升了33倍?,F(xiàn)在想想,其實健身房就是利用“資源高閑置率”來賺錢的,嗯,健身是很難堅持的。

那怎么利用轉(zhuǎn)化這些閑置資源賺錢呢,這時就到了爬蟲彰顯價值的時候了。

以處在風(fēng)口上的共享單車為例,大街小巷的共享單車五顏六色,每種顏色代表一家公司,爭前恐后想站在這個風(fēng)口做那只豬。行業(yè)模式大同小異,注冊-押金-掃碼-騎車-計費,對用戶的差異無非就在押金多少,活動區(qū)域內(nèi)車多不多,單次和包月/季/年卡的計費方式。然鵝,用戶在各大平臺注冊后,用著用著發(fā)現(xiàn):

#我付押金的單車為啥附近那么少?面前別家的單車我又騎不走。

#押金要幾百有點貴,不付就不能騎怎么辦?

偏偏有人出奇招,利用爬蟲技術(shù)做了個平臺,整合了所有主流共享單車信息,用戶注冊后不需要付押金,只要非常少的包月費用,可以掃碼任何一家單車開鎖騎走。為啥能騎走?因為爬蟲為你整合了你在所有共享單車上包月/季/年卡的所有權(quán),打通了你在掃碼各家單車之后對應(yīng)的使用權(quán)。這樣一來,不但引流走了別家平臺用戶,還在資源重組后賺了別人家“資源閑置”的收入。確實滿足了用戶需求,卻也動了別人的奶酪。

2. 爬蟲引發(fā)的情報戰(zhàn)

孫子兵法有云:“知己知彼,百戰(zhàn)不殆?!?有些企業(yè)還會利用爬蟲獲取同行情報來作戰(zhàn)。盤點下近兩年最俏的三大戰(zhàn)役情報,也就是爬蟲最熱衷的信息:O2O大戰(zhàn)的商戶,電商大戰(zhàn)的價格,P2P大戰(zhàn)的風(fēng)控。

O2O平臺要想成功,需要更多的引入優(yōu)質(zhì)商戶,才能吸引更多的C端用戶,整個業(yè)務(wù)模式才可以轉(zhuǎn)起來。因此行業(yè)內(nèi)互相爬取對方銷售量高的優(yōu)質(zhì)店鋪,

爬蟲不斷挑戰(zhàn)“底線”

爬蟲的另一面,讓人想到《無間道》里劉德華扮演的劉建明,在警察局做黑幫臥底,踏著那條紅線,為黑幫效力。黑灰產(chǎn)用爬蟲技術(shù)爆點踩著法律的邊緣賺到盆滿缽溢,作惡場景無處不在,兩者異曲同工。

 ●   你打開某點評看到的高分店鋪很可能是爬蟲幫你評的;

 ●   你在各大電商平臺看到的爆款也可能是爬蟲刷的虛假交易;

 ●   網(wǎng)絡(luò)投票的第一名也許是爬蟲辛辛苦苦投出來的結(jié)果;

 ●   賺錢易如反掌的微博大V也許是爬蟲制造的諸多僵尸粉撐起來的假象;

 ●   渠道商獎勵的程序推廣安裝第一名也許是爬蟲歷下的汗馬功勞;

 ●   電商平臺的拉新紅包總也搶不到,因為爬蟲已替你搶光光;

 ●   ……

此外,由于爬蟲往往比人動作快,因此還干起了囤積居奇的勾當(dāng)。周董演唱會門票一票難求,可是黃牛卻拿著一疊門票在演唱會門口高價出售,粉絲只能忍痛用三倍的價格去見了偶像。這樣的倒賣獲利非常常見,爬蟲往往盯著網(wǎng)絡(luò)可以低買高賣的物品,賺錢差價獲利,比如亞航的廉價機(jī)票,春節(jié)的火車票,網(wǎng)站上秒殺價茅臺酒,知名醫(yī)院的專家預(yù)約號……這樣的爬蟲在他的利用下,搶占了資源,擾亂了市場。

爬蟲本無錯,追根究底是人為造成的。我們不能因為有人利用爬蟲作惡就毀滅爬蟲,但也不能任由惡意爬蟲肆意生長,于是一場爬蟲與反爬蟲的長期對抗斗爭開始了。阿里云云盾爬蟲風(fēng)險管理產(chǎn)品就是一個必然的產(chǎn)物。該產(chǎn)品可以對爬蟲進(jìn)行有序管理,阻止其作惡,發(fā)揚其本善。

產(chǎn)品建設(shè)了一整套有層次的爬蟲檢測模塊,主要分為基礎(chǔ)防護(hù)層、云端情報層、深度學(xué)習(xí)層,就像每個警察局和黑幫都有一套完整的信息傳遞和鑒別機(jī)制一樣,從提供流量上自定義爬蟲特征工具,到共享云端優(yōu)勢的行業(yè)爬蟲攻擊情報,再到定制貼合客戶業(yè)務(wù)的深度學(xué)習(xí)算法,逐步遞進(jìn),快速幫助客戶打造一套量身定做的反爬蟲策略體系。

網(wǎng)絡(luò)江湖里爬蟲玩的是一場“無間道”cdn.com/e28c18195578d97d65218546956849a8b5329fb4.png">

爬蟲的多變需要辨別,云盾爬蟲風(fēng)險管理產(chǎn)品能快速甄別爬蟲的行為特征,對不同的爬蟲做不同的處置,該放的放,該殺的殺,遇到可疑的爬蟲還可以做一個挑戰(zhàn)或者校驗,多驗一次身來做最終判斷。

同時,還提供了數(shù)據(jù)可視化,從不同維度展示給用戶,包括數(shù)據(jù)和數(shù)據(jù)之間的關(guān)聯(lián),讓用戶參與爬蟲特征數(shù)據(jù)和防護(hù)數(shù)據(jù)之間關(guān)系的探索,不斷溝通和迭代,不僅清晰地向用戶展示爬蟲入侵的每一步,也提高了用戶反爬蟲的策略決策能力。


向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI