溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

python如何爬取知乎并做數(shù)據(jù)分析

發(fā)布時間:2021-10-26 09:13:44 來源:億速云 閱讀:285 作者:柒染 欄目:大數(shù)據(jù)

python如何爬取知乎并做數(shù)據(jù)分析,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。

最近用 python 爬蟲抓取了知乎用戶個人資料(公開信息),去重之后有300+萬條記錄,為了得到這些數(shù)據(jù),還不小心跑崩了一臺服務(wù)器…… 當(dāng)然主要是配置太低。

手頭有了數(shù)據(jù)也不能閑著,于是就有了這篇分析報告,這篇報告做了一些淺顯的數(shù)據(jù)分析,主要目的是練練手,大家看個熱鬧,高手勿笑。

數(shù)據(jù)量:3,289,329 人。

數(shù)據(jù)采集工具:分布式 python 爬蟲

分析工具:ElasticSearch + Kibana

分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。

注意:

以下所有分析結(jié)果都基于我抓取到的這300萬用戶的個人信息,非權(quán)威分析,僅供參考。

數(shù)據(jù)抓取時間為2017年7月份,用戶數(shù)據(jù)會隨著時間推移而變化,所以該報告具有一定時效性。

知乎的用戶個人資料很大程度上是不完整的,因為用戶有權(quán)只填寫部分信息,所以后面分析的時候會篩掉對應(yīng)指標(biāo)為空的用戶。

下面讓我們看看知乎用戶分布中有哪些有趣的現(xiàn)象。

知乎的男女比例?

首先來看看知乎用戶的男女比例,以當(dāng)前樣本數(shù)據(jù)統(tǒng)計的結(jié)果接近 1:1,其中男生略多一些。(其實還有很大一部分性別不明的用戶,被我略掉了 

python如何爬取知乎并做數(shù)據(jù)分析

藍(lán)色為男生,紅色為女生。具體數(shù)據(jù)為:

男生:1,202,234 人,占 51.55%。

女生:1,129,874 人,占 48.45%。

知乎用戶都是哪里人?

再來看看全國(全球?)都有哪些地方的人在玩知乎:

python如何爬取知乎并做數(shù)據(jù)分析

由上圖可以看到,知乎用戶中一線城市用戶占較大的比重,北上廣深皆在詞云的中心位置(文字越大,比重越大)。我們再來看看具體的排名(前十名):

python如何爬取知乎并做數(shù)據(jù)分析

知乎用戶居住地前十名依次是:北京、上海、杭州、成都、南京、武漢、廣州、深圳、西安、重慶。

你可能發(fā)現(xiàn)了Y坐標(biāo)里每座城市的用戶數(shù)并不多,這是因為有大概260萬的知乎沒有填寫“居住地”這一欄~ 以下分析也有可能出現(xiàn)用戶沒有填寫某一欄信息的情況,我會把這些用戶忽略掉,以保證展示圖表的準(zhǔn)確性。

知乎的職業(yè)分布?

以下顯示知乎主流職業(yè),同樣根據(jù)知乎用戶個人信息里填寫的職業(yè)為準(zhǔn):

python如何爬取知乎并做數(shù)據(jù)分析

由上圖可以看到,知乎用戶中學(xué)生用戶占據(jù)多數(shù),其它的比如產(chǎn)品經(jīng)理、程序員、運營、HR數(shù)量也不少。我們看一下具體的排名(前十名):

python如何爬取知乎并做數(shù)據(jù)分析

由上圖可以看到,知乎用戶中“學(xué)生”的比重獨占鰲頭,我們把“學(xué)生”去掉,來看看正經(jīng)些的知乎職業(yè)排名:

python如何爬取知乎并做數(shù)據(jù)分析

去除學(xué)生后,知乎主流職業(yè)比重從大到小依次是(前十名):產(chǎn)品經(jīng)理、自由職業(yè)、程序員、工程師、設(shè)計師、騰訊、教師、人力資源(HR)、運營、律師??梢钥吹剑艘恍┗ヂ?lián)網(wǎng)公司的常見職位外,教師和律師用戶在知乎中也占據(jù)不小的比重。

下面我們結(jié)合 性別 和 居住地 來分析一下知乎的主流職業(yè)。

知乎主流職業(yè)的性別分布:

python如何爬取知乎并做數(shù)據(jù)分析

上面這張餅圖的內(nèi)圈表示各主流職業(yè)在前十名中所占的比重,外圈表示該職業(yè)從業(yè)者中的男女比例,藍(lán)色為男性,紅色為女性。我們再用一張直方圖來表示:

python如何爬取知乎并做數(shù)據(jù)分析

同樣藍(lán)色代表男性,紅色代表女性,從左到右的職業(yè)在知乎中的數(shù)量依次下降。可以看到,知乎大部分主流職業(yè)中主要為男性占主導(dǎo)。前 10 名的主流職業(yè)中有 8 個職業(yè)的男性從業(yè)者比女性多,其中以 程序員 的男女比例差距更為懸殊(-_-|||),以 設(shè)計師 男女比例差距最小,看來設(shè)計師從業(yè)人員男女比例較為均衡。其它的,比如產(chǎn)品經(jīng)理、自由職業(yè)者、律師中,均為男性從業(yè)者多于女性。而前 10 名剩下的 2 個職業(yè)——教師、人力資源(HR)——女性從業(yè)者要多于男性,其中以 人力資源(HR) 男女比例差距更為懸殊,教師的男女比例雖不那么夸張,但女性也遠(yuǎn)遠(yuǎn)多于男性(也許是因為男性教師不怎么上知乎?)。

看完了知乎各職業(yè)的性別分布,我們再用一張熱力圖來觀察知乎主流職業(yè)(前五名)在各個地區(qū)的分布情況,顏色越深,代表該職業(yè)在該地區(qū)的人數(shù)越多:

python如何爬取知乎并做數(shù)據(jù)分析

這里我為了展示方便,去掉了產(chǎn)品經(jīng)理,你只需要知道產(chǎn)品經(jīng)理在各地人數(shù)都是最多的…… 不明白知乎上怎么這么多產(chǎn)品經(jīng)理,可能是為了方便宣傳他們的產(chǎn)品?

從上圖可以看出,知乎各主流職業(yè)大部分集中在北京和上海兩地,更準(zhǔn)確地說,大部分都集中在北京,但是人力資源(HR)是個例外,他們更多集中在上海。我們再來看看其他職業(yè),程序員分布最多的城市依次是:北京、上海、廣州、杭州、廈門。北京占得比重較大,簡直綠的發(fā)黑,看來北京是程序員的天堂?其中深圳沒有上榜,讓我很奇怪。設(shè)計師分布最多的城市依次是:北京、上海、杭州、深圳、武漢。設(shè)計師的地區(qū)分布比較平均,各個城市都有一定數(shù)量。

知乎的高校用戶

知乎中學(xué)生用戶占很大的比重,我們來看看他們都來自哪些學(xué)校!詞云中字體越大,表示所占比重越大。

python如何爬取知乎并做數(shù)據(jù)分析

我們再列出詳細(xì)的比重排名:

python如何爬取知乎并做數(shù)據(jù)分析

以上展示的結(jié)果不一定準(zhǔn)確,可能有很大一部分學(xué)生用戶沒有填寫自己的學(xué)校。僅從上圖可以看出,知乎活躍高校用戶從大到小依次是:浙江大學(xué)、武漢大學(xué)、華中科技大學(xué)、中山大學(xué)、北京大學(xué)、上海交通大學(xué)、復(fù)旦大學(xué)、南京大學(xué)、四川大學(xué)、清華大學(xué)。

既然分析到學(xué)校了,我們順便看看各高校的男女比例,嘿嘿。

python如何爬取知乎并做數(shù)據(jù)分析

發(fā)現(xiàn)一個有意思的現(xiàn)象,各高校大部分都是男生在玩知乎……

再看一下哪些高校在知乎獲得的贊數(shù)最多:

python如何爬取知乎并做數(shù)據(jù)分析

第一是同濟大學(xué),土木工程,恩,這是哪位大佬撐起來的;第二是華南理工大學(xué),軟件工程,這個我知道,輪子哥是皇家理工的嘛;第三,重慶第一工程尸培訓(xùn)基地,恩???這是什么鬼(黑人問號);繼續(xù)往后看,恩……??家里蹲大學(xué)??!!還有一個蘭州大學(xué),牛肉面工藝專業(yè)???WHAT????!

知乎大佬都這么調(diào)皮嗎……

這個圖似乎不太準(zhǔn),大家忽略就好……

我們再來看看各地區(qū)有哪些高校是知乎重度用戶,顏色越深代表該學(xué)校的知乎用戶越多:

python如何爬取知乎并做數(shù)據(jù)分析

北京玩知乎最多的高校依次是:北京大學(xué)、北京郵電大學(xué)、中國傳媒大學(xué)、中國人民大學(xué)、清華大學(xué)。

上海玩知乎最多的高校依次是:上海交通大學(xué)、復(fù)旦大學(xué)、同濟大學(xué)、上海大學(xué)、上海財經(jīng)大學(xué)。

杭州玩知乎最多的高校依次是:浙江大學(xué)、浙江工業(yè)大學(xué)、杭州電子科技大學(xué)、浙江大學(xué),計算機科學(xué)、浙江大學(xué),軟件工程。浙江大學(xué)是重度用戶啊……

成都玩知乎最多的高校依次是:電子科技大學(xué)、四川大學(xué)、西南交通大學(xué)、電子科技大學(xué),軟件工程、四川師范大學(xué)。

廣州玩知乎最多的高校依次是:中山大學(xué)(SYSU)、華南理工大學(xué)(SCUT)、華南農(nóng)業(yè)大學(xué)(SCAU)、廣東外語外貿(mào)大學(xué)、廣東工業(yè)大學(xué)。

我們再來看一下知乎各高校用戶的活躍程度,按每個學(xué)校用戶回答問題的總數(shù)排名:

python如何爬取知乎并做數(shù)據(jù)分析

排名依次是:武漢大學(xué)、浙江大學(xué)、中山大學(xué)、華南理工大學(xué)、北京大學(xué)、華中科技大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、西北農(nóng)林科技大學(xué)。

好了,高校分析告一段落,我們再來看看知乎用戶的各類排名。

知乎贊數(shù)最多的100位大V

下圖中詞云的字越大,表示收到的贊數(shù)越多:

python如何爬取知乎并做數(shù)據(jù)分析

我們再來一張直方圖,配合著看:

python如何爬取知乎并做數(shù)據(jù)分析

張佳瑋大大無可爭議的獲得第一名,360+萬贊,恐怖。其次是馬前卒、唐缺、vczh、肥肥貓、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎獲贊總數(shù)前五名有兩位都是作家(張佳瑋和唐缺),看來作家在知乎回答問題獲贊方面還是很吃香,果然表達(dá)能力是觀點獲得認(rèn)可的一個重要支撐 。

知乎關(guān)注者最多的100位大V

下圖詞云的字越大,表示關(guān)注者越多,看看有沒有你熟悉的大V 呢?:

python如何爬取知乎并做數(shù)據(jù)分析

同樣我們配合著一張直方圖來看:

python如何爬取知乎并做數(shù)據(jù)分析

知乎關(guān)注人數(shù)最多的前10位大V依次是:張佳瑋、李開復(fù)、黃繼新、周源、張亮、張小北、李淼、朱炫、葛巾、田吉順。這些是知乎真正的大V,關(guān)注者數(shù)量極多。關(guān)注者最多的張佳瑋有137萬粉絲(抓取時),他的粉絲還在不斷上漲,到現(xiàn)在已經(jīng)有138萬粉絲。關(guān)注者最少田吉順也有57萬粉絲,輪子哥(vczh)稍微少一些,排在第11位。

知乎回答問題最多的100位大V

這些大V在知乎很活躍…… 下圖詞云文字越大,表示回答問題數(shù)量越多。

python如何爬取知乎并做數(shù)據(jù)分析

具體的排名為:

python如何爬取知乎并做數(shù)據(jù)分析

知乎回答問題數(shù)最多的10位大V從大到小依次為:vczh、李東、趙鋼、另一只襪子、四海之內(nèi)、M3小蘑菇、kun yu、白貓轉(zhuǎn)轉(zhuǎn)風(fēng)、yskin、肛里拉出個電鋸。微軟的工作貌似很閑,看輪子哥(vczh)整天刷知乎……

我們再來加上這幾位用戶在知乎的獲得的贊數(shù),看看“回答問題的數(shù)量”和“獲得的贊數(shù)”之間有沒有什么聯(lián)系:

python如何爬取知乎并做數(shù)據(jù)分析

由上圖我們可以粗略的得出結(jié)論,回答問題的數(shù)量和獲得贊數(shù)的關(guān)系沒有很大。上圖中只有 kun yu 和 vczh 回答問題的數(shù)量和獲贊數(shù)基本持平,榜單前十名的其它用戶獲得贊數(shù)雖然也不少,但和他們回答問題數(shù)量的排名比起來,還不在一個量級上。這從側(cè)面也說明了一個問題,回答問題的質(zhì)量更加重要,某些高質(zhì)量的會更容易吸引用戶點贊。

知乎參加live最多的100位大V

我們再來看一個有意思的統(tǒng)計,知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似于直播的問答形式,大V開一場 live,分享他所在領(lǐng)域的知識,用戶買門票參與 live,是一種知識變現(xiàn)的方式)

python如何爬取知乎并做數(shù)據(jù)分析

再來看看他們最多參加過多少場 live:

python如何爬取知乎并做數(shù)據(jù)分析

最多的那個大V竟然參加過 1600+ 場 live,真的很有精力和金錢,哈哈。

看完上述內(nèi)容,你們掌握python如何爬取知乎并做數(shù)據(jù)分析的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI