您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關(guān)如何用Python提煉3000英語(yǔ)新聞高頻詞匯,小編覺(jué)得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。
以下為3000高頻詞匯的提取過(guò)程,如需最后的單詞庫(kù),直接拉到文末。
1.爬取ChinaDaily全站網(wǎng)頁(yè)URL
2.請(qǐng)求爬取的URL并解析網(wǎng)頁(yè)單詞
3.對(duì)單詞文本文件進(jìn)行詞頻處理
結(jié)果為:
單詞總數(shù) 3537063 單詞個(gè)數(shù) 38201 去除停用詞的單詞總數(shù): 2603450 去除停用詞的單詞個(gè)數(shù): 38079
部分單詞及詞頻為:
('online', 8788) ('business', 8772) ('society', 8669) ('people', 8646) ('content', 8498) ('story', 8463) ('multimedia', 8287) ('cdic', 8280) ('travel', 7959) ('com', 7691) ('cover', 7679) ('cn', 7515) ('hot', 7219) ('shanghai', 7064) ('first', 6941) ('photos', 6739) ('page', 6562) ('years', 6367) ('paper', 6289) ('festival', 6188) ('offer', 6064) ('sports', 6025) ('africa', 6008) ('forum', 5983)
最后得到一個(gè)包含3000個(gè)高頻詞匯的txt文本文件,大家可以將其導(dǎo)入到各大單詞軟件的單詞本中。
以上就是如何用Python提煉3000英語(yǔ)新聞高頻詞匯,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。