溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Python爬蟲怎么實(shí)現(xiàn)下載網(wǎng)易云音樂

發(fā)布時(shí)間:2022-05-27 09:49:32 來源:億速云 閱讀:226 作者:zzz 欄目:大數(shù)據(jù)

這篇文章主要介紹“Python爬蟲怎么實(shí)現(xiàn)下載網(wǎng)易云音樂”的相關(guān)知識(shí),小編通過實(shí)際案例向大家展示操作過程,操作方法簡(jiǎn)單快捷,實(shí)用性強(qiáng),希望這篇“Python爬蟲怎么實(shí)現(xiàn)下載網(wǎng)易云音樂”文章能幫助大家解決問題。

  Selenium(配置方法參照:Selenium配置)

  Chrome瀏覽器(其它的也可以,需要進(jìn)行相應(yīng)的修改)

  解析

  以前抓取過網(wǎng)易云網(wǎng)頁的朋友可能都清楚網(wǎng)易云有反爬蟲策略的,post時(shí)要對(duì)部分信息的參數(shù)完成加密函數(shù)的模擬。為了方便,入門新手也可以了解,直接采用Selenium來模擬登錄,之后用接口來下載音樂和歌詞。

  實(shí)驗(yàn)步驟:

  通過歌手id得到當(dāng)前歌手的熱門歌曲信息,歌名與網(wǎng)址,并且存儲(chǔ)到CSV文件里面;

  載入csv文件,通過音樂鏈接,獲取歌曲ID,之后借助相應(yīng)的接口,下載歌曲和歌詞;

  將歌曲和歌詞存儲(chǔ)到本地。

  Python實(shí)現(xiàn)

  這里針對(duì)幾個(gè)主要的函數(shù)來說明…

  抓取歌手信息

  通過Selenium就不用看對(duì)頁面的請(qǐng)求了,能直接從頁面源代碼中提取對(duì)應(yīng)的數(shù)據(jù),查看歌手網(wǎng)頁源代碼能夠看到在iframe框架里有我們需要的信息,因此,要先切換到iframe:

  browser.switch_to.frame('contentFrame')

  接著看下去,在id=”hotsong-list”標(biāo)簽中能看到需要的歌名以及鏈接,然后每一行對(duì)應(yīng)的是一個(gè)tr標(biāo)簽。因此先取得全部的tr內(nèi)容,然后遍歷單個(gè)tr。

  data = browser.find_element_by_id("hotsong-list").find_elements_by_tag_name("tr")

  注意:前一個(gè)是find_element,后一個(gè)是find_elements,后者返回一個(gè)列表。

  然后就是解析單個(gè)tr標(biāo)簽的內(nèi)容,得到歌名與鏈接,可以發(fā)現(xiàn)兩者在class=”txt”標(biāo)簽中,而且鏈接是href屬性,名字是title屬性,能直接通過get_attribute()函數(shù)獲取。

Python爬蟲怎么實(shí)現(xiàn)下載網(wǎng)易云音樂

  鏈接中的數(shù)字就是歌曲的id,因此我們得到歌曲id后,能夠同時(shí)從該鏈接下載歌詞,歌詞文件是json格式,因此我們還要用到j(luò)son包。

  并且同時(shí)獲取的歌詞中,每行有一個(gè)時(shí)間軸,還要用正則表達(dá)式來去除,完整代碼如下:

Python爬蟲怎么實(shí)現(xiàn)下載網(wǎng)易云音樂

  鏈接中的數(shù)字為歌曲的id,可以直接根據(jù)歌曲的id來下載音頻文件。完整代碼如下:

Python爬蟲怎么實(shí)現(xiàn)下載網(wǎng)易云音樂

關(guān)于“Python爬蟲怎么實(shí)現(xiàn)下載網(wǎng)易云音樂”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí),可以關(guān)注億速云行業(yè)資訊頻道,小編每天都會(huì)為大家更新不同的知識(shí)點(diǎn)。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI