溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么采集微信公眾號歷史消息頁

發(fā)布時間:2021-02-08 09:55:51 來源:億速云 閱讀:188 作者:小新 欄目:開發(fā)技術(shù)

這篇文章將為大家詳細講解有關(guān)怎么采集微信公眾號歷史消息頁,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

采集微信文章和采集網(wǎng)站內(nèi)容一樣,都需要從一個列表頁開始。而微信文章的列表頁就是公眾號里的查看歷史消息頁?,F(xiàn)在網(wǎng)絡上的其它微信采集器有的是利用搜狗搜索,采集方式雖然簡單多了,但是內(nèi)容不全。所以我們還是要從最標準最全面的公眾號歷史消息頁來采集。

因為微信的限制,我們能復制到的鏈接是不完整的,在瀏覽器中無法打開看到內(nèi)容。所以我們需要通過使用anyproxy獲取到一個完整的微信公眾號歷史消息頁面的鏈接地址。

__biz=MjM5NDAwMTA2MA==&uin=NzM4MTk1ODgx&key=bf9387c4d02682e186a298a18276d8e0555e3ab51d81ca46de339e6082eb767343bef610edd80c9e1bfda66c2b62751511f7cc091a33a029709e94f0d1604e11220fc099a27b2e2d29db75cc0849d4bf&devicetype=android-17&version=26031c34&lang=zh_CN&nettype=WIFI&ascene=3&pass_ticket=Iox5ZdpRhrSxGYEeopVJwTBP7kZj51GYyEL24AT5Zyx%2BBoEMdPDBtOun1F%2F9ENSz&wx_header=1

前一篇文章提到過,biz參數(shù)是公眾號的ID,uin是用戶的ID,目前來看uin是在所有公眾號之間唯一的。其它兩個重要參數(shù)key和pass_ticket是微信客戶端補充上的參數(shù)。

所以在這個地址失效之前我們是可以通過瀏覽器查看原文的方法獲取到歷史消息的文章列表的,如果希望自動化分析內(nèi)容,也可以制作一個程序,將這個帶有尚未失效的key和pass_ticket的鏈接地址提交進去,再通過例如php程序來獲取到文章列表。

最近有朋友跟我說他的采集目標就是單一的一個公眾號,我覺得這樣就沒必要用上一篇文章寫的批量采集的方法了。所以我們接下來看看歷史消息頁里面是怎樣獲取到文章列表的,通過分析文章列表,就可以得到這個公眾號所有的內(nèi)容鏈接地址,然后再采集內(nèi)容就可以了。

在anyproxy的web界面中如果證書配置正確,是可以顯示出https的內(nèi)容的。web界面的地址是http://localhost:8002 其中l(wèi)ocalhost可以替換成自己的IP地址或域名。從列表中找到getmasssendmsg開頭的記錄,點擊之后右側(cè)就會顯示出這條記錄的詳情:

怎么采集微信公眾號歷史消息頁

紅框部分就是完整的鏈接地址,將微信公眾平臺這個域名拼接在前面之后就可以在瀏覽器中打開了。

然后將頁面向下拉,到html內(nèi)容的結(jié)尾部分,我們可以看到一個json的變量就是歷史消息的文章列表:

怎么采集微信公眾號歷史消息頁

我們將msgList的變量值拷貝出來,用json格式化工具分析一下,我們就可以看到這個json是以下這個結(jié)構(gòu):

{
  "list": [
    {
      "app_msg_ext_info": {
        "author": "",
        "content": "",
        "content_url": "http://mp.weixin.qq.com/s?__biz=MzA5MzEzNDg3MQ==&mid=2652767427&idx=1&sn=37da0d7208283bf90e9a4a536e0af0ea&chksm=8b882dbbbcffa4ad2f0b8a141cc988d16bace564274018e68e5c53ee6f354f8ad56c9b98bade&scene=4#wechat_redirect",
        "copyright_stat": 100,
        "cover": "http://mmbiz.qpic.cn/mmbiz/MofBAcBsJ6X0xGrQ2XK5yQjzwb2eswxkRNBTgLtcqGziaFqwibzvtZAHCDkMeJU1fGZHpjoeibanPJ8rziaq68Akkg/0?wx_fmt=jpeg",
        "digest": "擦亮雙眼,遠離謠言。",
        "fileid": 505283695,
        "is_multi": 1,
        "multi_app_msg_item_list": [
          {
            "author": "",
            "content": "",
            "content_url": "http://mp.weixin.qq.com/s?__biz=MzA5MzEzNDg3MQ==&mid=2652767427&idx=2&sn=449ef1a874a37fed2429e14f724b56ef&chksm=8b882dbbbcffa4ade48a7932cda4263687e34fca8ea3a5a6233d2589d448b9f6130d3890ce93&scene=4#wechat_redirect",
            "copyright_stat": 100,
            "cover": "http://mmbiz.qpic.cn/mmbiz_png/MofBAcBsJ6XyaIn0qEDSSicBUBZbMYHYrhibia89ZnksCsUiaia2TLI1fyqjclibGa1hw3icP6oXeSpaWMjiabaghHl7yw/0?wx_fmt=png",
            "digest": "12月28日,廣州亞運城綜合體育館,內(nèi)附購票入口~",
            "fileid": 0,
            "source_url": "http://wechat.show.wepiao.com/detail/ff764b0731b7465db03b56b998e1f2b8?detailReferrer=1&from=groupmessage&isappinstalled=0",
            "title": "2017微信公開課Pro版即將召開"
          },
         ...//循環(huán)被省略
        ],
        "source_url": "",
        "subtype": 9,
        "title": "謠言熱榜 | 十一月朋友圈十大謠言"
      },
      "comm_msg_info": {
        "content": "",
        "datetime": 1480933315,
        "fakeid": "3093134871",
        "id": 1000000010,
        "status": 2,
        "type": 49 //類型為49的時候是圖文消息
      }
    },
   ...//循環(huán)被省略
  ]
}

簡要的分析一下這個json(這里只介紹一些重要的信息,其它的被省略):

"list": [ //最外層的鍵名;只出現(xiàn)一次,所有內(nèi)容都被它包含。
  {//這個大闊號之內(nèi)是一條多圖文或單圖文消息,通俗的說就是一天的群發(fā)都在這里
    "app_msg_ext_info":{//圖文消息的擴展信息
      "content_url": "圖文消息的鏈接地址",
      "cover": "封面圖片",
      "digest": "摘要",
      "is_multi": "是否多圖文,值為1和0",
      "multi_app_msg_item_list": [//這里面包含的是從第二條開始的圖文消息,如果is_multi=0,這里將為空
        {
          "content_url": "圖文消息的鏈接地址",
          "cover": "封面圖片",
          "digest": ""摘要"",
          "source_url": "閱讀原文的地址",
          "title": "子內(nèi)容標題"
        },
        ...//循環(huán)被省略
      ],
      "source_url": "閱讀原文的地址",
      "title": "頭條標題"
    },
    "comm_msg_info":{//圖文消息的基本信息
      "datetime": '發(fā)布時間,值為unix時間戳',
      "type": 49 //類型為49的時候是圖文消息
    }
  },
  ...//循環(huán)被省略
]

在這里還要提到一點就是如果希望獲取到時間更久遠一些的歷史消息內(nèi)容,就需要在手機或模擬器中將頁面向下拉,當拉到最底下的時候,微信將自動讀取下一頁的內(nèi)容。下一頁的鏈接地址和歷史消息頁的鏈接地址同樣是getmasssendmsg開頭的地址。但是內(nèi)容就是只有json了,沒有html了。直接解析json就可以了。

這時可以通過上一篇文章介紹的方法,使用anyproxy將msgList變量值正則匹配出來之后,異步提交到服務器,再從服務器上使用php的json_decode解析json成為數(shù)組。然后遍歷循環(huán)數(shù)組。我們就可以得到每一篇文章的標題和鏈接地址。

如果只需要采集單一公眾號的內(nèi)容,完全可以在每天群發(fā)之后,通過anyproxy獲取到完整的帶有key和pass_ticket的鏈接地址。然后自己制作一個程序,手動將地址提交給自己的程序。使用例如php這樣的語言來正則匹配到msgList,然后解析json。這樣就不用修改anyproxy的rule,也不需要制作一個采集隊列和跳轉(zhuǎn)頁面了。

關(guān)于“怎么采集微信公眾號歷史消息頁”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI