溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

[ASP.NET]強大的網(wǎng)頁處理類NSoup

發(fā)布時間:2020-08-02 21:46:03 來源:網(wǎng)絡(luò) 閱讀:1104 作者:蓬萊仙羽 欄目:編程語言

我們?nèi)绻陧椖恐信龅揭幚鞨TML,如果是.NET程序員的話,強烈推薦使用NSoup,不然的話截取字符串是在是太痛苦了。NSoup是一個開源框架,是JSoup的.NET移植版本,使用方法基本一致!NSoup點擊下載

獲取網(wǎng)頁的html代碼

處理網(wǎng)頁html
[csharp]view plaincopyprint?[ASP.NET]強大的網(wǎng)頁處理類NSoup[ASP.NET]強大的網(wǎng)頁處理類NSoup
  1. <span style="font-family: Arial, Helvetica, sans-serif;">NSoup.Nodes.Document doc = NSoup.NSoupClient.Connect("http://blog.csdn.net/dingxiaowie2013").Get();</span>  

或者是自定義html,生成html頁面
[csharp]view plaincopyprint?[ASP.NET]強大的網(wǎng)頁處理類NSoup[ASP.NET]強大的網(wǎng)頁處理類NSoup
  1. NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(HtmlString);  


但是很遺憾NSoup默認(rèn)的是UTF-8,處理中文會有亂碼(對于編碼是UTF-8自然會正常,但是有些是GB2312的就可能有亂碼)

解決NSoup解析HTML亂碼的辦法

1.下載網(wǎng)頁源代碼再處理


[csharp]view plaincopyprint?[ASP.NET]強大的網(wǎng)頁處理類NSoup[ASP.NET]強大的網(wǎng)頁處理類NSoup
  1. //下載網(wǎng)頁源代碼

  2. WebClient webClient = new WebClient();  

  3. string htmlString = Encoding.GetEncoding("utf-8").GetString(webClient.DownloadData("http://www.baidu.com"));  

  4. NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(htmlString);  


2.獲得網(wǎng)頁的流



[csharp]view plaincopyprint?[ASP.NET]強大的網(wǎng)頁處理類NSoup[ASP.NET]強大的網(wǎng)頁處理類NSoup
  1. //獲得網(wǎng)頁流

  2. WebRequest webRequest = WebRequest.Create("http://blog.csdn.net/dingxiaowei2013");  

  3. NSoup.Nodes.Document doc1 = NSoup.NSoupClient.Parse(webRequest.GetResponse().GetResponseStream(), "utf-8");  



效果圖


[ASP.NET]強大的網(wǎng)頁處理類NSoup

[ASP.NET]強大的網(wǎng)頁處理類NSoup

會發(fā)現(xiàn)跟百度的源碼是一樣的


向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI