&

Asp.net/C#網(wǎng)頁數(shù)據(jù)采集

當(dāng)前位置：點(diǎn)晴教程→知識(shí)管理交流 →『技術(shù)文檔交流』

admin

2021年1月29日 18:17 本文熱度 3191

早在以前就聽說過數(shù)據(jù)采集這個(gè)神奇的功能，當(dāng)時(shí)對(duì)這個(gè)是多么的奢望啊。 ~00~，后來想要給自己開個(gè)采集的網(wǎng)站，就想到了整個(gè)電影的采集站。

在好奇的動(dòng)力下，開始瘋狂的查閱以及學(xué)習(xí)關(guān)于網(wǎng)頁采集，數(shù)據(jù)采集等相關(guān)信息。不過網(wǎng)上大部都是asp的和php的，關(guān)于.net的很少。無奈之下只要硬著頭皮學(xué)習(xí)。經(jīng)過幾天的努力，最終還是給我研究出來了。心里還是挺高興的襖。其實(shí)網(wǎng)頁采集也沒有用到什么高深的技術(shù)，都是些普普通通的技術(shù)，只不過效果比較神奇，就會(huì)讓人感覺到整個(gè)都比較深?yuàn)W，如果你想學(xué)習(xí).net的數(shù)據(jù)采集，以及思路，那么請(qǐng)看完。

數(shù)據(jù)采集大體可以分為兩部曲：

一部曲：

因?yàn)橐杉瘎e人網(wǎng)頁上的內(nèi)容，所有我們先要得到要采集網(wǎng)頁上的html代碼，獲取html代碼還是比較簡(jiǎn)單。利用WebClient的DownloadData(url)得帶byte數(shù)組，然后在轉(zhuǎn)換成string字符串。

具體代碼如下：

/// <summary>

/// 獲取網(wǎng)頁源代碼

/// </summary>

/// <param name="url">URL路徑</param>

/// <param name="encoding">編碼方式</param>

public string GetHTML(string url, string encoding)

{

WebClient web = new WebClient();

byte[] buffer = web.DownloadData(url);

return Encoding.GetEncoding(encoding).GetString(buffer);

}

二部曲：

現(xiàn)在我們得到了目標(biāo)網(wǎng)頁的html代碼，那么我們就開始時(shí)得扣取我們想要的數(shù)據(jù)。扣取數(shù)據(jù)無疑就要用到強(qiáng)大的正則表達(dá)式了。利用正則表達(dá)式的匹配來獲取我們要的內(nèi)容，這里可以過濾掉制定的html代碼，剩下的就是內(nèi)容了。

具體代碼如下：

Html html = new Html();

//得到指定頁面的html代碼，第一個(gè)參數(shù)為url(貌似都知道),第二個(gè)是目標(biāo)網(wǎng)頁的編碼集

string htmlCode = html.GetHTML("http://gvod.tom59.cn/List.asp?ClassId=3", "gb2312");

//正則表達(dá)式

Regex regexarticles = new Regex("<td\\s+height=\"\\d+\"><a\\s+href=\".+DataId=(?<id>\\d+)\"\\s+target=\"_blank\">(?<title>.+)</a>.*</td>");

//所有匹配表達(dá)式的內(nèi)容

MatchCollection marticles = regexarticles.Matches(htmlCode);

///遍歷匹配內(nèi)容

foreach (Match m in marticles)

{

Console.Write("標(biāo)題:" + m.Groups["title"].Value+"\n");