C#抓取网页程序的实现浅析-c# web

C#抓取网页程序是如何实现的呢？我们首先来了解在HTTP，它是WWW进行数据访问最基本的协议之一，在.NET的基本类型库类中提供了两个对象类：HTTPWebRequest和HTTPWebResponse，分别用来向某资源发送请求和获得响应。为了得到一个资源的内容，我们先指定一个想要抓取的URL地址，用HTTPWebRequest对象进行请求，用HTTPWebResponse对象接收响应的结果，最后用TextStream对象来提取我们想要的信息，并在控制台打印出来。

C#抓取网页程序的实现步骤：

第一步：打开VS.NET，点“文件”-“新建”-“项目”，项目类型选择“Visual C#项目”，模板选“Windows应用程序”，

第二步：在Form1里加入Label1，Button1,TextBox1,TextBox2四个控件，TextBox2的Multiline属性改为True,

第三步：在Form1窗体上点击右键，选“查看代码”，然后在最顶端输入：

using System.IO;   
using System.Net;   
using System.Text;   
 
private void button1_Click(object sender, System.EventArgs e)   
{   
 
}

括号之间输入下面的代码：

byte[] buf = new byte[38192];   
HttpWebRequest request = (HttpWebRequest)  
WebRequest.Create(textBox1.Text);   
HttpWebResponse response = (HttpWebResponse)  
request.GetResponse();   
Stream resStream = response.GetResponseStream();   
int count = resStream.Read(buf, 0, buf.Length);   
textBox2.Text = Encoding.Default.GetString(buf, 0,   
count);   
resStream.Close();

第四步：点“Save all”按钮，按“F5”运行应用程序，在“请输入URL地址：”后面的单行文本框里输入http://lucky.myrice.com/down.htm，点击“得到 HTML 代码”按钮，就可以看到该地址的代码了！

对上面C#抓取网页程序做一个分析：

上面的这个程序的功能是实现C#抓取网页http://lucky.myrice.com/down.htm的内容，并在多行文本框里显示出HTML代码，由于返回的数据是字节类型的，因此，我们创建一个名为buf的字节类型的数组变量来存储请求返回来的结果，其中数组的大小与我们要请求返回的数据大小有关系。首先，我们实例化HttpWebRequest对象，使用WebRequest类的静态方法Create()，该方法的字符串参数就是我们要请求页面的URL地址，由于Create()方法返回的是WebRequest类型的，我们必须对它进行造型（即类型转换）成HttpWebRequest类型，再赋给request变量。一旦我们建立了HttpWebRequest对象，就可以使用它的GetResponse()方法来返回一个WebResponse对象，然后再造型成HttpWebResponse对象赋给response变量。现在，就可以使用response对象的GetResponseStream()方法来得到响应的文本流了，最后用Stream对象的Read()方法把返回的响应信息放到我们最初创建的字节数组buf中，Read()有3个参数，分别是：要放入的字节数组，字节数组的开始位置，字节数组的长度。最后把字节转换成字符串，注意：这里采用的采用的是Default编码，它使用默认的编码方式，我们就不用再进行字符编码之间的转换了。也可以利用WebRequest和WebResponse实现以上的功能，代码如下：

WebRequest request = WebRequest.Create(textBox1.Text);   
WebResponse response =request.GetResponse();

输入其它的URL看看是不是很方便！

C#抓取网页程序的实现就向你讲到这里，希望对你了解和学习开发C#抓取网页程序有所帮助。

【编辑推荐】