C#抓取网站网页爬虫示例代码

当前位置：点晴教程→知识管理交流 →『技术文档交流』

admin

2024年10月15日 22:28 本文热度 497

在C#中创建一个爬虫（Web爬虫或网络爬虫）通常需要涉及以下几个主要步骤：

发送HTTP请求：使用HttpClient类发送HTTP请求（GET、POST等）到目标网站。
解析HTML内容：使用HTML解析库（如HtmlAgilityPack或AngleSharp）解析返回的HTML内容。
提取数据：从解析后的HTML中提取所需的数据。
存储数据：将提取的数据存储到文件、数据库或其他存储介质中。
处理异常：处理可能出现的各种异常（如网络错误、HTML格式错误等）。

以下是一个简单的C#爬虫示例，它演示了如何获取一个网页的标题并打印出来：

示例代码

1.安装必要的NuGet包：

你可以在Visual Studio的“NuGet包管理器”中搜索并安装这些包，或者使用以下命令在NuGet包管理器控制台中安装：

HtmlAgilityPack：用于解析HTML内容。

Install-Package HtmlAgilityPack

2.编写爬虫代码：

using System;  using System.Net.Http;  using System.Threading.Tasks;  using HtmlAgilityPack;   class Program  {      static async Task Main(string[] args)      {          // 目标URL          string url = "";           // 使用HttpClient发送HTTP GET请求          using (HttpClient client = new HttpClient())          {              try              {                  // 发送请求并获取响应                  HttpResponseMessage response = await client.GetAsync(url);                  response.EnsureSuccessStatusCode();                   // 读取响应内容                  string responseBody = await response.Content.ReadAsStringAsync();                   // 使用HtmlAgilityPack解析HTML                  HtmlDocument htmlDoc = new HtmlDocument();                  htmlDoc.LoadHtml(responseBody);                   // 提取网页标题                  var titleNode = htmlDoc.DocumentNode.SelectSingleNode("//title");                  if (titleNode != null)                  {                      string title = titleNode.InnerText;                      Console.WriteLine($"网页标题: {title}");                  }                  else                  {                      Console.WriteLine("未找到网页标题。");                  }              }              catch (HttpRequestException e)              {                  Console.WriteLine($"请求错误: {e.Message}");              }              catch (Exception e)              {                  Console.WriteLine($"错误: {e.Message}");              }          }      }  }

解释

HttpClient：用于发送HTTP请求并接收响应。
HtmlAgilityPack：用于解析HTML文档。
SelectSingleNode：使用XPath表达式查找HTML中的特定节点（在此示例中为<title>节点）。
异常处理：捕获并处理可能出现的异常，如网络错误或HTML解析错误。

注意事项

遵守robots.txt：在编写爬虫时，应遵守目标网站的robots.txt文件规定，该文件指示哪些页面可以被爬虫访问。
合理设置请求频率：避免过于频繁地发送请求，以免对目标网站造成负担。
处理动态内容：如果目标网站使用JavaScript生成动态内容，可能需要使用更复杂的工具（如Selenium）来抓取这些内容。

该文章在 2024/10/16 9:21:16 编辑过

关键字查询

正在查询...

点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。

点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理，结合码头的业务特点，围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体，是物流码头及其他港口类企业的高效ERP管理信息系统。

点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。

点晴免费OA是一款软件和通用服务都免费，不限功能、不限时间、不限用户的免费OA协同办公管理系统。