推荐一个.Net开源库,方便通过高级API来控制Chromium 浏览器。
一、项目简介
这是一个基于 Google 开源的 Node.js 库 Puppeteer 的 .NET 开源库,方便开发人员使用无头 Web 浏览器抓取 Web、检索 JavaScript 呈现的 HTML,以及与 UI 元素交互等功能。
比如可以用来抓取网页、生成页面 PDF 或者图片、网页截屏,以及进行自动化测试等。
二、项目核心功能
- 操作浏览器:比如新开/关闭浏览器窗口核标签、返回页面、打印页面、重新加载页面等;
- 执行JavaScript脚本:执行Js代码/函数等;
- 操作Html页面:比如获取元素的属性、文本内容,插入、更改元素等;
- 模拟鼠标操作:模拟点击页面元素、双击页面元素、拖动页面元素等;
- 模拟键盘输入:输入文字、按下按键、摁住按键等;
- 页面事件:等待页面加载完毕、字体加载等事件。
三、使用示例
1、网页截屏
using PuppeteerSharp;
using var browserFetcher = new BrowserFetcher();
await browserFetcher.DownloadAsync();
await using var browser = await Puppeteer.LaunchAsync(
new LaunchOptions { Headless = true });
await using var page = await browser.NewPageAsync();
await page.GoToAsync("http://www.xxx.com");
var outputFile = "screenshot.jpg";
await page.ScreenshotAsync(outputFile);
2、生成页面PDF
using PuppeteerSharp;
using var browserFetcher = new BrowserFetcher();
await browserFetcher.DownloadAsync();
await using var browser = await Puppeteer.LaunchAsync(new LaunchOptions { Headless = true });
await using var page = await browser.NewPageAsync();
await page.GoToAsync("http://www.xxx.com");
//等待字体加载完毕
await page.EvaluateExpressionHandleAsync("document.fonts.ready");
var outputFile = "page.pdf";
await page.PdfAsync(outputFile);
3、加载页面并获取页面的所有超链接
using PuppeteerSharp;
using System;
//浏览器配置
var options = new LaunchOptions { Headless = true };
await new BrowserFetcher().DownloadAsync();
//打开浏览器
using (var browser = await Puppeteer.LaunchAsync(options))
using (var page = await browser.NewPageAsync())
{
//加载页面
await page.GoToAsync("http://www.xxx.com");
//获取所有超链接
var jsSelectAllAnchors = @"Array.from(document.querySelectorAll('a')).map(a => a.href);";
var urls = await page.EvaluateExpressionAsync<string[]>(jsSelectAllAnchors);
foreach (string url in urls)
{
Console.WriteLine($"Url: {url}");
}
Console.ReadLine();
}