一日一技:XPath 匹配如何忽略大小写?

开发 前端
GNE[1]在对新闻进行预处理的时候,会提前移除一些显然不可能包含正文的 Dom 节点,从而增加提取的准确性。

[[433146]]

GNE[1]在对新闻进行预处理的时候,会提前移除一些显然不可能包含正文的 Dom 节点,从而增加提取的准确性。

一般来说,网页的版权信息,页尾信息,会放在一个叫做<div class="footer"></div>的标签里面。所以,要用 XPath 找到这种版权信息,本来应该非常简单://div[@class="footer"]。但实际场景中,可能有两种情况:<div class="xxxfooteryyy"></div>和<div class="Footer">。

 

责任编辑:武晓燕 来源: 未闻Code
相关推荐

2021-10-15 21:08:31

PandasExcel对象

2022-11-06 21:04:49

字符串字段参数

2022-06-28 09:31:44

LinuxmacOS系统

2023-10-28 12:14:35

爬虫JavaScriptObject

2022-03-12 20:38:14

网页Python测试

2024-07-30 08:16:18

Python代码工具

2024-07-30 08:11:16

2021-05-08 19:33:51

移除字符零宽

2024-11-11 00:38:13

Mypy静态类型

2021-04-27 22:15:02

Selenium浏览器爬虫

2020-12-11 06:30:00

工具分组DataFrame

2010-10-27 17:16:51

Oracle查询

2021-04-12 21:19:01

PythonMakefile项目

2022-03-07 09:14:04

Selenium鼠标元素

2020-05-19 13:55:38

Python加密密码

2024-08-27 22:08:13

2024-02-20 22:13:48

Python项目Java

2021-02-14 22:22:18

格式图片 HTTP

2021-09-13 20:38:47

Python链式调用

2021-04-05 14:47:55

Python多线程事件监控
点赞
收藏

51CTO技术栈公众号