你的位置:首页 > 信息动态 > 新闻中心
信息动态
联系我们

【Xpath】基于lxml库的爬虫解析汇总

2021/12/20 5:06:36

该篇文章用于记录Xpath常用的一些规则以及学习笔记


安装库

pip install lxml

导入库

from lmxl import etree

解析方式

从本地HTML文档加载到etree

import requests
from lxml import etree


parser = etree.HTMLParser()
html = etree.parse('data.html',parser)
data = html.xpath("//div[@class='title']/p")
for i in range(len(data)):
    h = data[index].get('href')
    t = data[index].text
    print(h,t)

从网页源代码加载到etree

import requests
from lxml import etree

response = requests.get(url)
tree = etree.HTML(response.text)


基础语法

以下是xpath解析过程中常见的一些语法

符号含义

表达式描述实例备注
nodename选取该节点的所有子节点xpath("//div")选取div节点的所有子元素
|xpath("//div/p|a")选取所有div元素下的p元素和a元素 / 从根节点选取 xpath("/div") 从根节点上选取div元素
//选取HTML所有的当前节点xpath("//div")选取HTML中所有的div元素
.选取当前节点xpath("./")选取当前节点下的div元素
..选取当前节点的父节点xpath("..")回到上一个元素
@选取属性xpath("//@class")选取所有的class属性

常见语法

表达式含义
//div/a[1]选取所有div元素下的第一个a子元素
//div/a[last()]选取所有div元素下的最后一个a子元素
//div/a[last()-1]选取所有div元素下的倒数第二个a子元素
//div/a[position()<3]选取所有div元素下的前两个a子元素
//div[@class]选取带class属性的所有div元素
//div[@class='name']选取带class=‘name’属性的所有div元素
//div/p[price>35.00]选取所有div元素下的p子元素,且p下的price子元素的值大于35.00
//div[@class='name']/a[2]//text()选取带class=‘name’属性的所有div元素下的第二个a子元素下的所有文本
//div/p/text()|a/li//text()选取div元素下的p子元素的文本和a子元素下的li子元素下的所有文本

模糊匹配语法

通配符含义实例含义
*匹配任何元素节点/div/*选取div元素下的所有子元素
@*匹配任何属性节点/div[@*]选取所有带属性的div元素
node()匹配任何类型的节点
//*选取文档中所有的元素

函数语法

函数用途实例含义
andxpath(‘//div[contains(@id,”a”) and contains(@id,”p”)]’)选取id值包含a和p的div节点
text()文本xpath(‘//div[contains(text(),”test”)]’)获取文本
contains获取包含xxx的元素xpath(‘//div/p[contains(@id,”test”)]’)选取div元素下包含test的id值的p标签
starts-with获取以xxx开头的元素xpath(‘//div[stars-with(@class,”test”)]’)选取div元素下以test开头的class属性的p标签

注意事项:

etree解析输出的类型为bytes,可通过etree.tostring()转换为字符串

html = etree.xpath(text)
print(etree.tostring(html,encoding='utf-8').decode("utf-8"))

参考资料:

爬虫系列 | 7、详解爬虫中Xpath的用法