1.快速入门
- 导入jar包:https://jsoup.org/download
- 获取Document对象
- 获取对应的标签Element对象
- 获取数据
1 | public class demo1 { |
2.对象
Jsoup:工具类,可以解析html和xml文档,返回Document
- parse(File in,String charsetName):解析xml或html文件
- parse(String str):解析xml或html字符串
- parse(URL url,int timeoutMillis):通过网络路径获取指定的xml或html文档
Document:文档对象,代表文档中的dom树
getElementById(String id):根据id属性值获取唯一元素对象
getElementsByTag(String tagName):根据元素标签名称获取元素对象集合
getElementsByAttribute(String key):根据元素属性名称获取元素对象集合
getElementsByAttribute(String key,String value):根据属性名和属性值获取元素对象集合
Elements:元素Element对象的集合
- 获取子元素对象
Element:元素对象
- 获取属性值
- String attr(String key)
- 获取文本内容
- String text():获取文本内容
- html():获取标签体的所有内容,包括子标签
- 获取属性值
Node:节点对象
- 是Document和Element的父类
3.查询方式
selector:选择器
- Elements select(String cssQuery)
- Jsoup文档中参考selector类中定义的语法
1
Elements select = document.select("student[number='stu1'] > age");
XPath:
- XML路径语言,确定XML文档中某部分位置的语言
- 导入jar包
- 根据document对象,创建JXDocument对象
- 查询w3cshool参考手册,使用xpath的羽凡完成查询
1 | public class demo3 { |