01、简介
XML,一种可扩展标记语言,通常被开发人员用来传输和存储数据,定义也比较简单,通常如下方式开头,用来表述文档的一些信息。
例如下面这个简单的文档。
其中site、name、url、desc表示标签名称,内容表示标签对应的值。
因 XML 的平台无关性、语言无关性、系统无关性等特点,给系统之间的数据传输带来了极大的便利,广受开发者欢迎。
事实上,在 1996 年诞生之后,XML 逐渐成为了一种通用的数据交换格式。
不同的编程语言,解析 XML 的逻辑基本都是一样的,只不过实现的语法稍有不同。
今天我们就一起来学习一下,采用 Java 编程语言来解析 XML,有哪些方法以及对应的优缺点。
经过整理,通过 Java 程序解析 XML 文件,目前比较主流的有以下四种方式:
- DOM 解析
- SAX 解析
- JDOM 解析
- DOM4J 解析
下面我们以如下的 XML 文件为例,分别介绍每种方式的解析实现。
02、、DOM 解析
DOM 的全称是:Document Object Model,是 Java 中最早支持的一种 XML 解析方式,可以不用依赖任何第三方包,通过 JDK 提供的 w3c 包里面的 api,即可实现快速解析,代码编程简单。
DOM 解析 XML 文档的时候,会在内存中加载整个文档来构造层次结构,因此优势比较突出:
- 1.能快速遍历 XML 中任意节点数据,同时允许应用程序对数据和结构做出更改
- 2.可以在任何时候在树中上下导航,获取和操作任意部分的数据
当然也有缺点:
- 加载小的 XML 文档问题不大,加载大的 XML 文档,内存消耗会很大,有内存溢出的风险
总的来说,DOM 解析方式,对于数据量比较小的 XML 文档,基本够用。
实现过程如下:
运行结果如下:
03、SAX 解析
SAX 的全称是:Simple API for XML,也是 JDK 提供的另一种 XML 解析方式。
相比于 DOM,SAX 每次解析只在内存中加载 XML 文件的一小部分,即使针对较大的 XML 文件,它也不需要占用太多的内存,也不会存在内存溢出的问题。
优点如下:
- 采用事件驱动模式一段一段的来解析数据,占用内存小
- 只在读取数据时检查数据,不需要保存在内存中
- 效率和性能较高,能解析大于系统内存的文档
当然也有缺点:
- 与 DOM 解析器相比,使用 SAX 解析器读取 XML 文件时,解析逻辑比较复杂
- 同时无法定位文档层次,很难同时访问同一文档的不同部分数据,不支持 XPath
实现过程如下:
运行结果如下:
04、JDOM 解析
JDOM 是 Java 生态中一个非常优秀的 XML 开源文档解析库,你可以把它看成是 DOM 及 SAX 的结合版,同时在设计上弥补了 DOM 及 SAX 在实际应用当中的不足之处。
优点如下:
- 基于树的模型处理 XML 文件,数据会加载在内存中
- 没有向下兼容的限制,因此比 DOM 简单
- 速度快,缺陷少
- 具有 SAX 的解析特征
- API 比 DOM 更容易理解
当然也有缺点:
- 能处理大于内存的 XML 文档
- 不支持与 DOM 中相应遍历包
总体来讲,JDOM 对于大多数需要使用 XML 应用程序来说还是非常实用的。
实现过程如下:
运行结果如下:
05、DOM4J 解析
DOM4J 也是 Java 生态中一款非常非常优秀的 XML 开源文档解析库,是 JDOM 的升级品。
最初,它是 JDOM 的一种分支,后来合并了许多超出基本 XML 文档表示的功能,最后单独作为一工具对外发布。
优点如下:
- 性能优异,功能强大,极端易使用
- 开发简便,同时也提供了一些提高性能的代替方法
- 支持 XPath
唯一的缺点:
- API 过于复杂
实现过程如下:
运行结果如下:
06、小结
最后总结一下,目前许多开源项目中大量采用 DOM4J,例如 Hibernate 框架中就用到 DOM4J 来读取 XML 配置文件,连 Sun 的 JAXM 也在用 DOM4J。
因此对于需要使用 XML 解析工具,如果项目中没有什么包袱,首选 DOM4J。
对于一些已经在项目中用到的 XML 解析工具,如果不考虑移植性问题,也可以改成 DOM4J 来实现,当然具体问题具体分析,如果迁移成本很高,以前的工具依然能正常运行,也没必要进行迁移。总之就是,适合的才是最好的,是否值得迁移,需要评估资源成本和时间以及必要性。