本文和大家重点讨论一下如何利用Perl解析XML文件,Perl的核心库包括多个支持XML的模块。这篇文章就关注于一个最早期且涉及最频繁的核心模块:XML::Parser.
利用Perl解析XML文件
当在Perl中使用XML时,你会有将近五百个CPAN模块可以选择,每一个都支持整合Web服务的不同方面。此外,Perl的核心库包括多个支持XML的模块。这篇文章就关注于一个最早期且涉及最频繁的核心模块:XML::Parser.
XML::解析器系列
最初的Perl解析器XML::Parser::Expat由LarryWall在几年前编写并由ClarkCooper保持延续。模块作为ExpatXMLparser的界面由JamesClark用C语言编写且已经被一些脚本语言所采用。
Expat是一个以事件为基础的解析器,意味着特定条件触发处理功能。例如,一个开始或结尾标记将触发适当的用户定义子程序。XML::Parser模块在Expat功能的基础上为普通应用所建构。
注意Expat在解析之前不会使XML生效且在遇到错误出现时会失效。这些限制会使XML::Parser模块速度非常之快。
XML::Parser简介
任何人都可以在Perl中编写一个XML解析器。毕竟你只是处理具有已知格式的文本。但由于XML::Parser模块是用C编写的,他比任何你可以实现的纯Perl应用要更有效的多。而且既然他已经被编写出来,你就可以把时间花在其他更有用的事情上。
XML::Parser的Expat的功能允许你定义所使用的解析器的样式。最普遍使用的样式是Tree和Stream,Tree处理XML的输入,创建含有文件中的元素和数据的成套数组,这样你就可以按照你的意愿控制这个结构。Stream将分析行为划分层级,在一个事件的开始做处理,要使用Stream,你必须在你对模块做例示并将其与描述事件出现时如何处理的子程序相关联时定义处理器。
其它样式还包括:Sub,允许你特定地对一种XML标记定义其功能。Debug,将文件显示未标准输出。Object,与Tree相似但是返回对象。你也可以通过在XML::Parser类中定义一个子类来设定一个客制样式。#p#
Perl解析XML文件一个例子
这个例子中,我将使用XML::Parser类来创建一个Stream解析。我将带出一个将XML文件解析为标准输出的简单脚本程序,你可以在表A中看到脚本程序(xmlparse.pl),在表B中看到XML文件(data.xml)。这里,由于这是一个命令行脚本,我选择不解析URL元素。要执行这个脚本程序,在命令提示下,键入:
perlxmlparse.pldata.xml
脚本先参照适当的模块:
useXML::Parser;
接着,从命令提示输入抓取文件:
- my$xmlfile=shift;
- die"Cannotfindfile\"$xmlfile\""
- unless-f$xmlfile;
脚本设置一些初始变量:
- $count=0;
- $tag="";
然后是创建解析器实例:
my$parser=newXML::Parser;
现在我们定义事件处理器。我设置了开始标记,结束标记,特性数据的处理器。而仅仅因为是例子,我还加入了一个缺省处理器,它将对全部进行解析而不被其他事件处理器的定义所明显覆盖。如果你计划丢弃额外数据,缺省处理器将自动执行而不需要定义。
- $parser->setHandlers(Start=>\&startElement,
- End=>\&endElement,
- Char=>\&characterData,
- Default=>\&default);
脚本的主要部分通过指示解析器实例而变得紧凑来通过XML数据文件:
$parser->parsefile($xmlfile);
剩下的就是定义在每个事件情况下如何进行处理。
当脚本程序遇到一个开始标记时将执行这个子程序,这在上面的setHandlers方式中进行了定义。我选择跳过去并显示每个元素中我感兴趣的文本。
接下来我定义的变量自动地被XML::Parser模块所传递。对于开始标记处理器,这些变量代表解析器实例,标记名和标记可能会有的属性数组。如果标记没有属性,则一个空数组将被传递至子程序。
- substartElement{
- my($parseinst,$element,%attrs)=@_;
- SWITCH:{
- if($elementeq"article"){
- $count++;
- $tag="article";
- print"Article$count:\n";
- lastSWITCH;
- }
- if($elementeq"title"){
- print"Title:";
- $tag="title";
- lastSWITCH;
- }
- if($elementeq"summary"){
- print"Summary:";
- $tag="summary";
- lastSWITCH;
- }
- }
- }
在XML数据文件中遇到一个结束标记,endElement子程序就会被调用。这里,我要提供一些线中断。在这里被XML::Parser所传递的变量是解析器实例和标记名称。
- subendElement{
- my($parseinst,$element)=@_;
- if($elementeq"article"){
- print"\n\n";
- }elsif($elementeq"title"){
- print"\n";
- }
- }
由于我们处在命令行,我使用特性数据处理器来去掉可能已经包括在XML数据文件中的任一行和标签格式并选择显示内容(如果他来自一个标题或摘要标记)。
- subcharacterData{
- my($parseinst,$data)=@_;
- if(($tageq"title")||($tageq"summary")){
- $data=~s/\n|\t//g;
- print"$data";
- }
- }
最后,我定义了一个子程序来处理所有可能遇到的其它类型的元素。其中包括特性编码定义,文件类型定义和评注。所有不被开始标记,结束标记和特性数据事件处理器所明确覆盖的都包括在这里面。
- subdefault{
- my($parseinst,$data)=@_;
- #youcoulddosomethinghere
- }
小结
你对XML::Parser的Expat功能熟悉之后,你可以将其作为接触几百个可用的CPANXML模块的跳板。我们这里的Stream样式是唯一一个可用的XML::Parser模块中的解析类型。你可能会发现其他的会更适合你的工作任务。Perl几乎从第一个工程方案推出时就具有XML功能,不论你的需要如何,他都是一个很好的选择。
【编辑推荐】