基于XML的数据库总体分析（下）-gbase基于什么数据库

本文我们继续介绍基于XML的数据库总体分析，首先介绍基于XML的数据库产品分类：

根据Ronald Bourret在XML Database Products一文中的描述，XML Database中包含有七种类型的产品，分别为：

1.中间件（Middleware ）

1.与XML相结合能驱动XML的数据库（XML-Enabled Databases），比如Oralce和微软都宣称在它们最新的数据库产品都都能够和XML进行无缝的衔接。

2.原始的XML数据库（Native XML Database）。

3.XML服务器（XML Servers）。

4.XML应用服务器，比如IBM的WebSphere。

5.内容管理系统（Content Management Systems）。

2.可持久化的DOM实现（Persistent DOM Implementations）

下面我们对每一种产品做一个具体的说明和介绍。

中间件：所谓中间件就是用来在XML文档和数据库之间进行处理和转化的软件。主要应用于以数据为中心的应用里面，它可以用各种各样的语言编写，一般来说它需要用到ODBC, JDBC,或者是 OLE DB. 尽管它可以通过Internet进行是数据的传输，但是一般它都是通过Web服务器来实现数据的传输。

下面我们需要考虑当把XML文档存储到数据库中，如何选择适合你应用程序的中间件。

实际上，在我们选择中间件的时候，我们要考虑下面一些因素

1.数据类型： XML不支持数据类型，也就是说，在XML文档中的所有数据都是文本，即使数据它本身代表了另外一种数据类型，比如日期或者整数。通常，数据传输中间件将把数据转化为其他类型。

2.二进制数据处理：有两种通常的方法存储XML文档中的二进制数据：未经过解析的实体(unparsed entities)和Base64编码。

3.Null类型处理：在关系数据库世界中，NULL表示该数据不存在，它和0或者是空字符串当然是不一样的。当然，XML也支持NULL的概念。如果一个可选择的元素类型或者属性是NULL的话，它就不包括在这个文档里面。当映射一个XML文档的结构到数据库或者根据数据库内容生成XML文档的时候，你需要考虑可选元素类型和属性跟可NULL的列之间的映射。

4.字符集：一个XML文档可以包含任何Unicode字符，而不幸的是，许多数据库并不支持Unicode。因此如果你的数据包括非ASCII字符的时候，需要注意数据库和中间件对这些字符的处理。

5.关于XML中的处理指令：处理指令并不是XML文档中的数据，因此中间件就很难决定如何存储它们。所以在选择中间件的时候，要看它们对处理指令的处理情况。

6.标记存储：注意不同的中间件对标记的处理是不一样的。而且在数据库中的存储模式也不同，见下面的例子：

＜description＞  
 
＜b＞Confusing example:＜/b＞   
 
＜/description＞

在数据库中存储的形式如下：

＜b＞Confusing example:＜/b＞ ＜foo/＞

这主要是因为数据库不能识别＜b＞和＜foo＞是标记还是文字。

典型的中间件有：

ADO：它可以实现数据库和XML文档之间的双向转换。XML支持把一个记录集合对象保存为一个XML文档，它也能够把一个XML文档作为一个记录集合进行处理，这样就在XML文档和数据库之间提供了一个桥梁。这种映射实际上是模型驱动的，数据可以被看成是一棵对象树，一个具有嵌套结构的树可以作为一个嵌套的记录结果集被显示，反之也是如此。另外，如果记录集合数据有变化的话，可以反映到相应的XML文档中，而XML文档中内容的变化也可以导致数据库内容的变化。

ASP2XML：主要是通过一个COM对象实现XML文档和基于ODBC或者是OLE DB的数据库之间数据的传递。该产品实际上是基于模型驱动的，把XML文档看成是一个单一的表，当把数据从数据库传递到XML文档的时候，用户指定一个SELECT语句，输出包含了ASP2XML专用的标签。当把XML文档的数据传递到数据库的时候，XML文档必须包含ASP2XML专用的标签。该COM对象是支持自动化的，也就是说它能够在剧本语言中使用，比如ASP。

3.支持XML的数据库系统(XML-Enabled Databases)：数据库提供了扩展的功能，能够在XML文档和数据库之间进行数据的传输。通常是设计成为能够存储和提取以数据为中心的文档。一般来说是把XML文档进行解析以后，存储到相应的表格中，当然，也可以存储以文档为中心的文档，也就是说把整个文档作为一个单一的表中的一个字段，然后通过文本检索机制进行查询。因为许多数据库现在能够把内容发布到网站上，基于XML的数据库和XML服务器之间的差别就变得很模糊。

典型的产品有：微软的SQL Server 2000。SQL Server2000通过三种方式支持XML技术：

1 在SELECT语句中增加了FOR XML条件子句：FOR XML条件子句有三种选择，用来指定如何把SELECT语句映射到XML上去。RAW模式指定结果集为一个表格，表格中的每一行对应一个元素，每一列对应元素的属性或者是它包含的子元素。AUTO和RAW的区别在于：行的元素名称和表格名称一致，产生的XML文档是线性嵌套的，和表格在SELECT语句中出现的顺序相对应。EXPLICIT允许你使用一系列的SELECT语句的UNION来构建一个XML文档。

2 通过XPath进行信息定位：通过模式映射的方式，也就是在XML文档的元素和属性以及在数据库中的表和字段之间建立映射关系。这里把XML看成是一棵对象树，而使用XPath的一个子集来进行查询。

3 在存储过程中使用OpenXML函数：OpenXML函数被用来提取XML文档的任何一个部分，并把它当作一个表格，然后就可以用SELECT语句中的FROM指定这个表格，并通过INSERT语句在XML文档和数据库之间传递数据。并可以用XPath来指定具体的元素或者属性。

4.原始的XML数据库（Native XML Database）：实际上，在一个数据库中存储XML文档可以有四种选择：

1.以文本形式存储整个文档，比如在关系数据库中用BLOB类型，在文件系统用文件类型。

2.在文件系统中以修改过的形式存储整个文档，比如，以压缩的形式或者事先解析过的形式。

3.把文档结构映射到数据库中，比如把DOM模式映射成为数据库中表格的形式。如何建立映射，各个数据库可以有不同的实现，。

4.把数据结构映射到数据库中，比如，把一个包含销售订单的XML文档映射到Order,Itmes,Parts和客户等表格中去。

原始的XML数据库和支持XML的数据库的区别在于原始的XML数据库一般使用方法2和方法3。而支持XML的数据库一般选用方法4。

典型的产品有斯坦福大学开发的Lore系统，它的数据库实际上是一个半结构化的数据库。所谓半结构化的例子就是我们的简历，其中既有一些结构化的信息，比如性别，年龄，通讯电话等等，也有非结构化的信息，比如个人特长等的描述。XML本身就是一个非常好的半结构化数据模式的例子，它本身是自描述的，包含了很多元数据。而且它同时可以扩展或增加新的元数据（或者说是新的字段）。

Lore是用来存储半结构化的数据库。它最开始是用来存储HTML文档数据的，但现在已经可以被用来作为XML数据库。它包括了一个查询语言（Lorel）,多索引机制，查询优化器，多用户支持，日志记录和恢复等功能，并且能够倒入外部数据。因为Lore支持半结构化，所以它也能够存储没有DTD定义的XML文档。

#p#

5.XML服务器：一般认为，XML服务器是一个提供数据服务的平台，而这里的数据就是以XML形式出现的，而这些数据主要是为分布式应用程序服务的，比如电子商务和B2B应用等。XML服务器通常包括了一个完整的应用开发环境，并通过各种数据存储方式来使应用程序可以方便的获取和使用这些数据。存储的数据包括传统的数据库数据、电子邮件信息和文件系统等等。我们知道传统的Web服务器都是基于HTML文本进行信息传送的，随着XML技术的出现，对于基于XML的Web服务器的需求也就产生了。那么到底什么是XML服务器呢？准确定义XML Server这个概念是困难的，因为这实在是一个比较新，而且概念很广泛的东西，虽然已经有许多的产品称自己为XML Server，比如DataChannel公司的DataChannel Server 4.1；Software AG公司的Tamino；Excelon公司的excelon，但在应用的范围上以及功能上，每种产品都各不相同，因此这里也就不为XML Server进行定义，而是归纳这几种产品的共同拥有的一些特点，以说明的方式来向大家解释XML Server这个概念。简单地讲，XML Server是一个提供数据的平台，它能够以XML文档的形式与分布式的应用进行数据交互。比如电子商务这一类的应用。这听上去和传统的数据库非常的相似，它和数据库一样提供数据的存贮与提取功能，但数据的格式的是基于XML的，因此在数据的处理方面，所用的是和传统数据库完全不同的技术了。

所以XML Server被认为是XML Database其中的一种，XML-enabled Server则相对来讲比较容易理解，因为它本质上就是一个Web Server，对于客户端而言，浏览Web，客户端不会感觉它和传统Web Server有什么太大的区别，但实际上Server端在对请求（REQUEST）处理方法上，XML-enabled Web Server和传统Web Server是完全两种不同的方式，这是由于XML文档与HTML文档本身的特性所决定的。我们大家都知道，XML文档是一种以数据为中心的文档，XML文档本身没有表示格式化的信息，而是通过特定的XSL或者CSS来表现，也就是说数据和表现是分离的。而在客户端提交需求后由XML-enabled Web Server将内容与形式结合后把最终结果发布给客户端的Web Server。因此这是一种胖服务器，瘦客户的模式。这种模式同微软将XSL Parser集成到IE中的设计思想是完全不同的。它的优点是能够对不同的设备浏览Web的提供各自相应的格式的文档，而不需要人工的干涉。

从另外一个角度讲，XML Server可以提供比单纯XML文档更强的管理XMl格式数据的能力，而且可以避免用传统数据库时需要进行数据转换的过程（因为XML是标准的扩展标记语言，并不是各个公司专属的技术，而数据库厂家对自己的数据库都有不同的格式，所以必须通过一些中间件进行转换），而获得高效。

当然，任何技术都不是尽良尽美的，任何一项新的技术在没有完全成熟以前都会存在许多的缺点，XML Server同XML-enabled Server也不会例外，它们分别存在下面一些缺点或问题：

对于XML Server而言：XML Server的性能如何还没有得到验证，因为它采用的是一种全新的数据组织方式，而这种方式在过去还没有得到过广泛的应用。正如我们有理由看好XML Server发展前景的同时，我们也有理由对这种没有经过大范围使用的产品持怀疑态度。我们可以看一下几种典型XML Server产品的配置需求。

DataChannel Server 4.1 在Windows环境下的硬件要求：500MHz or faster Pentium III processor with at least 256MB of RAM.

DataChannel Server 4.1 在Windows环境下的硬件要求：Sun Ultra 10 or equivalent. At least 256MB of RAM.

Tamino 在Windows环境下的硬件要求：At least 300MHZ or faster. At least 256MB of RAM.

对于XML-enabled Web Server而言：最大的问题是XML-enabled Web Server太复杂了，比较起原来用Html和传统Web Server建设Web，懂得使用XML这些先进技术的人还是太少了，而且Server的安装也显得太复杂，而开发工具则又太专业了。如何使电脑的初级用户能很快的学会使用它，是它需要解决的另外一个问题。基于XML的Web服务器体系结构如下所示：

基于XML的数据库总体分析

最后，我们看一下微软对基于XML的Web服务器的支持，它的实际实现方法是通过IIS的ISAPI扩展用以提供通过HTTP直接访问SQL Server并将查询结果形成XML返回到客户端而完成的。最简单的访问方法是直接HTTP的URL中使用SQL语句：http://IISServer/VirtualRoot?sql=SELECT+*+FROM+Customers+FOR+XML+AUTO。同时需要注意的，我们可以在URL中执行存储过程和使用xml文档模板。

6.XML应用服务器：XML应用服务器实际上是支持XML的Web应用服务器，它们通常是模板驱动的，通过在一个剧本语言中嵌入使用SQL语句来提取数据并动态构建XML文档。

7.内容管理系统：内容管理系统是用来存储、提取和装配XML文档的系统。它们通常包括以下一些特征：编辑器、版本控制和多用户并发处理，它们本身的对数据库实现对用户是透明的。它们的主要目的是用来管理文档。文档一般是以XML格式或者其他的如RTF、PDF或者SGML的形式出现的，对于非常简单的文档集合，文件系统就能够满足你的要求，但是，如果你有一个复杂的文档集合的话，你通常需要一个内容管理系统。这里的内容管理系统的含义就是说允许你把文档分割成具体的内容片段，比如例子、过程、章节或者是工具条和其他的一些元数据比如：作者名字、版本号等等。然后可以根据需要来重新装配XML文档。你也可以根据这些片段来合成一个新的XML文档。

内容管理系统通常具有下面的一些功能：

1.版本和可获取性控制。

2.搜索引擎。

3.编辑器。

4.发布引擎，把内容发布到书本、CD或者Web上。

5.内容和形式的分离。

6.通过剧本和接口进行扩展。

7.和数据库数据集成。

采用对象-关系模型，把DOM映射到数据库中，你需要为DOM中的每一个对象在数据库中建立对应的表格。一般来说，系统需要包括五个表：

1.属性定义：定义属性，包括他们的类型，合法的值等等。

2.元素/属性关联：定义哪些属性是和哪些元素相关联的。

3.内容模型定义：定义哪些元素能够包含其他的元素。

4.属性值：包含属性值和指向在属性定义表和元素/属性关联表中的相关行的指针。

5.元素值：包括元素值(PCDATA或者指向其他元素值的指针)，元素在它的父节点中出现的次数，指向包含父节点元素值所在行的指针，指向在元素／属性表中的相应行的指针。

前三个表和一个简单的ＤＴＤ是等价的，接下来的两个表包含了实际的数据。通过反复的查询后面两个表，就有可能构建ＸＭＬ文档的任意一个部分。

可持久化的DOM实现（Persistent DOM Implementations）：使用数据库来进行DOM实现的考虑是为了加快速度和避免机器内存不够，尤其是在XML文档非常大的时候。它们存储了XML文档的结构，可持久化的DOM实现能够被用来存储、提取和查询XML文档，也可以从现在的文档中创建新的文档。也就是说能够通过编程实现基于DOM的应用。

实际上，你可以在自己的应用程序中，通过编写代码来整合中间件、支持XML的数据库，原始XML数据库、XML服务器和永久DOM实现等技术。这里XML应用服务器需要你编写一些剧本代码，内容管理系统需要你做一些系统的配置。

关于XML的数据库总体分析就介绍到这里，若文章中有不妥之处，欢迎各位批评指正。

【编辑推荐】