2009年互联网5大趋势之结构化的数据-互联网与数据分析

结构化的数据可以说比较适合Web开发中的数据传输，未结构化的信息将会让路于结构化的数据，为更智能的计算铺路。这也是今后互联网发展的趋势。

1、结构化的数据Structured Data

***个主要的趋势是结构化的数据，这个概念在以往有关语义网（Semantic Web）的一些演讲中，曾被引用过，但显而易见，到现在为止，结构化的数据比语义网的发展趋势更加明显。本文会分析结构化的数据在今年的发展，并且有三个产品供参考：OpenCalais, Google, Wolfram Alpha。

不是文档集，而是数据网

Tim Berners-Lee（译者注：万维网(WWW)的***，为互联网的迅速、大规模发展奠定了非常非常重要的技术基础）在二月份曾说我们现在身处一个数据网，而不是一个文档集，Tim Berners-Lee领导的组织W3C，已经大力推动了两个关键行动来建立这个数据网：语义网（Semantic Web）和最近提到的数据链（Linked Data）。

在过去的几年里，我们已经看到了有很多其他方式来建立结构化的数据，目前***的例子是Twitter，因为 Twitter 90%的访问，都是由第三方程序对其API的使用贡献的（译者注：我一开始很难理解Twitter为什么会是结构化的数据的***实例，因为Twitter里面传播的信息统统是非结构化的。但经过仔细思考，发现Twitter其实成功创造了一种使用短信息来更新状态的通讯方式，对于内容更新、状态更新类的数据来说，这的确是结构化的，更重要的是，使用范围之广，已形成事实的标准）。

数据网的基本概念仍然与由Alex Iskold在2007年3月提到的相同：“未结构化的信息将会让路于结构化的数据，为更智能的计算铺路”。

数据网

译者注：来自不同网站的非结构化信息，通过各个公司/组织提供的API，成为了结构化的数据

实例1：OpenCalais

OpenCalais

***个实例产品OpenCalais，很可能是目前***的有关数据链的产品，这是汤姆森路透（Thomson Reuters）于2008年2月发布的一个API。简单地讲，OpenCalais可以将非结构的网页内容转化为具有语义标记的数据，它可以将数据按照人物、地点、公司等分组组织。通过这种方式，第三方的程序或网站可以利用这些数据生成许多有趣的新应用——这正是数据链的基本定义。

关于数据链的更完整定义，参见Alexander Korth在2009年4月从技术角度的介绍：数据网，创建可供机器阅读的信息（The Web of Data: Creating Machine-Accessible Information），本文作者同样在2009年5月撰文：“Linked Data is Blooming: Why You Should Care”，介绍了数据链的背景与好处。

实例产品OpenCalais

译者注：非结构的文档（文本/HTML），经过OpenCalais的解析，成为了人物、公司、地点、事件等结构化的数据

实例2：Google Rich Snippets

Google Rich Snippets

今年5月，Google将结构化的数据添加到了它的核心搜索中，作为一个名为“Rich snippets”的特性出现。这个特性的本质是通过 microformats 或 RDFa 等开放的结构化数据标准，从网页中提取并展现有价值的信息（译者注：百度最近提的框计算概念，其实类似于数据链，即用户搜索到的不仅仅是网页，还有有价值的数据，比如搜索股票代码，出现的是该股票的实时行情，而不是包含该股票代码的网页链接）。在5月份发布这个特性的时候，Google邀请了内容发布者来标记他们的HTML，尽管要想这种标记广泛使用需要一定的时间，但事实上如果有Google这样的大公司的推动，正显示了结构化的数据于互联网越来越大的重要性。

搜索结果

译者注：一个英文例子，搜索结果直接包含被搜索商品的评论、价格范围

搜索结果

译者注：一个中文例子：结果直接包含被搜索到网站的Alexa排名数据

其他大公司同样***了这个方向，比如雅虎。

实例3：Wolfram Alpha

Wolfram Alpha

从 Wolfram Alpha 5月份的隆重推出到现在，作者一直在密切关注这个非常创新的产品。这个一个自描述的“可计算知识引擎 computational knowledge engine”，在一些预测中，它甚至被称为Google克星。虽然这有些夸张，但它的确有不少可能的应用。

Wolfram Alpha有个类似搜索引擎的界面，可以由用户输入自然语言。但它的主要部分是估算用户的行为，来显示合适的数据，这个产品是以使用与计算数据为前提的。如果Web2.0是产生数据（或者用户产生内容），那么下一代的互联网就是如何使用这些数据了。

总结

通过以上三个例子我们可以看到结构化的数据正快速地成为当今互联网的一个特性。像汤姆森路透（Thomson Reuters）与Google这样的公司正逐步实现数据的结构化，而更多像Wolfram Alpha这样的产品正在利用结构化的数据实现我们今天根本无法想象的功能。

译者注

为了方便理解，根据我的个人看法，这里解释一下文档、数据、结构化等词，如有谬误，欢迎指正：

文档：亦内容，可供阅读，传播。如：某产品的某个评论；某应聘人员的简历。

数据：与内容相同的是可以阅读，传播；胜于内容的是有明确分类，可供分析。如某个产品的评论分数；某应聘人员简历中的年龄，专业、工作年限。

结构化：数据结构化以后，会更易于分析，查找，抽象。如：某产品有几条评论，分数各是多少（可算出平均分，从而推断口碑***的产品是哪个）；应聘的所有人员的年龄分布、专业分布、工作年限分布。

另，我理解知识生产的过程如下：

信息（消息，新闻）提取数据转化。分析结构化数据抽象知识

所以，有了结构化的数据以后，离知识就只差一步了，所以不难想象，未来的互联网是可以自动生产知识的。

原文标题：2009年互联网5大趋势之一：结构化的数据

链接：http://www.cnblogs.com/zhubo/archive/2009/09/14/top_5_web_trends_of_2009_structured_data.html

【编辑推荐】