微软进军NoSQL 发布Trinity数据库

原创
数据库 其他数据库
笔者在很多文章中看见微软发布了其图数据库系统Trinity的消息,但是Trinity具体是什么样子的数据库,有什么功能只有短短几句介绍,于是笔者查看了该项目的原文地址,并加以翻译。水平有限,请大家多多指教。

【51CTO综合报道】正当我们感慨各类NoSQL数据库遍地开花的时候,老大哥微软也加入了这一阵营,最近微软发布了其图数据库系统Trinity。

笔者在很多文章中看见微软发布了其图数据库系统Trinity的消息,但是Trinity具体是什么样子的数据库,有什么功能只有短短几句介绍,于是笔者查看了该项目的原文地址,并加以翻译。水平有限,请大家多多指教。

[[20659]]

Trinity是一个图数据库,也是建立在分布存储云上的计算平台。作为一个数据库,它提供如高度并行查询处理、事务记录、一致性控制等功能。作为一个计算平台,它为大型图形提供了同步或不同步的批处理计算。Trinity可以配置在一台计算机或数百台计算机上。

图是一种具有较高表达能力的抽象数据结构。许多现实生活中的应用都可以通过图模拟,包括生物网络,语义网络和社会网络。因此,图形引擎对多种应用都是非常重要的。目前,在这个领域有:Neo4jHyperGraphDBInfiniteGraph等等。

  1. Neo4j是一个基于磁盘的事务性图数据库。
  2. HyperGraphDB是基于键/值对存储的Berkeley DB。
  3. InfiniteGraph是对大型图数据分析的分布式系统。  

2009年,google 发布了Pregel,作为其大型图处理平台。Pregel 是一个批处理系统,同时它不支持在线查询处理或图服务。对比来看,Trinity不仅支持在线查询也支持离线批处理。进一步,Pregel中的批处理是严格同步的,但是Trinity 支持了不同步计算,有更好得性能。

#p#

Trinity 的特点

  1. 数据模型:超图
  2. 分布式: Trinity 可以配置在一台或上百台计算机上
  3. 图数据库: Trinity是一个基于内存的图仓库,它有丰富的数据库特点,如:在线高度并行查询处理,ACI交易支持,等等。目前Trinity对图处理为用户提供C# APIs 。
  4. 并行图处理系统:Trinity 支持大型,离线批处理。支持同步和不同步批计算。

图模型

Trinity采用超图模型。简单图模型和超图模型之间的一个区别就是:超图中的边(称为超边)连接任意数量的节点,而在一个简单的图中边只能连接两个节点。

超图是比简单图更一般:

  1. 超图模型对许多应用程序来说更直接,因为很多关系都不是一对一的关系。
  2. 一些多边关系不能轻易通过简单图模拟出来。直接用简单图建模往往导致信息丢失。

Trinity是一个分布式图数据库

一个图形数据库应该支持一些基本的数据库功能,如查询,事务记录,并行控制和一致性维护。

Trinity支持内容丰富的图表。每个节点(或边缘)与一组数据,或者一个键/值对相关联。换句话说,在Trinity中节点和边是异构类型。

Trinity优化并发联机查询处理。当在一台机器上部署,Trinity可以在一秒钟内访问1,000,000节点(例如,当执行BFS时)。当通过网络部署时,速度是受网络延迟。Trinity提供了一个图形分割机制,以尽量减少延迟。我们在InfiniBand网络上部署了Trinity,我们将尽快报告结果。

为支持高效的网上查询处理,Trinity配置了各种索引。目前,我们提供单词查找树、访问节点/边缘名称和与节点/边缘关联的键/值对散列。我们正在实现与子图匹配的结构索引。

Trinity还支持对图的时时更新。它是事务记录,并发控制和一致性都生效。

目前,Trinity没有图形查询语言。图的访问都是通过C#的API进行。我们正在为Trinity设计一种高级的查询语言。

Trinity是一个基于图数据的分布式并行平台

很多图上操作都是以批处理模式执行的,例如: PageRank,最短路径查询,频繁子图挖掘,随机游走,图形分割等。

和谷歌的Pregel一样,Trinity支持以节点为基础的图形并行处理。通过门户网站,用户提供一个脚本(目前C#代码或DLL)来对一个节点指定计算方法,包括它把什么信息传递给相邻节点。该系统将对这些进行并行计算。

与谷歌的Pregel不一样的是,在节点上的操作没有严格要求以同步的方式进行。某些操作(例如,最短路径查询)在非同步模式下会更好的被执行。

举个例子,这是同步的最短路径搜索(伪代码C#代码)的代码,这是不同步最短路径搜索(伪代码C#代码)的代码。

我们还设计一种高级语言,使用户可以轻松编写自己的脚本。

#p#

Trinity架构

Trinity是基于云存储的。它主要使用内存存储,磁盘仅作为备份存储。

系统架构

#p#

Trinity应用

随着越来越多的应用程序涉及图形数据,我们预计Trinity将有许多应用。目前,Trinity支持以下两个应用程序:Probase(一个研究原型)和AEther(生产系统)。

 

Trinity是Probase的基础架构,它可以自动从网上获得大规模知识库。 Probase有上百万的节点(表示概念)和边(表示关系)。超图比简单图更合适对认知建模。Trinity用于:1)分类建设; 2)数据集成(如添加Freebase data到Probase),3)查询Probase.

  

Microsoft Bing的AEther项目现在使用Trinity管理AEther的实验数据,其中包括大量的工作流和工作流中的演化。Trinity是Aether工作流程管理系统的后端图存储引擎。我们正在增加更多功能,特别是子图匹配和频繁子图挖掘,从而支持该项目。

 原文链接:http://research.microsoft.com/en-us/projects/trinity/

 

【责任编辑:艾婧 TEL:(010)68476606】

 

责任编辑:艾婧 来源: 51CTO
相关推荐

2011-03-24 17:09:08

TrinityNoSQL

2011-10-09 09:38:03

OracleNoSQL

2012-03-08 09:17:45

图形数据库Trinity

2010-08-13 16:40:27

CouchDBAndroid SDKAndroid

2010-03-30 10:07:37

NoSQL数据库

2024-02-02 10:51:53

2019-03-27 14:54:05

NoSQL数据库Forreste

2021-09-28 09:25:05

NoSQL数据库列式数据库

2010-08-17 08:57:36

NoSQL微软

2019-01-21 09:26:51

数据库NoSQL Oracle

2019-03-20 15:59:11

NoSQLRedis数据库

2019-07-08 10:36:34

数据库WebNoSQL

2010-04-01 09:45:38

NoSQL

2011-07-19 09:08:50

JavaNoSQL

2024-03-28 09:00:00

NoSQL数据库

2011-05-16 10:29:44

HandlerSockNoSQL

2019-07-23 11:41:45

数据库SQLDocker

2011-04-14 11:14:21

OracleNoSQLMySQL

2011-07-13 09:58:15

HBase

2014-02-27 10:08:33

NoSQL
点赞
收藏

51CTO技术栈公众号