RSA中国大会郑纬民:云存储安全

安全
从不懂安全的人的角度来讲怎么做安全的问题。我大概讲五件事情:需求与状态;问题;关键技术,我们做系统的人来说,数据中心安全的问题,包括权限的管理,访问控制,分布式文件系统;我们做的工作情况。困难和究竟我们想得到什么。

【51CTO.com 综合报道】2010年10月21日,RSA2010大会在北京召开,期间分为了多个分会场进行了不同主题的精彩演讲。51CTO作为特邀媒体,对大会进行了相关报道。更多内容请参阅RSA 2010信息安全国际论坛专题报道。大会中,各个领域的专家都来进行了安全方面的演讲和沟通。下面就是清华大学计算机教授郑纬民先生带来的精彩演讲,主题是《云存储安全》。

郑纬民:大家下午好!很高兴来参加这个会。实际上这是安全的会议,我不是做安全的,怎么来讲安全问题?最近一段时间我在做系统,比如我们最近在做云计算、云存储,发现安全问题非常重要,因此我们就来做做安全。

作为一个数据中心,安全的数据中心一些关键技术研究。从不懂安全的人的角度来讲怎么做安全的问题。我大概讲五件事情:需求与状态;问题;关键技术,我们做系统的人来说,数据中心安全的问题,包括权限的管理,访问控制,分布式文件系统;我们做的工作情况。困难和究竟我们想得到什么。

背景

郑纬民:海量数据爆炸性成长,数据非常多,多得不成样子,都是TB形式增加,全球10倍增加,中国30倍增加,反正数据很多。海量数据都是异构的,有不同种种类,结构分布是复杂的。来访问数据的人很多,全球访问。数据成为很关键的资源,现在数据很值钱,因此怎么保护它,怎么让它可靠,安全问题、可靠问题、保护问题,这些问题都提出来了。现在数据中心时代已经到来了,特别是最近一年,我这一年多时间,关于云计算、物联网在我们国内提起的次数最多,实际上我体会的云计算就是要建一个计算中心,物联网最后把数据也放在数据中心。因此不管物联网也好,云计算也好,都要建一个数据中心,这两个是一码事。数据中心要建好了以后,安全性就凸显出来了。因此我们说的数据中心是安全的数据中心。

研究背景

郑纬民:云计算,大家说的很多,有它很好的一面,也有炒作的一面。云计算有可能成为未来的一种计算模式。数据中心是物联网的一个基础设施。

什么叫云计算?云计算可能有100多种定义,各种各样的人定义是不一样的。那么,我理解的云计算是指你不要买计算机了,不要买存储器了,不要买软件了。有一个单位要买,他买了计算机、买了存储器、买了软件,一般的人,一般的单位就不要买了,你提一个请求给数据中心,就把这个事情办成了,然后把结果给你,你付一笔钱。这就是云计算。因此我们说云计算这件事情需要一个数据中心,数据中心越来越大,因为都不卖机器了,北京市就几个数据中心,数据也很大,所以这个问题很重要。

数据中心对我们中国人来说也是非常重要的。一般的单位、一般的人,不买机器了,不买存储器了,有一个数据中心是大家共享的。还有一个特点,就是跨国的,数据中心不一定在北京,有可能在纽约,在美国,也有可能在法国。因为数据中心可以跨国的,所以安全特别重要。现在我们做关于数据中心安全的问题,有几个比较重要的国外企业本事比较大,比如EMS、谷歌、微软等等,都是做安全中心比较好的。

我们国家对金融业也好,能源也好,工业、农业、科学、健康等等方面需要开发自己的安全的数据中心。如果把数据放在纽约,把数据放在伦敦,总觉得心里不太安全,要自己做一个安全的数据中心,怎么做?我列了几个国外的情况。

2008年,欧盟花了170亿欧元来做项目,2009年,美国NFS和一些公司用10亿美元做云计算平台。2009年美国政府开始做云计算项目。美国圣地亚哥大学做异步数据存储,有很多研究。我感觉没有一个专门的研究题目重点放在安全方面的。我们中国自然科学基金做了一些大规模网络存储管理、网格和数据网格,新的存储媒体等等。科技组织的863项目,也是做大规模存储。973项目,做基础研究。

其中,清华大学,我所在这个所做了清华大学云存储。所有公司方面也有,IBM在无锡做了一个云中心。总的说来,专门做安全方面的数据中心少一点。

清华大学做了存储云,这个云实际上也是一个数据中心。这个数据中心分三个框。

1.中间,是个人用户,这朵云对外面来说是个人用户,现在有1.6万个个人用户在我们这儿注册,我就给他2个G空间,是我这朵云的用户我就给你2个G空间,一共有1.6万人。

2.左边,集团用户,比如我们清华大学教务处,一注册以后,就给他400G或者300G的空间教务处里面有十来个老师,这些老师共享这400G的空间,里面所有的文件是共享的。我们现在集团用户有200、300个,有1.6万个个人用户。

3.右边,公共用户,不用注册就可以,里面放着40T讲课录像带,高等数学、计算机原理等课的录像带都放在里面。

我们现在有100T的存储器,这些存储器就给我们清华大学1.6万个个人用户放东西,还给几百个集团客户放东西,我们还有很大比例放公共用的上课录像和软件。这朵云就是我们清华大学老师跟学生注册就能用,不是注册用户也可以看录像带方面的内容。

我们这朵云的个人界面,跟原来计算机的界面基本差不多。计算机的界面打开以后有C、D、E盘,现在又增加一个盘,叫做个人空间,这个个人空间实际上给你4个G空间,来E、C、D、E盘就在你个人笔记本上,现在这4个G空间在数据中心里,实际上这个盘在云上,这4个G空间可以放你的PPT,可以放你的Word,也可以放你的照片,什么东西都可以放,只要有什么地方能上网,就能找到它,因此我在学校里一直说,我们1.6万人,每个人都给他2个G的空间,其实我今天来报告的时候,我的PPT不应该拿来,但前提是这个计算机能上网,我一上网就上到我的云里,我的云里有我的PPT,就拿来了。我现在到美国去也好,到上海去也好,取出一个报告,不要拿U盘,也不要拿计算机,只要有上网的地方,上这个云,上我的空间,里面有4个G的PPT,我提来用就行。现在只要能上网,这朵云里找到我想要用的PPT。实际上云存储对于公司来说也很好,因为计算机做成没有U盘的接口,拷贝都拷贝不走。#p#

结构

郑纬民:假如,我有100T容量的硬盘,放在三个位置,有的在我们清华大学东主楼,有的在清华大学非主楼。现在100T,因为这个东西不要太可靠的硬盘,20T容量的硬盘加上一台计算机,5万人民币就可以买来了,你一打电话,中关村马上给你送来。我们差不多几个月就改一改,不行,再打一个电话,就变成140T,前提是一定要做到可扩展,很容易把它加上去。

你听我说了以后,你就能感觉得到清华大学的一朵云,这朵云专门是硬盘的云,可以放数据,也可以拿数据走。那么问题在哪?问题就是安全性。

现在1.6万用户,我们做过调查,往里面放的数据重要不重要?实际上大多数人放的数据不重要。为什么不重要?他害怕,怕两件事情。我们做系统的人来说,什么是安全:

1、数据别丢了。

2、放的数据不能让别人看,不能拿走也不能看。

如果做到这两件事情,我们从做系统角度来说,我觉得就是安全的。

第一件事情,我们有办法,我们做系统的人最会解决第一件事,就是数据别丢了,我们做得到,做起来不麻烦。给你2个G、4个G空间,我放5张照片存在里面,同时旁边两个硬盘里面有复制,就是不能存一份,多存两份,总不会都一块丢了吧,这概率就低了。实在不行,我在天津还做一个异地备份,北京丢了,天津还有。因此我们做系统的人很会这一套办法。

第二件事情,怎么别让人家看了,别让人家拿走了,这件事情我们原来不会,因此我觉得有关的工作,数据中心安全上面有五件事情:

1、访问控制。

2、数据加密以后装进去,或者传输的时候加密。

3、存储系统本身的安全。刚才复旦大学陈海波教授提到,我们有EMC,复旦大学、华东科技大学、清华大学,四家单位一块做道里系统,道里系统实际上就是保证不让系统程序员看。

4、可靠性。我们做一个分布式文件系统,比如GFS、容灾,清华大学也做了一个数据容灾,中科院计算所也做容灾,这些事情大家都得做。

最开始的出发点是这样的,存储的硬盘跟所有的数据是分开的,其中的问题出在这里:你的数据放在数据中心,这5张照片所有权是你的,这个数据中心的硬盘是某一个单位老板的,因此这个照片跟存储的硬盘所有者是分开的。外国人也这样,都喜欢这个东西放在我边上的硬盘里,安全一点,放到数据中心里,感觉很麻烦。因此怎么样让客户相信数据中心给他数据存储、管理是安全的。

清华大学已经做了一个云存储,我们大学1.6万人左右,现在在很多地方都有存储公司,我觉得基本上没有人放东西。如果安全问题不解决,谁去放,不要钱的可以去放,放的都是没有太多用处的。要钱了,没用途也不放了。如果不安全,不要钱更不放。因此我们怎么做?

1、对管理来说,就是要做好用户的认证跟用户的授权、访问控制。

2、可管理、可控制。访问数据的时候,整个操作过程都被记下来,有案可查。对用户来说,有隐私保护,不能让别人看到,包括系统管理员。可靠性,不要丢掉,这是很重要的事情。

访问控制,我们跟别人不一样,基于交换机来做。过去更多的人是你进来了,在计算机上做访问控制,我们在交换机上做。这就是一个防盗门。另外一个叫做路径控制,假如说防盗门对他来说是可以进来的,允许他进来。因为数据中心很大,进来的时候,让他进到合适的地方去。比如数据中心里有1000个机器,他进来的时候要访问我的读写,他只是第一个硬盘的读写,他进来的时候只有第一个硬盘让他进去,其他硬盘都不让他进去。因此给它指定了一条路,虽然他有访问权利,但是只能走这一条路。这是权限管理方面的事。

可管可控,我们把所有访问操作跟数据都记下来,有案可查,一出问题可以查到它。

隐私保护,我们跟EMC、复旦大学、华中科技大学、清华大学一块做道里,做一个数据进程的保护,就是副本管理。继我们分布式文件系统做了一个副本管理。你怕丢了,做两三个拷贝就不会丢了。

清华大学的数据中心安全方面究竟怎么做的?下面是数据中心,上面是交换机。上面叫分布式文件系统,分布式文件系统大概有四大部门组成,最上面左边叫Clients,不是客户用的,我们分布式文件系统里的Clients。Supervisors,专门做管理和监控。最底下的是数据服务器。这里要注意,一个文件来了,分成一块一块的,分好以后不是连续放在一起,放在不同硬盘里。一个文件分成好几块,放在不同硬盘里,因此这里也有安全的问题,人家把你这几块偷走了,但是需要凑在一块才行。

这个原数据管理器,一个文件分很多块,都放在这里。因此这三个东西比较重要,这三个东西一定要保护好。这个文件一共分成五块,第一块放在哪个硬盘,第二块放在哪个硬盘,都在这里记着,如果把这个东西偷走就麻烦了,因此要把这三个东西保护起来。

第一件事情,做的是Clients Door,就是防盗门,进到数据中心之前,先由它来把关,否则不让你进去。

第二件事情,即使你能进来,我要给你指定一条道,只许你走这儿,数据走这儿,不许让他进这儿,给它指定,它在哪,只能访问这个东西。

第三件事情,这三个地方不能重要,我们要做进程控制。这里面的数据是打碎的,碎了以后,偷走了要拼在一块也不容易拼。

内存、CPU,CPU要访问内存,访问当中有可能数据被人家拿走,管理员可以看了。这些数据要保护,别让人家看,每次这个数据跟内存打交道的时候,机器加密。加密以后,管机器的人就看不了了。 I/O MMU进来也是,这个数据进来,我要保护,不让管理员看的就加密。比如一个应用程序要写进去,进到道里以后,原来这个数据进来是明文数据,就是看得见的数据。进入道里以后,把它加密,加密以后,把它写到硬盘里去。读的情况,从硬盘读出来以后,道里要把它检验,再给他,是这样一个过程。原来的数据往内存写,输出的时候没有保护,管系统的人和能看能控制的,现在我们做虚拟机,现在装的Linux变成虚拟机的应用软件,我做了一个加密以后谁都看不了了。加了这个东西以后,究竟有没有开销。我们做一个实验,700M大小的文件,写进去以后,如果没有道里,不需要保护的话,大概计算机用的是3.56%,每秒11M,不如果加了加密传输这个动作以后,大概15.39%,因为这个传输没有开销,再加上道里大概是19.15%,因此道里的开销是4%点多,不是非常大。这是服务器端。客户端也一样,100kb大小的文件,它的开销大概也是增加4%。我觉得这件事情还可以接受。我们还没有做太多的优化,我们优化做得好一点的话,还能把它做好。

访问控制方面我们做了一个防盗门,它走专用通道,你去三楼只能进三楼。数据保护,做一件事情不让别人看,管机器的人都看不了。我们做分布式文件系统,放在不同的地方,文件打碎以后,偷走了,要加在一块也很难。我刚才说的事情基本都做了,道里是我们几家一起做的,已经用在清华大学云存储系统上。

做这件事情很困难,很麻烦。数据管理,怎么专门走一条道,数据进程保护等等都很难。做完道里以后,我们试了一下,我们有一个实验课,有这个办法把数据保护起来了,机器管理人也看不了,我们给学生布置一个作业,想办法看到,谁看到分数就高,到现在为止还没有人能看,因此还是有效果的。

我从这几个角度说说云计算需要数据中心,数据中心一定是安全的,否则数据中心放在那是没有人用的。我从系统角度来看,数据中心要做这些事情,否则数据中心做不好。道里这个思想还用在我们另外一个智能手机项目,手机访问互联网非常重要,现在手机用户很多,手机有三个问题:

1、很容易丢,丢了以后,地址薄没有了,原来的短信也没有了,这是很麻烦的事情。

2、费电。

3、网络有时候断断续续。

因此我们在手机上想了一个办法,另外做了一个数据中心,不但手机有了,还有数据中心,数据中心里有存储器,把你的短信,把你的地址薄放在那边,你手机丢了没事儿,再买一个手机,数据中心地址薄一下就传过来了,我们也做好了。春节的时候,我的学生做好了给我看,我觉得很好。从今天开始你们都用这个手机,但是他们不愿意,说我女朋友给我的短信,管机器的人看得见,于是我们就把道里用起来,让管理人员也看不了。

郑纬民:其实我这次演讲主要就讲了两个问题:

1、数据中心非常重要,肯定是一个方向。

2、数据中心安全没做好,数据中心相当于白做。从我们做系统的角度来说,第一要安全,不要丢;第二不要让别人看。 #p#

提问环节

提问:麻烦您把道里系统再给我们详细展开讲一下。

郑纬民:我们原来说这个机器的系统管理员有特权,可以看任何东西,现在我们装操作系统之前先装一个虚拟机的操作系统,这样一来,原来的windows成为我们虚拟机操作系统的应用软件。原来你要装windows操作系统,管机器的人就能看所有在他控制下的东西。现在装一个虚拟机的操作系统,这个系统装完了以后,直接把windows装进去,windows就变成这个虚拟机的操作系统的用户层,管windows操作系统的,因此用户层就看不了了。

提问:现在我的理解这个数据放在存储器里是明文的存储,刚才您说在加密的时候,从CPU到内存的时候,是通过加密,这个加密的密钥是谁的密钥?是服务器的密钥还是用户的密钥?

郑纬民:往数据中心放的数据,根据你的要求,可以加密,也可以不加密。如果这个东西本来就是公开的,就不要加密,如果这个东西你要保护,道里把你数据做了一个加密东西,它可以控制这个事情。

EMC中国实验室首席科学家毛文波:有密钥管理的策略,可以是用户的,也可以是系统的,如果您需要保护的话,有两种情况,用户之间可以。SSL,可以想到是客户端到服务端已经保护了,而这个时候保护一直保护到内存的区域,而不是保护到端,因为每一个用户都有一个ID,实际上是一个硬件在北桥上面做一个控制,使得任何一个I/O都可以得到隔离,如果I/O得到隔离以后hypervisor能够认的出来,就可以让你的密钥管理直接管理到内存,这个时候就可以想象这是用户密钥管理的策略。

反过来也会看到道里本身还有需要保护的方案,就是系统保护。比如系统崩溃了,有一个cheatpiont,也就是系统为了系统重启,把这个状态也要保护系统,这个保护应该是系统的密钥的管理策略,或者如果你需要安全,它就会用很好的方法给你保护,关键是内存的隔离加上I/O的隔离,I/O隔离用到VTD, I/O MMU的方法。

郑纬民:我们现在买的CPU,都有一个VTD,硬件做好了,有了这个东西,我们上面做一个虚拟机的操作系统,然后就可以做这件事。现在VTD,一般CPU都有了,我们也做了一个CR系统也可以用到,我们可以做进一步优化。这个路是通的,大家一块努力来做这件事情。

提问:如果用到智能手机里,智能手机硬件平台也得支持?

郑纬民:就是我把智能手机地址薄放在数据中心,数据中心里的地址薄和短信别让人家看了,道里也可以用在这个地方。

提问:我来自中国人民大学,想问两个问题,第一个问题是您的系统跟谷歌里面有一个GFS,你的系统跟谷歌推出来的GFS都是数据级服务,因为提供的是存储。想问一下谷歌系统跟GFS有什么区别,因为我看结构很像。

郑纬民:我们做了一个分布式文件系统,谷歌的GFS是一个分布式文件系统,hadoop也是一个分布式文件系统,我们参考了它,因为GFS拿不到,是谷歌自己的东西,我们可以拿hadoop文件系统,我觉得里面错误挺多,因此我们做了一个分布式系统,思想跟hadoop是类似的。

提问:因为道里系统可以加密,像跳水队老师的视频传到云里面,这种视频就不需要加密,因为保密级别比较低,你们系统实现的时候,有没有根据用户需求设定保密、机密、绝密,来选择为他加密还是不加密,因为这样效率很高,如果所有人都加密的话,效率就很低。

郑纬民:对,我们现在是分开的,你可以不加密,也可以不走道里,也可以走道里,是分开的。这个东西如果别人看没什么关系就不用走这条路。

提问:你们DFS系统收费吗?

郑纬民:现在1.6万个用户都是清华大学的老师和学生,你是别的学校的,一般我们不给访问,我们很愿意给中国人民大学装一套。云存储这件事情我比较倾向于一个单位用比较好,现在有100T的存储器,有1.6万用户在用,在内部用很好。两个原因:1、内部网速度比较快。用户打开了以后,看到C盘、D盘,还看到云状的一个盘,你把数据拿来拿去,感觉很好。如果我们这个系统,全国人民都能放,我们有教育科研网、电信网,之间又不是太流畅,速度就比较慢,感觉不太好,就是公共上网络速度有点问题。2、网上可以放数据,把你的东西放上去、拿下来,如果是一个单位的话,我们比较容易控制。比如我上课,上完课以后,我把我的录像带放进去,有计算机系专门有一个人负责把计算机系的课放在里面,物理课由物理课老师放。如果公共的话,你的也放,我的也放,乱七八糟的都放进去,会出问题,因此比较麻烦。比如人民大学做这样一个东西,人民大学里面所有的老师都可以用,我觉得性能也好。比如某一个研究所做一个东西,也挺好。某一个单位,有100T,每个人给他10G、20G的容量,挺好。公共云不好用。

提问:我是世纪互联的,我有两个问题:1、云存储是不是开源的还是商业化的。2、您提到虚拟机操作系统,是不是服务器所有的硬件信息输出的时候,牵涉到您的虚拟机操作系统,然后传递到他上面的其他系统,如果虚拟机操作系统崩溃了,是不是其他系统就无法使用?

郑纬民:先回答你第一个问题,我们云存储有没有商业化。我们学校里的老师不会做生意。我可以跟你们公司合作,你买一台机器,把这个软件挂在里面,把硬件软件一块卖,就能赚钱。

第二个问题就是问题。原来装的windows崩溃了,也是要崩溃的。现在装的虚拟机比较轻量,不太容易坏。

提问:现在有没有这种可能,还是这个思路,我的硬件信息传递给您讲的虚拟机操作系统的同时,还可以传给windows或者Linux,是一个串的概念,不是并的概念。

郑纬民:一串的话,管机器的人就可以看了。现在装一个虚拟机,把真正的操作系统windows作为这个机器的应用软件,他就看不了了。

提问:我想问一个问题,你们道里系统和政府的合规性怎么结合?特别是现在政府安全部门对数据有一些安全要求,你们保护起来以后,他们这块怎么做?他们能不能看到?

毛文波:实际上这是一个密钥管理问题,密钥管理是一个策略,刚才有位同学提到加密以后会不会造成谈不了话,这是策略问题。过去为了本身数据恢复需求,如果密钥掉了、系统崩溃怎么办,这些都有。这些问题都比系统崩溃还要简单,这些都是策略问题。郑老师讲的都是原理问题,有了原理以后,上面做一些密钥策略的管理很容易。方法无外乎是一个I/O的隔离,一些处理。

郑纬民:我们道里合法不合法,能不能做,因为安全问题要政府批准。但是我觉得这里如果密码算法是国家密码委员会批准的算法,我觉得就没有不合法的问题。

【编辑推荐】

  1. 云安全:数据中心安全防护新策略
  2. RSA大会2010信息安全国际论坛
  3. 中国企业:数据中心安全性及管理能力亟待提高
  4. VMware推出新产品 提升数据中心安全性
责任编辑:佟健 来源: 51CTO.com
相关推荐

2010-10-29 13:50:23

2021-11-01 14:38:23

新华三

2010-11-01 17:59:51

RSA2010报道

2011-08-18 12:22:55

2010-10-29 09:10:58

RSA2010亮点遗憾

2011-11-05 15:48:31

2011-10-19 14:44:46

2011-11-03 17:32:41

安全技术周刊

2010-10-29 10:30:13

2012-06-15 17:01:00

存储盛会

2011-11-02 13:28:52

2012-08-08 09:53:42

2012-08-31 16:52:27

2023-01-11 09:22:51

AI计算机

2014-06-23 11:22:23

存储

2014-05-04 14:36:39

存储

2011-11-02 10:43:20

RSA2011中国大会信息安全国际论坛

2012-08-29 10:53:25

2009-08-06 15:35:54

敏捷中国大会AgileChina
点赞
收藏

51CTO技术栈公众号