数据云URL过滤技术-数据云url过滤技术包括

【51CTO.com 综合消息】当今，互联网给我们带来了生活方式、生产方式上很多的便利与快捷。庞大的网络信息资源，使人们通过浏览器就能便捷的获取到生活或生产过程中所需要的信息。但是，过分或不适当的网络资源访问不仅给企业带来了生产力和网络带宽的损失，还严重威胁着企业的网络安全架构和信息系统，甚至网络上的不适当或非法内容还极大危害着企业员工个人的身心健康甚至给企业带来法律问题。

面临以上种种问题，该如何解决?全部关闭网络的大门不符合现代人类文明的发展与进步，也不利于合理商业业务的开展。单纯依靠使用者自我约束的网络使用制度也已经无法执行。于是，诞生了专门针对URL进行过滤的技术，以此达到对员工上网浏览内容的控制与管理。

下面我们将对URL过滤技术的进化做一个简单的介绍。

20世纪90年代中期，URL过滤解决方案依靠企业内部IT人员人工建立、更新与编辑站点黑白名单。这一做法的缺点是，所有分类由一个或少数几个人自由决定，对于这种资源密集型而且缺乏客观性的站点分类方法，不仅会使许多被认可的网站被封锁或被禁止的网站允许通过，而且随着web站点的快速增长与相关技术的日益复杂，这种方案很难实现客观、细粒度的URL分类，显然不能成为企业或单位有效的URL过滤方案。

20世纪90年代末，出现了专门对URL进行收集、分类的厂商。URL过滤技术开始采用本地数据库分类引擎。URL及其内容在根据预先定义的类别下通过分类引擎进行相应的关键字查找分析与分类(如赌博、色情及网上购物等)，分类好的URL存储在一个集中的主数据库中，然后通过更新复制一份副本移交到客户本地数据库中。这种URL过滤方案的缺点是，随着网页数量的激增，由于一刀切的关键字分类技术和本地分类数据库的限制，无法实现更高、更准确的覆盖率和更广泛的URL分类。

2000年初，URL过滤解决方案试图采用启发式内容分析的方法，这种动态的分类技术，通过智能分析网站标题和网页html主体中相关内容的概率来确定URL类别。从理论上讲，相比前两类URL分类方案，这是一种很好的分类方法，然而在实际中它本身却存在问题，很多基于启发式的Web内容分析结果没有相关的配套技术实时地发送给终端用户，而且采用的仍然是传统的本地数据库进行存储。但是当今web2.0时代，web数据是一个不定数据且日益多样化的集合体，而每个用户的需求却独特且具体，基于本地URL数据库的过滤技术，只能过滤存储本地用户需要的数据，不能存储所有相关及最新数据，以执行快速和准确的监测，因此这种传统的URL过滤技术也无法应对高度复杂且快速发展壮大的web2.0网络。

据Google调查，互联网上的网页数量以每天一亿的数量急速增长。以上三种URL 分类方法已经不能够准确有效的收集、分类所有的URL类别。数据存储和处理要求也已经远远超出了本地数据库能力。于是在2009年，业界出现了数据云的URL过滤技术，这类厂商有Commtouch、Anchiva等。这种数据云URL过滤机制，基于云技术的URL收集、分类处理及发放策略，并不依赖于本地数据库有限的资源进行分析与检测，也不依赖于数据库更新最新的URL分类，利用的是专门的分类服务器群，根据实际网络的使用与普及方式对网页内容及语义进行全面分析后的分类。与传统的云不同的是，真正做到了云的客户端自动主动地去云的服务器端获取所需的数据，而不是单纯的基于云服务端的定时推送更新方法。下面我们将借助Anchiva的数据云URL过滤机制对数据云URL过滤技术进行简单的介绍。

Anchiva(安启华)数据云的URL分析过滤技术由两部分组成：部署在企业网络边界处的Anchiva web安全网关(SWG)和Anchiva基于云的URL分类中心。网关设备和URL分类中心实时通信获取最新的URL分类。不仅打破了传统本地数据库的限制，而且与其他基于云的技术不同的是Anchiva web安全网关中具有URL缓存技术，这个本地的缓存为每一个独立的用户存储最为相关的URL，这些设备本地的URL类别，有效地确保了URL匹配的最佳性能，并且采用的是一种本地缓存自动学习的机制，随着企业用户使用时间的增长，这个本地缓存的URL库会更加的贴近每一个用户的实际需求，将能给客户更加精准的URL过滤。

以下是Anchiva web安全网关URL过滤对HTTP-GET 请求的处理过程：

1、Anchiva web安全网关的URL匹配处理引擎接受来自本地用户的HTTP-GET请求。

2、URL匹配处理引擎首先从设备上的本地缓存中查找相关的URL分类。

3、如果URL匹配处理引擎从本地缓存中查找到了正确的URL分类，那么将该HTTP-GET请求根据客户设定好的相关过滤策略进行允许或阻止的操作。

4、如果没有在本地缓存中找到正确的URL分类，URL匹配处理引擎会自动将该HTTP-GET请求发送到Anchiva数据云URL分类中心。

5、Anchiva数据云URL分类中心将自动查询并返回正确的分类给设备的URL匹配处理引擎。

6、URL匹配处理引擎根据URL分类中心返回的分类对该HTTP-GET请求按照客户设定好的相关过滤策略进行允许或阻止的操作，并在设备本地缓存的URL类别中添加相应的URL分类。

Anchiva数据云URL过滤处理过程图：

另外，需要大家认清的一点是，任何的URL分类技术在web2.0时代都不可能做到100%的分类，如果用户发出未经分类的浏览请求，则会自动反馈到云端的分类引擎进行分类，在24小时内将对未经分类URL完成分类。如此一来，数据云系统用户形成一个实质用户社区，已被社区用户浏览过的流行站点将被分类并存储，方便下一位用户访问。这种用户互动保证了数据云系统保持不断的更新与扩展，无疑是当今web2.0时代最有效实用且积极主动的一种收集分类处理技术。

说了这么多，下面我们对几种URL过滤技术做以下对比总结：

	90年代中期自分类黑/白名单	90年代末本地黑/白名单	2000年初启发式检测分类	2009年基于云的URL过滤技术
分类技术	企业IT人员人工分类	关键字查询分类引擎	启发式的关键字概率分类技术	完整的web内容及语义分析技术
存储方法	黑白名单文档	本地数据库	本地数据库/云端服务器群	云端服务器群/本地缓存
更新方法	人工编辑更新黑白名单	复制数据库副本更新方法	服务器定时推送更新	客户端随时获取URL分类更新
准确性	差	一般	较好	极好
覆盖范围	差	一般	较好	极好
总结	缺乏客观性的分类方法，资源集中，不准确。	误报、漏报率高，互联网的增长速度远远超过了本地数据库存储能力。	服务器不能实时推送准确的分类，没有客户端随时获取技术，客户端使用本地数据库存储，容量有限。	无处理性能和本地数据库存储限制，先进的本地缓存自动学习机制，能够满足每个客户独特且具体的需求。