我们的生活无时不刻不依赖着网络,伴随着终日对网速慢的抱怨和诅咒,同时也享受着网络技术发展带来的红利。怀着对技术细节刨根问底的执着,我们会发现原来身边还存在着像CDN这样生活在舞台背后的内容分发技术。然而当我们刚想了解他的时候,似乎他的步伐又迈得那么矫健,正在完成CDN 2.0到3.0的跨越,貌似还是一场智能化的跨越。
1.0到2.0,20年技术演进
CDN(Content Delivery Network),即内容分发网络。其目的是通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络“边缘”,使用户可以就近取得所需的内容,提高用户访问网站的响应速度。CDN PoP(Point of Presence)架构是为内容传送服务提供支持的软件堆栈,到现在经历了1.0到2.0的发展,直到智能化的3.0出现。下面我们将用少量的篇幅对这段历史进行一下梳理。
CDN PoP 1.0的架构诞生于20年前,这对于当时的网站非常适合,一些小容量的信息可以通过缓慢的互联网连接实现传递。这时CDN的主要挑战是从部署在互联网服务提供商(ISP)的边缘节点 (POPs)传输网页内容。每一个接入POP的终端用户都会快速获得响应内容,而不是首先通过网络(当时依然很慢)来访问源服务器。通过这种方式,CDN可以很容易把受欢迎的内容发送给大量的互联网用户。
CDN PoP 2.0的架构离我们的生活更近了一些,也是我们目前使用最广泛的CDN技术。由于2.0架构有基本的软件堆栈组成,但不具备数据和信息的深入分析,更不用谈及少得可怜的智能化功能,这也就决定了其架构是被动的、响应式的、无状态的。2.0架构的目标是缓存边缘内容,并在边缘进行一些简单的处理,从就近原则中争取TCP传输性能上的提升。2.0架构以缓存软件为核心,同时配套负载均衡、日志分析、DNS等服务。
CDN 3.0,向智能化不断迈进
随着网络服务的创新与移动终端的智能化,与此相适应的CDN也在不断进化。似乎讲到了这里我们该请出今天的主角了——CDN 3.0,下面我们将从几个方面的对比去阐述3.0究竟有哪些优势。
关于CDN 3.0的研究其实经历了大量的理论研究和论证,包括流处理器,批处理,消息代理, Hadoop,NoSQL,机器学习,Cassandra,Spark,深层神经网络,循环神经网络,卷积神经网络以及大量的不同类型的算法等数百个概念。下面我们将从中抽取一些典型的研究内容来论证CDN 3.0的优势:
- 规则引擎:许多CDN都具有自动规则引擎,客户端可以为其内容设置缓存规则。机器学习模型中使用分类器可以使***进的规则引擎难度回归到史前科技水平。
- WAF+DDoS+Bot缓解:这些用于应对威胁的分布式系统将会被监督式和非监督式机器学习模型取代,包括深层神经网络、重复神经网络等。
- 深度学习:我们不再需要手动进行缓存软件栈、路由、存储等繁琐的配置,这些工作将会被学习模式所接管。
关于CDN 2.0和CDN 3.0的对比一言不和就上图:
但3.0架构却截然不同,与生俱来的大数据和机器学习加持彰显了其智能化的属性。他将比2.0架构应对更庞大的边缘传输,每个PoP节点都将成为Hadoop生态中的一环,包括HDFS、Apache Spark、Apache Flink、Kafka、Redis以及许多由Facebook、Google、LinkedIn、Spotify这类公司创建的开源插件等等。
在CDN 3.0架构世界里,缓存工程师,网络工程师等将与数学家和数据科学家一起工作。整个功能集将迎来无穷的变化,具体反映到所使用的算法类型以及算法数目。本来需要人工介入的任务,如集群性能调优,网络调优等,将采用机器学习(ML)等手段来解决。
机器学习将调优工作从手动调优改为自调优,即始终处于学习过程中。新的个性化功能特性将利用ML算法,先捕获访问者访问站点的行为,然后将该行为用作分类器的输入,***基于培训数据构建模式。此后,每次访问者访问该网站时,ML算法都会对哪些页面产生最多销售量进行预测并个性化交付内容。
销售机构他们将不得不接受全新的技术语言的再培训,其中包括AI,机器学习,大数据,DevOps,数据科学,统计学和应用数学等。今天,机器学习这个词或许只是营销部门使用的一个流行语。在适当的时候,CDN行业和机器学习的结合将会进一步深化,因为越来越多的人在微小的细节上受到教育启发,例如什么算法做什么,每类算法的目的,各种神经网络之间的差异等等。
我们也可以从了另一个维度去观察这种变化
图2 CDN 2.0和CDN 3.0 Feature Set对比
面对网络和软件堆栈的大范围更改,我们所做的或许不再是一味地增加代码、通过API扩展功能或者是优化BGP路由,可能只需要简单地做下减法去换成更好用的3.0架构。CDN3.0的重要标志是其能很好地支持目前互联网的主流应用,同时有更好的性价比,服务质量更有保障,也更安全。事实上,CDN 3.0已经应用在Facebook、LinkedIn和Twitter的场景中。下面我们用一张表格来做一些对CDN2.0和3.0做一些分析。
人工智能,噱头还是革命
上图是一个科研机构从2000年开始对技术创新程度按照时间推移的曲线变化,一段时期新技术出现的数量越多,创新等级越高,并称之为技术分裂曲线。可以看出2015年前,创新技术的萌生和进步是一个线性增长态势,随着大数据和机器学习技术的诞生,创新性的增长展现出了疯狂的态势。围绕着这两项技术的新技术萌生也逐渐推动者科技的发展。按照这个曲线的走势,在未来的12个月内,机器学习和大数据技术将对整个科技界产生颠覆。
今天,机器学习这个词或许只是营销部门炒作的词汇,但在未来的某一天,它必将改变CDN产业。
参考链接:
1、https://www.bizety.com/2017/02/20/cdn-edge-pop-architecture-2-0-end-life-hello-3-0-architecture/
2、https://www.bizety.com/2017/03/07/cdn-pop-architecture-3-0-end-cdn-commoditization-part-1/
3、https://www.bizety.com/2017/03/08/cdn-pop-architecture-3-0-end-cdn-commoditization-part-2/