电商混合云在1号店的运维实践

运维 系统运维 混合云
在技术开发的整个周期中,运维平台是支撑生意发展最基本的保证。本文跟大家分享混合云在电商中的应用,如何做到成本优化和高效稳定兼顾,一起来解密1号店的电商混合云。

嘉宾介绍 

[[143907]]

黄哲铿

––– 1号店,技术总监

负责云计算平台、移动分销、互联网金融等领域工作

曾服务于MySteel,曾作为技术合伙人参与龙财网、UFO鞋业等创业项目

2015年出版个人专著《技术管理之巅—如何从零打造高质效互联网技术团队》

个人拥有多项技术发明和专利,在超大型电商系统设计、大型IT团队治理等领域享有盛誉。

热爱生活和摇滚乐,曾接受《芭莎男士》等时尚杂志采访。

专栏介绍

本专栏文章内容,主要节选自我的新书《技术管理之巅—如何从零打造高质效互联网技术团队》。本文是其中第一篇,希望大家喜爱。

在技术开发的整个周期中,运维平台是支撑生意发展最基本的保证。今天跟大家分享混合云在电商中的应用,如何做到成本优化和高效稳定兼顾,下面我们一起来解密1号店的电商混合云。

混合云

融合了公有云和私有云,是近年来云计算的主要模式和发展方向。我们已经知道私有云主要是面向企业用户,出于安全考虑,企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源。

在这种情况下混合云被越来越多的采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果,这种个性化的解决方案,达到了既省钱又安全的目的。

下面我们跟随1号店的案例,来了解电商企业是如何思考和运用混合云的:

1号店营销带来各种业务高峰

1号店的营销创意常常能够让人眼前一亮,留下深刻印象,引发互联网业界的大范围传播,如下图:

  • “牛奶吉尼斯”活动,目标是冲击“当日销售牛奶盒数最多”的吉尼斯世界记录
     

  • “11•11属于全人类”活动,是在11月11日当天,包下了纽约时代广场的大屏幕,展示“11•11属于全人类”的文字,喊出了电商人的心声,借此调侃国内某电商巨头想垄断“双11”这个商标的荒唐行径。

如何应对突增的访问压力?

成功的营销带来的是数十倍于平日的访问压力,如何应对这些访问压力?最直接的方式是增加服务器。

然而,我们注意到一个问题,数百台的服务器如果只是为了每年几次的营销活动而准备,利用率是非常低的,对公司而言这样的成本投入是不划算的,所以我们考虑用公有云的服务器来应对营销活动的访问压力。

1号店已经建立起了颇具规模的私有云平台,在此基础上构建了混合云管理平台,混合云的接入和使用过程如图所示。

1.服务器校验

首先,混合云平台对公有云提供的服务器进行校验,校验内容包括IP地址、内存、硬盘等信息是否跟清单匹配,通过校验后,混合云平台把机器配置模板和镜像传输给公有云机器。

2.服务器授权

接着,混合云平台对公有云机器进行授权,通过授权的混合云机器才能够访问私有云网络资源,否则访问会被拒绝访问。

3.公有云初始化

然后,通过之前拷贝过来的配置模板,对公有云机器进行初始化,使公有云机器从一台裸机变成符合生产环境配置要求的生产机器。

#p#

4.部署及回收公有云

最后,通过自动化发布程序,把应用部署到公有云机器上,它就可以对外提供服务了。在使用结束后,混合云平台会对混合云机器的授权进行回收、费用结算等操作。

5.混合云管理平台工作流程

下图是混合云管理平台工作流程图,私有云和公有云是通过混合云管理平台进行整合,共同为业务提供服务。

实施混合云的6项注意

在实施混合云的过程中,需要注意6个方面:成熟的私有云平台、带宽和网络延迟、IO性能、API接口支持、稳定性和安全性

下面我们分别加以叙说。

1.成熟的私有云平台

首先需要强调的是,成熟的私有云平台是实现混合云的前提条件。否则还是少谈混合云的事情,否则顾此失彼,首尾难顾。这是因为:

只有企业自身已具备完善的管理流程、高度自动化的运维管理和监控预警系统,在这基础上,再将公有云的资源纳入到管理体系中,才能够很好的对这些外部资源进行高效管理。

与此同时,企业在发展的过程中,需要逐步进行运维平台的升级,一步步过渡到自动化运维、私有云的阶段,这些都是不断积累和演进的结果。

2.带宽和网络延迟

在业务逻辑复杂的电商系统中,对数据交互、交易事务的完整性要求很高,几十毫秒的数据延迟都可能导致交易失败,混合云的场景下网络延迟是不可避免的,这就必须从应用层面做出规定:

核心交易相关应用不能使用混合云,同时优化应用程序,以减少带宽。

比如,有的开发人员喜欢在一个for循环里进行程序调用,在混合云的架构中开销就太大了,所以必须把循环调用,改成批处理方式去提交作业。

一般而言,能够接受的延迟是10毫秒以内。通过拉专线或光缆,连接私有云和公有云,如果两个IDC在不同的城市,那么距离一般需要控制在200公里左右。

3.IO性能

公有云服商机器的IO性能差别是很大的,在选择供应商的时候要关注IO性能,如果把主从关系的数据库放在公有云上,那对IO的要求是非常高的,许多应用场景中,程序大量读取备库,稍有性能问题,会导致线上事故。

选择使用了SSD硬盘的公有云提供商,是个不错的选择。

4.API接口支持

良好的私有云平台应该有丰富的API接口支持,方便跟公有云对接,提升接入效率,使云服务的费用结算更精确。

比如,当完成了跟公有云的对接后,我们可以随时开通公有云的服务,而且使用了多少机器、使用了多久,都可以实时查到,真正做到像使用“自来水”一样的使用云服务。

5.稳定性

云服务发生故障的概率还是不小的,这需要流量调度机制足够灵活,一旦出现问题可以立即切换回私有云,根据业务特点能够实现秒级、分钟级的切换时效。

另外对公有云要做比较完备的监控、心跳检测等等,一旦发现服务不稳定,可以通过GSLB,把流量切回私有云。

相反的,如果私有云有问题了,也可以把一些流量切换到公有云上,这是混合云平台必须具备的能力。

6.安全性

将公有云与私有云进行整合后,公有云机器相当于进入了企业数据中心,如果公有云的机器没有做好安全管理工作的话,会对企业数据中心造成威胁。因此公有云和私有云的通讯必须做严格的审计和限制,敏感数据不保存在云端。

安全问题,我个人认为主要有两个挑战:

  • 一个是在技术层面,技术问题也许经过一段时间,随着技术的发展会得到解决;

  • 另一个是心理层面,国内企业的老板们对云的安全性都有顾虑。他们觉得“钱放在外人那里,哪有放在我家枕头下安全”,

如果今天你跟你的老板说我的用户我的数据都在公有云里,老板一下子就把你拍死了,你没有机会跟他解释,在技术是如何的有安全保障。

所以,怎么合理规划、站在公司的角度来充分考量整个方案(而不仅仅是技术方案),非常重要。

以上就是我在混合云实践中的一些思考和经验,正如我在新出版的《技术管理之巅》一书中介绍的,希望对大家有一些借鉴作用:

技术与业务融合,能够驱动业务的发展,发挥技术的巨大价值。

如何一起愉快地发展

“高效运维”公众号(如下二维码)值得您的关注,作为高效运维系列微信群的唯一官方公众号,每周发表多篇干货满满的原创好文:来自于系列群的讨论精华、运维讲坛线上/线下活动精彩分享及部分群友原创。“高效运维”也是互联网专栏《高效运维最佳实践》及运维2.0官方公众号。

提示:目前高效运维两个微信主群仅有少量珍贵席位,如您愿意,可添加萧田国个人微信号 xiaotianguo 为好友,进行申请;或申请加入我们技术交流群(技术讨论为主,没有主群那么多规矩,更热闹)。

重要提示:除非事先获得授权,请在本公众号发布2天后,才能转载本文。尊重知识,请必须全文转载,并包括本行及如下二维码。

责任编辑:火凤凰 来源: 高效运维
相关推荐

2015-08-06 11:45:28

电商混合云运维实践

2021-01-05 10:09:28

DevOps

2015-06-24 10:42:19

云计算运维自动化运维ANSIBLE

2012-10-26 15:11:56

云计算Puppet

2015-11-03 16:03:09

AppDeploy运维工具

2014-07-17 16:53:12

2015-04-10 12:42:40

WOT2015

2013-06-09 10:38:54

IT运维管理运维管理ITIL管理

2015-12-28 17:28:16

云计算运维华为

2018-04-10 09:49:17

IT运维人员京东运维体系

2017-03-02 13:23:53

订单系统水平分库

2017-11-30 18:16:00

高并发电商态牛

2016-12-01 17:52:00

人脸技术电商实践

2013-09-22 09:43:57

混合云灾难恢复

2015-02-04 11:45:52

高效运维

2015-05-04 16:54:12

E店宝电商云ERP

2015-04-15 20:38:42

E店宝ERP电商

2013-06-24 10:24:59

2013-09-18 08:27:52

混合云混合云灾难恢复
点赞
收藏

51CTO技术栈公众号