如今,随着云计算、移动互联网、物联网、大数据等技术的快速发展,企业逐渐认识到,数据的价值,对数据的挖掘分析能力已经成为企业的核心竞争力。对于互联网企业,最有价值的数据都蕴藏在网站的日志中。从日志中,我们可以知道网站的访问量,应用的使用量、用户的相关数据,使用偏好等关键信息,从而更好的改善服务质量,更好的满足用户的需求。
但是随着企业的用户规模不断扩大,以及数据量的爆炸式增长,日志的管理和分析变得越来越具有挑战性。近日,51CTO记者采访了【WOT2016互联网运维与开发者峰会】特邀讲师,又拍云CTO黄慧攀,就海量日志处理系统架构进行探讨。
黄慧攀是2010年加入又拍云,现任又拍云 CTO。他是 aLiLua Web 开发框架的作者,拥有 14 年互联网从业经验,技术经验涵盖范围比较广,早期以前端 Web 开发为主,后期逐步转到底层研发方向,在高性能网络服务、分布式存储系统等方面有较深入的研究。随着公司发展,团队不断扩大,相应职责细分,目前主要做技术规划和团队建设的工作。
黄慧攀此次将会在WOT 2016互联网运维与开发者峰会上带来主题为《海量日志处理系统架构》的演讲。那么海量日志对于企业来说为何如此重要呢?黄慧攀认为,日志的可挖掘价值确实非常多,比如广告领域可以通过日志回溯到某个具体的用户对什么产品或服务感兴趣,从而驱动给该用户投放什么类型的广告。这也是现在很热门的大数据领域中很重要的一项。而日志对于又拍云来说,重点是在分析平台整体性能,并在这些数据的基础上做系统优化。另外一个部分则是为给客户提供便利而做的统计分析工作。
那么在信息爆炸的时代,处理海量日志的挑战又有哪些呢?海量日志的日志数据量非常大,大到单台服务器无法存储和处理的量级。目前,又拍云现在每天收集到的访问日志就超过4TB的压缩数据,如果解压出来高达120TB文本数据。黄慧攀表示,处理如此庞大的数据量确实面临很多挑战,光收集存储这些原始日志都会成为问题,后续的处理和统计的难度就更大了。
现在,业界在处理海量日志采用比较流行的Hadoop或Spark等分布式计算系统,这样的开源技术无需考虑系统架构。黄慧攀强调,如果要针对特定的业务场景,企业自己研发日志处理系统则需要一定的经验,比如如何规范数据,如何做数据分布处理和汇总数据等等。
虽然Hadoop和Spark都是业界比较流行的开源技术,但是面向特定的业务场景很难做到尽善尽美。为此,又拍云独辟蹊径,开发了海量日志处理系统,来解决日处理TB级的压缩日志数据的方法。至于使用了哪些技术,黄慧攀则卖起了关子,感兴趣的用户可以关注在WOT 2016互联网运维与开发者峰会第二天上午的 【大数据与运维】专场中黄慧攀的有趣分享。