编者按: 51CTO 2014 WOT全球软件技术峰会将在2014年7月25-26日在北京富力万丽酒店召开。从本周开始,我们将陆续公布会议内容,并针对即将参会的架构师访谈,以便大家进一步了解会议内容。会议详细议程见: http://wot.51cto.com/2014/。
本次访谈的对象是阿里巴巴的朱金清(花名:穆公)。在本次的WOT软件技术峰会中,朱金清老师将在数据库技术领域,带来阿里巴巴在HBase方面的实战分享。
讲师简历:
阿里巴巴数据库技术专家朱金清,目前在淘宝/阿里数据库技术团队从事MySQL/HBase数据库的数据管理和开发。人民大学数据库方向硕士,师从孟小峰教授,期间也玩过搜索、爬虫、数据挖掘等东西,主要做的是写论文和demo原型的开发;硕士毕业之后在百度从事凤巢等MySQL广告数据库的管理调优工作、曾主导过凤巢历史上***的数据库拆分工作(1拆N)。
朱金清(@淘穆公)
以下是对朱老师的访谈实录:
记者:阿里巴巴HBase集群的规模会到何种程度?
朱金清:我们总共在线加离线是有上千台的机器,相对来说我估计应该算是国内比较大的。我知道有用HBase可能有几家:小米、360和新浪,大概是这样。我们这边单独的***的集群在搜索,一个集群有二三百台左右。
记者:HBase在阿里巴巴,主要应用在哪些方面?
朱金清:在很多地方都用到了,包括kv型行数据、append型的数据、日志业务、还要所有的历史数据,我们现在也都是放在HBase上。如果你要实时查询数据,或者是要查询历史数据,比如说我们的以往的订单,都可以用HBase。
记者:HBase的优化工作,阿里是如何来做的呢?
朱金清:***个就是说我们在一个业务上,就是说上线之前,我就帮它决定好,这个东西可能用什么样的存储更好。不能出现不清楚HBase用了多久后,可能性能还没有多好,再来换一个其他更好的。这是选型阶段的优化,或者说是评审的优化。
还有一个就是每一台机器性能优化,相当于上线之后的优化了。我们分为两个方面,一个就是有硬件的解决方案,我们现在也有上SSD这个硬件,然后来提高随机读的性能,因为 HBase随机读性能相对来说是比较一般的,而 MySQL我觉得达不到那么好。
还有一个就是相当于我们在进程,在HBase这个代码上面进行优化。比如说我们现在也有后端的研发团队也有做了二级索引的方案。就是提高这个读查询的性能,然后在代码上面做了一些优化。现在我们也有软硬件结合的方式,就是说这个代码改了,然后用了 SSD 或者 FusionIO这种硬件,然后让它的读取和查询都变得很好。
记者:HBase优化的时候,有哪些注意事项?
朱金清:对于优化,我们建议简单的需求不要直接通过进入代码来搞定。如果说在外围或者配置参数能搞定的话,直接外围或者配置修改来搞定。因为这样的话,我可能升级代价也小。
性能优化还有一个就是说我们也希望说这个不是说什么场景我都去优化,就是对通用的,比如说这个东西做了一点就能很多集群都能提升,那这个产品我们更倾向通用问题的解决。
阿里、百度、京东、淘宝、谷歌、Facebook、Tesla都到2014 WOT全球软件技术峰会了,你还等什么?这些***的公司将***对外公开技术,涵盖八大主题,共有40+课程,部署实施、运维开发、大数据、Spark、敏捷开发一个都不少。除了***手的经验之外,还有未来两三年的技术趋势,你会让自己错过这样的技术大会吗?