NoSQL是伴随着web2.0的迅猛发展而在2009年被提出的一个概念,一般可以通俗的理解为高性能的Key Value存储结构的数据库,当然也有其他更广泛的类型。它基于CAP和BASE理论,强调最终一致性,具有数据结构灵活、扩展方便、大数据量下读写性能高效等特点,在互联网行业被广泛采用。本系列文章将评测广受关注的几个NoSQL数据库产品。本文关注的是HandlerSocket Plugin for MySQL。
HandlerSocket是日本DeNA公司的架构师Yoshinori开发的一个NoSQL产品,以MySQL Plugin的形式运行。其主要的思路是在MySQL的体系架构中绕开SQL解析这层,使得应用程序直接和Innodb存储引擎交互,通过合并写入、协议简单等手段提高了数据访问的性能,在CPU密集型的应用中这一优势尤其明显。
另外,HandlerSocket还帮我们解决了缓存的问题,因为Innodb已经有了成熟的解决方案,通过参数可以配置用于缓存数据的内存大小,这样只要我们分配合理的参数,就能在应用程序无需干涉的情况下实现热点数据的缓存,降低缓存维护的开发成本。
因为HandlerSocket是MySQL的一个Plugin,集成在mysqld进程中,对于NoSQL无法实现的复杂查询等操作,仍然可以使用MySQL自身的关系型数据库功能来实现。在运维层面,原来广泛使用的MySQL主从复制等经验可以继续发挥作用,相比其他或多或少存在一些bug的NoSQL产品,数据安全性更有保障。
可以说这是一个很有创意的产品,因此HandlerSocket的作者在2010年10月在博客上宣称这一产品能达到75K QPS的时候,在业界引起了广泛的关注,包括MySQL官方在新的5.6版本中推出的Memcached API,相信也是受了HandlerSocket的启发。
测试说明:
一、测试环境
Handlersocket部署在一台PC 服务器上,配置如下:
CPU为Xeon 2.80GHz *4
内存为4G
硬盘为一块400G SATA盘
操作系统为64位CentOS 5.3版本
二、测试方法
Handlersocket的客户端几乎涵盖了各种语言,都实现了通过以上两个端口对数据读写的操作,其中查询操作必须通过建立有索引的列来进行。
考虑到NoSQL在互联网行业应用较为广泛,采用PHP实现客户端程序的做法,通过一定的并发去读写数据,观测每秒读写的记录数作为主要的衡量指标。当然也可以利用Java的多线程进行并发测试,但由于篇幅和时间所限,本文不再涉及此方面的内容。
这里采用第三方实现的一个PHP客户端,网址为http://code.google.com/p/php-handlersocket/,可以编译到PHP运行环境中。
为了不对测试服务器产生额外的影响,测试客户端部署在另外一台独立的服务器上,运行的PHP的版本是5.3.5,web server是Nginx 0.8.54,通过fastcgi的方式调用PHP服务。使用apache ab工具实现多个请求和并发操作。
测试分为两个步骤,首先是写操作,通过500个请求,每个请求写入10000条记录,并发度为2来共写入500万条数据,数据的key为数字1到5000000,value大小为100个字节。然后是读操作,也是用500个请求,每个请求随机根据key值读出10000条记录,并发度为10共读出500万条记录,评测的重点是写入和读出数据的时间,以及在此过程中服务器的资源使用情况。
MySQL 数据库安装:
一、安装MySQL
通过编译源码的方式安装MySQL,这里选择的版本是5.5.8版本。由于这不是本文的重点,这里只简单的提及一下要点。
首先到MySQL的官网http://dev.mysql.com/downloads/mysql/下载源码,要注意的是从MySQL 5.5版本开始需要Cmake编译工具和bison。然后开始安装:
安装完成后配置my.cnf文件,最重要的参数是分配给innodb存储引擎的内存大小,也就是innodb_buffer_pool_size参数,这里设置为2G。
- [root@localhost mysql558]# vi my.cnf
- ……
- innodb_buffer_pool_size = 2G
- ……
二、安装HandlerSocket
首先到以下地址下载代码:
https://github.com/ahiguti/HandlerSocket-Plugin-for-MySQL
开始安装HandlerSocket:
- [root@localhost handlersocket]# tar -zxvf ahiguti-HandlerSocket-Plugin-for-MySQL-1.0.6-67-g25f4957.tar.gz
- [root@localhost handlersocket]# cd handlersocket/
- [root@localhost handlersocket]# ./autogen.sh
- [root@localhost handlersocket]# ./configure --with-mysql-source=/home/handlersocket/mysql-5.5.8 --with-mysql-bindir=/home/handlersocket/mysql558/bin --with-mysql-plugindir=/home/handlersocket/mysql558/lib/plugin
- [root@localhost handlersocket]# make
- [root@localhost handlersocket]# make install
三、修改MySQL配置
在my.cnf配置文件增加以下内容:
- [root@localhost mysql558]# vi my.cnf
- [mysqld]
- ......
- loose_handlersocket_port = 9998
- # the port number to bind to (for read requests)
- loose_handlersocket_port_wr = 9999
- # the port number to bind to (for write requests)
- loose_handlersocket_threads = 16
- # the number of worker threads (for read requests)
- loose_handlersocket_threads_wr = 16
- # the number of worker threads (for write requests)
- open_files_limit = 65535
- # to allow handlersocket accept many concurrent connections
- #make open_files_limit as large as possible.
这里增加的这些主要是针对handlersocket的配置,它有2个端口,9998用来读数据,9999读写均可,但是通过9998来读的效率更高。这里我们设置处理读写的线程数均为16个,另外为了处理更多的并发连接,设置能打开的文件描述符个数为65535。
四、安装MySQL授权表并启动数据库:
- [root@localhost mysql558]# scripts/mysql_install_db --user=mysql
- [root@localhost mysql558]# bin/mysqld_safe --user=mysql &
五、登录MySQL安装HandlerSocket Plugin:
- [root@localhost mysql558]# bin/mysql -u root -p
- mysql> install plugin handlersocket soname 'handlersocket.so';
- Query OK, 0 rows affected (0.01 sec)
通过以下命令查看也可见handlersocket已经成功安装到MySQL中:
- mysql> show processlist;
- mysql> show plugins;
测试结果:
一、写操作
成功写入500万条记录,共耗时4300秒,平均每秒写入数据1163笔。
写入过程中,服务器比较稳定,CPU使用率平稳,Idle值稳定在70到72之间,等待时间稳定在14到19之间。内存分配上的变化较大,free部分从1.3G下降到25M,buffer部分从630M下降到65M,cache部分从1.5G上升到2.9G,虚拟内存从0上升到376K,但是没有交换区到内存的换入换出。磁盘IO表现平稳,每秒写入的块数稳定在10000到12000之间。
二、读操作
成功读出500万条记录,共耗时193秒,平均每秒读出数据25906笔。
读数据过程中没有发生磁盘IO。CPU较繁忙,Idle在39到51之间,等待CPU资源的进程一直在1到6个之间。内存表现平稳没有波动。
通过以上测试结果可以说明,写入的数据完全缓存到了文件系统中,所以cache部分占用的内存大量增加,这也是读取数据的时候没有发生磁盘IO的原因。
总结:
要说明的是,虽然这是一份真实的测试数据,但是并不一定具有普遍意义。因为应用场景是千差万别的,服务器的资源配置、数据记录的多少、单条数据的大小、读写的比例、客户端程序的质量等因素都会影响测试结果,甚至差别会非常大,对我们来说,更重要的是了解这个NoSQL产品的特性,知道它的适用场景,并且能够根据自己实际的应用场景针对性的进行测试,这样才能做到针对性的选型,只有最适合自己需求的产品才是最好的产品。
【编辑推荐】