与其他数据库相比,MySQL并不是完美的,却是足够灵活,能够适应高要求的环境。在开发中,MySQL是勾勾在项目中的首选数据库。为了更好的应用MySQL,充分发挥它的性能,就必须要理解它的设计。从这篇文章开始,我们就开始学习MySQL数据库的基础知识。
如果想要更深入的理解MySQL服务器,那么首当其冲应该掌握的是MySQL的逻辑架构,了解其各个模块之间是如何协同工作的。
下图是官网的逻辑架构图:
我们把上面的图简化一下,就有了如下所示的MySQL简易的逻辑架构,稍后我们会详细分析每一个组件。
MySQL从整体上可以分为Server层和存储引擎层。
Server层
大多数的MySQL的核心服务功能都是在Server层,它包括连接器、查询缓存、解析器、优化器、执行器。
Server层涵盖了MySQL的大部分功能,包括查询解析、分析、优化、缓存以及所有的内置函数(例如:日期、时间、数学和加密函数),所有跨存储引擎的功能都在这一层实现:存储过程、触发器、视图等。
连接器
每个客户端连接都会在服务器进程中拥有一个线程,这个连接的查询只会在这个单独的线程中执行。
当客户端应用连接到MySQL服务器时,首先接待它的就是连接器。连接器负责跟客户端建立连接、获取权限、维持和管理连接。
连接MySQL服务器的命令:
- mysql -h$ip -P$port -u$user -p
输完命令之后,会提示我们输入密码,也可以将密码写在-p后面,但是这样会存在密码泄漏的风险。
如果根据我们输入的用户名和密码无法连接到服务器,我们能看到如下的报错:
- [root@codegirl ~]# mysql -hlocalhost -P3306 -uroot -p
- Enter password:
- ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)
这个报错信息就是连接器返回的。
所以当我们通过客户端命令mysql与服务器建立连接时,连接器做了两件事情:
- 认证用户名和密码,如果认证失败,我们就收到了上述1045的异常,客户端程序就结束了执行。如果认证成功,客户端就与服务器建立了连接。
- 连接成功之后,连接器会继续验证用户的权限,比如我们有哪些表的查询权限,哪些表的修改权限,或者是授权权限。之后这个连接中的权限判断逻辑,都是基于此时读到的权限。所以如果修改了权限,一定要记得重新连接!
连接器的连接又分为长连接和短连接。
长连接:连接成功后,如果客户端持续有请求,则一直使用通过一个连接。
短连接:每次执行完很少的几次查询就断开连接,下次查询再重新建立一个连接。
建立连接的过程比较复杂,现在绝大部分的服务都是使用的长连接。
如果建立连接之后,客户端一直没有请求,这个时候连接就会断开。这个时间由参数wait_timeout控制,默认为8小时。
查看MySQL的连接时间设置:
- mysql> show variables like 'wait_timeout%';
超时时间的设置单位为秒,28800/60/60 = 8h;
查询缓存
建立连接之后,我们就可以执行sql语句了。
select查询语句:
- mysql> select * from user where id = 1;
它不是直接去查询表里的数据,而是先查询缓存,如果缓存中存在则直接返回缓存中的数据,缓存中不存在再去表里查询数据,然后将查询到的结果添加到缓存里。
这个逻辑就像是我们为了减轻数据库的压力加了Redis缓存一样。如果缓存存在,就不需要后面的解析和执行步骤,效率会大大提高。
MySQL缓存的数据是以key-value的形式存在的,key就是我们的查询sql语句,value就是这个sql语句对应的查询结果。
那这个时候我们不禁会想,数据库的数据如果经常变更是不是缓存需要及时失效,这样在下次查询的时候我们就可以获取到最新的数据了。
是的,MySQL只要表的数据或者表结构有变化,这张表的所有缓存都会失效。所以如果是一张经常涉及到增删改的表,缓存并没有太多实际的意义,可能刚加了缓存接下来就更新了,费了老大劲加的缓存又失效了。但是如果我们的表是系统配置这类的静态表,缓存就能起到作用。
在开发中,如果我们测试某个sql的执行时间,首先要确定缓存是否可用。查询缓存是否可用的命令:
- mysql> show variables like '%have_query_cache%';
缓存是默认可用的:
修改缓存的配置,我们可以修改MySQL的配置文件:/etc/my.cnf,添加配置:query_cache_type=0;
其中可选项为:0、1、2;0代表不使用缓存,1代表使用缓存,2代表根据需要使用。
也可以使用命令:
- mysql> set global query_cache_type = 0;
查看缓存是否开启:
- mysql> select @@query_cache_type;
如果关闭缓存之后,某些sql语句我们希望能使用缓存,我们可以通过SQL_CACHE显式的指定sql使用缓存。
- mysql> select SQL_CACHE * from user;
MySQL8.0版本已经完全把缓存删除了,对于缓存这一组件我们只需了解。在使用不同版本的MySQL时需要注意缓存对性能的影响。
解析器
开始真正执行sql语句时,解析器会先分析我们输入的sql语句,MySQL解析器将sql语句解析成内部数据结构(解析树),然后优化器就可以对其优化。
我们给解析器的sql语句是字符串和空格组成的,解析器第一步是解析出来字符串,识别出里面的每个字符串代表的意思。
解析器会识别sql关键字,从而知道我们是在查询还是更新。解析器将字符串'user'识别为表名字,把字符串'id'识别为列。解析器识别了字符串之后,就开始校验我们给的字符串是否符合语法规范。
解析器会验证语法,还会根据解析到的表和列验证表和列是否存在。
如果表或者列不存在,或者语法有问题,我们可以收到错误信息。
- mysql> select * from aa where id =1;
- ERROR 1146 (42S02): Table 'test.aa' doesn't exist
- mysql> select * fromuser where id=1;
- ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'fromuser where id=1' at line 1
优化器
经过解析器处理,得到了解析树。这个时候MySQL已经明确知道自己要做什么了,但是在开始执行之前还会对sql进行优化。
优化器对sql语句的优化包括:重写查询、决定表的读写顺序、选择合适的索引等。
优化器涉及的内容比较多,我们先对它有个初步印象,后续我们再详细了解它。
经过优化器之后,sql语句的执行方案就已经确定了,解析来就进入执行器开始执行了。
执行器
执行器执行sql语句的时候,会先验证是否有对这个表的权限,如果没有权限就会返回没有权限的错误信息。如果有权限,则会打开表继续执行。打开表的时候,执行器就会根据表的执行引擎,去使用执行引擎提供的接口。
存储引擎
存储引擎层负责数据的存储和提取。存储引擎是插件式的,支持InnoDB、MyISAM、Memory等多种存储引擎,MySQL也提供了一些第三方的存储引擎,这种插件式的结构设计,使得不同的公司可以根据自己的需求选择不同的引擎。
现在最常用的存储引擎是InnoDB,它是MySQL5.5.5版本之后默认的存储引擎,如果我们在建表时不指定存储引擎类型,默认使用的就是InnoDB。
不同的存储引擎是公用Server层的,区分Server层和引擎层的功能对于后面我们学习锁和事务比较重要。
不同的引擎保存数据和索引的方式是不相同的,但是表的定义是MySQL服务层负责的,这个是一致的。
今天我们只分析两种常见的存储引擎InnoDB和MyISAM,其他的引擎小伙伴感兴趣可以查看相关文档。
InnoDB
我们先看一下'user'表的信息 ,它的存储引擎是InnoDB。
- mysql> show table status like 'user' \G
- *************************** 1. row ***************************
- Name: user #表名
- Engine: InnoDB #存储引擎类型
- Version: 10
- Row_format: Dynamic #行的格式,如果表中包含了可变长度的字段比如Varchar,那么就是Dynamic
- Rows: 0 #行数,对于InnoDB引擎来说,这是预估值
- Avg_row_length: 0 #平均每行包含的字节数
- Data_length: 16384 #表数据的大小(字节)
- Max_data_length: 0 #表数据的最大容量,和引擎有关
- Index_length: 0 #所以的大小(字节)
- Data_free: 0
- Auto_increment: NULL #下一个自增长的值
- Create_time: 2021-02-16 14:24:46
- Update_time: NULL
- Check_time: NULL
- Collation: utf8_general_ci #默认字符集
- Checksum: NULL
- Create_options:
- Comment:
- 1 row in set (0.00 sec)
InnoDB的数据存储在表空间中,它将每个表的数据和索引存放在单独的文件中。‘user’表在磁盘上有两个数据文件:
.frm文件:表示表的定义,由MySQL的server层定义。
.ibd文件:数据和索引文件。
InnoDB采用的是MVCC多版本控制来支持高并发。并且它实现了四个标准的事务隔离级别,其默认的隔离级别是可重复读。它支持行锁,并且通过间隙锁策略防止幻读的出现。
InnoDB是基于聚簇索引建立的,对基于主键的查询有很高的性能。
MyISAM
我们先看一下'user_isam'表的信息 ,它的存储引擎为MyISAM。
- mysql> show table status like 'user_isam' \G
- *************************** 1. row ***************************
- Name: user_isam
- Engine: MyISAM
- Version: 10
- Row_format: Dynamic
- Rows: 0
- Avg_row_length: 0
- Data_length: 0
- Max_data_length: 281474976710655
- Index_length: 1024
- Data_free: 0
- Auto_increment: NULL
- Create_time: 2021-02-16 16:36:25
- Update_time: 2021-02-16 16:36:25
- Check_time: NULL
- Collation: utf8_general_ci
- Checksum: NULL
- Create_options:
- Comment:
- 1 row in set (0.00 sec)
MyISAM会将表存储在两个文件中:数据文件和索引文件。
.frm文件:表示表的定义,由MySQL的server层定义。
.MYD文件:表示数据文件。
.MYI文件:表示索引文件。
MyISAM提供了很多特性,但是它不支持事务和行锁,它是对整张表加锁,而且崩溃后无法安全恢复,这也是它被InnoDB取代的原因。
总结
MySQL逻辑架构分为Server层和存储引擎层。
Server层负责连接、缓存、解析 、优化、执行。存储引擎负责数据的存储和提取。
存储是插件式的,可以根据每个表的需求选择不同的存储引擎,但是不建议这么做。除非需要用到InnoDB不具备的特性,并且无法解决只能选择其他引擎的情况下才需要修改,否则都按照默认的InnoDB引擎。而且除非万不得已,不建议混合使用多种引擎。