MySQL客户端和服务器是怎么通信的?
1.首先请求会被MySQL客户端编码为字节序列之后通过网络传输到服务器。
对于MySQL自带的客户端来说,这个编码过程使用的字符集和我们使用的操作系统的默认字符集是一样的,类Unix系统的默认字符集就是utf8,Windows系统的默认字符集就是gbk。
启动MySQL客户端时,MySQL客户端就会检测到这个操作系统使用的是utf8字符集,并将客户端默认字符集设置为utf8。如果MySQL不支持自动检测到的操作系统当前正在使用的字符集,或者在某些情况下不允许自动检测的话,MySQL会使用它自己的内建的默认字符集作为客户端默认字符集。这个内建的默认字符集在MySQL 5.7以及之前的版本中是latin1,在MySQL 8.0中修改为了utf8mb4。
如果我们在启动MySQL客户端是使用了default-character-set启动参数,那么客户端的默认字符集将不再检测操作系统当前正在使用的字符集,而是直接使用启动参数default-character-set所指定的值。比方说我们使用如下命令来启动客户端:
mysql --default-character-set=utf8
那么不论我们使用什么操作系统,操作系统目前使用的字符集是什么,我们都将会以utf8作为MySQL客户端的默认字符集。
2.服务器收到字节序列请求之后,会认为该字节串是按照character_set_client系统变量编码的,之后将其从character_set_client转换到character_set_connection,再进行更深入的处理。
3.最后将响应发送至客户端时,又会按照character_set_results进行编码。
4.客户端收到响应字节串之后,按照本客户端规定的字符集进行解码。
对于MySQL自带的客户端来说,这个解码过程使用的字符集和我们使用的操作系统的默认字符集是一样的,类Unix系统的默认字符集就是utf8,Windows系统的默认字符集就是gbk。
系统变量 | 描述 |
MySQL客户端字符集 | MySQL客户端字符集 |
character_set_client | 服务器解码请求时使用的字符集 (服务器认为请求是按照该系统变量指定的字符集进行编码的) |
character_set_connection | 服务器处理请求时会把请求字符串从character_set_client转为character_set_connection |
character_set_results | 服务器向客户端返回数据时使用的字符集 (服务器采用该系统变量指定的字符集对返回给客户端的字符串进行编码) |
从通信转码流程来看,要保证没有乱码出现:
character_set_client、character_set_connection和character_set_result这三个系统变量应该和客户端的默认字符集相同即可。
SET names命令可以一次性修改这三个系统变量。
实验验证
数据库字符集:
1.客户端发送请求时会将字符'我'按照utf8进行编码,也就是:0xE68891。
2.服务器收到请求后发现有前缀_gbk,则不会将其后边的字节0xE68891进行从character_set_client到character_set_connection的转换,而是直接把0xE68891认为是某个字符串由gbk编码后得到的字节序列。
3.再把上述0xE68891从gbk转换为character_set_results,也就是utf8。0xE688在gbk中代表汉字'鎴',而0x91无法解码(我们可以看到上述查询结果中有1个warning)。
结论
解决乱码问题,要从客户端到服务器通信流程中的字符集编码、转码、解码来分析是哪一步的问题。
一般情况下,保证:
- character_set_client
- character_set_results
- character_set_connection
- 客户端的字符集编码
当其一致时就可解决乱码问题。