在上文中,我们了解了教你如何利用MySQL学习MongoDB之安装篇,本文中我们继续我们的学习之旅,学习其数据存储结构。
1、MySQL的数据存储结构
MySQL的每个数据库都对应存放在一个与数据库同名的文件夹中,MySQL数据库文件包括MySQL所建数据库文件和MySQL所用存储引擎创建的数据库文件。
MySQL如果使用MyISAM存储引擎,数据库文件类型就包括.frm、.MYD、.MYI
MySQL如果使用InnoDB存储引擎,数据库文件类型就包括.frm、ibdata1、.ibd
(1)、数据库文件:
.frm文件:存储数据表的框架结构,MySQL数据库文件名与表名相同,每个表对应一个同名frm文件,与操作系统和存储引擎无关,即不管MySQL运行在何种操作系统上,使用何种存储引擎,都有这个文件。除了必有的.frm文件,根据MySQL所使用的存储引擎的不同(MySQL常用的两个存储引擎是MyISAM和InnoDB),存储引擎会创建各自不同的数据库文件。
(2)、MyISAM数据库表文件:
- .MYD文件:即MY Data,表数据文件
- .MYI文件:即MY Index,索引文件
- .log文件:日志文件
(3)、InnoDB采用表空间:
ibdata1、ibdata2:系统表空间MySQL数据库文件,存储InnoDB系统信息和用户数据库表数据和索引,被所有表共用;
.ibd文件:单表表空间文件,每个表使用一个表空间文件(file per table),用于存放用户数据库表数据和索引;
日志文件:ib_logfile1、ib_logfile2。
2、MongoDB的数据存储结构
MongoDB对国内用户来说比较新, 它就像是一个黑盒子,但是如果对于它内部的数据存储了解多一些的话,那么将会很快的理解和驾驭MongoDB,让它发挥它更大的作用。
MongoDB的默认数据目录是/data/db,它负责存储所有的MongoDB的数据文件。在MongoDB内部,每个数据库都包含一个.ns文件和一些数据文件,而且这些数据文件会随着数据量的增加而变得越来越多。所以如果系统中有一个叫做foo的数据库,那么构成foo这个数据库的文件就会由foo.ns,foo.0,foo.1,foo.2 等等组成,具体如下:
- [root@localhost db]# ll /data/db/
- 总计 196844
- -rw------- 1 root root 16777216 04-15 16:33 admin.0
- -rw------- 1 root root 33554432 04-15 16:33 admin.1
- -rw------- 1 root root 16777216 04-15 16:33 admin.ns
- -rw------- 1 root root 16777216 04-21 17:30 foo.0
- -rw------- 1 root root 33554432 04-21 17:30 foo.1
- -rw------- 1 root root 67108864 04-21 17:30 foo.2
- -rw------- 1 root root 16777216 04-21 17:30 foo.ns
- -rwxr-xr-x 1 root root 6 04-21 17:16 mongod.lock
- -rw------- 1 root root 16777216 04-15 16:30 test.0
- -rw------- 1 root root 33554432 04-15 16:30 test.1
- -rw------- 1 root root 16777216 04-15 16:30 test.ns
- drwxr-xr-x 2 root root 4096 04-21 17:30 _tmp
- [root@localhost db]#
MongoDB内部有预分配表空间的机制,每个预分配的文件都用0进行填充,由于有了这个机制, MongoDB始终保持额外的空间和空余的数据文件,从而有效避免了由于数据暴增而带来的磁盘压力过大的问题。
由于表中数据量的增加,数据文件每新分配一次,它的大小都会是上一个数据文件大小的2倍,每个数据文件***2G。这样的机制有利于防止较小的数据库浪费过多的磁盘空间,同时又能保证较大的数据库有相应的预留空间使用。
数据库的每张表都对应一个命名空间,每个索引也有对应的命名空间。这些命名空间的元数据都集中在*.ns文件中。
在下图中,foo这个数据库包含3个文件用于存储表和索引数据,foo.2文件属于预分配的空文件。foo.0和foo.1这两个数据文件被分为了相应的盘区对应不同的名字空间。
上图显示了命名空间和盘区的关系。每个命名空间可以包含多个不同的盘区,这些盘区并不是连续的。与数据文件的增长相同,每一个命名空间对应的盘区大小的也是随着分配的次数不断增长的。这样做的目的是为了平衡命名空间浪费的空间与保持某一个命名空间中数据的连续性。上图中还有一个需要注意的命名空间:$freelist,这个命名空间用于记录不再使用的盘区(被删除的Collection或索引)。每当命名空间需要分配新的盘区的时候,都会先查看$freelist是否有大小合适的盘区可以使用。
【编辑推荐】