代码要在计算机上跑起来,需要一系列计算机资源:内存、网络端口、打开的文件等等,这些资源一起被叫做进程。
进程有一个专门的控制块来记录这些资源,叫做进程控制块(PCB)。
这些资源里面最重要的就是内存了,进程启动的时候会向操作系统申请一些内存。
如果内存是无限的,那么我们在上面放数据、代码等,不用担心不够用,但可惜内存是有限的,我们要把用不到的内存及时的回收掉,用来放别的东西,这样代码才能正常的运行。
内存分为代码区、全局数据区、堆区、栈区等,这是操作系统可执行文件的内存模型,如果是 javascript、java 这种解释型语言,那还会再做自己的一些划分。但总体来说,都是分为这几部分。
代码区的内容基本不变。
栈区存放随着函数调用而声明的局部变量,每个函数一个栈帧,它是有上限的,调用层次过深会栈溢出。
全局数据区存放全局变量。
栈区和全局数据区中的大对象会存放在堆上,只留一个引用。
堆区存放动态分配的大对象,占内存最多,我们内存管理也主要是管理堆内存。
为了管理好这一亩三分地的堆内存,不同的语言有不同的方式,聪明程度各不相同,我们来看一下谁更聪明吧:
C、C++
C、C++ 的内存都是程序员手动管理的,比如 C++ 的 class 有构造函数和析构函数,构造函数里申请内存,析构函数里面就把这些内存释放掉。
是否漏掉一些内存没释放取决于程序员,很看程序员水平。
腾讯之前是大规模用 C++ 做服务端开发的,但是后来也逐渐转向 go、java 了,因为 C++ 这种手动管理内存的方式,万一某个程序员漏掉了一些内存没释放,那就内存泄漏了。(内存泄漏就是不再使用的内存一直占用着,导致可用内存减少),而服务器是长时间跑的,轻微的内存泄漏逐渐积累最终都会导致进程崩溃。
靠程序员来保证释放掉不用的内存太难了,如果程序能自己回收这些垃圾内存就好了,那就解放了程序员了,代码可靠性也更高。所以后来的高级语言基本都有了自动的垃圾回收机制。
java、javascript
c++ 那种手动管理内存的方式太麻烦了,所以 java 和 javascript 设计之初就不让程序员操作内存,而是自己做了一套垃圾回收机制,定期把没用的内存释放下。
怎么检测哪些内存没用呢?最开始的思路是对每个对象都记录下引用数,如果没有被引用了,那就可以回收了,这种思路叫引用计数。
但是这个思路有个问题,万一两个对象你引用我我引用你,并且都没被别的对象引用,这种循环引用的问题检查不出来。
看来这种方式还不够聪明。怎么优化呢?
从全局的对象开始,把所有引用的对象标记一遍,没被标记的就清掉。这样不管是没被引用的,还是循环引用但是都没被别的对象引用的,都可以检查出来,这种思路叫做标记清除。
标记清除的思路更聪明些,所以现在的 js 引擎基本都用这个思路。
这样的内存管理思路其实也是存在问题的,万一有的不用的对象被放到全局了,那就永远不会回收了。这种也会内存泄漏。
这个只能靠程序员排查了,通过工具把一些不该放到全局的变量给找出来。
js 的内存泄漏排查一般都是用 chrome devtools 的 memory 工具,他可以取到某个时间点的内存快照,做一些操作后,再取一次内存快照,两个内存快照对比下就能找出增加了哪些全局变量。然后定位到那段内存泄漏的代码。
比如这样一段代码:
5s 后在全局声明一个变量 aaa,是正则表达式类型。
我们用 chrome devtools 的 memory 工具分别取两次快照。
这里有不同的视图,我们选择比较视图来对比两个快照:
可以看到 delta 那一列,显示了正则表达式的对象 + 1,这就是我们定时器里声明的那个全局变量。
通过这种内存快照的对比,就可以定位什么操作导致的内存泄漏,进而定位到代码。
自动的垃圾回收避免了程序员没有释放一些内存导致的泄漏,但是仍然会有把没用的对象放到全局导致的泄漏。这种方案比较聪明,但也是有问题的。
rust
rust 也不需要程序员手动管理内存,但也没有垃圾回收,却把内存管理的更好,而且能避免 99% 的内存泄漏问题。它是怎么做到的呢?
rust 觉得堆中的对象之所以难管理就是因为被太多地方引用了,如果限制了对象只能属于某个函数,只能有一个引用,别的引用自己复制一份去,这样函数调用结束就可以把用到的堆中的对象全部回收了,根本不会留下垃圾。这种思路叫做所有权机制。
所有权机制通过限制对象的引用的方式来做到了不需要垃圾回收器也能很好的管理内存。而且也没有 js 那种不小心把对象放到全局就会内存泄漏的问题。
rust 的所有权机制是更聪明的一种内存管理方式,也是因为这个原因,rust 正变得越来越火。
总结
进程的可用内存是有限的,需要及时把不再用到的变量的内存释放掉,不同语言对内存管理的方式不同,聪明程度不同:
c、c++ 是靠程序员自己管理内存的,万一不小心某个内存没释放就泄漏了。
java、javascript 则是不让程序员自己管理,有专门的垃圾回收器,最开始通过引用计数,后来改成了标记清除,通过这种方式来找到没用的内存释放掉。
但万一把没用的对象放到了全局,那就回收不了了,这种就是内存泄漏,需要用 chrome devtools 的 memory 工具记录两次快照,然后做 diff,通过看内存是否增加来定位到导致内存泄漏的代码。
rust 也不用程序员手动管理内存,但也没有垃圾回收器,它限制了对象只能有一个引用,这样函数调用结束就可以把对象回收掉,根本不会留下垃圾,而且也避免了把没用的对象放到全局的那种内存泄漏(因为只允许一个引用)。
语言的发展规律就是这样,让程序员做的事情更少,也让程序的健壮性更高。这需要更聪明的语言设计,更强大的编译器/解释器。