Linux内核编译后地址空间的整理

运维 系统运维
Linux内核在编译之后有不少地方需要整理和规范,内核编译后地址空间如何范围?我们可以用Linux的实用程序objdump对你的程序进行反汇编,从而知晓其地址范围。

有这么一系列的问题,是否在困扰着你:用户程序编译连接形成的地址空间在什么范围内?内核编译后地址空间在什么范围内?要对外设进行访问,I/O的地址空间又是什么样的?

先回答***个问题。Linux最常见的可执行文件格式为elf(Executable and Linkable Format)。在elf格式的可执行代码中,ld总是从0x8000000开始安排程序的“代码段”,对每个程序都是这样。至于程序执行时在物理内存中的实际地址,则由内核为其建立内存映射时临时分配,具体地址取决于当时所分配的物理内存页面。

我们可以用Linux的实用程序objdump对你的程序进行反汇编,从而知晓其地址范围。

例如:假定我们有一个简单的C程序Hello.c

 

  1. # include <stdio.h> 
  2. greeting ( )  
  3. {  
  4. printf(“Hello,world!\n”);  
  5. }  
  6. main()  
  7. {  
  8. greeting();  

 

之所以把这样简单的程序写成两个函数,是为了说明指令的转移过程。我们用gcc和ld对其进行编译和连接,得到可执行代码hello。然后,用Linux的实用程序objdump对其进行反汇编:

 

  1. $objdump -d hello 

得到的主要片段为:

 

  1. 08048568 <greeting>:  
  2. 8048568: pushl %ebp  
  3. 8048569: movl %esp, %ebp  
  4. 804856b: pushl $0x809404  
  5. 8048570: call 8048474 <_init+0x84> 
  6. 8048575: addl $0x4, %esp  
  7. 8048578: leave  
  8. 8048579: ret  
  9. 804857a: movl %esi, %esi  
  10. 0804857c <main>:  
  11. 804857c: pushl %ebp  
  12. 804857d: movl %esp, %ebp  
  13. 804857f: call 8048568 <greeting> 
  14. 8048584: leave  
  15. 8048585: ret  
  16. 8048586: nop  
  17. 8048587: nop 

 

其中,像08048568这样的地址,就是我们常说的虚地址(这个地址实实在在的存在,只不过因为物理地址的存在,显得它是“虚”的罢了)。

虚拟内存、内核空间和用户空间

Linux虚拟内存的大小为2^32(在32位的x86机器上),内核将这4G字节的空间分为两部分。***的1G字节(从虚地址0xC0000000到0xFFFFFFFF)供内核使用,称为“内核空间”。而较低的3G字节(从虚地址0x00000000到0xBFFFFFFF),供各个进程使用,称为“用户空间”。因为每个进程可以通过系统调用进入内核,因此,Linux内核空间由系统内的所有进程共享。于是,从具体进程的角度来看,每个进程可以拥有4G字节的虚拟地址空间(也叫虚拟内存)。

每个进程有各自的私有用户空间(0~3G),这个空间对系统中的其他进程是不可见的。***的1GB内核空间则为所有进程以及内核所共享。另外,进程的“用户空间”也叫“地址空间”,在后面的叙述中,我们对这两个术语不再区分。

用户空间不是进程共享的,而是进程隔离的。每个进程***都可以有3GB的用户空间。一个进程对其中一个地址的访问,与其它进程对于同一地址的访问绝不冲突。比如,一个进程从其用户空间的地址0x1234ABCD处可以读出整数8,而另外一个进程从其用户空间的地址0x1234ABCD处可以读出整数20,这取决于进程自身的逻辑。

任意一个时刻,在一个CPU上只有一个进程在运行。所以对于此CPU来讲,在这一时刻,整个系统只存在一个4GB的虚拟地址空间,这个虚拟地址空间是面向此进程的。当进程发生切换的时候,虚拟地址空间也随着切换。由此可以看出,每个进程都有自己的虚拟地址空间,只有此进程运行的时候,其虚拟地址空间才被运行它的CPU所知。在其它时刻,其虚拟地址空间对于CPU来说,是不可知的。所以尽管每个进程都可以有4 GB的虚拟地址空间,但在CPU眼中,只有一个虚拟地址空间存在。虚拟地址空间的变化,随着进程切换而变化。

从上面我们知道,一个程序编译连接后形成的地址空间是一个虚拟地址空间,但是程序最终还是要运行在物理内存中。因此,应用程序所给出的任何虚地址最终必须被转化为物理地址,所以,虚拟地址空间必须被映射到物理内存空间中,这个映射关系需要通过硬件体系结构所规定的数据结构来建立。这就是我们所说的段描述符表和页表,Linux主要通过页表来进行映射。

于是,我们得出一个结论,如果给出的页表不同,那么CPU将某一虚拟地址空间中的地址转化成的物理地址就会不同。所以我们为每一个进程都建立其页表,将每个进程的虚拟地址空间根据自己的需要映射到物理地址空间上。既然某一时刻在某一CPU上只能有一个进程在运行,那么当进程发生切换的时候,将页表也更换为相应进程的页表,这就可以实现每个进程都有自己的虚拟地址空间而互不影响。所以,在任意时刻,对于一个CPU来说,只需要有当前进程的页表,就可以实现其虚拟地址到物理地址的转化。

内核空间到物理内存的映射

内核空间对所有的进程都是共享的,其中存放的是内核代码和数据,而进程的用户空间中存放的是用户程序的代码和数据,不管是内核程序还是用户程序,它们被编译和连接以后,所形成的指令和符号地址都是虚地址(参见2.5节中的例子),而不是物理内存中的物理地址。

虽然内核空间占据了每个虚拟空间中的***1GB字节,但映射到物理内存却总是从***地址(0x00000000)开始的,如图4.2所示,之所以这么规定,是为了在内核空间与物理内存之间建立简单的线性映射关系。其中,3GB(0xC0000000)就是物理地址与虚拟地址之间的位移量,在Linux代码中就叫做PAGE_OFFSET。

我们来看一下在include/asm/i386/page.h头文件中对内核空间中地址映射的说明及定义:

 

  1. #define __PAGE_OFFSET (0xC0000000)  
  2. ……  
  3. #define PAGE_OFFSET ((unsigned long)__PAGE_OFFSET)  
  4. #define __pa(x) ((unsigned long)(x)-PAGE_OFFSET)  
  5. #define __va(x) ((void *)((unsigned long)(x)+PAGE_OFFSET)) 

 

对于内核空间而言,给定一个虚地址x,其物理地址为“x- PAGE_OFFSET”,给定一个物理地址x,其虚地址为“x+ PAGE_OFFSET”。

这里再次说明,宏__pa()仅仅把一个内核空间的虚地址映射到物理地址,而决不适用于用户空间,用户空间的地址映射要复杂得多,它通过分页机制完成。

【编辑推荐】

  1. 三大常见的Linux引导问题与解决方案
  2. Linux加入Windows域之完整操作步骤
  3. 一个Linux爱好者对未来的期待
  4. inotify监控Linux文件系统的必备利器
责任编辑:张浩 来源: IT实验室
相关推荐

2021-01-08 05:59:39

Linux应用程序Linux系统

2021-03-22 11:43:07

Linux运维Linux系统

2009-10-16 09:45:41

Linux内核操作系统

2019-07-10 12:40:29

Linux虚拟地址空间物理地址空间

2017-03-27 18:05:49

Linux内核编译与开发

2023-05-08 08:05:42

内核模块Linux

2012-05-03 08:27:20

Linux进程

2021-05-26 07:53:58

Linux运维Linux系统

2018-05-18 09:07:43

Linux内核内存

2009-12-17 15:18:47

2010-03-02 16:13:56

Linux升级

2023-10-05 15:47:04

Linux内核编译

2017-08-24 11:00:56

Linux用户空间内核空间

2009-09-07 08:58:23

VMWare编译lin

2009-12-01 12:59:50

编译Suse Linu

2011-01-04 17:00:32

Linux内核编译

2023-07-25 15:17:38

Linux操作系统开发

2022-02-18 00:15:58

Linux指令CPU

2010-07-20 10:04:25

Linux内核编译

2020-11-11 11:11:23

Linux内核源码
点赞
收藏

51CTO技术栈公众号