本文转载自微信公众号「 编程珠玑」,转载本文请联系 编程珠玑公众号。
作者:守望,linux应用开发者,目前在公众号【编程珠玑】 分享Linux/C/C++/数据结构与算法/工具等原创技术文章和学习资源。
我们在编写C/C++程序时,32位程序和64位程序的代码有何区别?如何编写既可以编译成32位程序又可以编译成64位程序的代码?
代码上的区别
实际上,对于32位程序和64位程序来说,代码上的区别不大,严格来说,甚至是一样的,它的主要区别在于一些基本数据类型占用的字节长度不一样(注:这里仅针对类Unix平台)
类型 | 32位占用字节 | 64位占用字节 |
---|---|---|
long | 4 | 8 |
unsigned long | 4 | 8 |
指针 | 4 | 8 |
当然这里的long包括一些用它定义的类型,如time_t,它的长度也是有区别的,关于time_t,还有一个有意思的问题《什么是2038问题》。
除此之外,其默认对齐字节数,也不一样,32位程序为4字节,64位程序默认为8字节。关于字节对齐,可参考《理一理字节对齐的那些事》。
可执行文件上的区别
来看个小例子吧,看看他们有何区别。
- //来源:公众号编程珠玑
- //作者:守望先生
- test.c
- #include<stdio.h>
- struct Test
- {
- int a;
- long b;
- };
- int main(void)
- {
- printf("sizeof(long) = %zu\n",sizeof(long)); //long类型占用字节数
- printf("sizeof(unsigned long) = %zu\n",sizeof(unsigned long));//unsigned long类型占用字节数
- struct Test test = {1,2};
- printf("sizeof(struct Test) = %zu\n",sizeof(test));//用于测试对齐字节数
- printf("sizeof(pointer) = %zu\n",sizeof(&test)); //指针占用字节数
- return 0;
- }
如果你的系统是64位,默认编译为64位程序,而如果需要编译为32位程序,则需要带上-m32参数,如果你的系统是32位的,那么是不能直接运行64位程序的,但是如果是64位的,是可以运行32位程序的。(实际上你在下载软件的时候需要选择位数的时候,就需要注意了,如果你的系统32位的, 但是你下载了一个64位的程序包,自然是不可用的,但是反过来却可以。)
编译为32位程序运行:
- $ gcc -o test32 test.c -m32
- $ ./test32
- sizeof(long) = 4
- sizeof(unsigned long) = 4
- sizeof(struct Test) = 8
- sizeof(pointer) = 4
编译位64位程序运行:
- $ gcc -o test64 test.c
- $ ./test64
- sizeof(long) = 8
- sizeof(unsigned long) = 8
- sizeof(struct Test) = 16
- sizeof(pointer) = 8
通过运行结果,我们也可以看出前面提到的差别。
那么可执行文件本身有什么差别呢?
- $ readelf -h test32
- ELF Header:
- Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00
- Class: ELF32
- Data: 2's complement, little endian
- Version: 1 (current)
- OS/ABI: UNIX - System V
- ABI Version: 0
- Type: EXEC (Executable file)
- Machine: Intel 80386
- (...)
可以看到Class属性标识为ELF32。
而对于64位:
- readelf -h test64
- ELF Header:
- Magic: 7f 45 4c 46 02 01 01 00 00 00 00 00 00 00 00 00
- Class: ELF64
- Data: 2's complement, little endian
- Version: 1 (current)
- OS/ABI: UNIX - System V
- ABI Version: 0
- Type: EXEC (Executable file)
- Machine: Advanced Micro Devices X86-64
它的属性为ELF64。实际上我们可以通过readelf发现很多信息。
例如你在进行交叉编译后出现链接错误或者最后的执行程序在目标机器无法运行,则可以查看Machine部分,看看程序是否能在你想要的平台运行。
例如64位程序中的Machine中显示的是Advanced Micro Devices X86-64,至少说明它在arm平台是没法正常运行的。
一个程序最大能申请多少内存空间?
还记得这道面试题吗?如果你只是回答Linux理论最大不超过3G,windows不超过G,那肯定是不完整的,这里必须要区分32位程序和64位程序。
这一点在《解引用NULL为什么会挂死?》中已经有所提及。32位决定了其虚拟地址空间的最大值为2^32,即4G,除去操作系统占用的1G左右,剩下3G左右,当然了这里面3G包含了所有代码,数据等,总结就是,最终能使用的不超过3G。不到3G的地址空间。(注这里并不表示它只能访问计算机4G的内存,而是表示最大寻址范围为4G)。那么64位的虚拟地址空间扩展到了17179869184G,所以,看出差别了吗?
通过上面简单的分析可以发现,64位程序理论能使用的内存是惊人的,而32位程序却非常有限,除此之外,还有一个在《什么是2038问题》》中提到的问题,就是2038年后,32位程序将很难正常使用时间相关的处理。
当然了,64位系统通常能够支持更高精度的浮点运算。
同时支持32位和64位代码编写原则
基于前面提到的原因,很多传统系统都开始着手移植到64位系统上,而如果原先代码就非常规范的话,移植工作还算比较轻松,链接64位库,编译成64位程序即可,但是如果没有遵循以下原则,那么工作量就比较大了:
依赖long类型和指针类型占用空间大小以及其表示范围
当然,对于这个原则,其表现可能非常多。
long和int混用
例如:
- void test(long len)
- {
- int localLen = len;
- xxxx;
- }
这里很明显可能会发现截断。最常见的就是:
- int len = sizeof(xxx);
当然,这里大多数情况下也不会有太大问题,直到其长度大于int表示范围。
慎用掩码定义
我们可能经常需要定义一些掩码:
- long mask = OxFFFFFFFFL;
在 32 位系统上,这会将所有位都置位(每位全为 1),但是在 64 位系统上,只有低 32 位被置位了。结果是这个值是 0x00000000FFFFFFFF。
如果希望所有位置1,那么可以:
- long mask = 1L << ((sizeof(long) * 8) - 1);
打印指针
32下,这样的没问题的:
- int a = 10;
- int *p = &a;
- printf("%x",p);
但是64位下,打印不完全。自然要使用:
- printf("%p",p);
传送结构体数据
在32位和64位系统中,其默认对齐字节数是不一样的。
- strcut test
- {
- int a;
- long b;
- }
如果对方是64位,发送过来上述结构体数据,而你的是32位程序,可想而知,结果并不会如你所愿。前面占用空间16字节,而后者占用空间8字节。
显示定义long
如果你的数据类型是long,那么可以使用L显示说明:
- long i = 1 << a;
上面的写法建议换成:
- long i = 1L << a;
避免数据被截断。
总结
关于这样的点还有很多,这里不一一介绍。本文简单介绍了32位程序和64位程序的区别,以及移植过程中需要注意的原则。实际上编写同时能够运行在32位和64位系统上的整体原则基本如下:
- 不要试图假定数据类型的占用空间
- 显示区别使用int和long
而前面提到的一些问题,其实通过一些代码检查工具就很容易发现了,不放过小的警告,基本能解决大部分问题。