深入理解C++数据类型对齐-51CTO.COM

在C++中,为了提高内存访问效率,编译器会对某些数据类型的变量进行对齐。数据对齐是指数据存储地址要求保持一定的对齐比特,通常是内存总线宽度的整数倍。合理的对齐可以优化存储器存取,提高访问性能。

对齐的原因

现代CPU在访问内存时,是以一个word(字)为访问单位,一个word大小通常为4字节或8字节。如果数据存储地址不是word大小的整数倍,就需要多次内存访问才能读取完,这会降低访问效率。

举例:一个int类型占4字节,地址为0x1004,那么读取这个int需要两次访问:第一次访问地址0x1004,第二次访问地址0x1008,两次访问才能把int读完。如果int的地址是0x1008,就是4字节对齐的,那么只需要访问一次就可以读取完,效率更高。

对齐方式的选择

在选择数据类型的对齐方式时，需要考虑多个因素，包括数据类型的大小、系统架构、编译器实现等。通常情况下，对于较小的数据类型，可以选择字节对齐；对于较大的数据类型，可以选择自然对齐或最宽基本数据类型对齐。此外，在编写跨平台的程序时，需要考虑系统架构的不同，选择合适的对齐方式，以确保程序在不同系统上的运行效果一致。

C++中的对齐

C++编译器会自动对结构体、类和数组等进行对齐。具体来说:

结构体和类的每个成员会根据其大小和对齐要求进行对齐
数组的每个元素会对齐到元素大小的整数倍
整型提升为与机器字大小相同的类型

以32位系统为例(word大小为4字节),结构体align的定义：

struct align {
  char a; // 1字节 
  int b; // 4字节
  double c; // 8字节 
};1.
2.
3.
4.
5.

结构体align的大小不是每个成员大小的简单相加,而要考虑对齐,会调整每个成员的偏移,让每个成员地址都是4的整数倍:

a偏移 0 (对齐到 0)
b偏移 4 (对齐到 4的整数倍)  
c偏移 8 (对齐到 8的整数倍)

结构体总大小是12字1.
2.
3.
4.
5.

又如把align中的int改为char,结构体大小就变为8字节,因为加上一个char后总大小就是8的整数倍了。

强制对齐

C++还提供了一些对齐属性来控制数据对齐：

attribute((aligned(n))): 指定数据对齐到n字节
attribute((packed)):取消结构体中的优化对齐

示例：

struct noalign {
  char a; 
  int b;
  double c;
} __attribute__((packed)); // 取消优化对齐

struct align16 {
  char a;
  int b; 
  double c;  
} __attribute__((aligned(16))); // 16字节对齐1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.

通过控制对齐可以优化存储器访问,但也会增加结构体的大小,需要权衡空间和时间的效率。

对齐的影响因素

数据类型的对齐方式会直接影响结构体、类等复合数据类型的内存布局，进而影响程序的性能和可移植性。常见的对齐问题包括内存浪费、程序崩溃、数据读取错误等。

内存浪费是最常见的对齐问题之一。当数据类型的对齐方式不合适时，会导致结构体等复合数据类型中出现无用的填充字节，从而浪费内存空间。例如，对于一个包含多个char类型的变量的结构体，如果使用自然对齐，那么会出现大量的填充字节，从而浪费了内存空间。

程序崩溃是另一个常见的对齐问题。当数据类型的对齐方式不正确时，会导致程序在访问内存时出现未定义的行为，例如读取到错误的数据、访问非法的内存地址等，从而导致程序崩溃。这种情况下，通常需要重新设计数据结构，以确保数据类型的对齐方式符合要求。

数据读取错误也是一种常见的对齐问题。当数据类型的对齐方式不正确时，会导致某些数据类型的读取出现错误，例如float、double等浮点数类型。这种情况下，可能需要使用特殊的类型转换方式来保证数据的正确读取。

代码示例

下面是一个简单的代码示例，展示了数据类型对齐的影响：

#include <iostream>

using namespace std;

struct Test {
    char a;
    int b;
    char c;
};

int main() {
    Test t;
    cout << "sizeof(Test) = " << sizeof(Test) << endl;
    cout << "&t.a = " << (void*)&t.a << endl;
    cout << "&t.b = " << (void*)&t.b << endl;
    cout << "&t.c = " << (void*)&t.c << endl;
    return 0;
}1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.

在这个示例中，定义了一个包含char、int、char类型的结构体Test。通过sizeof运算符可以获取结构体的大小，通过取地址操作可以获取结构体中各个成员变量的地址。运行程序可以得到如下输出：

sizeof(Test) = 12
&t.a = 0x7ffee2c3b1c0
&t.b = 0x7ffee2c3b1c4
&t.c = 0x7ffee2c3b1c81.
2.
3.
4.

可以看到，结构体Test的大小为12字节，其中有两个字节的填充。这是因为在默认情况下，编译器使用自然对齐方式，使得结构体的对齐位置是4的倍数。如果将编译器选项设置为不使用填充字节，可以得到如下输出：

sizeof(Test) = 9
&t.a = 0x7ffee2c3b1c0
&t.b = 0x7ffee2c3b1c1
&t.c = 0x7ffee2c3b1c51.
2.
3.
4.

可以看到，此时结构体Test的大小为9字节，没有任何填充字节。这种情况下，结构体的对齐方式是字节对齐。