全面剖析逆向还原代码的内存结构

开发 开发工具
在逆向还原代码的时候,必须得掌握了菱形继承,多继承,虚继承虚函数的内存虚表结构。所以,这篇文章献给正在学习C++的朋友们。

 // 声明:以下代码均在Win32_Sp3   VC6.0_DEBUG版中调试通过..

当然,由于水平有限,必定错漏百出!所以,希望耽误您的时间,恳求您的指点。在这里万分感谢!

首先,我们定义如下类:

  1. class A 
  2. public
  3.   A() 
  4.   { 
  5.     m_nData = 1; 
  6.   } 
  7.   virtual void fun() 
  8.   { 
  9.  
  10.   } 
  11.   int m_nData; 
  12. }; 
  13.  
  14. class B 
  15. public
  16.   B() 
  17.   { 
  18.     m_nData = 2; 
  19.   } 
  20.   virtual void fun() 
  21.   { 
  22.      
  23.   } 
  24.   int m_nData; 
  25. }; 
  26.  
  27. class AB :public A, public B 
  28. public
  29.   AB() 
  30.   { 
  31.     m_nData = 3; 
  32.   } 
  33.   virtual void fun() 
  34.   { 
  35.      
  36.   } 
  37.   int m_nData; 
  38. }; 
  39.  
  40.    
  41. int main(int argc, char* argv[]) 
  42.   AB the; 
  43.  
  44.   return 0; 

类的构造顺序:先基类-->在成员对象-->在派生类(自己)

所以the对象的构造过程如下:

按照继承定义时写的顺序:

1、基类A构造:虚表赋值,成员数据

2、基类B构造:虚表赋值,成员数据

3、派生类AB构造:虚表覆盖,成员数据

内存中结构如下图:

在做如下修改:

  1. class A 
  2. public
  3.   A() 
  4.   { 
  5.     m_nData = 1; 
  6.   } 
  7.   virtual void fun() 
  8.   { 
  9.  
  10.   } 
  11.   virtual void fun1()  // 新增加 
  12.   { 
  13.      
  14.   } 
  15.   int m_nData; 
  16. }; 
  17.  
  18. class B 
  19. public
  20.   B() 
  21.   { 
  22.     m_nData = 2; 
  23.   } 
  24.   virtual void fun() 
  25.   { 
  26.      
  27.   } 
  28.   virtual void fun2()  // 新增加 
  29.   { 
  30.      
  31.   } 
  32.   int m_nData; 
  33. }; 
  34.  
  35. class AB :public A, public B 
  36. public
  37.   AB() 
  38.   { 
  39.     m_nData = 3; 
  40.   } 
  41.   virtual void fun() 
  42.   { 
  43.      
  44.   } 
  45.   virtual void fun3()  // 新增加 
  46.   { 
  47.      
  48.   } 
  49.   int m_nData; 
  50. }; 
  51.  
  52.    
  53. int main(int argc, char* argv[]) 
  54.   AB the; 
  55.  
  56.   return 0; 

对于the对象来说,它的内存结构的内存结构还是不会改变,但是虚表的内容会改变,改变后的虚表如下:

1、A::Vtable如下:

&AB::fun  &A::fun1  AB::fun3

2、B::Vtable如下:

&AB::fun  &B::fun2

总结一下:先按继承声明顺序依次构造虚表,如果子类有虚函数,并且不同名,则填写到声明顺序首位的基类虚表中的末尾项。

我们从浅到深慢慢的剖析虚继承的内存结构,首先看源码如下:

 
  1. class A 
  2. public
  3.   A() 
  4.   { 
  5.     m_nDataA = 1; 
  6.   } 
  7.   int m_nDataA; 
  8. }; 
  9.  
  10. class B :virtual public A 
  11. public
  12.   B() 
  13.   { 
  14.     m_nDataB = 2; 
  15.   } 
  16.   int m_nDataB; 
  17. }; 
  18.  
  19. int main(int argc, char* argv[]) 
  20.   B the; 
  21.   return 0; 
 

假设没有virtual虚继承关键字,the对象在内存中的结构如下:

A::m_nDataA

B::m_nDataB

现在我们的源码中有virtual继承关键字,那么内存结构必然会有区别,那么内存结构是怎么样的呢?如下:

B::base Offset m_nDataA     // A::m_nDataA数据的偏移

B::m_nDataB

A::m_nDataA

编译器为什么要这么做呢?这个偏移值是什么?这么做的意义又何在?

首先,这么做是为了只存在于一份虚基类数据。后面会讲解。

B::base Offset 偏移的值,一般为全局数据区中。编译器为了和虚表区别。这个指针指向的地址的值一般为:0x00000000, 或者某些特殊值

而在他后面的4个字节中。才是真正数据的偏移地址

为什么取这两个值?为什么不直接写偏移呢?

编译器为了在内存中只产生一份基类数据,当然就必须得写偏移值,可是又为了和虚表区分。所以只能取特殊值作为区分。(当然这里仅个人猜想,不作参考)

继续看源码:

 
  1. class A 
  2. public
  3.   A() 
  4.   { 
  5.     m_nDataA = 1; 
  6.   } 
  7.   virtual void fun() 
  8.   { 
  9.   } 
  10.   int m_nDataA; 
  11. }; 
  12.  
  13. class B :virtual public A 
  14. public
  15.   B() 
  16.   { 
  17.     m_nDataB = 2; 
  18.   } 
  19.   virtual void fun() 
  20.   { 
  21.   } 
  22.   int m_nDataB; 
  23. }; 
  24.  
  25. int main(int argc, char* argv[]) 
  26.   B the; 
  27.   return 0; 
 

现在多了虚表的加入。内存结构有了大的变化

the对象的内存结构如下:

B::base Offset A   // B的父类A的偏移

B::m_nDataB

0x00000000  // 虚基类的非虚基类的分隔符

B::Virtual

A::m_nDataA

划红线的地方,产生覆盖,我们慢慢剖析编译器构造的过程。

the对象初始化空间如下:

0xCCCCCCCC

0xCCCCCCCC

0xCCCCCCCC

0xCCCCCCCC

0xCCCCCCCC

先是虚基类的构造。内存结构如下:

1、***步

B::base Offset A      // 填入A类的偏移 

0xCCCCCCCC

0xCCCCCCCC

0xCCCCCCCC

0xCCCCCCCC

2、第二步

B::base Offset A      // 由此处指向内容向下4个字节为B的父类A的偏移。取出内容偏移地址后。当前地址 + 偏移地址  ==  填写A类虚表的地址

0xCCCCCCCC

0xCCCCCCCC

A::virtual        // A类的虚表

0xCCCCCCCC

3、第三步

B::base Offset A      

0xCCCCCCCC

0xCCCCCCCC

A::virtual        

A::m_nDataA

4、第四步(程序流程返回到派生类B构造函数)

B::base Offset A      

0xCCCCCCCC

0x00000000      // 填充全0,作为虚基类和非基类的分隔符

A::virtual        

A::m_nDataA

5、第五步(虚表赋值)

A::Offset A      

0xCCCCCCCC

0x00000000

B::virtual           // 由于派生类的有写fun虚函数。构成覆盖关系。所以覆盖A的虚表

A::m_nDataA

6、第六步

B::base Offset A     

B::m_nDataB    // B::m_nDataB

0x00000000

B::virtual

A::m_nDataA

我们继续看源码:

 
  1. class A 
  2. public
  3.   A() 
  4.   { 
  5.     m_nDataA = 1; 
  6.   } 
  7.   virtual void fun() 
  8.   { 
  9.   } 
  10.   virtual void fun1() 
  11.   { 
  12.   } 
  13.   int m_nDataA; 
  14. }; 
  15.  
  16. class B :virtual public A 
  17. public
  18.   B() 
  19.   { 
  20.     m_nDataB = 2; 
  21.   } 
  22.   virtual void fun() 
  23.   { 
  24.   } 
  25.   virtual void fun2() 
  26.   { 
  27.   } 
  28.   int m_nDataB; 
  29. }; 
  30.  
  31. int main(int argc, char* argv[]) 
  32.   B the; 
  33.   return 0; 
 

加入了虚函数,构成多个虚表的the对象内存结构如下:

B::Vtable

B::base Offset A

B::m_nDataB

0x00000000

A::Vtable

A::m_nDataA

我们继续慢慢剖析内存结构。the对象初始化内存空间如下:

0xCCCCCCCC

0xCCCCCCCC

0xCCCCCCCC

0xCCCCCCCC

0xCCCCCCCC

0xCCCCCCCC

1、***步

0xCCCCCCCC

B::base offset A   // B的虚基类A的偏移地址. 规律找出来了。不用看偏移基本也可以推测出以下上个区域

0xCCCCCCCC

0xCCCCCCCC     // 这里应该是虚基类和非虚基类的分隔符。

0xCCCCCCCC     // 后面的步骤会填充为A的虚表

0xCCCCCCCC     // 后面的步骤会填充为A的数据成员m_nDataA

结果会是我们推测的这样吗?这是构造完虚基类A的情况。

果然和我们猜想的一样.到这里了。你肯定会问。为什么不在是对象的首地址开始填充偏移地址了。

这里要搞清楚的是。现在派生类有了自己虚函数Fun2(). 并且和父类不同名。所以必须单独建立一张虚表了。于是编译器就这样安排内存结构了.

继续往下剖析:

由于重复的操作,省略......  我们直接来看第五步

5、第五步(派生类B的构造函数)

B::virtual

B::base offset A

0xCCCCCCCC

0x00000000      //  虚基类和非虚基类的分隔符

A::Virtual          

A::m_nDataA

这里红色标记的地方产生了派生类虚函数的覆盖,虚表中的结构如下:

B::fun    // 覆盖掉了 A::fun

A::fun1

并且,产生一个B虚表,虚表中的结构如下:

B::fun2

6、第六步

B::virtual

B::base offset A

B::m_nDataB     // B的成员数据

0x00000000      

A::Virtual          

A::m_nDataA

好了,现在有了前面的讲解,我们来剖析下较为复杂菱形继承的内存结构,源码如下:

 
  1. class A 
  2. public
  3.   A() 
  4.   { 
  5.     m_nDataA = 1; 
  6.   } 
  7.   int m_nDataA; 
  8. }; 
  9.  
  10. class B :virtual public A 
  11. public
  12.   B() 
  13.   { 
  14.     m_nDataB = 2; 
  15.   } 
  16.   int m_nDataB; 
  17. }; 
  18.  
  19. class C :virtual public A 
  20. public
  21.   C() 
  22.   { 
  23.     m_nDatac = 3; 
  24.   } 
  25.   int m_nDatac; 
  26. }; 
  27.  
  28. class BC :public B, public C 
  29. public
  30.   BC() 
  31.   { 
  32.     m_nDataBC = 4; 
  33.   } 
  34.   int m_nDataBC; 
  35. }; 
  36.  
  37. int main(int argc, char* argv[]) 
  38.   BC the; 
  39.   return 0; 
 

由于是虚继承,所以虚基类只会产生一份拷贝.内存结构必然如下:

B::base offset A

B::m_nDataB

C::base offset A

C::m_nDataC

BC::m_nDataBC

A::m_nDataA 

在变形下.源码如下:

 
  1. class A 
  2. public
  3.   A() 
  4.   { 
  5.     m_nDataA = 1; 
  6.   } 
  7.   int m_nDataA; 
  8.   virtual void fun(){}  // 新增加 
  9. }; 
  10.  
  11. class B :virtual public A 
  12. public
  13.   B() 
  14.   { 
  15.     m_nDataB = 2; 
  16.   } 
  17.   int m_nDataB; 
  18.   virtual void fun(){}  // 新增加 
  19. }; 
  20.  
  21. class C :virtual public A 
  22. public
  23.   C() 
  24.   { 
  25.     m_nDatac = 3; 
  26.   } 
  27.   int m_nDatac; 
  28.   virtual void fun(){}  // 新增加 
  29. }; 
  30.  
  31. class BC :public B, public C 
  32. public
  33.   BC() 
  34.   { 
  35.     m_nDataBC = 4; 
  36.   } 
  37.   int m_nDataBC; 
  38.   virtual void fun(){}  // 新增加 
  39. }; 
  40.  
  41. int main(int argc, char* argv[]) 
  42.   BC the; 
  43.   return 0; 
 

加了虚函数后,the对象的内存结构如下:

B::base offset A

B::m_nDataB

C::base offset A

C::m_nDataC

0x00000000

BC::vtable

A::m_nDataA 

红色地方同理,派生类的fun多次覆盖父类的。***为BC::vtable。

我们继续变形如下:

 
  1. class A 
  2. public
  3.   A() 
  4.   { 
  5.     m_nDataA = 1; 
  6.   } 
  7.   virtual void fun(){} 
  8.   virtual void funA(){} 
  9.   int m_nDataA; 
  10. }; 
  11.  
  12. class B :virtual public A 
  13. public
  14.   B() 
  15.   { 
  16.     m_nDataB = 2; 
  17.   } 
  18.   virtual void fun(){} 
  19.   virtual void funB(){} 
  20.   int m_nDataB; 
  21. }; 
  22.  
  23. class C :virtual public A 
  24. public
  25.   C() 
  26.   { 
  27.     m_nDatac = 3; 
  28.   } 
  29.   virtual void fun(){} 
  30.   virtual void funC(){} 
  31.   int m_nDatac; 
  32. }; 
  33.  
  34. class BC :public B, public C 
  35. public
  36.   BC() 
  37.   { 
  38.     m_nDataBC = 4; 
  39.   } 
  40.   virtual void fun(){} 
  41.   virtual void funBC(){} 
  42.   int m_nDataBC; 
  43. }; 
  44.  
  45. int main(int argc, char* argv[]) 
  46.   BC the; 
  47.   return 0; 
 

the对象的内存结构如下:

B::vtable

B::base offset A 

B::m_nDataB

C::vtable

C::base offset A

C::m_nDataC

BC::m_nDataBC

0x00000000

A::vtable

A::m_nDataA

B::vtable中表末尾存放着BC::funBC, 而BC::fun则覆盖到A::vtable中.

BC::funBC我们知道。即使不是虚继承。也会自动填充到按定义顺序首基类的虚表的末尾。

而B是定义的首继承基类,而B::fun中又覆盖掉了虚基类A的虚表的A::fun,由于B和C虚继承于A。

所以B和C不能同时都在虚基类A中虚表末尾加上各自的虚函数,所以只能自己建张表.

然而BC又是以B定义顺序的基类.也不是虚继承。就把BC::funBC直接填充到B::vtable末尾.

到此为止,我们分析了几乎大部分虚继承的内存结构。在看到内存的时候。大家是否能还原出代码呢?

当然了。还有很多更复杂的结构。只要掌握了最基本的原理。无非就是组合使用了!

原文链接:http://www.cnblogs.com/ziolo/archive/2013/05/07/3066022.html

责任编辑:彭凡 来源: 博客园
相关推荐

2010-01-26 17:53:30

Android代码结构

2009-09-17 13:15:20

LINQ查询

2009-09-09 14:40:43

Linq to sql

2009-09-22 15:22:08

Hibernate性能

2010-03-10 15:44:04

2010-06-11 14:51:34

IS-IS路由协议

2009-09-18 17:17:58

LINQ模型

2009-10-28 13:44:40

linux库文件路径

2010-06-09 10:17:19

UML类图元素

2009-10-19 10:52:48

综合布线市场

2010-06-09 13:06:22

UML业务建模实例

2011-11-16 09:55:27

云计算

2023-02-08 08:12:15

2010-09-06 10:45:36

无线组网

2010-06-11 17:18:26

UML精粹

2009-09-02 17:14:28

C#修饰符

2009-12-16 10:41:37

Ruby随机存取文件

2010-06-01 11:22:30

SVN合并跟踪

2010-05-14 15:14:10

安装Subversio

2010-06-18 16:35:32

UML建模
点赞
收藏

51CTO技术栈公众号