从汇编看函数
一、简介
CPU
中央处理器,内部主要包括寄存器、运算器、控制器。
- 寄存器:存储数据
- 运算器:处理数据
- 控制器:控制硬件
IO
口的高低电平。
常用寄存器
pc:
程序计数器,确定指令位置sp:
在任意时刻都会保存栈顶的地址,调用函数就会开辟栈空间(通过操作sp寄存器
来开辟栈空间)fp:
也称为x29
寄存器属于通用寄存器,在某些时刻利用它来保存栈底的地址
x30寄存器
x30寄存器
存放当前调用函数的返回地址- 当
ret
指令执行时,会找到x30寄存器
保存的地址值,继续向下执行
常用指令
str
:读取寄存器值,存入内存中ldr
:读内存中的值,存入到寄存器stp
:入栈指令stp x0, x1, [sp]
存入两个值ldp
:出栈指令ldp x0, x1, [sp]
取出两个值bl
:将下一条指令的地址放入lr(x30)
寄存器,跳转到标号处执行指令ret
:默认使用lr(x30)寄存器
的值,通过底层指令提示CPU
此处作为下条指令的地址orr
:orr{条件}{S} 目的寄存器,操作数1,操作数2
,把结果放置到目的寄存器
函数参数和返回值ARM64
下,函数存放在x0~x7(w0~w7)
这8
个寄存器中,超过8
个参数,就会入栈。函数返回值是放在x0寄存器
中的。通用寄存器32
个。
二、汇编函数嵌套
1、demo1-汇编函数嵌套
1 | .text |
执行顺序:
1 | demo`A: |
继续执行,①和②会来回执行,①->②->①->…。
原因:在A函数
中调用了B函数
,这里x30
的值将被置为B函数
的结束地址,继续执行到ret
,ret
会读取了x30
的地址(B函数的结束地址)①处,继续往下执行到②,因此就①->②->①->…。
下面看系统是如何处理嵌套函数的调用的:
2、demo2-c函数嵌套
1 | int A(void); |
断点单步执行打印如下:
1 | demo`c: |
stp:
写入,向x29、x30
写入到栈空间stp x29, x30, [sp, #-0x10]!:
等价于sp = sp-0x10(16字节)
并赋值所在地址,拉伸栈空间,拉伸栈空间的大小为16
字节的倍数- 执行
c函数
ldp x29, x30, [sp], #0x10:
将用sp
所在地址值给x29、x30
赋值,sp+0x10
释放空间,保持栈平衡
在每一步打印x30
的值:
从上面的运行结果可以看出,x30
寄存器在调起内嵌函数前,存储x30
地址到 [sp, #-0x10]
的地址中,内嵌函数调用完成后,重新设置当前x30 = sp
(sp
存储了当前函数的地址),执行到ret
,ret
读取到的地址即当前函数的结束地址,继续执行则跳出该函数。
3、demo3-完善demo1
在函数内调用函数,保存当前函数A
结束地址x30
到sp-0x10(16个字节)
位置,函数B
结束后重新设置x30
的值为sp(函数A的结束地址)
,这样就完成嵌套函数调用。
1 | .text |
如下:
三、函数
上面了解了汇编函数嵌套的处理方法,下面看一下在汇编层对参数是怎么处理的。
1 | int sum(int a, int b) { |
断点查看主函数汇编代码:
sub sp, sp, #0x30
:sp-0x30
申请48
个字节的栈空间(sp
指向可用栈空间的栈顶),sub
减指令x29、x30
保存栈底栈顶,做为嵌套函数的中间变量- 上面可以看到变量值
#0x5、#0x7
,存入到w0、w1
寄存器中
进入sum函数
内查看,汇编指令:
- 在
sum
函数内拉伸栈空间 str
指令将w0、w1
寄存器中的值入栈,再取出,有说法是为防止寄存器被使用,存储值发生变化,使用前读取栈区的值就不会出现被串改的问题,优化后的指令是直接走add sp, sp, #0x10
的。但是既然在连续执行的指令中都有被串改的可能,那么在取值后,add
前也是有可能被串改的,所以感觉以上说法并不能解释这一多余操作,除非后面指令中,有使用该参数值,存储到栈是有必要的sp, sp, #0x10
:数据处理完成回收栈空间ret
:有参数函数返回值是x0寄存器
的值不是x30寄存器
的值,w0
是x0
寄存器的低32
位,因此x0=w0
,ret=w0=0x12=12
编译器优化:

优化后的汇编指令:
- 优化掉了参数的存储,取值,直接将寄存器值相加
- 没有拉伸栈空间
掉了两根头发!!!
多参数demo
1 | int sum(int a,int b,int c,int d,int e,int f,int g,int h,int i,int j,int k,int l) { |
main函数
汇编指令如下:
初始化寄存器的值,这里使用w0~w8、x9
,这里w0=x0,w9=x9
,不用纠结为什么没有都使用w
或x
,w
是x
的低32
位,同属于一个寄存器,在系统级别怎么用都行。过!
进入函数内部:
拉伸栈空间,存寄存器值,取值,相加,指令太多,每一条指令耗时1/主频
,复合指令耗时2/主频
,这么多指令,太烧了。
局部变量
demo1-函数多参数
1 | int funcC() { |
函数汇编指令如下:
- 开辟栈空间
0x10
- 将值存入到
w8寄存器
中(任意w) - 将寄存器值入栈,出栈,计算
再看一段代码:
1 | int funcC() { |
汇编指令:
这里就执行了一条指令,其实内部有做add
相关指令,这里做了优化,但相比上面声明的局部变量,这里没有开辟栈空间,省去了很多指令,每一条指令耗时1/主频
,复合指令耗时2/主频
,每条指令都要放电一次,耗电,局部变量悠着点用,当然真正开发中编译器是会优化掉这些多余代码。
……
……