Loading... > 最近看了操作系统相关的知识,结合上《程序员的自我修养》这本书所讲的链接装载与库,感觉对于一个程序从编译,到汇编转换成机器码,再到多目标文件与库的链接,是一个非常复杂的过程。所以想要浅显易懂的总结一下,也刚好是找到了一个算是浅显易懂的总结,所以在自己的理解上再进行了一些润色。 # 编译流程 从源代码得到可执行文件的编译流程可被细化为多个阶段(虽然输入一条命令便可将它们全部完成): 1. **编译器** (Compiler) 将每个源文件从某种高级编程语言转化为汇编语言,注意此时源文件仍然是一个 ASCII 或其他编码的文本文件; 2. **汇编器** (Assembler) 将上一步的每个源文件中的文本格式的汇编指令转化为机器码,得到一个二进制的 **目标文件** (Object File); 3. **链接器** (Linker) 将上一步得到的所有目标文件以及一些可能的外部目标文件链接在一起形成一个完整的可执行文件。 汇编器输出的每个目标文件都有一个独立的程序内存布局,它描述了目标文件内各段所在的位置。而链接器所做的事情是将所有输入的目标文件整合成一个整体的内存布局。在此期间链接器主要完成两件事情: * 第一件事情是将来自不同目标文件的段在目标内存布局中重新排布。如下图所示,在链接过程中,分别来自于目标文件 `1.o` 和 `2.o` 段被按照段的功能进行分类,相同功能的段被排在一起放在拼装后的目标文件 `output.o` 中。注意到,目标文件 `1.o` 和 `2.o` 的内存布局是存在冲突的,同一个地址在不同的内存布局中存放不同的内容。而在合并后的内存布局中,这些冲突被消除。 ![来自不同目标文件的段的重新排布](https://www.onesnowwarrior.cn/usr/uploads/2022/04/1342315807.png) * 第二件事情是将符号替换为具体地址。这里的符号指什么呢?我们知道,在我们进行模块化编程的时候,每个模块都会提供一些向其他模块公开的全局变量、函数等供其他模块访问,也会访问其他模块向它公开的内容。要访问一个变量或者调用一个函数,在源代码级别我们只需知道它们的名字即可,这些名字被我们称为符号。取决于符号来自于模块内部还是其他模块,我们还可以进一步将符号分成内部符号和外部符号。然而,在机器码级别(也即在目标文件或可执行文件中)我们并不是通过符号来找到索引我们想要访问的变量或函数,而是直接通过变量或函数的地址。例如,如果想调用一个函数,那么在指令的机器码中我们可以找到函数入口的绝对地址或者相对于当前 PC 的相对地址。 <div class="tip inlineBlock info"> PC (Program Counter) 程序计数器,用来存放当前欲执行指令的地址。可自动形成指向下一条指令的地址。一般来讲,这其实是一种行为的代称而不是真实存在的寄存器,在 x86 体系,一般是由 CS:IP (段地址:偏移地址)的组合来构成这个逻辑,而在 ARM 体系中 R15 就是 PC,当然 ARM 和 IA-32、x64 都支持高级内存管理,所以 PC 的内容未必是当前指令在内存中的绝对位置。而且所谓的每次增加1,其实是逻辑上的增加1,并不代表内存地址的增量为1,这受到指令长度的影响。 </div> 那么,符号何时被替换为具体地址呢?因为符号对应的变量或函数都是放在某个段里面的固定位置(如 全局变量往往放在 `.bss` 或者 `.data` 段中,而函数则放在 `.text` 段中),所以我们需要等待符号所在的段确定了它们在内存布局中的位置之后才能知道它们确切的地址。当一个模块被转化为目标文件之后,它的内部符号就已经在目标文件中被转化为具体的地址了,因为目标文件给出了模块的内存布局,也就意味着模块内的各个段的位置已经被确定了。然而,此时模块所用到的外部符号的地址无法确定。我们需要将这些外部符号记录下来,放在目标文件一个名为符号表(Symbol table)的区域内(对于ELF文件一般在.symtab)。由于后续可能还需要**重定位**,内部符号也同样需要被记录在符号表中。 外部符号需要等到链接的时候才能被转化为具体地址。假设模块 1 用到了模块 2 提供的内容,当两个模块的目标文件链接到一起的时候,它们的内存布局会被合并,也就意味着两个模块的各个段的位置均被确定下来。此时,模块 1 用到的来自模块 2 的外部符号可以被转化为具体地址。同时我们还需要注意:两个模块的段在合并后的内存布局中被重新排布,其最终的位置有可能和它们在模块自身的局部内存布局中的位置相比已经发生了变化。因此,每个模块的内部符号的地址也有可能会发生变化,我们也需要进行修正。上面的过程被称为**重定位**(Relocation),这个过程形象一些来说很像拼图:由于模块 1 用到了模块 2 的内容,因此二者分别相当于一块凹进和凸出一部分的拼图,正因如此我们可以将它们无缝地拼接到一起。 Last modification:April 1, 2022 © Allow specification reprint Support Appreciate the author AliPayWeChat Like 1 如果觉得我的文章对你有用,请随意赞赏