编译系统概述
前置知识硬件-操作系统-用户操作系统是什么往下描述操作系统是对硬件控制的封装往上描述是管理程序的软件。操作系统主要有这几大部分组成1.操作系统如何管理CPU进程、线程、调度和同步机制2.如何管理内存内存管理3.如何管理磁盘文件系统4.如何管理IO设备IO系统简单普及一下CPUCPU只能够运行机器指令也就是010111010100101流并且不同的CPU体系架构能够运行的指令集是不一样的因此同一段01010101001流在不同体系架构的CPU上面运行可能CPU执行的根本就不是同一个操作或者说无法执行没有这条指令。补充可跳过如果你想了解CPU执行指令的过程以及指令的组成指令的寻址那么你可以去看看计算机组成原理其中的指令系统详细讲述了这一块的知识。看图CPU执行指令从那里开始-PC寄存器也就是R15寄存器这个寄存器中存储了一段内存地址通过寄存器间接寻址就可以从内存中读取到二进制表示的数据了那么按照指令集ISC解读这些二进制译码CPU就能够执行对应的操作了。因此我们可以说任务的执行需要资源这些资源直接来源于寄存器因此寄存器就是上下文操作系统需要负责多个任务的并行/并发那就需要存储这些上下文存储的形式就是进程因此可以把进程看作是一种数据结构存储的位置就在主存中。任务的切换就是从主存中读取数据覆盖寄存器中的数据也就完成了上下文切换。那么寄存器的数量和大小有限寄存器的大小就是机器字长那么存储不下所有需要的资源怎么办存在主存上通过总线和主存的控制器通信获取主存的数据因此主存只是一个可以用于store和load指令/数据的仓库而已。以及再底层一些CPU直接和内存以及IO设备进行交互?-通过和各个控制器交互来实现数据从主存-》cache-》寄存器的流转。什么是控制器负责接受CPU的指令能够自行发出不同的高低电平组合来控制它负责的硬件进行指定的操作为什么要有控制器高低电平的发出之间需要间隔那么CPU不可能停下来等你所以交给控制器去做所以其实简单的操作背后都有复杂的底层原理这也是一种封装思想。你看这个SP也就是R13寄存器他就是之前再数据结构中学过的栈顶指针在进程的虚拟内存中栈是向下生长的。回到正题简单理解一下不同的CPU体系架构有不同的指令集就像x86和arm体系架构是完全不同的CPU体系架构那么你日常在下载某个应用程序的时候/从github上下载release的时候总是会有操作系统/CPU体系架构的选择那么为什么要给你提供多版本那说明不同的CPU体系架构的指令集是不同的自然不能让一份指令运行在多个不同架构的CPU上阿。那么编写机器指令是困难的因此有了汇编语言因为机器指令集是多样的的汇编语言自然也是针对机器指令集实现的汇编语言也是不一样的比如x86和arm的跳转。如果我们想要实现一个功能那么我们总不能针对不同的硬件就写成前上百份代码。因此有没有能够一份代码能够屏蔽硬件进行运行的有的那就是高级语言c、cpp、python、java。那么肯定有人在其中做了转换针对不同的硬件配置做不同的翻译那就是编译器。因此编译器往下要对接CPU体系架构往上要对接操作系统可选。裸机编程不必。编译器做的就是把高级语言翻译成指定的CPU体系架构和指定的操作系统的汇编语言再翻译成机器指令让操作系统kernal载入虚拟内存修改寄存器让cpu去执行机器质量。其实这就是芬诺伊曼体系架构的核心思想-存储程序。汇编系统概述我们从一个简单的用c实现的代码文件来看整个汇编系统。#includestdio.h int main(){ printf(hello,world\n); return 0; }很简单的向终端输出helloworld的程序。如何运行起来的可以使用gcc -v test.c来查看具体的编译信息michaelmatebook:~/code$ gcc -v -s test.c -o a.s Using built-in specs. COLLECT_GCCgcc COLLECT_LTO_WRAPPER/usr/libexec/gcc/x86_64-linux-gnu/13/lto-wrapper OFFLOAD_TARGET_NAMESnvptx-none:amdgcn-amdhsa OFFLOAD_TARGET_DEFAULT1 Target: x86_64-linux-gnu Configured with: ../src/configure -v --with-pkgversionUbuntu 13.3.0-6ubuntu2~24.04.1 --with-bugurlfile:///usr/share/doc/gcc-13/README.Bugs --enable-languagesc,ada,c,go,d,fortran,objc,obj-c,m2 --prefix/usr --with-gcc-major-version-only --program-suffix-13 --program-prefixx86_64-linux-gnu- --enable-shared --enable-linker-build-id --libexecdir/usr/libexec --without-included-gettext --enable-threadsposix --libdir/usr/lib --enable-nls --enable-bootstrap --enable-clocalegnu --enable-libstdcxx-debug --enable-libstdcxx-timeyes --with-default-libstdcxx-abinew --enable-libstdcxx-backtrace --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --enable-default-pie --with-system-zlib --enable-libphobos-checkingrelease --with-target-system-zlibauto --enable-objc-gcauto --enable-multiarch --disable-werror --enable-cet --with-arch-32i686 --with-abim64 --with-multilib-listm32,m64,mx32 --enable-multilib --with-tunegeneric --enable-offload-targetsnvptx-none/build/gcc-13-EldibY/gcc-13-13.3.0/debian/tmp-nvptx/usr,amdgcn-amdhsa/build/gcc-13-EldibY/gcc-13-13.3.0/debian/tmp-gcn/usr --enable-offload-defaulted --without-cuda-driver --enable-checkingrelease --buildx86_64-linux-gnu --hostx86_64-linux-gnu --targetx86_64-linux-gnu --with-build-configbootstrap-lto-lean --enable-link-serialization2 Thread model: posix Supported LTO compression algorithms: zlib zstd gcc version 13.3.0 (Ubuntu 13.3.0-6ubuntu2~24.04.1) COLLECT_GCC_OPTIONS-v -s -o a.s -mtunegeneric -marchx86-64 -dumpdir a.s- /usr/libexec/gcc/x86_64-linux-gnu/13/cc1 -quiet -v -imultiarch x86_64-linux-gnu test.c -quiet -dumpdir a.s- -dumpbase test.c -dumpbase-ext .c -mtunegeneric -marchx86-64 -version -fasynchronous-unwind-tables -fstack-protector-strong -Wformat -Wformat-security -fstack-clash-protection -fcf-protection -o /tmp/cccOHWz6.s GNU C17 (Ubuntu 13.3.0-6ubuntu2~24.04.1) version 13.3.0 (x86_64-linux-gnu) compiled by GNU C version 13.3.0, GMP version 6.3.0, MPFR version 4.2.1, MPC version 1.3.1, isl version isl-0.26-GMP GGC heuristics: --param ggc-min-expand100 --param ggc-min-heapsize131072 ignoring nonexistent directory /usr/local/include/x86_64-linux-gnu ignoring nonexistent directory /usr/lib/gcc/x86_64-linux-gnu/13/include-fixed/x86_64-linux-gnu ignoring nonexistent directory /usr/lib/gcc/x86_64-linux-gnu/13/include-fixed ignoring nonexistent directory /usr/lib/gcc/x86_64-linux-gnu/13/../../../../x86_64-linux-gnu/include #include ... search starts here: #include ... search starts here: /usr/lib/gcc/x86_64-linux-gnu/13/include /usr/local/include /usr/include/x86_64-linux-gnu /usr/include End of search list. Compiler executable checksum: b220a7f1a1f69970d969d254ad9ec166 COLLECT_GCC_OPTIONS-v -s -o a.s -mtunegeneric -marchx86-64 -dumpdir a.s- as -v --64 -o /tmp/ccmqA6LV.o /tmp/cccOHWz6.s GNU assembler version 2.42 (x86_64-linux-gnu) using BFD version (GNU Binutils for Ubuntu) 2.42 COMPILER_PATH/usr/libexec/gcc/x86_64-linux-gnu/13/:/usr/libexec/gcc/x86_64-linux-gnu/13/:/usr/libexec/gcc/x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/13/:/usr/lib/gcc/x86_64-linux-gnu/ LIBRARY_PATH/usr/lib/gcc/x86_64-linux-gnu/13/:/usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/13/../../../../lib/:/lib/x86_64-linux-gnu/:/lib/../lib/:/usr/lib/x86_64-linux-gnu/:/usr/lib/../lib/:/usr/lib/gcc/x86_64-linux-gnu/13/../../../:/lib/:/usr/lib/ COLLECT_GCC_OPTIONS-v -s -o a.s -mtunegeneric -marchx86-64 -dumpdir a.s. /usr/libexec/gcc/x86_64-linux-gnu/13/collect2 -plugin /usr/libexec/gcc/x86_64-linux-gnu/13/liblto_plugin.so -plugin-opt/usr/libexec/gcc/x86_64-linux-gnu/13/lto-wrapper -plugin-opt-fresolution/tmp/ccHLoyuW.res -plugin-opt-pass-through-lgcc -plugin-opt-pass-through-lgcc_s -plugin-opt-pass-through-lc -plugin-opt-pass-through-lgcc -plugin-opt-pass-through-lgcc_s --build-id --eh-frame-hdr -m elf_x86_64 --hash-stylegnu --as-needed -dynamic-linker /lib64/ld-linux-x86-64.so.2 -pie -z now -z relro -o a.s -s /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/Scrt1.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crti.o /usr/lib/gcc/x86_64-linux-gnu/13/crtbeginS.o -L/usr/lib/gcc/x86_64-linux-gnu/13 -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../../lib -L/lib/x86_64-linux-gnu -L/lib/../lib -L/usr/lib/x86_64-linux-gnu -L/usr/lib/../lib -L/usr/lib/gcc/x86_64-linux-gnu/13/../../.. /tmp/ccmqA6LV.o -lgcc --push-state --as-needed -lgcc_s --pop-state -lc -lgcc --push-state --as-needed -lgcc_s --pop-state /usr/lib/gcc/x86_64-linux-gnu/13/crtendS.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crtn.o COLLECT_GCC_OPTIONS-v -s -o a.s -mtunegeneric -marchx86-64 -dumpdir a.s.主要关注这几个点1.Target: x86_64-linux-gnu 这里就说明了编译器的目标一个是64位的x86CPU体系架构一个是Linux操作系统我的配置2.cc1 test.c -o /tmp/cceHtSqk.s 这一步骤称为编译compile实现从高级语言到指定体系架构的汇编语言1其实中间还包含了预处理也就是头文件展开、宏定义替换、注释删除、constexpr等可以使用cat查看因为会汇编语言支持ASCII字符编码既然支持编码就可以被指定的解码格式来解码这里我设置的是utf-8,主要是因为它是unicode的精简版能够支持大部分语言的解码michaelmatebook:~/code$ cat test.s .file test.c .text .section .rodata .LC0: .string hello,world .text .globl main .type main, function main: .LFB0: .cfi_startproc endbr64 pushq %rbp .cfi_def_cfa_offset 16 .cfi_offset 6, -16 movq %rsp, %rbp .cfi_def_cfa_register 6 leaq .LC0(%rip), %rax movq %rax, %rdi call putsPLT movl $0, %eax popq %rbp .cfi_def_cfa 7, 8 ret .cfi_endproc .LFE0: .size main, .-main .ident GCC: (Ubuntu 13.3.0-6ubuntu2~24.04.1) 13.3.0 .section .note.GNU-stack,,progbits .section .note.gnu.property,a .align 8 .long 1f - 0f .long 4f - 1f .long 5 0: .string GNU 1: .align 8 .long 0xc0000002 .long 3f - 2f 2: .long 0x3 3: .align 8 4:3.#include ... search starts here:#include ... search starts here:/usr/lib/gcc/x86_64-linux-gnu/13/include/usr/local/include/usr/include/x86_64-linux-gnu/usr/include 这里说明了库的寻找路径4.as -o /tmp/ccwCtOde.o /tmp/cceHtSqk.s 这一步骤称为汇编实现从汇编语言到指定的体系架构的机器指令也就是目标文件。理论上可以直接执行了其实不行。原因如下没有链接库、没有在操作系统中设定虚拟地址。。。此时的文件已经不支持ASCII编码格式的编码和解码了因此使用cat查看会是乱码michaelmatebook:~/code$ cat test.o UHHH]hello,worldGCC: (Ubuntu 13.3.0-6ubuntu2~24.04.1) 13.3.0GNUzRx U EC test.cmainputs .symtab.strtab.shstrtab.rela.text.data.bss.rodata.comment.note.GNU-stack.note.gnu.property.rela.eh_frame 0 ^^1^ 90j.BRje 可以使用nm查看二进制文件michaelmatebook:~/code$ gcc -c test.c michaelmatebook:~/code$ ls learn_code projects test.c test.o michaelmatebook:~/code$ nm test.o 0000000000000000 T main U puts michaelmatebook:~/code$发现可以使用nm查看二进制文件但是虚拟内存地址怎么是000000,以及puts怎么没有因为没有链接链接这一步骤是和操作系统的交互了。之前的编译、汇编都是为了生成CPU能够读懂的机器指令。而链接是为了让操作系统能够管理这个程序。5. collect2 -plugin /usr/libexec/gcc/x86_64-linux-gnu/13/liblto_plugin.so -plugin-opt/usr/libexec/gcc/x86_64-linux-gnu/13/lto-wrapper -plugin-opt-fresolution/tmp/ccbOH4e5.res -plugin-opt-pass-through-lgcc -plugin-opt-pass-through-lgcc_s -plugin-opt-pass-through-lc -plugin-opt-pass-through-lgcc -plugin-opt-pass-through-lgcc_s --build-id --eh-frame-hdr -m elf_x86_64 --hash-stylegnu --as-needed -dynamic-linker /lib64/ld-linux-x86-64.so.2 -pie -z now -z relro /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/Scrt1.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crti.o /usr/lib/gcc/x86_64-linux-gnu/13/crtbeginS.o -L/usr/lib/gcc/x86_64-linux-gnu/13 -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../../lib -L/lib/x86_64-linux-gnu -L/lib/../lib -L/usr/lib/x86_64-linux-gnu -L/usr/lib/../lib -L/usr/lib/gcc/x86_64-linux-gnu/13/../../.. /tmp/ccwCtOde.o -lgcc --push-state --as-needed -lgcc_s --pop-state -lc -lgcc --push-state --as-needed -lgcc_s --pop-state /usr/lib/gcc/x86_64-linux-gnu/13/crtendS.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crtn.oCOLLECT_GCC_OPTIONS-v -mtunegeneric -marchx86-64 -dumpdir a. 这一步骤就是链接将库链接到目标文件中并且生成最终运行的程序以及CPU执行.o目标文件。可以使用nm查看michaelmatebook:~/code$ nm a.out 000000000000038c r __abi_tag 0000000000004010 B __bss_start 0000000000004010 b completed.0 w __cxa_finalizeGLIBC_2.2.5 0000000000004000 D __data_start 0000000000004000 W data_start 0000000000001090 t deregister_tm_clones 0000000000001100 t __do_global_dtors_aux 0000000000003dc0 d __do_global_dtors_aux_fini_array_entry 0000000000004008 D __dso_handle 0000000000003dc8 d _DYNAMIC 0000000000004010 D _edata 0000000000004018 B _end 0000000000001168 T _fini 0000000000001140 t frame_dummy 0000000000003db8 d __frame_dummy_init_array_entry 00000000000020f0 r __FRAME_END__ 0000000000003fb8 d _GLOBAL_OFFSET_TABLE_ w __gmon_start__ 0000000000002010 r __GNU_EH_FRAME_HDR 0000000000001000 T _init 0000000000002000 R _IO_stdin_used w _ITM_deregisterTMCloneTable w _ITM_registerTMCloneTable U __libc_start_mainGLIBC_2.34 0000000000001149 T main U putsGLIBC_2.2.5 00000000000010c0 t register_tm_clones 0000000000001060 T _start 0000000000004010 D __TMC_END__链接成功以后就会是完整的显示每个指令在操作系统的虚拟地址中的位置了。目前可以执行了。后续是补充内容。补充内容最终的机器指令是由 CPU 执行的但这个文件的加载、运行环境的搭建是由操作系统OS内核来完成的。它们两者是一个“管理者”和“执行者”的配合关系。我们把这个过程拆解开来看操作系统内核的作用当你敲下./a.out并回车时并不是 CPU 直接跑去硬盘上找这个文件。解析与加载你的终端Shell会向操作系统内核发起请求。内核会读取硬盘上的a.out这是一个 ELF 格式的二进制文件并在主存RAM中为它分配一块独立的虚拟内存空间。搬运代码内核会将a.out中的代码段你的main函数等、数据段等加载到这块内存中。移交控制权内核会初始化各种寄存器并将 CPU 的指令指针寄存器在 x86-64 架构中叫RIP指向这个程序的入口地址注意入口地址不是main而是你nm输出结果里看到的_start符号。一切就绪后内核退居幕后让 CPU 开始执行。CPU 的作用正如你所说CPU 会从内存中取指令并执行。这是经典的冯·诺依曼架构的核心。一旦内核把RIP寄存器指向了内存中_start的位置CPU 就会开启它永不停止的循环也就是指令周期Instruction Cycle取指 (Fetch)CPU 根据RIP寄存器里的内存地址通过总线去内存RAM中把对应的机器码指令取回到 CPU 内部的指令寄存器中同时RIP自动加 1指向下一条指令。译码 (Decode)CPU 内部的控制单元解析这串 0 和 1弄清楚这是一条加法指令、跳转指令还是内存读写指令。执行 (Execute)将数据送入算术逻辑单元ALU进行计算或者将数据写回内存/寄存器。补充它们是如何打配合的其实你的程序在运行中执行权会在 CPU用户态和 OS内核内核态之间来回切换。你用nm a.out打印出的符号表中有一个U putsGLIBC_2.2.5。因为你在代码里打印了hello,world底层调用了 C 标准库的puts函数。CPU 在执行计算任务时是独立全速运转的。但是向屏幕输出字符属于硬件操作用户程序是没有权限直接操作硬件的。当 CPU 执行到打印语句的底层逻辑时会触发一个系统调用System Call。这时CPU 会暂停当前程序的执行把控制权交还给操作系统内核。内核接管后负责驱动显卡和终端把 hello,world 画在屏幕上。完成后内核再把控制权还给 CPU程序继续往下走。几个问题第一就是内核会初始化各种寄存器寄存器不是cpu内部的东西吗你主存和kernal怎么去初始化第二就是的程序在运行中执行权会在 CPU用户态和 OS内核内核态之间来回切换这句话的意思是用户态是cpukernal是内核态这两个问题问得非常精准直接切中了计算机操作系统和硬件交互的底层逻辑。内核如何初始化 CPU 的寄存器你的直觉是对的寄存器确实是在 CPU 内部的。主存内存本身是个哑巴仓库它没有能力去“操作”CPU。这里的关键误区在于操作系统内核Kernel本质上也是一段由 CPU 执行的代码程序。当我们在讨论“内核初始化寄存器”时实际发生的物理过程是这样的当前是谁在占用 CPU当你在终端敲下./a.out并回车时你的程序还没开始运行。此时CPU 正在执行的是操作系统的代码。内核如何修改寄存器既然 CPU 正在执行内核代码内核就可以通过特定的汇编指令比如MOV指令指示 CPU 将特定的数值写到它自己的寄存器里。“布置现场”内核计算出./a.out的入口地址比如0x401000以及为它分配的栈顶地址。然后内核通过指令把这些地址分别塞进 CPU 的指令指针寄存器RIP和栈指针寄存器RSP中。交出指挥棒寄存器一旦被改写为./a.out的地址CPU 获取下一条指令时就会顺着 RIP 寄存器指引的地址去内存里抓取./a.out的代码。就在这一瞬间CPU 实际执行的代码就从“操作系统”无缝切换成了“你的程序”。用户态和内核态这句话的意思并不是“用户态是 CPU内核态是内核”。纠正一个核心概念无论是用户态还是内核态真正在干活的始终只有 CPU 自己。用户态和内核态是CPU 自身的两种不同的“特权级别”Privilege Levels或“工作模式”。你可以把 CPU 想象成一个有着两套权限系统的执行机器用户态User Mode / Ring 3CPU 的“平民模式 / 受限模式”。当 CPU 执行你的./a.out代码时它处于用户态。在这个状态下CPU 会开启自我保护机制它拒绝执行任何危险指令比如直接读取硬盘、操作网卡、修改其他程序的内存。如果你的程序尝试强行执行这些指令CPU 会直接报错比如你常见的 Segmentation Fault并呼叫内核来杀死这个程序。内核态Kernel Mode / Ring 0CPU 的“上帝模式 / 特权模式”。当 CPU 执行操作系统内核代码时它处于内核态。在这个状态下CPU 解除了所有限制它可以控制所有硬件、访问所有内存、分配所有资源。“执行权在两者之间来回切换”的真实画面是CPU 在用户态下愉快地执行你的./a.out进行数学计算。你的程序执行到了printf(hello)想要往屏幕上写字。但在用户态下CPU 没权限操作显卡和屏幕。于是你的程序触发了一个系统调用System Call。这就像是平民敲响了衙门的鼓。CPU 收到这个信号立刻在硬件层面将自己的状态从“用户态”切换为“内核态”并跳转到操作系统内核的特定代码去执行。现在CPU 处于内核态运行着内核代码安全地完成了操作显卡打印 hello 的任务。任务完成后内核代码执行一条特殊的返回指令CPU 再次在硬件层面将自己降级回“用户态”并跳回到你的程序中继续执行printf后面的代码。总结来说不是 CPU 和内核在切换而是CPU 扮演的角色平民 vs 上帝和它正在执行的代码你的代码 vs 操作系统代码在同步切换。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2480209.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!