一条指令,是怎么被机器读懂的
你每次敲下一行代码按下运行屏幕上出现结果。这个过程看起来很自然自然得像呼吸一样。但在这个过程里有一件事情发生得悄无声息大多数人从来没有想过你写的那行代码最终变成了什么才能被机器执行答案是它变成了一串二进制数字。一串0和1。但这串0和1不是随机排列的。它有结构有格式有严格的规定规定哪几位是什么意思哪几位控制什么行为。这个结构叫做机器指令的位字段划分。一、先从一个比喻开始想象你是一个工厂的调度员。你需要给工人发指令但你不能说话只能发一张卡片。卡片上有固定的格子每个格子填不同的内容。第一个格子填做什么搬运、组装、检测、包装。第二个格子填用什么工具叉车、手推车、传送带。第三个格子填从哪里取仓库A、仓库B、生产线1。第四个格子填放到哪里成品区、半成品区、废料区。工人拿到卡片看每个格子就知道该做什么了。机器指令就是这张卡片。CPU拿到一条指令看指令里的每个字段就知道该做什么操作操作哪些数据结果放到哪里。不同的是工厂卡片上填的是文字机器指令里填的是二进制数字。二、一条指令到底长什么样不同的处理器架构指令的格式不一样。但它们都有一个共同点一条指令是固定长度或者有限几种长度的二进制串被划分成若干个字段每个字段有固定的位置和含义。我们用一个简化的例子来说明。假设我们设计一个简单的处理器指令长度是16位。这16位被划分成这样| 操作码 | 寄存器1 | 寄存器2 | 立即数/偏移量 | | 4位 | 3位 | 3位 | 6位 |总共16位分成四个字段。每个字段有自己的名字有自己的位置有自己的含义。这就是位字段划分。三、操作码告诉CPU做什么第一个字段叫做操作码英文是OpcodeOperation Code的缩写。它是指令里最重要的字段因为它告诉CPU这条指令要做什么操作。在我们的例子里操作码占4位。4位能表示多少种操作2的4次方16种。也就是说这个处理器最多支持16种不同的指令。比如0000 → 加法ADD 0001 → 减法SUB 0010 → 乘法MUL 0011 → 除法DIV 0100 → 加载数据LOAD 0101 → 存储数据STORE 0110 → 跳转JUMP 0111 → 条件跳转BRANCH ……CPU拿到一条指令第一件事就是读操作码判断这是什么类型的指令然后决定接下来怎么处理其他字段。操作码是指令的动词。没有动词其他字段都没有意义。四、寄存器字段告诉CPU操作谁操作码告诉CPU做什么但做什么操作总得有操作对象。操作对象通常是寄存器里的数据。寄存器是CPU内部的一小块存储空间速度极快但数量很少。在我们的例子里有两个寄存器字段各占3位。3位能表示多少个寄存器2的3次方8个。也就是说这个处理器有8个通用寄存器编号从0到7用二进制表示就是000到111。一条加法指令可能长这样0000 001 010 000000 操作码 寄存器1 寄存器2 未使用 ADD R1 R2意思是把寄存器1和寄存器2里的数相加。结果放哪里不同的设计有不同的规定。有的设计结果放回寄存器1。有的设计有第三个寄存器字段专门指定结果放哪里。有的设计结果放在一个固定的累加器寄存器里。这些都是设计选择没有绝对的对错只有适不适合这个处理器的应用场景。五、立即数字段直接把数字塞进指令里有时候你不想从寄存器里取数你想直接用一个固定的数字。比如你想把寄存器1里的值加上5。这个5不在任何寄存器里它就是一个常数。这种情况就用到了立即数字段。立即数就是直接嵌在指令里的数字。在我们的例子里最后6位可以用作立即数。6位能表示的无符号整数范围是0到63。如果用补码表示有符号整数范围是-32到31。一条加立即数的指令可能长这样1000 001 000 000101 操作码 寄存器1 未用 立即数 ADDI R1 5意思是把寄存器1里的值加上5结果放回寄存器1。立即数字段让指令可以直接携带数据不需要额外的内存访问执行速度更快。但立即数的位数有限能表示的数字范围也有限。如果你需要用一个很大的数字就需要先把它加载到寄存器里再进行操作。这是一个设计上的权衡立即数字段越宽能表示的数字范围越大但指令里留给其他字段的位数就越少。六、偏移量字段告诉CPU去哪里找数据除了立即数最后那几位还可以用作偏移量。偏移量是用来计算内存地址的。比如你想从内存里加载一个数据到寄存器但内存地址很大放不进指令里。怎么办用一个寄存器存基地址用偏移量表示相对于基地址的距离。实际地址 基地址寄存器里的值 偏移量一条加载指令可能长这样0100 001 010 000100 操作码 目标寄存器 基址寄存器 偏移量 LOAD R1 R2 4意思是从内存地址R2的值 4处加载数据到R1。这种寻址方式叫做基址加偏移寻址是非常常用的一种内存访问方式。数组的访问就是这样实现的。R2存数组的起始地址偏移量是元素的索引乘以元素大小。七、真实世界里的指令格式我们上面说的是一个简化的例子。真实的处理器指令格式更复杂但原理是一样的。来看一个真实的例子MIPS架构。MIPS是一个经典的RISC架构指令长度固定为32位有三种基本的指令格式。R型指令寄存器型| op | rs | rt | rd | shamt | funct | | 6位 | 5位 | 5位 | 5位 | 5位 | 6位 |op操作码6位。rs第一个源寄存器5位能表示32个寄存器。rt第二个源寄存器5位。rd目标寄存器5位结果写入这里。shamt移位量5位用于移位指令。funct功能码6位配合op进一步指定操作类型。R型指令用于寄存器之间的运算比如加法、减法、逻辑运算。I型指令立即数型| op | rs | rt | immediate | | 6位 | 5位 | 5位 | 16位 |I型指令有一个16位的立即数字段能表示的范围更大。用于加载、存储、条件分支以及带立即数的运算。J型指令跳转型| op | target | | 6位 | 26位 |J型指令大部分位都用来表示跳转目标地址用于无条件跳转。三种格式应对三种不同的需求在指令长度固定的前提下尽可能高效地利用每一位。八、位字段划分背后的设计哲学看到这里你可能会想为什么要这么设计为什么不直接用更长的指令把所有信息都放进去不用这么抠门地分配每一位这背后有几个核心的设计考量。第一硬件实现的复杂度。指令越长解码电路越复杂芯片面积越大功耗越高成本越贵。固定长度的指令解码电路可以做得非常简单每个字段在固定的位置直接读取就行不需要复杂的解析逻辑。第二内存和带宽。指令存在内存里CPU从内存里取指令。指令越短同样大小的内存能存更多指令从内存取指令的带宽消耗也更小。第三流水线的效率。现代CPU用流水线来提高执行效率同时处理多条指令的不同阶段。固定格式的指令流水线的各个阶段可以并行工作不需要等前一条指令解码完才能开始解码下一条。这些考量共同决定了指令格式的设计。每一位的分配都是在各种约束下做出的权衡。九、一条指令的一生现在把整个过程串起来看一条指令从诞生到执行的完整旅程。你写了一行C代码intcab;编译器把它翻译成汇编指令ADD R3, R1, R2意思是把R1和R2相加结果放到R3。汇编器把这条汇编指令翻译成机器指令一串二进制数字000000 00001 00010 00011 00000 100000这串数字按照MIPS的R型格式被划分成六个字段op000000rs00001R1rt00010R2rd00011R3shamt00000funct100000加法。这串数字被存进内存。CPU的取指单元从内存里取出这串数字。解码单元读取op字段知道这是一条R型指令再读取funct字段知道这是加法。然后读取rs和rt字段知道要读R1和R2。读取rd字段知道结果要写入R3。执行单元从寄存器堆里读出R1和R2的值送入加法器计算结果。写回单元把结果写入R3。整个过程在纳秒级别完成。然后CPU取下一条指令重复这个过程。你现在再看那串0和1它不再是随机的噪音。它是一张精心设计的卡片每一位都有它的位置每一个字段都有它的含义。操作码说做什么寄存器字段说操作谁立即数字段直接携带数据偏移量字段指向内存的某个角落。这套语言是人类和机器之间最底层的对话方式。简洁精确没有歧义。每一位都算数。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2426698.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!