手把手教程：ARM架构下裸机启动代码从零实现-育师

从零构建ARM裸机启动代码：深入理解Cortex-M的“第一公里”

你有没有遇到过这样的情况？程序烧录进去，板子一上电，LED不闪、串口无输出——系统像是“死”了一样。调试器连上去一看，PC指针停在HardFault_Handler里转圈……这种问题，90%都出在启动代码上。

在嵌入式开发中，我们写的第一个函数往往是main()，但真正最先运行的，却是那段你看不见或很少关注的汇编代码——启动代码（Startup Code）。它是整个系统的“发令枪”，决定了处理器能否正确建立运行环境，顺利跳进你的main()函数。

今天，我们就以ARM Cortex-M 架构为背景，彻底拆解这段神秘的启动流程，手把手带你从零实现一套完整的裸机启动代码。不靠库、不依赖IDE自动生成，只用最原始的方式，搞懂每一步背后的逻辑。

为什么需要启动代码？

很多人误以为 MCU 上电后直接执行main()，其实不然。

C语言的运行是有前提条件的：全局变量要初始化、未初始化变量要清零、堆栈得准备好、中断向量表得就位……而这些，在芯片刚复位时统统不存在。

所以必须有一段低级代码，在 C 环境还没建立之前，先把这一切准备好。这就是启动代码存在的意义。

它就像一个“系统保姆”：
- 给 CPU 搭好栈；
- 把.data段从 Flash 复制到 RAM；
- 把.bss清零；
- 初始化时钟和外设；
- 最后才放心地把控制权交给main()。

如果你跳过这步，哪怕main()写得再完美，程序也会因为数据错乱或栈溢出而崩溃。

Cortex-M 的启动机制：从复位开始说起

向量表是起点

ARM Cortex-M 的启动过程非常规范。一上电，CPU 就会自动从内存地址0x0000_0000开始读取两个32位值：

地址偏移	内容	作用
0x00	`_estack`	主堆栈指针（MSP）初始值
0x04	`Reset_Handler`	复位异常处理函数入口地址

这两个值构成了异常向量表的前两项，也是整个系统的生命线。

✅关键点：MSP 必须指向有效的 SRAM 高地址（栈向下增长），否则后续任何函数调用都会导致内存非法访问。

这个机制的好处在于——无需软件干预即可建立基本运行环境。硬件自动加载 MSP 和 PC，确保系统能在没有操作系统的情况下也能启动。

而且，Cortex-M 支持通过VTOR（Vector Table Offset Register）动态重定位向量表，方便实现 IAP（在应用编程）或多任务中断管理。

堆栈初始化：别让函数调用把你带飞

Cortex-M 使用双堆栈机制：
-MSP（Main Stack Pointer）：用于主程序和异常处理；
-PSP（Process Stack Pointer）：通常留给用户线程使用（RTOS 场景）；

在裸机环境下，我们一般只用 MSP。

假设你的 SRAM 从0x2000_0000开始，大小为 128KB，那么栈顶（即_estack）就是0x2002_0000。向量表中第一个字就应该是这个地址。

_estack = ORIGIN(RAM) + LENGTH(RAM);

如果这里写错了，比如指向了 Flash 或无效区域，一旦进入函数调用（哪怕是BL SystemInit），压栈操作就会触发HardFault——这就是为什么有些工程编译通过却无法运行的根本原因。

手写启动代码：一步步走进 Reset_Handler

现在我们来动手实现一段标准的启动代码。全程使用Thumb 指令集编写，适配所有主流 Cortex-M 芯片（M3/M4/M7等均可）。

第一步：定义中断向量表

.syntax unified .cpu cortex-m4 .fpu softvfp .thumb .section .isr_vector, "a" .global g_pfnVectors g_pfnVectors: .word _estack /* 栈顶地址 */ .word Reset_Handler /* 复位处理 */ .word NMI_Handler .word HardFault_Handler .word MemManage_Handler .word BusFault_Handler .word UsageFault_Handler .space 44 /* 保留11个中断 */ .word SVC_Handler .word DebugMon_Handler .word PendSV_Handler .word SysTick_Handler /* 外部中断（根据具体MCU添加） */ .word WWDG_IRQHandler .word PVD_IRQHandler .word TAMPER_IRQHandler /* 更多中断... */ .size g_pfnVectors, . - g_pfnVectors

🔍 注意：.section .isr_vector必须放在 Flash 起始位置，由链接脚本保证。

每个中断都声明为一个符号，其中除了Reset_Handler是强符号外，其余都可以声明为弱符号，默认跳转到通用处理函数。

第二步：实现 Reset_Handler

这是整个启动流程的核心入口。

.section .text.Reset_Handler .weak Reset_Handler .type Reset_Handler, %function Reset_Handler: /* 可选：关闭看门狗 */ LDR R0, =0x40021000 /* 假设 RCC_BASE */ LDR R1, [R0] BIC R1, R1, #(1 << 14) /* 关闭独立看门狗时钟使能 */ STR R1, [R0] /* 调用系统初始化（C函数） */ BL SystemInit /* 复制 .data 段：从Flash到RAM */ LDR R0, =_sidata /* Flash中的.data起始地址 */ LDR R1, =_sdata /* RAM中的.data起始地址 */ LDR R2, =_edata /* RAM中的.data结束地址 */ SUBS R2, R2, R1 /* 计算长度 */ BEQ LoopCopyDataInitDone LoopCopyDataInit: LDR R3, [R0], #4 STR R3, [R1], #4 SUBS R2, R2, #4 BGT LoopCopyDataInit LoopCopyDataInitDone: /* 清零 .bss 段 */ LDR R0, =_sbss LDR R1, =_ebss MOV R2, #0 SUBS R1, R1, R0 /* 计算.bss大小 */ BEQ LoopFillZerobssDone LoopFillZerobss: STR R2, [R0], #4 SUBS R1, R1, #4 BGT LoopFillZerobss LoopFillZerobssDone: /* 跳转到 main 函数 */ BL main /* 防止 main 返回后跑飞 */ B . .size Reset_Handler, . - Reset_Handler

让我们逐行分析这段代码做了什么：

1. 关闭看门狗（可选）

某些芯片默认开启看门狗，若不及时喂狗会导致不断复位。这里通过 RCC 寄存器禁用其时钟源。

2. 调用`SystemInit()`

这是一个由厂商提供的 C 函数（通常位于system_stm32f4xx.c等文件中），负责配置系统时钟、电压调节器、总线频率等。虽然不是强制要求，但在大多数项目中必不可少。

3. 复制`.data`段

.data是已初始化的全局变量（如int flag = 1;）。它们存储在 Flash 中，但运行时必须位于 RAM。因为 RAM 掉电清零，所以每次启动都要重新复制一遍。

_sidata: Flash 中.data的起始地址（由链接器生成）
_sdata,_edata: RAM 中.data的范围

循环将数据从 Flash 搬运到 RAM，完成后才能安全访问这些变量。

4. 清零`.bss`段

.bss存放未初始化的全局变量（如int buffer[1024];）。按照 C 标准，这些变量应默认为 0。但由于 RAM 初始状态未知，必须手动清零。

❗ 如果你不做这一步，if (initialized)可能永远不成立，即使你期望它是 false！

5. 跳转至`main()`

一切准备就绪，终于可以进入用户主程序了。

最后加一句B .是为了防止main()函数意外返回（比如忘了加 while(1)），导致程序继续往下执行未知指令而崩溃。

链接脚本：决定内存布局的关键拼图

启动代码离不开链接脚本（.ld文件）的支持。它定义了各个段在物理内存中的位置，并导出必要的符号。

MEMORY { FLASH (rx) : ORIGIN = 0x08000000, LENGTH = 512K RAM (rwx) : ORIGIN = 0x20000000, LENGTH = 128K } SECTIONS { .isr_vector : { KEEP(*(.isr_vector)) } > FLASH .text : { *(.text*) } > FLASH .rodata : { *(.rodata*) } > FLASH .data : { _sdata = .; *(.data*) _edata = .; } > RAM AT> FLASH .bss : { _sbss = .; *(.bss*) _ebss = .; } > RAM /* 提供栈顶符号 */ _estack = ORIGIN(RAM) + LENGTH(RAM); }

🧩 解释几个关键点：
-AT> FLASH表示该段虽运行在 RAM，但镜像保存在 Flash；
-_sdata = .;定义符号，供汇编代码引用；
-KEEP(...)防止向量表被优化掉；
-_estack显式定义栈顶，必须准确对应实际 RAM 大小。

没有正确的链接脚本，再完美的启动代码也白搭。

实际工程中的坑与避坑指南

坑点1：`.data`没复制，全局变量全是垃圾值

现象：int sensor_ready = 1;却发现它的值是随机的。

原因：.data段未从 Flash 复制到 RAM，变量仍处于未初始化状态。

✅ 解法：确保启动代码中有.data复制逻辑，且链接脚本正确导出_sidata。

坑点2：`.bss`未清零，程序行为不可预测

现象：局部静态变量首次使用就不为零。

原因：.bss段未清零，RAM 中残留旧数据。

✅ 解法：务必在启动代码中加入.bss清零循环。

坑点3：栈设置错误，HardFault 频发

现象：进入某个函数后立即 HardFault。

排查思路：
- 检查_estack是否指向有效 RAM；
- 查看是否栈空间不足（递归太深、局部数组过大）；
- 使用调试器查看 SP 寄存器值是否合法。

✅ 解法：增大栈空间，或启用栈溢出检测机制（如 GCC 的-fstack-protector）。

坑点4：中断向量表错位，中断无法响应

现象：配置了 EXTI 中断，但 never trigger。

原因：向量表不在0x0000_0000，且 VTOR 未更新。

✅ 解法：
- 若使用 IAP，需在跳转应用前设置SCB->VTOR = APP_VECTOR_TABLE_ADDR;
- 确保中断号与向量表索引一致

设计建议：写出更健壮的启动代码

1. 弱符号 + 默认处理函数

将所有非必要中断声明为弱符号，统一跳转到默认处理函数：

.weak NMI_Handler .weak HardFault_Handler ... Default_Handler: B Default_Handler NMI_Handler: B Default_Handler HardFault_Handler: B Default_Handler

这样即使你没实现某个中断，也不会导致链接失败或跳入未知地址。

2. 加入调试支持

保留Reset_Handler符号，方便调试器单步跟踪。避免内联或删除。

同时可以在HardFault_Handler中插入断点，查看故障状态寄存器（HFSR、CFSR、BFAR），快速定位问题根源。

3. 性能优化：大`.data`段可用 DMA 加速

对于.data较大的系统（>64KB），传统 CPU 搬运耗时较长。可考虑使用 DMA 进行并行传输，缩短启动时间。

当然，这需要额外初始化 DMA 控制器，适用于对启动速度敏感的应用（如工业实时控制）。

4. 安全增强：启用 MPU 保护关键内存区

在复杂系统中，可通过 MPU 设置内存访问权限，例如：
- 禁止代码段被修改；
- 防止栈溢出覆盖.data；
- 锁定外设寄存器只读/只写；

这对于提高系统鲁棒性非常重要，尤其在汽车电子或医疗设备中。

写在最后：掌握启动代码意味着什么？

当你能从零写出启动代码时，你就不再只是一个“调库工程师”。

你会明白：
- 为什么main()之前还有代码在跑；
- 为什么变量初始化会失败；
- 如何诊断 HardFault；
- 如何定制 Bootloader 实现固件升级；
- 如何移植 RTOS 或轻量级内核；

这种能力，在以下场景尤为关键：
- 开发 Bootloader 或双区更新系统；
- 移植裸机驱动到新平台；
- 分析启动异常或死机问题；
- 优化启动时间和内存占用；
- 构建极简嵌入式系统（如传感器节点）；

特别是在功率电子、音频处理、电机控制等对时序和可靠性要求极高的领域，掌控底层，就是掌控系统命运。

如果你正在学习嵌入式开发，不妨试着删掉 IDE 自动生成的startup_stm32xxxx.s，自己写一遍。你会发现，原来那个神秘的“第一公里”，并没有想象中那么遥远。

💬互动一下：你在项目中遇到过哪些因启动代码引发的问题？欢迎留言分享你的排错经历！

手把手教程：ARM架构下裸机启动代码从零实现

从零构建ARM裸机启动代码：深入理解Cortex-M的“第一公里”

为什么需要启动代码？

Cortex-M 的启动机制：从复位开始说起

向量表是起点

堆栈初始化：别让函数调用把你带飞

手写启动代码：一步步走进 Reset_Handler

第一步：定义中断向量表

第二步：实现 Reset_Handler

1. 关闭看门狗（可选）

2. 调用`SystemInit()`

3. 复制`.data`段

4. 清零`.bss`段

5. 跳转至`main()`

链接脚本：决定内存布局的关键拼图

实际工程中的坑与避坑指南

坑点1：`.data`没复制，全局变量全是垃圾值

坑点2：`.bss`未清零，程序行为不可预测

坑点3：栈设置错误，HardFault 频发

坑点4：中断向量表错位，中断无法响应

设计建议：写出更健壮的启动代码

1. 弱符号 + 默认处理函数

2. 加入调试支持

3. 性能优化：大`.data`段可用 DMA 加速

4. 安全增强：启用 MPU 保护关键内存区

写在最后：掌握启动代码意味着什么？

LLM扩散模型修复模糊医学影像

QoS质量配置

安全副业指南：漏洞挖掘 / 技术博客 / 竞赛奖金实战，哪个方向更适合你？

想零基础学黑客技术？一些国内网络安全的论坛网站分享。

嵌入式开发避坑指南：HardFault_Handler问题定位核心要点

Java Web 课程答疑系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

从零构建ARM裸机启动代码：深入理解Cortex-M的“第一公里”

为什么需要启动代码？

Cortex-M 的启动机制：从复位开始说起

向量表是起点

堆栈初始化：别让函数调用把你带飞

手写启动代码：一步步走进 Reset_Handler

第一步：定义中断向量表

第二步：实现 Reset_Handler

1. 关闭看门狗（可选）

2. 调用SystemInit()

3. 复制.data段

4. 清零.bss段

5. 跳转至main()

链接脚本：决定内存布局的关键拼图

实际工程中的坑与避坑指南

坑点1：.data没复制，全局变量全是垃圾值

坑点2：.bss未清零，程序行为不可预测

坑点3：栈设置错误，HardFault 频发

坑点4：中断向量表错位，中断无法响应

设计建议：写出更健壮的启动代码

1. 弱符号 + 默认处理函数

2. 加入调试支持

3. 性能优化：大.data段可用 DMA 加速

4. 安全增强：启用 MPU 保护关键内存区

写在最后：掌握启动代码意味着什么？

LLM扩散模型修复模糊医学影像

QoS质量配置

安全副业指南：漏洞挖掘 / 技术博客 / 竞赛奖金实战，哪个方向更适合你？

想零基础学黑客技术？一些国内网络安全的论坛网站分享。

嵌入式开发避坑指南：HardFault_Handler问题定位核心要点

Java Web 课程答疑系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

2. 调用`SystemInit()`

3. 复制`.data`段

4. 清零`.bss`段

5. 跳转至`main()`

坑点1：`.data`没复制，全局变量全是垃圾值

坑点2：`.bss`未清零，程序行为不可预测

3. 性能优化：大`.data`段可用 DMA 加速