Cortex-M3内核的单片机有哪些内部安全机制来保障正常运行呢?以STM32为例,对于功能安全,STM32从芯片内置的硬件安全属性,经过认证的软件自检库和完备的安全文档三个层面来支持STM32用户在系统级进行开发,达到要求的功能安全等级。
一、 双看门狗:独立看门狗和窗口看门狗
看门狗是我们常用到的针对CPU运行状态监测的手段之一。它本质上就是一个定时器,启动之后,需要不断的去刷新(我们通常把这个动作叫做“喂狗”),否则当看门狗的定时器减到规定的值后,就会引起系统复位。我们可以利用它来检测程序是否跑飞,并通过芯片复位,来让系统恢复到正常状态。
STM32 MCU 提供两个看门狗:独立看门狗和窗口看门狗。
独立看门狗主要用于监视硬件错误,从它的名字可以看出,它的特点是拥有独立于系统时钟的时钟。独立看门狗使用LSI时钟,这样使得它与系统时钟分离开,即使系统时钟出现故障,独立看门狗也能正常工作。
独立看门狗还支持“硬件看门狗”功能,通过选项字使能该功能后,MCU只要一上电,就会启动运行,开启对系统的保护。
当递减计数值达到0时会产生复位,如果独立看门狗已经开启的情况下。
窗口看门狗,之所以称为“窗口”,是因为喂狗时间有一个上下限的范围,上下限可以通过相关寄存器设置,喂狗时间必须在范围内,不能过早也不能过晚。
窗口看门狗使用的是系统时钟,它的特点是必须在一个窗口时间内完成“喂狗”的动作,否则就会引起系统复位,所以窗口看门狗对“喂狗”的要求更精确了。
窗口看门狗还有一个EWI(early wakeup interrupt)的功能, 这个功能使能后,可以在窗口看门狗引起系统复位之前,先产生一个EWI中断,在这个中断里,给了系统软件一个机会去完成一些必要的安全动作或者数据保存的工作。
部分 MCU 系列的窗口看门狗也支持“硬件看门狗”的功能。
独立看门狗和窗口看门狗都支持在调试模式下“冻结”计数,以及在低功耗模式下继续工作的功能。
看门狗可以用在内核检测,时钟检测和电源检测中。
二、电源监测
关于电源检测,STM32MCU的可编程电压监测(PVD),模拟电压监测(AVD)和电池电压监测等功能可以用来检测VDD,VDDA和电池电压是否在正常的电压范围内。
PVD = Programmable Votage Detector 可编程电压监测器
它的作用是监视供电电压,在供电电压下降到给定的阀值以下时,产生一个中断,通知软件做紧急处理。在给出表格的上半部分就是可编程的监视阀值数据。当供电电压又恢复到给定的阀值以上时,也会产生一个中断,通知软件供电恢复。
POR = Power On Reset 上电复位;PDR = Power Down Reset 掉电复位。
POR的功能是在VDD电压由低向高上升越过规定的阀值之前,保持芯片复位,当越过这个阀值后的一小段时间后(图中的"滞后时间"或表中的"复位迟滞"),结束复位并取复位向量,开始执行指令。这个阀值就是表中倒数第4行(min=1.8,typ=1.88,max=1.96)。
POR的功能是在VDD电压由高向低下降越过规定的阀值后,将在芯片内部产生复位,这个阀值就是表中倒数第3行(min=1.84,typ=1.92,max=2.0)。
三、时钟安全系统CSS
关于时钟的检测,MCU内部的时钟安全系统(CSS)可以用来检测外部高速时钟(HSE)和外部低速时钟(LSE)是否丢失。
当检测到HSE时钟丢失后,CSS可以触发定时器的“刹车”功能和系统中断,并自动切换到内部高速时钟,软件可以根据这些触发的事件,制定相应的保护措施。
LSE是RTC的时钟源,当检测到LSE丢失后,RTC不能再使用LSE时钟源,并产生CSS中断,在中断中需要将RTC切换到其他时钟源。
CSS只能检测时钟是否丢失。对于时钟存在但发生偏移的情况,可以通过下图所示的时钟交叉测试来进行检测。
该测试利用了MCU的TIMER模块的输入捕获功能,LSI 时钟内部连接到TIMER 的一个输入捕获通道,当分别使用 HSE 或者 HSI 作为计数时钟时,通过检测 LSI 的频率是否在正常范围内,从而间接地检测了 HSE/HSI 的频率。
不同 STM32 系列用到 TIMER 模块不一样,具体请查看相应的参考手册。
四、SRAM奇偶校验位
部分STM32系列支持带奇偶校验的SRAM。
奇偶校验可以用来检测SRAM的瞬时和永久性故障。比如由于电磁干扰导致的SRAM中的数据错误。由于奇偶校验的检测原理,使得它只能检测出奇数个的比特位错误,并且也不能对错误数据进行纠正。
STM32 MCU带奇偶校验的SRAM每个字节增加了一位奇偶校验位,所以SRAM的数据总线是36位。在对SRAM进行写操作时,硬件自动计算并存储奇偶校验;当进行读操作时,硬件自动进行校验。
如果检测到错误,会立刻产生不可屏蔽中断(NMI),并且可以配置成可以触发定时器的“刹车”功能。
五、硬件ECC
ECC 全称 Error Checking and Correcting,是一种错误检查和纠正的技术。跟奇偶校验一样,它也需要额外的空间来存储校验码。比奇偶校验更强的是,ECC可以做到单比特位错误校正和双比特位错误检测。对于由于电磁干扰等原因造成的内存瞬时故障或者永久性故障,ECC 都可以检测。
ECC 检测在读操作时进行,当检测到一个比特位的错误时,读出来的数据就是已经纠正后的数据,当检测到两个比特位的错误时,ECC 无法纠正,但是可以告诉应用程序该位置的数据有错。
STM32 部分 MCU 系列(STM32H7/L4/G0/G4/L5)支持 Flash ECC,现在只有 H7 支持 SRAM ECC 和 Cache ECC。
当检测到单比特/双比特 ECC 错误时,出错地址会被自动保存到寄存器中(需要使能该功能),并且可以通过寄存器配置产生对应的错误中断。
检测到双比特错误时,还将触发 NMI 中断,并可以将出错信号连接到 TIMER的“刹车”功能。
参考AN5342了解更多关于ECC的操作细节。
六、硬件CRC
在Flash自检的程序中会用到CRC来检测Flash内容的完整性。
其检测思路一般是:在程序编译完成后,计算整个程序的CRC值(第一次计算CRC值),然后将这个CRC值添加到可执行文件末尾。再将带有CRC校验值的可执行文件烧录到MCU中。在程序启动后,由程序中的自检代码重新根据当前Flash里内容(不包括预存的CRC校验值)计算一次CRC值(第二次计算CRC值),再与之前预先计算并烧录到Flash中的CRC校验值(第一次计算的值)进行比较,如果一致就通过检测。
第二次计算CRC值的时候是由运行在MCU中的自检程序完成的,这部分工作可以利用软件代码完成,也可以利用MCU的硬件CRC完成。STM32的全系列都提供了硬件 CRC 的功能,默认使用 CRC32 多项式 0x4C11DB7。
参考AN4187了解更多关于CRC的使用细节。
七、存储器保护单元MPU
存储器保护单元MPU是Cortex-M内部的组件。Cortex-M0不支持MPU,所以除了基于Cortex-M0内核的STM32F0以外,其他STM32产品都支持存储器保护单元 (MPU)。
MPU可以用来设置部分数据只能被一些特权任务访问或者是只读;可以将SRAM空间定义为“不可执行代码”,从而防止注入攻击代码;可以用来检测堆栈溢出和数组越界;还可以通过MPU设置存储器的缓冲,缓存,共享等属性。
在功能安全的应用中,我们可以利用MPU来对安全相关的关键数据进行隔离,从而防止其被其他程序意外修改。
关于MPU的使用细节,参考AN4838。
八、其他
除了前面介绍的这些硬件的功能外,还有: GPIO,Timer,比较器等外设的寄存器锁定功能,可以配置参数不会被软件意外修改。
定时器PWM输出的“刹车”功能,它的目的是保护由PWM信号驱动的功率开关,就是当系统出现故障时,可以触发该功能,关闭PWM输出,保证系统处于安全状态。
而触发“刹车”功能的输入信号,既可以是来自MCU内部的系统级故障(比如CSS检测到的时钟失效,SRAM的奇偶校验错误等),也可以是连接到特定引脚的外部信号。不同的STM32系列支持的输入信号来源不同,具体使用请见相应的参考手册。
部分STM32系列还支持“内核进入lockup状态”作为“刹车”功能的触发源。关于“内核进入lockup状态”是指,当MCU已经因为出错进入fault中断后,在fault中断服务程序中又触犯了fault条件,这时就会进入lockup状态。
还有一些外设比如串口,I2C,CAN等,也内置有协议错误检测,CRC校验等功能,可以用于该外设使用过程中的安全检测。