你的位置:首页 > 测试测量 > 正文

从业20年工程师讲述软错误是怎么损坏存储器中信息的?

发布时间:2015-06-16 责任编辑:echolady

【导读】本文由从业20年工程师倾情讲述软错误是如何发生,如何破坏半导体存储器中的重要信息。有此问题引出软错误的来源及其发生概率问题。软错误影响着存储单元中的每个存储位,改变它们的状态。但是存储器中的片上纠错码却可以消减软错误的影响。

近年来,半导体技术取得了巨大进步,但这种进步也带来了新的问题。当今的CMOS工艺已缩至很小的尺寸,以至于地外辐射和芯片封装正导致越来越多的故障。由于这些故障是可逆的,它们被称为软错误。软错误首次出现于1978年,由于受铀污染的封装模块,英特尔公司无法向AT&T交付其生产的芯片。20世纪70年代,软错误主要与动态RAM(DRAM)有关,这是因为它们的芯片封装材料含有微量的放射性污染物。

软错误是指高能粒子与硅元素之间的相互作用而在半导体中造成的随机、临时的状态改变或瞬变。但与硬错误不同的是,一个简单的复位/重写操作可以恢复受影响器件的正常运行。数字和模拟电路、传输线路和磁存储器中都可能发生软错误,但半导体存储器最易出现软错误,其原因是它们的单元尺寸较大,而且每个位保持某种状态的时间较长(因此增加了风险)。 软错误有可能翻转一个或多个位,这取决于诱发粒子到达器件时的能量。一个高能粒子与半导体衬底之间的相互作用将产生多个电子空穴对。它们在耗尽区中产生的电场将导致一次电荷漂移,从而导致电流扰动。如果这个电流移动的电荷跨越了存储单元(每个单元存储一个位)的临界电荷,所存储的数据就有可能翻转,从而导致下一次被读取时出现错误。

软错误分为两级-芯片级和系统级。当芯片中的放射性原子衰变并释放出阿尔法粒子时,芯片级软错误将发生。它们通常是由高能粒子的辐射导致的(在下文中解释)。这些阿尔法粒子与某个存储单元碰撞,从而导致其改变状态。当所传输的数据遇到噪声时,系统级软性错误将发生。这种错误通常在数据位于总线而非存储器中时发生。控制器将噪声解读为数据。这个错误数据最终被视为正确数据,从而导致寻址或处理错误。

用于衡量软错误发生率的软错误率(SER)决定了器件因高能粒子发生故障的概率。由于软错误是随机的,软错误的发生并不决定存储器的可靠性,而是决定其故障率。在那些采用了软错误应对机制的系统中(主要是高安全性和高可靠性系统),如果一个软错误(被称为“所检测到的不可恢复的错误”-DUE)被检测到,系统将重启,以避免损坏重要数据。如果未重启,它最终将成为一次无记载数据损坏(SDC)。SDC要比DUE危险得多,因为SDC会导致数据丢失,而DUE只会导致系统在短时间内不可用。在大量的消费电子设备中,软错误的风险并不很大,它们更可能因软件错误或部件损耗发生故障。

软错误的发生概率
取决于众多因素,如入射粒子、撞击区域和电路设计等。电容和电压更高的电路更不容易出现软错误, 但这会招致更慢的逻辑门和更高的功耗。因此,随着芯片工艺的不断进步,软错误的发生概率也越来越大。电容和电压的组合被称为临界电荷(Qcrit)。它被定义为一次粒子撞击导致电路发生故障所必需拥有的电荷。由于逻辑电路中的每个节点都有其独特的电容和输出距离,因此,Qcrit通常以节点为单位测量。此外还必须注意,Qcrit 会随温度缓慢变化。

电路软错误 = k X 通量 X 面积 X e-Qcrit/Qcoil

其中,k = 取决于具体工艺的常数

通量 =中子通量

面积 = 对软错误敏感的电路面积

Qcoll = 所采集电荷与所生成电荷的比率

该模型被称为中子诱发型电路软错误的Hazucha & Svensson模型。

导致软错误的原因

阿尔法粒子

阿尔法粒子由两个质子和两个中子组成,类似于一个氦核。它们由放射性原子核在阿尔法衰变过程中释放。 阿尔法粒子拥有数个MeV的动能,低于中子。阿尔法粒子拥有一个致密的电荷层,在穿过半导体衬底时将产生多个电子空穴对。如果这种扰动足够强,它就有可能翻转某个位。由于这种情况通常只会持续几分之一纳秒,因此很难被检测出。

芯片被封装在含有微量放射性污染物的材料,如锡球或加工材料中。塑封材料、封装和其它装配材料中的微量铀- 238、铀- 232的放射性衰变会产生低能阿尔法粒子。然而,我们几乎不可能维持实现大多数电路的可靠性能所需的理想材料纯度(小于0.001次/小时/平方厘米)。微量的环氧树脂可为芯片屏蔽阿尔法辐射,从而降低软错误的发生概率。
[page]
宇宙射线

制造商已设法控制了释放阿尔法粒子的污染物,但他们却无法抗击宇宙辐射。事实上,在现代半导体器件中,宇宙射线是最可能导致软错误的原因。宇宙射线中的主要粒子通常不能抵达地球表面,但它们会产生一串高能次级粒子,其中大多数是高能中子。中子不带电荷,因此不会导致软错误,但却能被芯片中的原子核俘获,从而生成阿尔法粒子,继而导致软错误。中子所经历的衰减很小,可穿透厚达5英寸的混凝土。

由于大气屏蔽效应随着海拔的升高而减弱,宇宙辐射将随之增加。因此,飞机和卫星中的存储器模块极易出现软错误,软错误率是地面模块的数百倍甚至数千倍。此外,由于上述大气屏蔽效应的减弱,位于极地的存储模块也极易出现软错误。为减少软错误,高风险应用中所使用的模块需要经过一个名为辐射硬化的工艺。尽管如此,由于生产辐射硬化芯片需要大量测试(和时间),它们一般都属于旧的工艺节点。

热中子

由于存在中子俘获反应,欠缺动能的中子是软错误的一个重要来源。(硼磷硅玻璃介电层中大量存在的)硼同位素(10B)原子核俘获一个热中子后将释放一个阿尔法粒子、锂原子核和伽马射线。阿尔法粒子和锂原子核都能导致软错误。硼在生产中被用于降低玻璃的融化温度,因此具备更好的回流和整平特性。

在重要设计中,贫硼(只含11B)可用于降低软错误率,通过使用磷硅玻璃(PSG)氧化层替代硼磷硅玻璃(BPSG)来实现。贫硼对于肿瘤放射治疗中使用的医疗电子设备尤其重要。中子和治疗中使用的光子束相结合将形成一个热中子通量,从而导致极高的软错误率。尽管如此,热中子并非目前导致软错误的主要原因,制造商已通过150nm工艺节点消除了含硼酸介电层。

消减软错误的影响

改进工艺和存储单元布局

我们可以通过增加存储单元中所存储的临界电荷提升存储器的可靠性。此外,我们还可以使用一种可消减扩散层厚度的工艺提高存储器抵御软错误的能力。该工艺可缩短带电粒子在存储单元中存在的时间。三阱架构也可用于将电荷驱离有源区。该工艺形成一个与NMOS耗尽区相反的电场,迫使电荷进入衬底。它仅适用于NMOS区发生软错误的情况。

系统层面的消减技术

在系统层面上,设计人员可以使用外部纠错码(ECC)逻辑消减软错误的影响。在该技术中,用户使用额外的带奇偶校验位的存储芯片检测和纠正错误。正如人们所料,系统层面的消减技术较为昂贵,而且增加了FPGA软件的复杂性。

改变芯片设计和架构

这是抗击软错误的最佳方法。芯片设计人员可以通过将ECC算法植入到芯片中消减软错误的影响。在写操作时,ECC编码器算法为存储器中存储的每一个可寻址的数据字写入奇偶校验位。在读操作时,ECC检测算法使用奇偶校验位确定数据位是否已经改变。如果出现单位错误,ECC纠错算法将确定相关位的位置,然后通过将该数据位翻转至其互补值协助纠错。

尽管如此,ECC不能独立应对多位翻转错误。因此,设计人员必须采用位交织技术。该技术组织位线的方法是将物理上相邻的位映射到不同的字寄存器上。位交织距离将映射到同一个字寄存器上的两个连续位分开。如果位交织距离大于一次多单元撞击的扩散范围,它将在多个字中导致单位翻转,而不是在一个字中导致一次多位翻转。

软错误是怎么损坏存储器中信息的
 
典型的位交织距离取决于具体工艺。中子测试和随后的物理MPU分析用于确定每种工艺节点的安全交织距离。在一个位交织存储器中,单位错误纠正算法可用于检测和纠正所有错误。ECC算法仅适用于受影响数据字的副本。存储器中的数据仍然含有已翻转的位。如果存储器中的这个已翻转的位没有被纠正,同一个数据字中的另一次位翻转就可能导致一次多位翻转。因此,ECC逻辑必须指示出单位翻转的发生和纠错。然后,系统可以使用该信息识别该事件,并回写纠正后的数据。这种技术被称为存储器刷洗技术。

随着半导体芯片变得越来越小,发生软错误的风险也在不断升高。存储单元的Qcrit会随着其尺寸的缩小而减少,这使得其更易翻转。因此,很多专家预测,软错误将成为这种趋势的制约因素,而且最终将达到饱和点,除非我们开发出能够克服软错误的新技术。此外,随着技术进入人类生活的更多领域,人们对于可靠性的要求只会越来越高。这种趋势催生了对存储器模块的片上ECC的需求。所有存储器厂商都已开始推出具备片上ECC功能的芯片,以满足市场对高可靠性存储器的需求。SRAM领域的全球领导者赛普拉斯公司拥有一个基于ECC的异步SRAM系列,该系列是当今市场上可靠性最高的异步SRAM。具备ECC功能的16Mbit异步SRAM已开始投产,4Mbi版本也已开始提供样品。

相关阅读:

霍尼韦尔半导体封装新材料,显著减少软错误故障频率
三星爆存储器存隐患,都是谷歌的错吗?
专家发言:快闪存储器储存阵列强劲成长

要采购存储器模块么,点这里了解一下价格!
特别推荐
技术文章更多>>
技术白皮书下载更多>>
热门搜索
 

关闭

 

关闭