电器工程 - 有这么多晶体管的 CPU 怎么能稳定呢？ - 吾爱随笔录

有这么多晶体管的 CPU 怎么能稳定呢？

电器工程晶体管中央处理器

2022-01-29 05:36:33

正如我们所知，一个 CPU 在一个缩略图上包含数十亿个晶体管，如果其中一个晶体管坏了怎么办？

CPU有自动恢复机制吗？

4个回答

很简单，我们在出售之前对其进行测试，然后将坏的扔掉。

有很多方法可以做到这一点 - 不同的人做不同的事情，通常使用以下组合：

一些测试速度很快，以确保它们足够快。
其他测试涉及一种将芯片中的部分或全部触发器转换为巨型串行移位寄存器的模式，我们将已知数据计时到这些链中，然后运行芯片一个时钟，然后扫描新结果并检查它们是否匹配我们的预测结果 - 自动测试工具生成最小的“扫描向量”集，将测试芯片上的每个随机门或晶体管 - 其他向量对 ram 块进行特殊测试，
其他人测试外部电线是否都正确接合
我们确保它不会拉动不健康的电流

测试时间是花钱的，我们有时会在封装前对明显的死芯片做一些简单的测试以丢弃坏的芯片，然后在封装完成后进行更多测试

扩展一下其他人所说的：有验证，然后是芯片分类。

CPU 中的晶体管往往会在较高频率下出现问题，因此通常制造一个 CPU，然后将其作为几种不同的产品进行销售。更便宜的 CPU 实际上是昂贵 CPU 的损坏版本。另一种选择是禁用 CPU 的某些部分。例如，AMD 制造了带有 BArton 内核的处理器。它还销售具有 Thorton 内核的处理器。桑顿不是一个新的核心。相反，一半的二级缓存有缺陷并被禁用。通过这种方式，AMD 对原本会被浪费的 CPU 进行了一些恢复。

AMD 的 3 核处理器也发生了同样的事情。它们原本是 4 核处理器，但其中一个内核被确定有缺陷，因此被禁用。

你的问题的答案是“不”。目前没有针对硬件故障的自动恢复方法。

制造商设计他们的工艺以从他们的晶圆中获得最好的产量（美元）。通过缩小晶体管，它们可以在更小的区域内安装更多的功能。这可以被认为是每个晶片有更多的芯片（具有相同的功能）。随着芯片尺寸的缩小，您可以从晶圆中获得更多的芯片，但随着芯片尺寸的缩小，更多的芯片会变成坏的。制造商接受了这一点，并不断推动技术的极限来缩小芯片。告诉他们他们在信封边缘的是坏芯片。

如果一家公司可以将特征尺寸缩小到旧特征尺寸的 70%，他们可以获得大约 2 倍于晶圆上的芯片数量。如果他们在旧工艺上的良率是 95%（例如，晶圆上 100 个芯片中有 95 个好芯片），而他们在新工艺上的良率是 75%（晶圆上 200 个芯片中有 150 个好芯片），那么他们赚钱去新工艺。

在小节点上，每个“晶体管”都是 2 个门，除非你有内存，比如 SRAM。如果一个不工作，你只是有一个缓慢的驱动程序。对于 SRAM，如果它没有通过，您只需“吹”该行。如果晶体管上的两个 FETS 都发生故障，那么您将拥有一块非常昂贵的沙子，但我个人从未发生过这种情况。现代 FinFET 是如此之小，由于光刻和概率的性质，存在许多生产问题（主要是麻烦）。您会发现，新工艺的第一件事是 FPGA，因为您可以“炸掉”坏单元并更改路由图。我不能给你数字，但你可以通过 x86 世界如何进行分箱来猜测，事情很少会完美。

这是 XOR 单元格布局的示意图：

左/右绿色条是鳍，红色是多边形。蓝色是 1 级的有色金属。

商业 CPU 没有自动恢复机制，但在学术界和特殊应用 CPU 中流行的东西有。我制作了一些使用异步架构的专用组件，通过破坏作为热载流子的空穴氧化物来解决由于栅极不良而引起的时钟问题，在这种情况下，您只需要一个非常慢的晶体管。

其它你可能感兴趣的问题

上一篇电流源的意义何在？下一篇大多数 ALU 是如何构建的，是否可以“构建自己的”？