Wie wir wissen, besteht eine CPU aus Milliarden von Transistoren auf einem einzigen Miniaturbild. Was passiert, wenn einer der Transistoren kaputt geht?
Verfügt die CPU über einen automatischen Wiederherstellungsmechanismus?
Wie wir wissen, besteht eine CPU aus Milliarden von Transistoren auf einem einzigen Miniaturbild. Was passiert, wenn einer der Transistoren kaputt geht?
Verfügt die CPU über einen automatischen Wiederherstellungsmechanismus?
Antworten:
Es ist einfach, wir testen sie, bevor wir sie verkaufen und werfen die schlechten raus.
Es gibt viele Möglichkeiten, dies zu tun - verschiedene Leute machen verschiedene Dinge, verwenden oft eine Kombination aus:
Einige Tests sind schnell, um sicherzustellen, dass sie schnell genug sind.
Andere Tests beinhalten einen Modus, der einige oder alle Flipflops im Chip in riesige serielle Schieberegister umwandelt. Wir takten bekannte Daten in diese Ketten, lassen den Chip für einen Takt laufen und scannen dann die neuen Ergebnisse wieder heraus und überprüfen, ob sie übereinstimmen Unsere vorhergesagten Ergebnisse - automatische Testwerkzeuge erzeugen einen minimalen Satz von "Scan-Vektoren", die jedes zufällige Gate oder jeden Transistor auf dem Chip testen - andere Vektoren führen spezielle Tests von RAM-Blöcken durch.
andere testen, ob alle externen Drähte korrekt verbunden sind
Wir stellen sicher, dass keine ungesunde Strommenge gezogen wird
Das Testen von Zeit kostet Geld. Manchmal führen wir einige einfache Tests auf offensichtlich tote Chips durch, bevor sie verpackt werden, um die schlechten zu verwerfen, und dann weitere Tests, nachdem die Verpackung abgeschlossen ist
Um etwas zu erweitern, was andere gesagt haben: Es gibt eine Validierung und danach eine Klassifizierung der Chips.
Transistoren in CPUs neigen dazu, ihre Probleme bei höheren Frequenzen zu zeigen. Daher ist es üblich, eine CPU herzustellen und sie dann als mehrere verschiedene Produkte zu vermarkten. Die billigeren CPUs sind tatsächlich beschädigte Versionen der teuren CPU. Eine andere Option ist das Deaktivieren bestimmter Teile der CPU. Zum Beispiel stellte AMD Prozessoren mit BArton-Kern her. Es wurden auch Prozessoren mit Thorton-Kern verkauft. Thorton war kein neuer Kern. Stattdessen war die Hälfte des L2-Cache defekt und deaktiviert. Auf diese Weise hat AMD einige Wiederherstellungen auf den CPUs vorgenommen, die sonst verschwendet worden wären.
Das Gleiche geschah mit den 3 Kernprozessoren von AMD. Es handelte sich ursprünglich um 4 Kernprozessoren, aber einer der Kerne wurde als defekt eingestuft, sodass er deaktiviert war.
Die Antwort auf Ihre Frage lautet "Nein". Derzeit gibt es keine automatischen Wiederherstellungsmethoden für Hardwarefehler.
Hersteller entwickeln ihre Prozesse so, dass sie die bestmögliche Ausbeute (Dollar) aus ihren Wafern erzielen. Durch Schrumpfen der Transistoren können sie mehr Funktionalität auf weniger Fläche bringen. Dies kann als mehr Chips (mit der gleichen Funktionalität) pro Wafer angesehen werden. Wenn die Chipgröße schrumpft, können Sie mehr von ihnen aus einem Wafer herausholen, aber wenn sie schrumpfen, werden mehr von ihnen schlecht. Die Hersteller akzeptieren dies und setzen ständig neue Maßstäbe, um Chips zu verkleinern. Die Sache, die ihnen sagt, dass sie am Rand des Umschlags sind, sind schlechte Chips.
Wenn ein Unternehmen die Feature-Größe auf 70% der alten Feature-Größe verkleinern kann, kann es etwa die doppelte Anzahl von Chips auf einem Wafer erhalten. Wenn ihre Ausbeute beim alten Verfahren 95% betrug (z. B. 95 gute Chips von 100 Chips auf einem Wafer) und ihre Ausbeute beim neuen Verfahren 75% betrug (150 gute Chips von 200 auf einem Wafer), verdienten sie Geld der neue Prozess.
Bei kleinen Knoten besteht jeder "Transistor" aus 2 Gattern, es sei denn, Sie haben Speicher, wie z. B. SRAM. Wenn einer nicht funktioniert, haben Sie nur einen langsamen Treiber. Wenn es für SRAM nicht erfolgreich ist, "blasen" Sie einfach die Reihe. Wenn beide FETS am Transistor ausfallen, hätten Sie ein sehr teures Stück Sand, aber ich persönlich habe das noch nie erlebt. Die modernen FinFETs sind so klein, dass es aufgrund der Art der Lithographie und der Wahrscheinlichkeit eine Reihe von Produktionsproblemen gibt (hauptsächlich Probleme). Sie werden feststellen, dass die ersten Dinge bei neuen Prozessen FPGAs sind, da Sie einfach die fehlerhaften Zellen "sprengen" und das Routing-Diagramm ändern können. Ich kann Ihnen die Zahlen nicht geben, aber Sie können anhand der x86-Welt erraten, dass die Dinge selten perfekt laufen.
Hier ist eine Illustration des Layouts einer XOR-Zelle:
Die grünen Balken links / rechts sind Flossen und die roten sind Poly. Der Blues ist das farbige Metall auf Stufe 1.
Kommerzielle CPUs verfügen nicht über einen Autorecovery-Mechanismus, aber im akademischen Bereich und in speziellen Anwendungs-CPUs. Ich habe einige spezialisierte Komponenten hergestellt, die asynchrone Architekturen verwenden, um Taktprobleme zu lösen, die durch schlechte Gates entstehen, obwohl das Oxid eines Lochs als heißer Träger zerstört wird, wobei Sie nur einen wirklich langsamen Transistor erhalten.
Anscheinend haben sich die Zeiten geändert. Viele der fünf Jahre alten Antworten in dieser Frage spiegeln nicht mehr den Stand der Technik wider und einige waren damals nicht korrekt.
Transistoren und andere Bauelemente auf Silizium sind nach der Herstellung ziemlich stabil, vorausgesetzt, der IC überhitzt nicht.
In einem modernen IC-Herstellungsprozess werden jetzt folgende Schritte ausgeführt, um Fehler zu minimieren:
Programmierfehler in der formalen Spezifikation des Prozessors sind wahrscheinlicher als Fehler eines bestimmten Transistors.
Während herkömmliche CPUs nicht über eine automatische Wiederherstellungsfunktion verfügen, wurde auch an selbstrückstellenden CPUs als Gegenmaßnahme für kosmische Strahlung gearbeitet. Kosmische Strahlung kann genug Energie in einer CPU oder einem RAM ablegen, um Bit-Flips zu verursachen.
Wie in den Kommentaren erwähnt, haben sich geschäftskritische Systeme lange Zeit auf mehrere CPUs zur Überprüfung verlassen. Das Space Shuttle aus dem Jahr 1976 verwendete beispielsweise fünf Computer, von denen vier dasselbe Programm ausführten und über alle Flugsteuerungsentscheidungen "abstimmten", um die Sicherheit zu gewährleisten.
Die meisten modernen Prozessortransistoren sind FETs. Diese haben den Vorteil, dass sie bei Beginn einer Überlastung einen Source- / Drain-Widerstand erhalten. Dies ist ein Faktor, der es ermöglicht, Hochleistungs-MOSFETs herzustellen, indem viele parallel geschaltet werden. Die Last verteilt sich automatisch. Dies kann ein Faktor sein, der bei der Verteilung von Problemen hilft. Aber ich denke es ist wirklich einfacher als das.
Wie bei den meisten elektronischen Teilen halten sie eine ganze Weile, wenn Sie sie innerhalb der Spezifikationen fahren. Wenn ein Mikroprozessor hergestellt wird, gibt es zwei Faktoren für die Kosten. Nur der Raum auf dem Silizium und aufgrund der Komplexität die tatsächliche Ausbeute. Nicht alle Chips funktionieren nach der Herstellung. Sobald die Validierung abgeschlossen ist, wissen Sie jedoch, dass die Transistoren gut sind. Wenn sie innerhalb der Spezifikation gefahren werden, besteht die Möglichkeit, dass sie gut bleiben.
Haben Sie sich jemals gefragt, warum derselbe Chip manchmal mit unterschiedlichen Geschwindigkeiten verkauft wird? Und haben Sie bemerkt, dass manchmal dieselbe GPU-Chip-Architektur mit einer unterschiedlichen Anzahl interner Einheiten verkauft wird?
Es gibt keine Möglichkeit, einen Hardwarefehler auf Siliziumebene zu beheben, aber im Laufe der Zeit haben Designer gelernt, mit dem Problem der Erhöhung der Ausbeute umzugehen . Ohne Voraussicht hängt der Ertrag ausschließlich von der Herstellungsqualität ab. Wenn Sie jedoch klug sind, können Sie einige der schlechten Chips wiederherstellen.
Nehmen wir zum Beispiel an, Sie haben ein 18-Kern-Chip-Design, das mehr oder weniger unabhängig arbeitet. Während des Tests sortieren Sie perfekte Chips und geben sie als A18-Modell frei. Die meisten ausgefallenen Chips haben nur einen Fehler, daher funktionieren sie einwandfrei, solange der fehlerhafte Kern deaktiviert ist. Sie verkaufen diese als A17-Modell zu einem etwas niedrigeren Preis, und diejenigen mit zwei schlechten Kernen werden als A16-Modell zu einem immer niedrigeren Preis verkauft.
Gleiches kann für die Geschwindigkeitsbewertung eines Chips gelten. Perfekt gefertigte Chips können mit Geschwindigkeiten betrieben werden, die über die Konstruktionsspezifikation hinausgehen, Chips mit Problemen jedoch möglicherweise nicht. Diese werden mit niedrigeren Geschwindigkeitsspezifikationen verkauft.
Diese Methode erhöht die Gesamtausbeute dramatisch und wird daher häufig gesehen. Die PlayStation 3 verfügt beispielsweise über 8 SPE-Einheiten in der Hardware, eine ist jedoch immer deaktiviert, um Ertragsprobleme zu berücksichtigen.
Verfügt die CPU über einen automatischen Wiederherstellungsmechanismus?
Nein wie oben erklärt. Ihre Caches, insbesondere L2 und L3, können jedoch zusätzlichen RAM enthalten. Wenn das Teil im Werk getestet wird, können fehlerhafte RAM-Blöcke entfernt und die zusätzlichen RAM-Blöcke verwendet werden.
Im Allgemeinen nein, Sie decken schlechte Transistoren durch einen Chip-Bildschirm ab und erwarten danach einen relativ geringen Prozentsatz an Verlusten. Das Chip-Geschäft gibt es schon seit Jahrzehnten. Sie haben viele Tricks, um dies zu verwalten (und ja, manchmal besteht einer der Tricks darin, nur schlechte Teile herauszulassen und sie kostenlos zu ersetzen oder die Kunden unglücklich zu machen).
Für strahlungsgehärtete Umgebungen (Weltraum) würden Sie wahrscheinlich dreifach abstimmen, jedes "Bit" hat tatsächlich drei Bits, die abstimmen, um eins zu machen. Es sind nur zwei Drittel der Stimmen erforderlich, um die Biteinstellung zu bestimmen. So könnten Transistoren im anderen Drittel schlecht werden und werden schließlich mit der Gesamtdosis. Das Hauptanliegen ist jedoch die Störung einzelner Ereignisse. Diese Chips und Systeme sind für diese Umgebungen von oben nach unten, Silizium, Hardware, Software usw. ausgelegt. Und sie verwenden alte bewährte Technologie, nicht auf dem neuesten Stand, sodass die Anzahl und Größe der Transistoren der Transistoren von vor Jahren stammt.
Es wird erwartet, dass COTS von Zeit zu Zeit Schluckauf hat und fehlschlägt.
Es mag wie ein Wunder erscheinen, aber es gibt eine Reihe von Mechanismen, mit denen die Anzahl der Transistorausfälle verringert werden kann. Abhängig von der Art des Ausfalls des Transistors und dem Ort, an dem die CPU unter bestimmten Bedingungen manchmal noch verwendet werden kann oder nicht.
Gegenwärtig ist häufig kein automatischer Wiederherstellungsmechanismus eingebaut, aber es wird viel über rekonfigurierbares Rechnen, Redundanz und andere Techniken geforscht, um dieses Problem zu minimieren.