Einzelereignisstörungen gehören nicht mehr zum Weltraum und zum Flugzeug. wir haben sie über ein Jahrzehnt lang an der Oberfläche gesehen, vielleicht schon zwei.
Wie bereits erwähnt, behandeln wir zumindest in Weltraumanwendungen Störungen durch Dreifachstimmen (jedes Bit ist wirklich drei, und eine Zweidrittelstimme gewinnt. Wenn also eines vorhanden ist, das sich ändert, werden die anderen beiden es abdecken.). Und dann ECC oder EDAC mit Scrubbern, die den Arbeitsspeicher mit einer höheren Rate als der vorhergesagten Aktualisierungsrate für einzelne Ereignisse durchlaufen, um einzelne Ereignisstörungen zu beseitigen (solche, bei denen zwei Drittel der Stimmen falsch stimmen).
Dann gibt es Gesamtdosis; Mit der Zeit wird das Material zu radioaktiv, um zu arbeiten, sodass Sie genug Material verwenden, um die Lebensdauer des Fahrzeugs zu verlängern. Nichts, worüber wir uns normalerweise an der Oberfläche Sorgen machen. (Und Latchup) Die parallele Verwendung von drei / mehreren Sätzen von Logik ist / war ein Weg, um zu versuchen, die traditionelle radikale Technologie nicht anwenden zu müssen, und Sie können feststellen, wie gut das funktioniert.
Die Leute, die früher gewusst haben, wie man Sachen für den Weltraum erstellt, haben sich größtenteils zurückgezogen oder sind weitergezogen, daher haben wir jetzt eine Reihe von Programmen, die den Weltraum-Müll machen. Oder wir behandeln den Weltraum wie erdgebundene Produkte, anstatt zu versuchen, alle an der Arbeit zu beteiligen und einen kontrollierten Wiedereintritt und Abbrand zu haben.
Wir sehen Störungen an der Oberfläche. Jeder von Ihnen gekaufte Memory Stick ( DRAM ) hat eine FIT, Failures In Time und jeder Chip mit RAM (alle Prozessoren, viele andere) hat auch eine FIT-Spezifikation (für die RAM (SRAM) -Blöcke). RAM ist dichter und verwendet kleinere Transistoren, so dass es anfälliger für interne oder externe Störungen ist. Die meiste Zeit bemerken wir nichts oder kümmern uns nicht darum, da der Speicher, den wir für Daten, das Ansehen eines Videos usw. verwenden, geschrieben, zurückgelesen und nicht wieder verwendet wird, bevor er lang genug ist, um eine Störung zu verursachen. Einige Speicher, wie einer, der ein Programm oder den Kernel enthält, sind riskanter. Aber wir sind schon lange daran gewöhnt, einfach den Computer neu zu starten oder das Telefon zurückzusetzen / neu zu starten (bei einigen Telefonen / Marken müsste der Akku regelmäßig entfernt werden). Waren diese Störungen oder schlechte Software oder eine Kombination?
Die FIT-Nummern für Ihr einzelnes Produkt können die Lebensdauer dieses Produkts überschreiten. Bei einer großen Serverfarm berücksichtigen Sie jedoch den gesamten Arbeitsspeicher oder alle Chips, und die MTBF reicht von Jahren oder Bestellungen darüber bis zu Tagen oder Stunden irgendwo in der Bauernhof. Und Sie haben ECC, um zu decken, was Sie von diesen können. Anschließend verteilen Sie die Verarbeitungslast mit Failovers, um die Computer oder die Software zu erfassen, die eine Aufgabe nicht ausführen können.
Der Wunsch nach einer Festkörperspeicherung und der Wechsel von sich drehenden Medien hat ein damit verbundenes Problem geschaffen. Der für SSDs (und andere nichtflüchtige Speicher) verwendete Speicher wird schneller und kostengünstiger. Er ist viel flüchtiger als wir es uns wünschen und basiert auf EDAC, da wir ohne ihn Daten verlieren würden. Sie werfen eine Menge zusätzlicher Teile in die Sache und erledigen die Rechnung, um Geschwindigkeit, Kosten und Langlebigkeit der Lagerung in Einklang zu bringen. Ich sehe uns nicht zurückkehren; Leute wollen überall mehr nichtflüchtigen Speicher, der in eine winzige Packung passt und den Preis des Produkts nicht dominiert.
Was normale Schaltkreise betrifft, gehen wir von den Anfängen der Verwendung von Transistoren für digitale Schaltkreise bis heute durch den linearen Teil des Transistors und verwenden ihn als Schalter. Wir schlagen ihn mit etwas Übermaß zwischen die Schienen, um sicherzustellen, dass er klebt . Wie der Lichtschalter an Ihrer Wand klappen Sie ihn um mehr als die Hälfte. Eine Feder hilft dem Rest und hält ihn dort. Deshalb verwenden wir digital und versuchen nicht, im linearen Bereich zu leben. Sie versuchten es früh, scheiterten aber. Sie konnten nicht kalibriert bleiben.
Also schieben wir den Transistor einfach auf die Schienen und beide Seiten eines Signals werden sich bis zum nächsten Taktzyklus beruhigen. Es werden große Anstrengungen unternommen, und die aktuellen Werkzeuge sind bei der Analyse des Chipdesigns deutlich besser als früher, um zu sehen, dass konstruktionsbedingt ein Spielraum für das Timing besteht. Testen Sie dann jeden Chip auf jedem Wafer (das und / oder nach dem Verpacken), um festzustellen, ob jeder Chip gut ist.
Chip-Technologie stützt sich stark auf Statistiken, die auf Experimenten basieren. Wenn Sie Ihre CPU übertakten, erhöhen Sie diese Marge, halten die angegebene Taktrate, Temperatur usw. ein, und die Wahrscheinlichkeit, dass Probleme auftreten, ist erheblich geringer. Ein 3-GHz-xyz-Prozessor ist einfach ein 4-GHz-Chip, der bei 4 GHz ausfällt, aber bei 3 GHz durchgelassen wird. Die Teile werden grundsätzlich aus einer Produktionslinie geschwindigkeitsgestuft.
Dann gibt es die Verbindungen zwischen Chips oder Platinen, und diese sind ebenfalls mit Problemen behaftet, und es wird viel Zeit und Mühe aufgewendet, Standards und Platinendesigns usw. zu erstellen, um Fehler an diesen Schnittstellen zu minimieren. USB , Tastatur, Maus, HDMI , SATA und so weiter. Sowie alle Spuren auf dem Brett. Auf und neben dem Board treten Probleme mit Übersprechen auf. Auch hier sind viele Tools verfügbar, wenn Sie sie verwenden, und Sie haben Erfahrung darin, die Probleme zu vermeiden, aber es gibt auch eine andere Möglichkeit, bei der wir möglicherweise nicht sehen, dass die Einsen und Nullen vollständig belegt sind.
Keine der Technologien, auch nicht der Weltraum, ist perfekt. Es muss nur gut genug sein, ein ausreichender Prozentsatz des Produkts muss die erwartete Lebensdauer des Produkts abdecken. Ein gewisser Prozentsatz der Smartphones muss mindestens zwei Jahre alt sein, und das war's. Ältere Gießereien oder Technologien verfügen über experimentellere Daten und können ein zuverlässigeres Produkt produzieren. Sie sind jedoch langsamer und möglicherweise keine neuen Designs. Die Schneide ist genau das, ein Glücksspiel für alle.
Auf Ihre spezielle Frage hin werden die Transistoren an jedem Ende eines Signals schnell durch ihren linearen Bereich geschoben und lehnen sich in eine der Schienen. Die Analyse wird für jeden kombinierten Pfad durchgeführt, um zu bestimmen, dass er sich einpendelt, bevor die Uhr am Ende des Pfads ihn zwischenspeichert, sodass er wirklich zu Null oder Eins gemacht wird. Die Analyse basiert auf Experimenten. Die ersten Chips einer Produktlinie werden über die Designgrenzen hinausgeschoben. Schmoo-Plots werden erstellt, um festzustellen , ob im Design ein Spielraum vorhanden ist. Variationen des Prozesses werden vorgenommen und / oder es werden einzelne Kandidaten gefunden, die die langsamen und schnellen Chips darstellen. Es ist ein komplizierter Prozess und einige haben mehr Material, andere weniger, laufen schneller, verbrauchen aber mehr Energie oder laufen langsamer usw.
Sie schieben diese auch an den Rand. Und im Grunde bekommt man ein warmes, unscharfes Gefühl, dass das Design in Ordnung ist, um in Produktion zu gehen. JTAG / Boundary Scan werden verwendet, um zufällige Muster zwischen den einzelnen zwischengespeicherten Zuständen durch die Chips zu führen, um zu sehen, ob die kombinatorischen Pfade für ein Design vollständig sind. Und wo Bedenken bestehen, können auch gezielte Funktionstests durchgeführt werden. Weitere Tests des ersten Siliziums und möglicherweise zufällige Tests, um sicherzustellen, dass das Produkt gut ist. Wenn / wenn Fehler auftreten, werden Sie möglicherweise auf weitere Funktionstests in der Produktionslinie zurückgegriffen. Es ist stark abhängig von Statistiken / Prozentsätzen. 1/1000000 schlechte Leute, die aussteigen, können in Ordnung sein oder 1/1000 oder was auch immer; es hängt davon ab, wie viele Sie glauben, von diesem Chip zu produzieren.
Die Sicherheitslücken sind wie hier und bei anderen erwähnt. Zuerst der Chip selbst, wie gut das Design und der Prozess waren, wie nahe am Rand der schwächste Pfad eines bestimmten Chips in dem von Ihnen gekauften Produkt liegt. Wenn die Temperatur zu nahe an der Kante liegt, kann dies zu Zeitproblemen führen, und die Bits speichern Daten, die nicht auf eins oder null gesetzt wurden. Dann gibt es einzelne Ereignisstörungen. Und dann gibt es Lärm. wieder Sachen schon erwähnt ...