Fehlerschutzmechanismen für verteilte Systeme aus COTS FPGAs in Weltraumanwendungen
- verfasst von
- Tim Oberschulte
- betreut von
- Holger Christoph Blume
- Abstract
Integrierte Schaltkreise im Weltraum sind extremen Widrigkeiten ausgesetzt. Hochenergetische Teilchen geben beim Auftreffen einen Teil ihrer Energie an die Materie des Schaltkreises ab und können dadurch für Bitfehler sorgen. Besonders betroffen sind hierbei Schaltkreise mit vielen Speicherelementen, zum Beispiel Field-Programmable Gate Arrays (FPGAs), deren Funktion dynamisch von Speicherinhalten definiert wird. Der fehlerfreie Betrieb von Systemen mit vielen dieser Bauteile birgt folglich besondere Herausforderungen. Die verfügbaren strahlungsgehärteten FPGAs sind sehr teuer und haben eine hohe Leistungsaufnahme. Für Systeme mit 10 bis 100 FPGAs werden daher meist ungehärtete kommerzielle Bauteile verwendet.
In dieser Arbeit werden verschiedene Maßnahmen für die Fehlerbehandlung in verteilten Systemen mit kommerziellen nicht strahlungsgehärteten FPGAs untersucht, die im Weltraum betrieben werden. Als reale Anwendung wird die Apparatur des BECCAL Projektes verwendet. In ihr sollen Bose-Einstein Kondensate unter Mikrogravitation im Weltraum erzeugt und untersucht werden. Hierfür ist eine große Menge an steuernder Elektronik notwendig. Anhand zweier Baugruppen aus dieser Steuerelektronik werden verschiedene Fehlerdetektionsmechanismen auf FPGAs implementiert und auf ihre Fehlertoleranz untersucht. Zum Einsatz kommt neben bekannten Methoden wie doppelter oder dreifacher Replikation auch eine neue Methode basierend auf Restklassenzahlensystemen. Die hierfür entwickelte Bibliothek der sogenannten Redundant Residue Number Systems (RRNS) wird bezüglich ihrer Ressourcennutzung und Fehlererkennung mit den Replikationsverfahren verglichen. Da bei FPGAs ein Fehler im Konfigurationsspeicher zu dauerhaft fehlerhaftem Verhalten führen kann, muss es in solchen Fällen neu programmiert werden können. In dieser Arbeit wird daher eine Strategie für verteilte Systeme zur Wiederherstellung des Betriebs nach einem Fehler untersucht.
Für die Evaluation werden Fehler in die implementierten Teilsysteme von BECCAL injiziert. Dies erfolgt zum einen in Simulationen und zum anderen direkt in den Konfigurationsspeicher eines FPGAs in Hardware. Hierdurch lassen sich die Raten detektierbarer und nicht detektierbarer Fehler ermitteln. Mit Messdaten verschiedener Teilchenraten im Weltraum der ESA wird für verschiedene Orte die Rate an tatsächlich auftretenden Fehlern bestimmt. Für die Einzelbausteine und das Gesamtsystem wird schließlich evaluiert, welche Fehlerraten bei welchen Schutzmaßnahmen an welchen Orten im Weltraum zu erwarten sind.- Organisationseinheit(en)
-
Fachgebiet Architekturen und Systeme
- Typ
- Dissertation
- Anzahl der Seiten
- 157
- Publikationsdatum
- 03.2025
- Publikationsstatus
- Veröffentlicht
- Elektronische Version(en)
-
https://doi.org/10.15488/18773 (Zugang:
Offen)