Entwurf und ASIC-Implementierung eines Hardware-Akzelerators für tiefe neuronale Netze im Bereich von Ultra Low Power Audio-Anwendungen

Verfasst von

Simon Christian Klein

Abstract

Inhalt dieser Arbeit ist die Konzeptionierung, Implementierung und Evaluation eines Akzelerators für neuronale Netze im Ultra-Low-Power Bereich für echtzeitkritische Anwendungen. Dafür wurden exemplarisch Hörgeräte-Anwendungen als Entwicklungsziel und zur Auswertung der entwickelten Akzelerator-Architektur gewählt. Eine Literaturrecherche zeigte, dass vor allem CNNs, FCNNs und RNNs für eine Audioklassifikation und Rauschreduktion geeignet sind. Eine eigene CNN-Implementierung konnte die Pareto-Front zwischen Sprachverständlichkeit (STOI) und Rechenaufwand verschieben. Diese wurde in abgewandelter Version auf dem SmartHeaP-SoC, ein hoch performanter Hörgeräte-Prozessor, in Echtzeit implementiert. Diese Implementierung konnte mit 5.67 MACs/Takt (MACs, engl.Multiply ACcumulate Operations) bei 50 MHz eine Laufzeit von 5.2 ms bei einer mittleren Verlustleistung von 3.3 mW erreichen. Allerdings ist dann das SmartHeaP-Soc soweit ausgelastet, dass keine vollständige Signalverarbeitungskette für Hörgeräte mehr ausgeführt werden kann. Daher wurde mit LINA (engl. Lightweight Interleaver Network Accelerator ) ein Architektur-Konzept entwickelt, welches die Basisoperation aller relevanten Netzklassen, die 2D-Faltungsoperation, beschleunigt. Ein zentrales Merkmal der Architektur sind die in dieser Arbeit entwickelten, flexiblen Netzwerke, welche die Speicher mit den Rechenelementen verbinden. Die Netzwerke partitionieren die 2D-Faltungsoperation je nach Dimension flexibel und bilden diese auf die Rechenelemente ab. Dadurch wird die Auslastung maximiert und gleichzeitig durch das Multiplexer-Netzwerk die Belegung der Speicher minimiert. Die Architektur wurde in Verilog beschrieben und in einer 22 nm FD-SOI Technologie synthetisiert. Evaluierungen mit bis zu 128 Rechenelementen erreichten Taktraten bis 500 MHz bei hoher Flächen- und Energieeffizienz. In einer Frontend-Implementierung zur Optimierung der Verlustleistung konnte LINA einen neuen Punkt an der Pareto-Front aus allen Vergleichs-Implementierungen aus der Literatur von frequenznormierter Flächen- und Verlustleistungseffizienz erreichen und erzielte bis zu 7339,4 GMACs/s/mW.

Zur Validierung wurde ein ASIC gefertigt und auf einer Testplatine evaluiert. Bei 54 MHz erreichte LINA 6,1 Mio. MACs in 1,6 ms bei 19,1 mW Verlustleistung. Verglichen mit dem SmartHeaP-SoC zeigte sich eine deutliche Verbesserung von 13.1 mal mehr MACs pro Takt, 3.4 mal mehr MACs pro nJ und 72 % weniger Flächenbedarf, jedoch ohne Unterstützung einer vollständigen Signalverarbeitungskette. LINA ist daher als zusätzlicher Akzelerator für CNNs in Hörgeräten optimal geeignet.

Insgesamt stellt die Arbeit ein skalierbares und allgemein einsetzbares Architekturkonzept zur effizienten Beschleunigung von 2D-Faltungen vor, das die Grundlage für zukünftige Anwendungen neuronaler Netze in ressourcenbeschränkten Systemen bietet.

Details

betreut von
Holger Christoph Blume
Organisationseinheit(en)
Fachgebiet Architekturen und Systeme
Institut für Mikroelektronische Systeme
Typ
Dissertation
Anzahl der Seiten
154
Publikationsdatum
04.12.2025
Publikationsstatus
Veröffentlicht
Elektronische Version(en)
https://doi.org/10.15488/20286 (Zugang: Offen )