GANs4REKünstlicher SCADA-Datensatz für Benchmarking von Anomalieerkennungsansätzen

Zur Überwachung von Windenergieanlagen werden oft Anomalie-Erkennungsverfahren eingesetzt, welche auf Basis von SCADA-Daten frühzeitig ungewöhnliches Verhalten der Anlage erkennen sollen und einen optimalen Betrieb ermöglichen. Für solche Verfahren hat sich im Bereich der erneuerbaren Energien bisher aber kein einheitliches Benchmarking etabliert. Die meisten öffentlich zugänglichen Datensätze mit gekennzeichneten Fehlern und Anomalien fokussieren sich auf den Bereich der Angriffserkennung in Netzwerkdaten, welche sich stark von SCADA-Daten unterscheiden. An dieser Stelle soll GANs4RE Abhilfe schaffen, indem es durch den Einsatz von Generative Adversarial Networks (GANs) einen künstlich erzeugten Datensatz und ein Modell zur Erzeugung solcher Datensätze bereitstellt.

Das Projekt ist interessant für:

Modellentwickler, Anbieter von Überwachungstechnik

Ziele

Vorhandene Sensordaten von Windenergieanlagen aufbereiten, damit Normalverhalten und anomales Verhalten klar gelabelt sind.
Entwicklung eines generativen Modells, das realistische Sensordaten von Windenergieanlagen während Normalbetrieb und anomalem Betrieb erzeugt.
Evaluierung der Modelle, indem ein schon bestehendes Anomalieerkennungsverfahren, das auf generierten Daten trainiert ist, auf echten Daten angewandt wird.
Veröffentlichung der Ergebnisse in einem Paper

Methoden

GANs, Neuronale Netze, Autoencoder
Was sind GANs? GANs (Generative Adversarial Networks) sind eine Klasse von Machine Learning Frameworks bestehend aus zwei neuronalen Netzen. Während des Trainings lernt das erste Netz (Generator) neue Daten zu generieren, welche den echten Daten ähneln; gleichzeitig versucht das zweite Netz (Discriminator) die generierten von den echten Daten zu unterscheiden. Beide Netze werden simultan trainiert, sodass das generative Netz immer realistischere Daten erzeugt, während das diskriminative Netz immer besser darin wird, die synthetischen Daten von den realen zu unterscheiden. Nach der Trainingsphase kann das Generator-Netz verwendet werden, um neue Daten zu erzeugen.

Anwendungsmöglichkeiten

Durch das Trainieren einer GAN kann ein von Anomalien befreiter Datensatz bereitgestellt werden, welcher im Nachgang durch künstlich erzeugte Anomalien und Fehler auf Basis bekannter Fehler ergänzt wird. Hierzu soll ein weiteres ML-Model, welches mit anormalen Daten antrainiert wurde, genutzt werden, um ausgewählte Zeitperioden in dem Normaldatensatz zu überschreiben. Auf diese Weise entsteht ein Datensatz mit eindeutig gekennzeichneten Fehlern und Anomalien, der für Benchmarking und Veröffentlichungen herangezogen werden kann. Durch das Trainieren mit verschiedenen realen Datensätzen können künstliche Benchmarkingdatensätze für unterschiedliche Systeme an variierenden Standorten erstellt werden. Dabei soll der Fokus des Vorhabens zunächst auf der Erstellung eines Benchmarkdatensatzes für Windenergieanlagen liegen. Bei erfolgreicher Evaluierung der Methode kann diese jedoch auch auf andere Bereiche ausgeweitet werden. Mit dem Bereitstellen der Methode in z.B. einer Python-Bibliothek könnte ein Verfahren zum Erstellen von Referenzdatensätzen etabliert werden, welches die Entwicklung von Anomalieerkennungsverfahren im Bereich der erneuerbaren Energien vereinfachen würde.
Ziel des Vorhabens ist die Evaluierung von GANs zur Generierung von künstlichen Datensätzen im Bereich der Anomalieerkennung in Windenergieanlagen. Zur Evaluierung der künstlichen Datensätze ist geplant das im Rahmen der Projekte ModernWindABS und ADWENTURE entwickelte Anomalieerkennungsverfahren basierend auf einem Autoencoder zu nutzen. Kontrolliert wird die Qualität des künstlich erzeugten Datensatzes dabei durch das Trainieren des Autoencoders mit einem künstlich erzeugten Datensatz und der Anwendung auf einen realen Datensatz. Bei erfolgreicher Evaluierung wird die Veröffentlichung eines Papers im Rahmen der ECML-PKDD 2022 angestrebt.

Projektablauf

Literaturrecherche zum aktuellen State-of-the-Art zum Erzeugen von multivariaten Zeitreihen mithilfe von GANs und Auswahl geeigneter Methoden für SCADA-Daten.
Auswahl und Aufbereitung von Trainingsdatensätze, mit eindeutig gelabelten Daten (normal oder Anomalie).
Entwicklung und Evaluierung der Modelle zur Erzeugung von Zeitreihen, die Normalverhalten und anomales Verhalten einer Windenergieanlage abbilden.
Die Ergebnisse werden in einem Paper beschrieben und veröffentlicht.

Projektpartner

Projektmitarbeiter: Mira Jürgens, Edison Guava, Florian Rehwald, René Heinrich, Christian Gück, Dr. Christoph Scholz, Cyriana Roelofs

Veröffentlichungen

Eine Veröffentlichung im Rahmen der ECML-PKDD 2022 ist geplant

Projektlaufzeit

1.11.2021 – 31.03.2022

Cyriana Roelofs

Fraunhofer IEE

+49 (0) 561 7294-448

TLP4Heat – Technical-Language-Processing für die Verwertung von Instandhaltungsinformationen in Fernwärmesystemen

AAE
Adversarial Attacks im Energiesektor