KI-gestützte Spannungsstabilisierung bei erneuerbaren Energien

KI-gestützte Spannungsstabilisierung bei erneuerbaren Energien

Mit der zunehmenden Verbreitung von Elektrofahrzeugen und erneuerbaren Energiequellen wie Solar- und Windkraft stehen Verteilnetze vor beispiellosen Herausforderungen. Spannungsinstabilität, einst ein seltenes Phänomen, ist in vielen aktiven Verteilnetzen heute an der Tagesordnung. Das Kernproblem liegt in den unvorhersehbaren und oft schnellen Leistungsschwankungen von Photovoltaikanlagen und Schnellladestationen für Elektrofahrzeuge. Diese Schwankungen können innerhalb einer Minute bis zu 15 % der Nennleistung überschreiten und Knotenspannungen über die zulässigen Grenzwerte treiben, was die Netzstabilität und die Lebensdauer der Betriebsmittel gefährdet.

Herkömmliche Spannungsregelungsverfahren, die auf Spannungsreglern, schaltbaren Kondensatorbatterien und Energiespeichersystemen basieren, können mit dieser Entwicklung kaum Schritt halten. Diese Betriebsmittel arbeiten in unterschiedlichen Zeitbereichen – mechanische Komponenten mit langsamer Schaltfolge zur Vermeidung von Verschleiß, während Wechselrichter dezentraler Erzeugungsanlagen und statische Blindleistungskompensatoren binnen Sekunden reagieren können. Diese Disparität der Ansprechzeiten erzeugt komplexe Koordinationsprobleme. Ohne einheitliche Steuerungsstrategie kann das Zusammenspiel schneller Wechselrichter und langsamer mechanischer Komponenten zu übermäßigem Schaltbetrieb, Regelungslimitierungen und sogar Spungszusammenbrüchen führen.

Konventionelle Optimierungsmodelle stoßen hier an ihre Grenzen. Die Problemstellung ist inhärent nichtkonvex und umfasst sowohl kontinuierliche als auch diskrete Entscheidungsvariablen – etwa die kontinuierliche Ladeleistung eines Batteriespeichers und die diskreten Stufenschaltungen eines Spannungsreglers. Die Lösung dieser großskaligen gemischt-ganzzahligen nichtlinearen Optimierungsaufgabe ist rechenintensiv und für Echtzeitanwendungen praktisch undurchführbar. Die Komplexität wächst exponentiell mit der Netzgröße, was zu NP-schweren Problemen führt. Dies hat das Interesse an datengestützten Ansätzen geweckt, insbesondere am bestärkenden Lernen, das optimale Steuerungsstrategien durch Erfahrung erlernen kann ohne explizites mathematisches Modell des gesamten Netzes.

Bestehende Methoden des bestärkenden Lernens weisen jedoch eigene Limitierungen auf. Deep-Q-Networks eignen sich für diskrete Aktionen, versagen aber bei kontinuierlichen Variablen. Algorithmen wie Deep Deterministic Policy Gradient hingegen excellieren im Umgang mit kontinuierlichen Aktionen, können aber keine diskreten verarbeiten. In Netzen mit multiplen Spannungsreglern und schaltbaren Kondensatorbatterien, each mit zahlreichen diskreten Stellpositionen, führt ein DQN-Ansatz zum Fluch der Dimensionierung, bei dem der Aktionsraum so groß wird, dass der Lernprozess ineffizient und instabil wird. Multi-Agenten-Ansätze wurden zur Entschärfung dieses Problems vorgeschlagen, bringen aber neue Herausforderungen in Koordination und Konvergenz mit sich.

Ein bahnbrechender Lösungsansatz wurde nun durch eine Forschungszusammenarbeit unter der Leitung von Jian Zhang von der Hefei-Universität für Technologie, Mingjian Cui von der Tianjin-Universität und Yigang He von der Wuhan-Universität entwickelt. Ihre in den renommierten Transactions of China Electrotechnical Society veröffentlichte Arbeit präsentiert eine neuartige duale Zeitskalen-Spannungskoordinationsstrategie, die die Stärken datengesteuerten Lernens mit der Strenge physikalischer Modellierung vereint. Dieser hybride Ansatz überwindet die fundamentalen Limitierungen sowohl modellfreier als auch modellbasierter Methoden.

Die Kerninnovation liegt in der hierarchischen Zwei-Ebenen-Steuerungsarchitektur. Die erste Ebene operiert auf langsamer Zeitskala – typischerweise stündlich – und ist verantwortlich für die Einstellung der langfristigen Arbeitspunkte langsam reagierender Betriebsmittel: die Übersetzungsverhältnisse der Spannungsregler, die Schaltzustände der Kondensatorbatterien und die Lade-/Entladeleistung der Energiespeichersysteme. Hier zeigt sich die Komplexität gemischter diskret-kontinuierlicher Aktionen am deutlichsten. Zur Lösung entwickelten die Forscher einen adaptierten Deep Deterministic Policy Gradient-Algorithmus mit einem dreistufigen Prozess: Relaxation, Vorhersage und Korrektur.

In der Relaxationsphase werden die diskreten Stellpositionen der Spannungsregler und Kondensatorbatterien als kontinuierliche Variablen behandelt, was dem Actor-Netzwerk die Ausgabe einer „Prototyp-Aktion“ ermöglicht, die sowohl kontinuierliche (Speicherleistung) als auch relaxierte diskrete (Reglerverhältnis, Schaltzustand) Komponenten enthält. In der Vorhersagephase sucht der Algorithmus statt einer erzwungenen Diskretisierung des Prototyps den diskreten Aktionsraum nach den K nächsten Nachbarn der relaxierten Werte ab. Dies erzeugt einen kleinen, handhabbaren Satz von Kandidatenaktionen. In der Korrekturphase wird jeder dieser K Kandidaten mit der kontinuierlichen Speicherleistung des Prototyps kombiniert und durch das Critic-Netzwerk bewertet, um seinen erwarteten Langzeitwert zu bestimmen. Die Aktion mit dem höchsten Wert wird zur Implementierung ausgewählt.

Dieser „Relaxations-Vorhersage-Korrektur“-Mechanismus erweist sich als genialer Schachzug. Er ermöglicht das gleitende, gradientenbasierte Lernen von DDPG zur Führung der Suche im diskreten Raum und vermeidet die kombinatorische Explosion eines reinen DQN-Ansatzes. Durch die Bewertung von nur K Kandidaten (z.B. 20 oder 40) pro Entscheidung bleibt die Rechenlast gering, während die Strategie dennoch zu einer nahezu optimalen Lösung konvergiert. Die Forscher demonstrierten, dass diese Methode einen deutlich stabileren und schneller konvergierenden Trainingsprozess erreicht als bestehende Multi-Agenten-DQN-Methoden.

Die zweite Ebene des Steuerungssystems operiert auf schneller Zeitskala – alle 5 bis 15 Minuten – und behandelt die schnellen Spannungsschwankungen durch die intermittierende Natur erneuerbarer Energien und Elektrofahrzeugladung. Auf dieser Ebene werden die langsamen Zeitskalen-Entscheidungen als feste Parameter behandelt. Vor diesem Hintergrund berechnet das System die optimale Blindleistungsabgabe aller Wechselrichter dezentraler Erzeugungsanlagen und statischen Blindleistungskompensatoren. Dies geschieht nicht mit einem weiteren DRL-Agenten, sondern durch Lösung eines physikbasierten quadratischen Optimierungsmodells, das aus den Zweigstromgleichungen des Verteilnetzes abgeleitet wird.

Hier kommt die physikalische Modellierung voll zur Geltung. Das QP-Modell erzwingt explizit die Gesetze der Physik – Kirchhoffsche Gesetze und Leistungsflussgleichungen – und gewährleistet so eine physikalisch plausible Lösung, die alle Betriebsgrenzen wie Wechselrichterkapazitätslimits und Spannungsbereiche einhält. Durch Minimierung der Summe quadrierter Spannungsabweichungen über alle Knoten erzeugt das Modell eine mathematisch optimale Blindleistungsverteilung für den aktuellen Netzstatus. Da die langsamen Zeitskalen-Variablen fixiert sind, ist dieses QP-Problem konvex und kann mit Standardsolvern wie MOSEK binnen Millisekunden global optimal gelöst werden.

Die beiden Ebenen sind durch die Belohnungsstruktur des DRL-Agenten eng gekoppelt. Die Kosten für jede stündliche Periode im Markov-Entscheidungsprozess sind definiert als die Summe der optimalen Zielfunktionswerte aller schnellen Zeitskalen-QP-Optimierungen innerhalb dieser Stunde. Im Wesentlichen lernt der DRL-Agent, die langsamen Zeitskalen-Variablen so einzustellen, dass der gesamte „Aufwand“ der schnellen Zeitskalen-Regler zur Spannungsstabilisierung minimiert wird. Dies erzeugt eine Rückkopplungsschleife, in der die Langzeitstrategie direkt von den kurzfristigen physikalischen Konsequenzen ihrer Aktionen informiert wird.

Die Leistungsfähigkeit dieser dualen Zeitskalen-Strategie wurde rigoros an zwei standardisierten IEEE-Testsystemen geprüft: dem symmetrischen 33-Knoten-Netz und dem unsymmetrischen 123-Knoten-Netz. In beiden Fällen waren die Ergebnisse überzeugend. Bei zufälliger oder fester Einstellung der langsam reagierenden Betriebsmittel waren die durchschnittlichen stündlichen Spannungsabweichungskosten katastrophal hoch, was auf schwerwiegende und häufige Spannungsverletzungen hindeutete. Ein traditionelles, einzelnes Zeitskalen-Modell mit gemischt-ganzzahliger quadratischer Optimierung, das alle Betriebsmittel simultan über einen 24-Stunden-Horizont optimiert, diente als Goldstandard für nahezu optimale Leistung. Dieses Modell erreichte sehr niedrige Kosten, benötigte jedoch über 78 Sekunden für das 33-Knoten-System und 189 Sekunden für das 123-Knoten-System – für Echtzeitanwendungen deutlich zu langsam.

Die vorgeschlagene Methode erreichte nach einer Trainingsphase von 600 Tagen simulierter Daten eine bemerkenswert nahe an diesem Goldstandard liegende Leistung. Für das 33-Knoten-System konvergieren die durchschnittlichen Kosten auf 0,0262 (pu) verglichen mit dem Optimalwert von 0,0207 (pu). Für das 123-Knoten-System wurden 0,0410 (pu) gegenüber dem Optimalwert von 0,0349 (pu) erreicht. Der eigentliche Triumph lag jedoch in der Geschwindigkeit. Die durchschnittliche Berechnungszeit für eine Steuerungsaktion eines einzelnen Tages betrug lediglich 1,7 bis 2,1 Sekunden für das 33-Knoten-System und 8,9 bis 10,5 Sekunden für das 123-Knoten-System. Dies entspricht einer Beschleunigung um das 36,7-fache bzw. 18,0-fache verglichen mit der traditionellen Optimierung. Noch bedeutsamer ist die pro Zeitschlitz benötigte Berechnungszeit von lediglich 7,4 Millisekunden und 73 Millisekunden, was den Anforderungen an Echtzeitsteuerung vollständig entspricht.

Die Forschung lieferte auch wertvolle Erkenntnisse zur praktischen Abstimmung des Algorithmus. Die Anzahl der nächsten Nachbarn, K, erwies sich als kritischer Hyperparameter. Die Einstellung K=1, die die Prototyp-Aktion im Wesentlichen auf den nächstgelegenen diskreten Punkt zwingt, resultierte in einem hochinstabilen Trainingsprozess mit großen Leistungsschwankungen. Im Gegensatz dazu führte die Einstellung K=20 für das 33-Knoten-System und K=40 für das 123-Knoten-System zu einer glatten, schnellen Konvergenz zu einer stabilen, hochleistungsfähigen Strategie. Dies demonstriert, dass ein gewisses Maß an „Exploration“ im diskreten Raum für robustes Lernen essentiell ist.

Ein weiteres Schlüsselergebnis war die überlegene Leistung dieses Single-Agenten, adaptierten DDPG-Ansatzes verglichen mit in der Literatur berichteten Multi-Agenten-DQN-Methoden. Die Trainingskurven zeigten eine deutlich schnellere und glattere Konvergenz, was die Autoren auf den erheblich kleineren effektiven Suchraum und die inhärente Stabilität des DDPG-Rahmenwerks zurückführen. Dies ist ein signifikanter Vorteil, da instabiles Training einen Algorithmus für den praktischen Einsatz unbrauchbar machen kann.

Die Implikationen dieser Arbeit sind weitreichend. Sie bietet eine praktische, skalierbare Lösung für die Spannungsregelung in modernen, aktiven Verteilnetzen. Die Methode ist inhärent flexibel und kann sowohl auf symmetrische als auch unsymmetrische Drehstromnetze angewendet werden, was sie für reale urbane und ländliche Einsatzgebiete geeignet macht. Die Trennung der Zeitskalen spiegelt die natürliche Dynamik des Netzes wider, bei der langsam reagierende mechanische Betriebsmittel die Bühne für schnell reagierende elektronische Betriebsmittel zur Feineinstellung des Spannungsprofils bereiten.

Für Energieversorger und Netzbetreiber stellt dies ein leistungsfähiges Werkzeug zur Integration höherer Anteile erneuerbarer Energien und Elektrofahrzeugladung ohne kostspielige Infrastrukturupgrades dar. Durch proaktives Spannungsmanagement mit einer koordinierten, intelligenten Strategie können sie Über- und Unterspannungsereignisse verhindern, die Lebensdauer von Betriebsmitteln wie Spannungsreglern verlängern und die Power Quality für alle Kunden aufrechterhalten. Der Einsatz von DRL bedeutet zudem, dass das System sich über die Zeit an veränderte Bedingungen anpassen und aus neuen Last- und Erzeugungsmustern lernen kann.

Die Forscher räumen ein, dass ihre aktuelle Arbeit einen festen Trainingsdatensatz verwendet und die Generalisierungsfähigkeit des Algorithmus auf ungesehene Bedingungen nicht vollständig testet. Zukünftige Arbeiten werden sich auf Online-Lernen und Tests mit rollierenden Validierungssätzen konzentrieren, um die Robustheit des Reglers in einem dynamischen, sich entwickelnden Netz zu gewährleisten. Nichtsdestotrotz ist die gelegte Grundlage solide. Durch die Kombination der Anpassungsfähigkeit künstlicher Intelligenz mit der Zuverlässigkeit physikalischer Gesetze haben sie ein Steuerungssystem geschaffen, das nicht nur schneller und effektiver, sondern auch vertrauenswürdiger ist. Dieser hybride Ansatz könnte durchaus zum Blaupause für die nächste Generation intelligenter Netzmanagementsysteme werden.

Jian Zhang, Mingjian Cui, Yigang He, Transactions of China Electrotechnical Society, DOI:10.19595/j.cnki.1000-6753.tces.222273