KI-Algorithmus optimiert E-Fahrzeug-Aggregation

KI-Algorithmus optimiert E-Fahrzeug-Aggregation

Die Elektromobilität befindet sich in einer entscheidenden Phase ihres Ausbaus. Was einst als Nischenprodukt begann, ist heute ein zentraler Baustein der globalen Energiewende. Mit über 100 Millionen Elektrofahrzeugen (EVs) in China bis 2030 und mehr als 140 Millionen bis 2040 wird die Rolle dieser Fahrzeuge weit über die reine Fortbewegung hinausgehen. Sie entwickeln sich zunehmend zu aktiven Energiespeichern, die in der Lage sind, nicht nur Energie zu beziehen, sondern auch gezielt ins Stromnetz zurückzuspeisen. Dieses Potenzial lässt sich jedoch nur dann vollständig ausschöpfen, wenn die unzähligen einzelnen Fahrzeuge intelligent gebündelt und gesteuert werden. Genau hier setzt die Forschung von Kong Yueping und Yang Shihai vom Marketing Service Center der State Grid Jiangsu Electric Power Co., Ltd. an. Ihre bahnbrechende Arbeit, veröffentlicht in der renommierten Fachzeitschrift Computer Engineering (DOI: 10.19678/j.issn.1000-3428.0068701), stellt einen neuartigen Algorithmus vor, der die Entscheidungsfindung von E-Fahrzeug-Aggregatoren (EVAs) auf ein völlig neues Niveau hebt.

Ein E-Fahrzeug-Aggregator fungiert als Bindeglied zwischen Tausenden von Elektrofahrzeugen und dem Strommarkt. Individuell sind die Batteriekapazitäten der Fahrzeuge zu gering, um am Großhandelsmarkt oder für Regelenergiedienstleistungen relevant zu sein. Durch die Aggregation wird aus der Masse eine leistungsfähige, flexible Ressource. Der Aggregator kann dann als ein virtuelles Kraftwerk agieren, das bei hohen Strompreisen Energie ins Netz einspeist oder bei niedrigen Preisen günstig lädt. Dieser Prozess, auch als Vehicle-to-Grid (V2G) bekannt, verspricht nicht nur eine höhere Netzstabilität und eine bessere Integration erneuerbarer Energien, sondern auch wirtschaftliche Vorteile sowohl für die Netzbetreiber als auch für die Fahrzeugbesitzer, die für ihre Mitwirkung entlohnt werden können.

Die Herausforderung liegt jedoch in der Komplexität der Optimierung. Zwei zentrale Entscheidungen müssen getroffen werden: Erstens, wie viel Energie und wie viel Regelleistung (Reservekapazität) bietet der Aggregator auf dem Markt zum Verkauf an? Zweitens, wie wird die aggregierte Lade- oder Entladeleistung konkret auf die einzelnen Fahrzeuge im Pool verteilt? Bisherige Ansätze haben diese beiden Probleme oft getrennt behandelt oder mit vereinfachenden Annahmen gearbeitet, die in der dynamischen Realität des Strommarktes an ihre Grenzen stoßen. Deterministische Optimierungsmodelle, wie gemischt-ganzzahlige lineare Programme (MILP) oder konvexe Optimierung, erfordern eine präzise Vorhersage von Unsicherheiten wie Fahrverhalten, Ankunfts- und Abfahrzeiten der Fahrzeuge sowie schwankenden Marktpreisen. Fehlprognosen führen schnell zu suboptimalen oder sogar unzulässigen Ergebnissen. Stochastische Modelle oder robuste Optimierungsansätze können diese Unsicherheiten zwar berücksichtigen, sind aber rechenintensiv und können zu übermäßig konservativen Strategien führen, die wirtschaftliche Chancen verpassen.

Genau hier zeigt sich der Paradigmenwechsel, den die neue Forschung vollzieht. Anstatt sich auf komplexe, modellbasierte Ansätze zu verlassen, setzen Kong, Yang und ihr Team auf ein datengestütztes, modellfreies Verfahren: das verstärkende Lernen (Reinforcement Learning, RL). Diese Methode funktioniert nach dem Prinzip von Versuch und Irrtum. Ein „Agent“ – in diesem Fall der Algorithmus des Aggregators – interagiert mit seiner Umgebung (dem Strommarkt und der Fahrzeugflotte) und lernt durch Belohnungen und Bestrafungen, welche Aktionen zu den besten langfristigen Ergebnissen führen. Der entscheidende Vorteil: Der Agent muss das System nicht vollständig verstehen oder modellieren. Er lernt aus Erfahrung, wie er auf unvorhersehbare Veränderungen reagieren soll.

Der wahre Durchbruch der Studie liegt jedoch in der Architektur des vorgeschlagenen Algorithmus. Die Autoren haben einen speziell angepassten Proximal Policy Optimization (PPO) Algorithmus entwickelt, der in der Lage ist, sogenannte „gemischte Aktionen“ (hybrid actions) auszuführen. Dies bedeutet, dass der Agent gleichzeitig zwei verschiedene Arten von Entscheidungen trifft, die eng miteinander verknüpft sind:

Kontinuierliche Aktionen: Diese betreffen die Marktbietung. Der Agent entscheidet, wie viel Energie (in kWh) er zum Kauf oder Verkauf anbietet und wie viel Regelleistung (Reservekapazität) er für den Ausgleichsenergiemarkt bereithält. Diese Werte sind kontinuierlich, da sie einen nahezu unendlichen Wertebereich innerhalb der technischen Grenzen der Flotte annehmen können.
Diskrete Aktionen: Diese betreffen die interne Leistungsverteilung. Der Agent wählt zwischen zwei verschiedenen Strategien, um die aggregierte Lade- oder Entladeleistung auf die einzelnen Fahrzeuge zu verteilen. Die Wahl ist diskret – er entscheidet sich entweder für die eine oder die andere Strategie.

Diese Kombination ist revolutionär, weil sie die beiden bisher getrennten Optimierungsprobleme zu einem einzigen, integrierten Prozess verschmilzt. Der Agent lernt nicht nur, wie viel er anbieten soll, sondern auch wie er diese Leistung am besten aus seiner Flotte heraus organisiert – und zwar in Echtzeit, basierend auf den aktuellen Marktsignalen und dem Zustand der Fahrzeuge.

Die beiden vorgeschlagenen Verteilungsstrategien – die „proportionale“ und die „prioritätsbasierte“ Methode – haben jeweils ihre Stärken und Schwächen. Die proportionale Strategie verteilt die Lade- oder Entladeleistung gleichmäßig auf alle verfügbaren Fahrzeuge, basierend auf ihrer individuellen Flexibilität. Dies ist fair und hilft, die Flexibilität jedes einzelnen Fahrzeugs über einen längeren Zeitraum zu erhalten, da keine Batterie zu schnell vollgeladen oder entladen wird. Allerdings kann dies zu einer höheren Gesamtanzahl von Ladezyklen führen, was die Batteriealterung über die Zeit beschleunigen kann.

Die prioritätsbasierte Strategie hingegen ist selektiver. Sie bestimmt die Reihenfolge der Lade- oder Entladeprozesse anhand eines „Komfortindex“ jedes Fahrzeugs. Dieser Index berücksichtigt, wie viel Zeit ein Fahrzeug noch an der Ladestation verbleibt und wie viel Energie es noch benötigt, um die gewünschte Zielkapazität zu erreichen. Fahrzeuge, die kurz vor ihrem Abflug stehen und noch viel Energie benötigen (also wenig „Komfort“ haben), werden bei der Ladung priorisiert. Umgekehrt werden Fahrzeuge, die noch lange bleiben und viel Energie im Akku haben, zuerst entladen. Dies minimiert die Anzahl der tiefen Entladungen für Fahrzeuge mit geringer verbleibender Parkdauer und schont so deren Batterien. Der Nachteil: Wenn diese Strategie konsequent angewandt wird, können bestimmte Fahrzeuge übermäßig beansprucht werden, während andere untergenutzt bleiben, was die Gesamtflexibilität der Flotte verringern kann.

Der geniale Ansatz des neuen Hybrid-PPO-Algorithmus (HPPO) besteht nun darin, nicht für eine dieser Strategien zu entscheiden, sondern dynamisch zwischen ihnen zu wechseln. Der Agent lernt, in welchen Situationen welche Strategie vorteilhafter ist. Die Simulationsergebnisse der Forscher zeigen ein klares Muster: Während der Nachtstunden, wenn die Strompreise am niedrigsten sind und die Hauptaufgabe des Aggregators darin besteht, die Flotte günstig aufzuladen, bevorzugt der Algorithmus die proportionale Strategie. Dies sorgt dafür, dass die Ladeleistung gleichmäßig verteilt wird und die Flexibilität der gesamten Flotte erhalten bleibt. Kein Fahrzeug wird zu früh vollgeladen, was es später am Tag unflexibel macht.

Im Gegensatz dazu, während der Nachmittags- und Abendstunden, wenn die Preise hoch sind und der Aggregator durch Entladen Einnahmen generieren möchte, wechselt der Algorithmus zur prioritätsbasierten Strategie. Er entlädt gezielt die Fahrzeuge, die noch viel Energie im Akku haben und die noch lange an der Station bleiben. Dadurch wird sichergestellt, dass Fahrzeuge mit kurzer verbleibender Parkdauer und geringer Batteriekapazität geschont werden, was die Batteriealterung minimiert.

Dieser dynamische Wechsel ist der Schlüssel zur überlegenen Leistung des HPPO-Algorithmus. Die Forscher verglichen ihn mit mehreren Benchmark-Verfahren, darunter PPO-Modelle, die nur eine feste Verteilungsstrategie verwenden (entweder nur proportional oder nur prioritätsgesteuert), sowie mit dem Soft Actor-Critic (SAC) Algorithmus, einem anderen modernen RL-Ansatz. Die Ergebnisse waren eindeutig: Der HPPO-Algorithmus erreichte die höchste kumulierte Belohnung, was einer signifikant besseren wirtschaftlichen Leistung entspricht. Im Vergleich zu einem reinen PPO-Modell mit prioritätsbasierter Verteilung konnte der HPPO die täglichen Betriebskosten um 1,9 % senken. Gegenüber einem Modell mit proportionaler Verteilung betrug die Einsparung sogar 3,2 %. Die SAC-basierten Modelle schnitten noch schlechter ab und konnten innerhalb der vorgegebenen Trainingszeit nicht konvergieren, was ihre Instabilität in diesem komplexen Umfeld unterstreicht.

Ein weiterer wichtiger Beitrag der Studie ist die neuartige Modellierung der aggregierten Flexibilität der Fahrzeugflotte. Bisherige Modelle bewerteten die Flexibilität oft nur nach ihrem physikalischen Potenzial – wie viel Leistung kann wie lange verschoben werden? Die Forscher von State Grid Jiangsu gehen einen Schritt weiter und integrieren den ökonomischen Wert dieser Flexibilität direkt in ihre Berechnung. Sie definieren den „Wert der Einheitsflexibilität“ als den aktuellen Großhandelspreis des Stroms. Eine Kilowattstunde Flexibilität ist zu einem Zeitpunkt mit hohem Preis wertvoller als zu einem Zeitpunkt mit niedrigem Preis. Ihr Modell berechnet daher die obere und untere Grenze der aggregierten Lade- und Entladeleistung für jeden Zeitabschnitt nicht nur unter Berücksichtigung der technischen und nutzerbezogenen Einschränkungen (wie Ankunfts- und Abfahrzeit, gewünschte Ladezustände), sondern maximiert gleichzeitig den Gesamtwert dieser Flexibilität über den gesamten Tag. Dies stellt sicher, dass die Entscheidungen des Aggregators nicht nur technisch machbar, sondern auch ökonomisch rational sind.

Die praktischen Implikationen dieser Forschung sind weitreichend. Für Betreiber von Ladeparks und Energieversorgungsunternehmen bietet dieser Algorithmus ein leistungsfähiges Werkzeug, um den Betrieb ihrer EV-Fleets zu optimieren und neue Einnahmequellen zu erschließen. Für Fahrzeugbesitzer bedeutet dies eine höhere Wahrscheinlichkeit, attraktive Vergütungen für ihre Mitwirkung am V2G-Markt zu erhalten, während gleichzeitig ihre Batterien geschont werden. Die durch den Algorithmus erzielte Minimierung der Batteriealterung ist ein entscheidender Faktor für die Akzeptanz der Technologie, da Verbraucher zu Recht besorgt sind, dass häufiges Laden und Entladen die Lebensdauer ihrer teuren Batterien verkürzen könnte.

Für die Stromnetze selbst ist die breite Anwendung solcher intelligenter Aggregatoren eine Game-Changer. Sie könnten eine riesige, verteilte Speicherkapazität schaffen, die dazu beiträgt, die Schwankungen von Wind- und Solarenergie auszugleichen, Lastspitzen zu glätten und die Netzstabilität zu erhöhen. Dies ist entscheidend für die Erreichung der Klimaziele und die Schaffung eines resilienten, nachhaltigen Energiesystems der Zukunft.

Die Arbeit von Kong, Yang und ihrem Team ist nicht nur ein technischer Fortschritt, sondern auch ein Beispiel für die erfolgreiche Anwendung fortschrittlicher KI in der Energiewirtschaft. Sie zeigt, dass die Zukunft der Energieversorgung in der intelligenten Vernetzung und Koordination dezentraler Ressourcen liegt. Algorithmen wie der vorgestellte HPPO-Algorithmus sind die „Gehirne“, die diese Koordination in Echtzeit ermöglichen. Sie transformieren passive Verbraucher in aktive, marktfähige Teilnehmer des Energiesystems.

Die Autoren weisen zu Recht darauf hin, dass dies nur der Anfang ist. In zukünftigen Arbeiten könnte der Algorithmus erweitert werden, um an noch mehr Markttypen teilzunehmen, wie etwa Kapazitätsmärkte oder lokale Flexibilitätsmärkte. Die Integration von Fahrzeug-zu-Haus (V2H) oder Fahrzeug-zu-Gebäude (V2B) Anwendungen wäre ein weiterer logischer Schritt. Darüber hinaus könnte das Modell noch differenzierter auf individuelle Nutzerpräferenzen eingehen, zum Beispiel, wenn ein Fahrer angibt, dass er seine Batterie besonders schonen möchte, auch auf Kosten einer geringeren Vergütung.

Zusammenfassend lässt sich sagen, dass diese Studie einen bedeutenden Meilenstein in der Entwicklung der V2G-Technologie darstellt. Durch die Kombination einer marktwertbasierten Flexibilitätsmodellierung mit einem innovativen, hybrid-aktionen-fähigen verstärkenden Lernansatz gelingt es den Forschern, eine bisher unerreichte Balance zwischen ökonomischer Effizienz, technischer Machbarkeit und der Schonung der Fahrzeugbatterien zu finden. Dieser Ansatz hat das Potenzial, die Art und Weise, wie wir mit Elektrofahrzeugen und dem Stromnetz interagieren, grundlegend zu verändern und einen entscheidenden Beitrag zur nachhaltigen Energiewende zu leisten.

Kong Yueping, Yang Shihai et al., Marketing Service Center of State Grid Jiangsu Electric Power Co., Ltd., Computer Engineering, DOI: 10.19678/j.issn.1000-3428.0068701