Fortschrittliche Energiemanagement-Strategie steigert Effizienz von Brennstoffzellen-Hybridfahrzeugen um 6,4 %

Fortschrittliche Energiemanagement-Strategie steigert Effizienz von Brennstoffzellen-Hybridfahrzeugen um 6,4 %

Im dynamischen Feld der emissionsfreien Mobilität sticht eine Fahrzeugarchitektur durch ihre einzigartige Kombination aus Reichweite, schneller Betankung und dynamischem Ansprechverhalten hervor: das Brennstoffzellen-Hybridfahrzeug (FCHEV). Im Gegensatz zu batterieelektrischen Fahrzeugen (BEV), die ausschließlich auf gespeicherten Strom angewiesen sind, kombinieren FCHEV einen wasserstoffbetriebenen Brennstoffzellenstack mit einem oder mehreren elektrochemischen Energiespeichersystemen – typischerweise Lithium-Ionen-Batterien und zunehmend auch Ultrakondensatoren. Dieser dreiteilige Antriebsstrang bietet ein überzeugendes Gleichgewicht: die saubere, energiedichte Leistung von Wasserstoff, die puffernde Grundlastabdeckung der Batterie und die blitzschnellen Leistungsspitzen (sowie die Rückgewinnung von Bremsenergie) der Ultrakondensatoren. Doch genau diese Stärke – die Systemkomplexität – stellt eine gewaltige Regelungsaufgabe dar: Wie lässt sich die Leistung in Echtzeit und unter ständig wechselnden Fahrbedingungen zwischen drei verschiedenen Quellen so aufteilen, dass Effizienz, Haltbarkeit und Fahrbarkeit maximiert werden?

Eine kürzlich veröffentlichte Studie der Henan University of Science and Technology liefert eine robuste Antwort. Ihr Kernstück ist eine neuartige, intelligente Energiemanagement-Strategie (EMS), die auf einer verbesserten Version des Soft Actor-Critic (SAC)-Algorithmus für tiefes verstärkendes Lernen basiert. Die Forscher feilten nicht nur an einem bestehenden Modell; sie konstruierten dessen grundlegenden Trainingsprozess und seine Interaktion mit dem physikalischen Antriebsstrang neu. Das Ergebnis ist ein System, das nicht nur auf Fahrerbefehle reagiert – es antizipiert, optimiert und schützt, erzielt eine messbare durchschnittliche Verbesserung der Kraftstoffeffizienz um 6,4 % gegenüber seinem Vorgänger und glättet dabei signifikant die Betriebslast der empfindlichsten Komponente: der Brennstoffzelle.

Um dies einzuordnen: Traditionelle FCHEV-Steuerungsstrategien lassen sich grob in zwei Lager einteilen. Regelbasierte Strategien sind einfach und zuverlässig, aber unflexibel; im Wesentlichen sind es vorprogrammierte „Wenn-dann“-Antworten, die sich nicht an neue oder komplexe Verkehrssituationen anpassen können. Optimierungsbasierte Strategien, wie dynamische Programmierung (DP), können nahezu optimale Ergebnisse liefern, sind jedoch rechenintensiv und erfordern oft Wissen über den gesamten zukünftigen Fahrzyklus – was sie für den Echtzeit-Einsatz an Bord unpraktisch macht. Der Aufstieg des tiefen verstärkenden Lernens (Deep Reinforcement Learning, DRL) versprach einen Mittelweg: einen Algorithmus, der die optimale Steuerungsstrategie durch simulierte Erfahrung lernen, sich mit beinahe menschlicher Intuition neuen Situationen anpassen und dennoch effizient genug laufen kann, um in einer Fahrzeugsteuereinheit integriert zu werden.

Frühe DRL-Erfolge im EMS-Bereich nutzten Algorithmen wie Q-Learning oder dessen tiefe Variante, Deep Q-Networks (DQN). Diese Ansätze stießen jedoch auf ein grundlegendes Hindernis: den „Fluch der Dimensionalität“. Die Leistungsaufteilung in einem FCHEV ist kein einfacher Ein/Aus-Schalter; es ist eine kontinuierliche Entscheidung – wie viele Kilowatt sollte die Brennstoffzelle gerade produzieren? Wie viel sollte die Batterie beisteuern? Dies sind Variablen, die unendlich viele Werte zwischen ihren Minimal- und Maximalgrenzen annehmen können. Q-Learning kämpft in solch hochdimensionalen, kontinuierlichen Aktionsräumen enorm.

Das Feld wandte sich daraufhin Algorithmen wie Deep Deterministic Policy Gradient (DDPG) zu, die in kontinuierlichen Domänen excellieren. DDPG lernt eine deterministische Strategie, was bedeutet, dass für jeden beobachteten Zustand – die Geschwindigkeit des Fahrzeugs, die Beschleunigung, der Ladezustand (State of Charge, SoC) der Batterie etc. – genau eine „beste“ Aktion ausgibt. Während dies recheneffizient ist, ist es auch spröde. Die reale Welt ist unordentlich. Eine Sensorablesung könnte kurzzeitig verrauscht sein, oder ein Fahrer könnte eine unerwartete Manöver durchführen. Eine deterministische Strategie, die sich voll auf eine präzise Aktion festgelegt hat, fehlt es an der Flexibilität, solche Störungen elegant aufzufangen. Es ist wie ein Seiltänzer ohne Spielraum.

Hier betritt der Soft Actor-Critic (SAC)-Algorithmus die Bühne. SAC gehört zu einer neueren Generation von DRL-Methoden, die das Prinzip der maximalen Entropie integrieren. Anstatt eine einzige, starr optimale Aktion zu suchen, strebt SAC nach einer stochastischen (wahrscheinlichkeitsbasierten) Strategie – einer Verteilung von Aktionen, die alle „gut genug“ sind, gewichtet nach ihrer Erfolgswahrscheinlichkeit. Diese eingebaute Zufälligkeit dient der Exploration, erlaubt es dem Controller, Unsicherheiten elegant zu handhaben und zu vermeiden, sich dauerhaft in suboptimalen Steuerungsmustern zu verfangen. Es ist der Seiltänzer, der kleine, korrigierende Wackler machen kann, um das Gleichgewicht zu halten.

Das Forschungsteam unter der Leitung von Professor Tao Fazhan erkannte das Potenzial von SAC, aber auch dessen Achillesferse: Trainingsinstabilität. In den chaotischen frühen Lernphasen trifft ein DRL-Agent viele schlechte Entscheidungen. In einem traditionellen SAC-Setup wird jede dieser schlechten Erfahrungen – ein Beispiel, bei dem der Agent die Brennstoffzelle anwies, während einer sanften Ausrollphase auf 100 % Leistung zu gehen – in der „Gedächtnisbank“ des Agents, dem sogenannten Experience Replay Buffer, gespeichert. Während des Trainings zieht der Algorithmus zufällig Stichproben aus diesem Buffer, um zu lernen. Wenn der Buffer mit katastrophalen Fehlschlägen aus den ersten Trainingsstunden überschwemmt wird, kann der gesamte Lernprozess entgleisen, was zu einem Controller führt, der entweder nicht funktionsfähig oder stark suboptimal ist.

Ihre geniale Lösung war die Einführung eines „Heuristischen Experience Replay“-Mechanismus. Man kann es sich wie einen weisen Mentor vorstellen, der die Ausbildung eines Novizen überwacht. Bevor eine neue Erfahrung der Gedächtnisbank hinzugefügt wird, führt das System eine schnelle Plausibilitätsprüfung durch. Es vergleicht die neue Aktion mit einer Bibliothek bekannter, hochwertiger Steuerungsstrategien, die aus Jahren vorheriger experimenteller Daten und Domänenexpertise abgeleitet wurden. Ist die neue Aktion völlig unvernünftig – etwa, den Ultrakondensator in unter einer Sekunde zu entleeren oder die Brennstoffzelle über ihren sicheren Betriebsbereich hinaus zu treiben – wird die Erfahrung verworfen. Der Agent wird dann aufgefordert, es erneut zu versuchen und eine plausiblere Aktion zu generieren, die stattdessen gespeichert wird.

Dieser einfache yet kraftvolle Filter wirkt als Trainingsstabilisator. Er füttert nicht die Antwort vor; er verhindert lediglich, dass der Agent aus seinen gravierendsten, systemschädigenden Fehlern lernt. Die Konvergenzanalyse der Arbeit demonstriert dies eindrücklich: Die Trainingsverlust- und Belohnungskurven des verbesserten SAC zeigen einen glatten, stetigen Fortschritt, während die Kurven des traditionellen SAC heftige Spitzen und Plateaus aufweisen, was auf einen Lernprozess hindeutet, der ständig durch seine eigenen vergangenen Fehler sabotiert wird.

Doch die Intelligenz endet nicht beim Algorithmus. Ein wirklich effektives EMS für einen FCHEV mit drei Quellen muss zunächst das zu lösende Problem vereinfachen. Das Team setzte eine clevere zweistufige Architektur ein: Leistungsschichtung.

Die erste Stufe verwendet einen adaptiven Fuzzy-Filter, um eine Echtzeit-„Frequenzzerlegung“ der Fahrleistungsanforderung durchzuführen. Stellen Sie sich das Leistungssignal als einen komplexen musikalischen Akkord vor. Dieser Filter wirkt wie ein ausgeklügelter Audio-Equalizer, der den Akkord in seine Bestandteile zerlegt. Die hochfrequenten „Töne“ – die scharfen Leistungsspitzen, die für starke Beschleunigung benötigt werden, oder die plötzlichen Energiemengen, die beim starken Bremsen aufgenommen werden – werden sofort an den Ultrakondensator geleitet. Diese Komponente ist für diese Rolle einzigartig geeignet, da sie sich hunderte Male schneller als eine Batterie laden und entladen kann, mit minimaler Degradation.

Durch das Auslagern dieser transienten, hochleistungsstarken Ereignisse erzeugt das System ein ruhigeres, besser handhabbares „mittel- und niederfrequentes“ Leistungssignal für die zweite Stufe – den SAC-basierten Controller. Dieser Controller muss jetzt nur noch entscheiden, wie diese geglättete Leistungsanforderung zwischen der Brennstoffzelle und der Lithium-Batterie aufgeteilt wird. Diese Arbeitsteilung ist entscheidend: Sie schützt die Brennstoffzelle vor schädlichen Stromspitzen und thermischer Zyklisierung und schirmt die Batterie vor Hochstromstress ab, wodurch die Lebensdauer beider teurer Komponenten verlängert wird.

Das „Ziel“ des SAC-Controllers, definiert durch seine Belohnungsfunktion, ist elegant vielschichtig. Es geht nicht nur um die Minimierung des Wasserstoffverbrauchs, obwohl dies oberste Priorität hat. Die Belohnungsfunktion, inspiriert vom Prinzip der Equivalent Consumption Minimization Strategy (ECMS), bestraft den Controller auch dafür, wenn er zulässt, dass der SoC der Batterie zu weit vom idealen Sollwert (0,7 in ihren Tests) abweicht. Dies stellt sicher, dass die Batterie in ihrem effizientesten und langlebigsten Betriebsfenster bleibt, bereit, bei Bedarf zu assistieren, ohne chronisch überladen oder entladen zu sein.

Die Validierung dieses Systems war rigoros. Die Forscher unterzogen ihre verbesserte SAC-Strategie einer Reihe von vier industriestandard Fahrzyklen: dem Stop-and-Go-Chaos des Urban Dynamometer Driving Schedule (UDDS), der gleichmäßigen Fahrt des Highway Fuel Economy Test (HWFET), dem gemischten Profil des New European Driving Cycle (NEDC) und dem aggressiveren West Virginia University Suburban Cycle (WVUSUB). Über dieses diverse Spektrum hinweg waren die Ergebnisse konsistent und überzeugend.

Im hochdynamischen UDDS-Zyklus glänzte die Leistungsschichtung. Wenn der Fahrer vom Stand aus das Gaspedal durchtrat, lieferte der Ultrakondensator den initialen Leistungsschub, was der Brennstoffzelle erlaubte, sich allmählicher und smoother hochzuregeln. Beim Bremsen absorbierte der Ultrakondensator gierig die regenerative Energie, die ansonsten den Ladekreis der Batterie überfordert hätte. Die Daten der Arbeit zeigen, dass unter dem verbesserten SAC die Ausgangsleistungskurve der Brennstoffzelle merklich weniger gezackt war als unter dem traditionellen SAC, ein direkter Indikator für reduzierten mechanischen und thermischen Stress.

Kritisch ist, dass dieser glattere Betrieb nicht auf Kosten der Effizienz ging. Tatsächlich steigerte er sie. Die Brennstoffzelle arbeitet am effizientesten innerhalb eines bestimmten „Sweet Spots“ ihres Leistungsbereichs. Indem das System verhinderte, dass sie durch transiente Anforderungen aus dieser Zone gerissen wurde, hielt es sie über längere Zeiträume in ihrem hocheffizienten Band. Die Daten bestätigen dies: Der verbesserte SAC wies durchgängig eine höhere Betriebseffizienz der Brennstoffzelle auf, insbesondere während der volatilsten Abschnitte des Fahrzyklus.

Die Kraftstoffverbrauchszahlen sprechen für sich. Die verbesserte Strategie erzielte einen Wasserstoffverbrauch von 2,3 L/100km Äquivalent im UDDS, verglichen mit 2,5 für den traditionellen SAC – eine ganze Verbesserung um 8 %. Beim HWFET betrug der Gewinn 4,3 %, und beim anspruchsvollen WVUSUB waren es 6,9 %. Über alle vier Tests gemittelt, belief sich die Verbesserung auf eine hochsignifikante 6,4 %. Für eine Branche, in der ein 1 %iger Gewinn gefeiert wird, ist dies ein gewaltiger Sprung.

Über die Simulation hinaus ging das Team zur Hardware-in-the-Loop-Validierung auf einer anspruchsvollen Testbank über. Diese Plattform integrierte echte Komponenten – Brennstoffzellenstack, Lithium-Batteriepack, Ultrakondensatormodul und einen Dynamometer zur Simulation der Straßenlast –, gesteuert durch den in einer LabVIEW-Umgebung laufenden Algorithmus. Der Realwelttest spiegelte die Simulationen wider: Der verbesserte SAC hielt die Effizienz der Brennstoffzelle fast ausschließlich im optimalen Bereich von 50–60 %, selbst während einer absichtlich harschen 200-Sekunden-Periode mit schnell schwankender Leistungsnachfrage. Unterdessen nahm der SoC der Batterie auf eine wunderbar lineare, vorhersehbare Weise ab, was die Fähigkeit der Strategie bestätigte, langfristige Energiebilanz ohne unnötigen Stress zu managen.

Diese Arbeit stellt einen bedeutenden Schritt nach vorne dar, aber die Autoren blicken bereits nach vorn. Ihr Fazit weist auf eine kritische Grenze hin: Während ihre Strategie effektiv Batterieenergie einspart, modelliert sie nicht direkt die innere Degradation der Batterie. Eine Batterie verliert nicht nur Ladung; ihre innere Chemie verschlechtert sich langsam mit jedem Lade-/Entladezyklus, besonders unter hoher Belastung. Die nächste Generation intelligenter EMS muss prädiktive Gesundheitsmodelle integrieren und den Controller von einem Energiebuchhalter in einen ganzheitlichen „Antriebsstrang-Arzt“ verwandeln, der Maßnahmen nicht nur für sofortige Effizienz, sondern für mehrjährige Langlebigkeit verschreibt.

In einem Markt, in dem die Gesamtbetriebskosten von Wasserstofffahrzeugen eine key-Hürde bleiben, ist die Verlängerung der Lebensdauer des 10.000-Dollar-Brennstoffzellenstacks oder des 15.000-Dollar-Batteriepacks keine technische Fußnote – es ist ein kommerzielles Gebot. Indem diese Forschung der Henan University of Science and Technology tiefes verstärkendes Lernen mit praktischer, physik-informierter Heuristik vereint, hat sie eine Strategie geliefert, die nicht nur akademisch elegant, sondern industriell relevant ist. Es ist ein klares Signal, dass die Zukunft intelligenter Mobilität nicht in starrer Code, sondern in adaptiven, sich selbst korrigierenden Algorithmen geschrieben wird, die lernen, schützen und optimieren – genau wie die besten menschlichen Fahrer.

Tao Fazhan, Lu Hongxin, Fu Zhumu, Sun Haochen, Ma Haoxiang. Intelligentes Energiemanagement für Brennstoffzellen-Hybridfahrzeuge. Journal of Henan University of Science and Technology (Natural Science), 2023, 44(6): 49–56. DOI:10.15926/j.issn1672-6871.2023.06.007