Autonomes Taxi-Flottenmanagement steigert Gewinn und Effizienz

Ein bahnbrechendes Forschungsprojekt der Guangdong University of Technology stellt ein neuartiges dynamisches Scheduling-Modell für autonome Elektrotaxiflotten vor, das die langfristige Profitabilität durch die Integration zukünftiger Ertragsprognosen in die Echtzeit-Entscheidungsfindung erheblich steigert. Unter der Leitung von Zeng Weiliang und Han Yu von der School of Automation sowie Fu Hui von der School of Electromechanical Engineering nutzt die Studie Verstärkendes Lernen (Reinforcement Learning), um sowohl die Routenplanung als auch die Lade- und Entlade-Strategien zu optimieren. Dies markiert einen bedeutenden Fortschritt in den Systemen der intelligenten städtischen Mobilität.

Die in der Industrial Engineering Journal veröffentlichte Studie adressiert eine kritische Schwäche bestehender Taxizuteilungsmodelle: ihre Konzentration auf die Optimierung der unmittelbaren Kosten zu Lasten des langfristigen operativen Wertes. Traditionelle Systeme stützen sich häufig auf gierige Matchmaking-Algorithmen, die verfügbare Fahrzeuge einfach dem nächstgelegenen Fahrzeug zuteilen, ohne die Auswirkungen dieser Entscheidungen auf die zukünftige Verfügbarkeit, Positionierung oder Energiekosten zu berücksichtigen. Obwohl diese Methoden rechentechnisch effizient sind, führen sie häufig zu suboptimaler Flottenverteilung, längeren Wartezeiten für Fahrgäste und ineffizientem Energieverbrauch, insbesondere bei großflächigen autonomen Flotten, die rund um die Uhr operieren.

Um diese Mängel zu beheben, hat das Forscherteam einen neuartigen Rahmen entwickelt, der nicht nur den unmittelbaren Ertrag jeder Zuteilungsentscheidung bewertet, sondern auch deren potenziellen Einfluss auf zukünftige Einnahmen einbezieht. Dieser zukunftsorientierte Ansatz wird durch die Verwendung einer durch tiefe neuronale Netze approximierten Zustandswertfunktion ermöglicht, die den geschätzten kumulativen Gesamtertrag abschätzt, der mit dem räumlich-zeitlichen Zustand eines Fahrzeugs nach der Ausführung einer bestimmten Aktion verbunden ist. Indem dieser prognostizierte zukünftige Wert in die aktuelle Zuteilungsentscheidung einfließt, ermöglicht das Modell eine strategischere Neupositionierung der Fahrzeuge, intelligenteres Laden und besseres Passagier-Matching.

Die zentrale Innovation liegt in der Integration der Fahrzeug-zu-Netz-Technologie (Vehicle-to-Grid, V2G) und der zeitabhängigen Strompreise in die Zuteilungslogik. Im Gegensatz zu konventionellen Modellen, die das Laden als notwendige, aber passive Aktivität betrachten, nutzt dieses System Ladestationen aktiv als Mikronetze, in denen im Leerlauf befindliche autonome Taxis entweder während der Nebenlaststunden laden oder während der Spitzenlastperioden Strom ins Netz zurückspeisen können, wodurch zusätzliche Einnahmen generiert werden. Dieser bidirektionale Energiefluss verwandelt Elektrofahrzeuge von reinen Transporteinheiten in mobile Energieträger, die zur Netzstabilität beitragen und gleichzeitig die Betriebskosten der Flotte senken.

Das Modell arbeitet innerhalb eines festen Zeitfensters – im Simulationsszenario auf fünf Minuten festgelegt –, in dem das System alle verfügbaren Aktionen für jedes „zuteilbare“ Fahrzeug auswertet. Zu diesen Aktionen gehören das Stillstehen, das Umpositionieren an einen neuen Standort, das Laden, das Entladen oder die Annahme einer Fahrzeuganfrage. Jede Aktion erhält einen zusammengesetzten Wert, der ihren unmittelbaren finanziellen Ertrag mit dem diskontierten zukünftigen Wert des resultierenden Fahrzeugzustands kombiniert. Die globale Zuteilungslösung wird dann durch die Lösung eines gewichteten bipartiten Matching-Problems bestimmt, das den Gesamtwert der Flotte maximiert, wobei Einschränkungen wie ein Fahrzeug pro Fahrt und eine Fahrt pro Fahrzeug berücksichtigt werden.

Um Recheneffizienz und Skalierbarkeit sicherzustellen, setzten die Forscher einen zweistufigen Lösungsprozess ein. Zuerst identifiziert eine gierige Heuristik eine hochwertige Anfangszuordnung basierend auf Rangfolgen der Aktionswerte, wobei die Annahme von Passagieren priorisiert wird, wenn die Werte vergleichbar sind. Diese Anfangslösung wird dann mit einem Ganzzahloptimierer verfeinert, wodurch das System in der Lage ist, großflächige städtische Umgebungen mit Hunderten von Fahrzeugen und Tausenden von Knotenpunkten zu bewältigen. Der gesamte Prozess wird zu jedem Zeitschritt wiederholt, was eine kontinuierliche Anpassung an sich verändernde Verkehrsbedingungen und Nachfragemuster ermöglicht.

Das Training der Zustandswertfunktion basiert auf einer Architektur des tiefen Verstärkenden Lernens, die durch doppelte neuronale Netze und Experience-Replay erweitert wurde – Techniken, die häufig im Deep Q-Learning verwendet werden. Ein Evaluierungsnetzwerk schätzt den aktuellen Wert von Fahrzeugzuständen ab, während ein separates Zielnetzwerk stabile Trainingsignale bereitstellt, indem es zukünftige Erträge bootstrapt. Erfahrungstupel – bestehend aus Zustand, Aktion, Belohnung und Nachfolgezustand – werden in einem Replay-Puffer gespeichert und in Mini-Batches abgerufen, um das Evaluierungsnetzwerk zu aktualisieren, was die Dateneffizienz verbessert und die Korrelation zwischen aufeinanderfolgenden Aktualisierungen verringert. Der Kompromiss zwischen Exploration und Exploitation wird durch eine ε-greedy-Politik verwaltet, bei der das System zunächst zufällige Aktionen erkundet, um vielfältige Erfahrungen zu sammeln, bevor es sich nach und nach auf wertbasierte Entscheidungen konzentriert, sobald das Modell konvergiert.

Die experimentelle Validierung wurde anhand eines simulierten Straßennetzes durchgeführt, das aus Shenzhen extrahiert wurde und einen städtischen Bereich von 6 km × 6 km mit 2.876 Straßen und 1.712 Kreuzungen abdeckt. Die Testflotte bestand aus 40 autonomen Elektrofahrzeugen, die jeweils mit einer 200-kWh-Batterie ausgestattet waren und mit 150 kW laden und entladen konnten. Die Fahranfragen wurden nach einem Poisson-Prozess erzeugt, der auf historischen Taxinachfragedaten kalibriert wurde, wobei die Wahrscheinlichkeiten der Ursprünge auf das Stadtzentrum konzentriert und die Ziele zufällig zugewiesen wurden. Die Wartezeit-Toleranz der Fahrgäste wurde als gleichmäßige Zufallsvariable zwischen 10 und 30 Minuten modelliert, was realistische Erwartungen widerspiegelt.

Kommerzielle zeitabhängige Stromtarife aus Shenzhen wurden in die Simulation integriert, mit deutlich unterschiedlichen Spitzen-, Mittel- und Nebenlastzeiten. Während der Spitzenlastzeiten (10:00–15:00 und 18:00–21:00) erreichten die Strompreise 1,38 Yuan/kWh, während die Preise in der Nebenlastzeit zwischen 23:00 und 07:00 auf 0,28 Yuan/kWh fielen. Dieser erhebliche Preisunterschied schafft starke wirtschaftliche Anreize für intelligente Lade- und Entlade-Strategien, die das vorgeschlagene Modell ausnutzt, um die Nettoenergiekosten zu minimieren.

Die Leistung wurde an drei etablierten Ansätzen gemessen: First-Come-First-Served (FCFS), das dem nächstgelegenen verfügbaren Fahrzeug jede Anfrage zuweist; Optimal Benefit (OB), das den unmittelbaren Ertrag in jedem Zeitschritt maximiert; und ein Standard-Deep-Q-Network (DQN)-Modell, das für die Mehrfahrzeug-Zuteilung angepasst wurde. Alle Algorithmen wurden über einen simulierten 100-Tage-Betriebszeitraum getestet, wobei die Ergebnisse über 10 unabhängige Testsets gemittelt wurden, um statistische Robustheit zu gewährleisten.

Die Ergebnisse zeigten erhebliche Vorteile für das vorgeschlagene Verfahren. Über den 100-Tage-Simulationszeitraum erzielte das neue Modell eine 25-prozentige Steigerung des gesamten Betriebsgewinns im Vergleich zum besten Baseline-Verfahren. Dieser Gewinn resultiert aus einer Kombination aus höheren Servicequoten, reduzierten Energiekosten und verbesserter Flottenauslastung. Insbesondere stieg die Passagierreaktionsrate – der Anteil der erfolgreich erfüllten Fahranfragen – um 4 Prozentpunkte und erreichte über 73 % im Vergleich zu 69 % beim DQN und unter 60 % bei FCFS und OB. Gleichzeitig sank die durchschnittliche Wartezeit der Fahrgäste um 20 %, von über 20 Minuten unter FCFS auf knapp unter 8 Minuten, was die Kundenzufriedenheit und Wettbewerbsfähigkeit auf dem Mobilitätsmarkt erhöht.

Die Einsparungen bei den Energiekosten waren besonders beeindruckend. Trotz höheren Gesamtstromverbrauchs aufgrund erhöhter Fahrzeugbewegung und Servicevolumen wurden die Nettoenergiekosten – die Differenz zwischen Ladeaufwendungen und Entladeerlösen – um 50 % gesenkt. Diese erhebliche Einsparung ist auf die Fähigkeit des Modells zurückzuführen, Preisschwankungen vorherzusehen und Ladevorgänge strategisch während der kostengünstigen Zeiten zu planen, während gespeicherte Energie während der Hochpreisfenster zurück an das Netz verkauft wird. Im Gegensatz dazu scheiterte das DQN-Modell, obwohl es versuchte, zukünftige Werte einzubeziehen, daran, die zeitlichen Muster der Strompreise vollständig zu erfassen, und konvergierte oft zu lokalen Optima, was zu einer weniger effektiven Energiesteuerung führte.

Der Erfolg des Modells unterstreicht auch die Bedeutung eines ganzheitlichen Systemdesigns bei der autonomen Mobilität. Anstatt Routing, Laden und Passagier-Matching als separate Optimierungsprobleme zu betrachten, erkennt der integrierte Rahmen ihre gegenseitige Abhängigkeit. Beispielsweise kann das Senden eines Fahrzeugs in eine entfernte, nachfragestarke Zone unmittelbare Reisekosten verursachen, aber höhere langfristige Erträge erzielen, wenn dadurch mehrere aufeinanderfolgende Fahrten ermöglicht werden. Ebenso kann das Aufschieben einer Abholung, um zuerst an einer nahegelegenen Station aufzuladen, die Wartezeit des Fahrgasts leicht verlängern, stellt aber sicher, dass das Fahrzeug betriebsbereit bleibt und kostspielige Notverlegungen später vermeidet.

Darüber hinaus demonstriert das Modell, wie autonome Flotten als flexible Energieressourcen innerhalb der Infrastruktur einer intelligenten Stadt fungieren können. Durch die Bündelung der Speicherkapazität von Dutzenden oder Hunderten von Fahrzeugen können Flottenbetreiber an Lastmanagementprogrammen teilnehmen, Frequenzregulierungsdienste erbringen und zur Ausgleichung der Integration erneuerbarer Energien beitragen. Diese doppelte Rolle – als Mobilitätsanbieter und netzunterstützende Vermögenswerte – erhöht die wirtschaftliche Tragfähigkeit autonomer Mobilitätsdienste und trägt gleichzeitig zu breiteren Nachhaltigkeitszielen bei.

Eine weitere Stärke des Ansatzes ist seine Anpassungsfähigkeit an verschiedene städtische Kontexte und operative Anforderungen. Die auf neuronalen Netzen basierende Wertfunktion kann mit lokalen Nachfragemustern, Straßennetzen und Stromtarifen neu trainiert werden, was ihre Anwendbarkeit auf Städte weltweit gewährleistet. Außerdem ermöglicht das modulare Design die Einbeziehung zusätzlicher Einschränkungen oder Ziele, wie Batteriealterungsmodelle, Staus an Ladestationen oder Umweltbelastungsmetriken, ohne dass grundlegende Änderungen am Kernalgorithmus erforderlich sind.

Trotz dieser Erfolge räumen die Autoren mehrere Einschränkungen und zukünftige Forschungsfelder ein. Das aktuelle Modell geht von idealisierten Bedingungen aus, einschließlich sofortigem Laden/Entladen, keiner Warteschlange an Ladestationen und perfektem Wissen über zukünftige Nachfrageverteilungen. Bei einer realen Implementierung müssten Faktoren wie Batterealterung, variable Ladeleistungen und unsicheres Nutzerverhalten berücksichtigt werden. Darüber hinaus stellen der Übergang von der Simulation zur realen Anwendung Herausforderungen in Bezug auf Sensorgenauigkeit, Kommunikationslatenz und Sicherheitsgarantien dar.

Dennoch stellt die Studie einen bedeutenden Schritt nach vorn im intelligenten Management autonomer Elektroflotten dar. Ihr Schwerpunkt auf langfristigem Wert gegenüber kurzfristigen Gewinnen entspricht den operativen Realitäten von 24/7-Mobilitätsdiensten, bei denen Entscheidungen, die heute getroffen werden, direkt die Rentabilität von morgen beeinflussen. Während Städte weltweit bestrebt sind, Staus, Emissionen und Transportkosten zu reduzieren, bieten Lösungen wie diese einen Weg zu effizienteren, nachhaltigeren und wirtschaftlich tragfähigeren städtischen Mobilitätssystemen.

Die Implikationen reichen über die Ride-Hailing-Dienste hinaus. Dieselben Prinzipien könnten auf andere Anwendungen autonomer Fahrzeuge im gemeinsamen Verkehr, wie Lieferflotten, Mikrotransit-Shuttles oder die letzte Meile der Logistik, angewendet werden. In jedem Fall kann die Fähigkeit, zukünftige Nachfrage vorherzusagen und sowohl Bewegung als auch Energieverbrauch zu optimieren, zu erheblichen Leistungsverbesserungen führen. Außerdem könnte mit der Reife der Technologie autonomer Fahrzeuge und der Entwicklung der regulatorischen Rahmenbedingungen die Integration von V2G-Funktionen zu einer Standardfunktion werden, die Elektrofahrzeuge in integrale Bestandteile dezentraler Energienetze verwandelt.

Aus politischer Sicht unterstreicht die Forschung die Notwendigkeit einer koordinierten Planung zwischen den Bereichen Verkehr und Energie. Kommunen, die in autonome Mobilität investieren, sollten die Synergien mit der Entwicklung intelligenter Stromnetze berücksichtigen und sicherstellen, dass die Ladeinfrastruktur nicht nur ausreichend in der Quantität ist, sondern auch strategisch platziert und in der Lage ist, bidirektionale Energieflüsse zu ermöglichen. Anreizstrukturen, wie dynamische Preise oder Staugebühren, können das Verhalten der Flotte weiter in Richtung sozial optimaler Ergebnisse lenken, wie eine geringere Innenstadtkonkurrenz oder niedrigere Spitzenlasten im Stromnetz.

Für Branchenbeteiligte bietet die Studie einen überzeugenden Geschäftsfall für die Einführung fortschrittlicher, KI-gesteuerter Zuteilungssysteme. Obwohl die anfänglichen Investitionen in Dateninfrastruktur und maschinelles Lernen erheblich sein mögen, können die langfristigen Renditen in Form höherer Einnahmen, reduzierter Betriebskosten und verbesserter Kundenzufriedenheit diese Ausgaben bei weitem übersteigen. Unternehmen, die solche Technologien frühzeitig übernehmen, könnten sich einen Wettbewerbsvorteil auf dem sich schnell entwickelnden Markt für Mobilität als Dienstleistung (Mobility-as-a-Service) verschaffen.

Zusammenfassend präsentiert die Arbeit von Zeng Weiliang, Han Yu und Fu Hui eine umfassende und praktische Lösung für eine der dringendsten Herausforderungen im autonomen Verkehr: Wie lässt sich die Balance zwischen unmittelbaren Serviceanforderungen und langfristiger Betriebseffizienz finden? Indem die Erwartungen an zukünftige Erträge in Echtzeit-Zuteilungsentscheidungen integriert und die duale Funktionalität von Elektrofahrzeugen als Transport- und Energieträger genutzt wird, setzt das Modell einen neuen Standard für das intelligente Flottenmanagement. Wenn autonome Elektrotaxis von Pilotprojekten zur breiten Anwendung übergehen, werden Ansätze wie dieser unerlässlich sein, um ihr volles wirtschaftliche und ökologische Potenzial auszuschöpfen.

Zeng Weiliang, Han Yu, Fu Hui. Industrial Engineering Journal. doi: 10.3969/j.issn.1007-7375.230095