Periodenübergreifende Budgetallokation in der Instandhaltung modularer Systeme - Ein Anwendungsfall von Deep Reinforcement Learning

Krause, Michael

Eine funktionsfähige Infrastruktur ist zentrale Voraussetzung für die Wettbewerbsfähigkeit einer Volkswirtschaft. Daher sieht beispielsweise der Bundesverkehrswegeplan bis zum Jahr 2030 allein 141,6 Mrd. Euro für die Instandhaltung der bundesdeutschen Verkehrswege vor. Netzwerke von Straßen oder Brücken sind Beispiele für modulare Systeme, in denen der effiziente Ressourceneinsatz für Instandhaltungsmaßnahmen eine herausragende Rolle spielt. Hier möchte diese Arbeit einen Beitrag leisten, indem sie Planungsansätze vorstellt, die eine effiziente Budgetallokation auf einzelne Komponenten wie z. B. Straßenabschnitte und Perioden ermöglicht, um eine größtmögliche Leistungsfähigkeit des Gesamtsystems zu erreichen. Die Festlegung einer geeigneten Budgetallokation für modulare Systeme unter Unsicherheit stellt eine anspruchsvolle Planungsaufgabe dar, die in der Literatur für unterschiedliche Annahmesysteme untersucht wurde. Besonderheiten der in der Dissertation untersuchten Problemstellung bestehen darin, dass die Planung sich auf einen mehrperiodigen Zeitraum bezieht, für den ein periodenübergreifendes Gesamtbudget zur Verfügung steht, und bei der Modellierung der zeitlichen Entwicklung der Komponentenzustände instationäre stochastische Verschleißprozesse zugelassen werden. Die Wirkungen der Investitionen in Instandhaltungsmaßnahmen der Komponenten auf deren Zustände werden durch eine Funktion beschrieben, die sich als Lösung eines Anfangswertproblems für eine nichtlineare partielle Differentialgleichung ergibt. Die Abhängigkeit der Systemleistung von den Komponentenzuständen wird in Anlehnung an die in der Instandhaltungstheorie übliche Strukturfunktion über eine monoton wachsende Strukturbewertungsfunktion modelliert, wobei der Spezialfall einer quasikonkaven Strukturbewertungsfunktion vertiefend untersucht wird. Als Zielsetzung wird die Maximierung der minimalen Perioden-Systemleistung betrachtet. Als erster Planungsansatz wird eine rollierende Planung untersucht, die unter Verwendung eines Erwartungswertmodells durchgeführt wird. Für die einperiodige Planung wird ein Grenznutzenalgorithmus entwickelt, der in einem Karush-Kuhn-Tucker-Punkt konvergiert, indem als homogener Grenznutzen positiver Investitionsentscheidungen der Lagrange-Multiplikator der Budgetrestriktion angenähert wird. Der Grenznutzen einer Instandhaltungsinvestition ergibt sich dabei jeweils als Produkt aus aktueller Birnbaum- Importanz der Komponente und Effektivität der Investition. Für den Fall quasikonkaver Strukturbewertungsfunktionen konnte die globale Optimalität von Karush-Kuhn-Tucker- Punkten auch für den mehrperiodigen Fall bewiesen werden. Der zweite Planungsansatz entspricht der Umsetzung einer flexiblen Planung zur Berechnung einer Politik, die für jede Periode und jedes Restbudget in Abhängigkeit eines beliebigen zulässigen Systemzustands eine gute Lösung für die zugehörige Budgetallokation liefert. Dazu wird das Optimierungsproblem als stochastisches dynamisches Programm aufgefasst, und die gesuchte Politik wird über die Gewichte eines tiefen neuronalen Netzes repräsentiert. Das Training dieses Netzes geschieht mittels Deep Reinforcement Learning, wobei das eingesetzte Actor-Critic-Verfahren „Deep Deterministic Policy Gradient“ spezifisch auf den Umgang mit überabzählbaren Zustands- und Aktionsräumen ausgelegt ist. Die beiden Planungsansätze werden anhand von zufällig generierten Instanzen für verschiedene Systemstrukturen (Serien-, Parallel-, Serien-Parallel- und Brückenschaltungen) mit einer zufälligen Budgetallokation und untereinander verglichen. Aus diesem Vergleich werden Handlungsempfehlungen für die geeignete Budgetallokation abgeleitet. Mit den in der Arbeit entwickelten Methoden ist es erstmalig möglich, gute periodenübergreifende Budgetallokationen für Probleme der Instandhaltungsplanung modularer Systeme unter instationären Verschleißprozessen innerhalb realistischer Rechenzeiten von – je nach Planungsansatz – einigen Sekunden bis wenigen Stunden zu berechnen.

A functioning infrastructure is a key prerequisite for the competitiveness of an economy. For this reason, the German Federal Transport Infrastructure Plan, for example, earmarks 141.6 billion euros for the maintenance of Germany’s transport routes alone by 2030. Networks of roads or bridges are examples of modular systems in which the efficient use of resources for maintenance measures plays a prominent role. This thesis aims to make a contribution by presenting planning approaches that allow efficient budget allocation to individual components such as road sections and periods in order to achieve the highest possible performance of the overall system. Determining an appropriate budget allocation for modular systems under uncertainty is a challenging planning task that has been studied in the literature for different assumption systems. Special features of the problem studied in the dissertation are that the planning refers to a multi-period time frame for which a total budget spanning several periods is available, and non-stationary stochastic deterioration processes are allowed for when modeling the temporal evolution of the component states. The effects of component maintenance investments on their states are described by a function that results as a solution to an initial value problem for a nonlinear partial differential equation. The dependence of the system performance on the component states is modeled by a monotonically increasing structure evaluation function following the structure function commonly used in maintenance theory, and the special case of a quasiconcave structure evaluation function is studied in depth. The maximization of the minimum period system performance is considered as the objective. As a first planning approach, rolling planning is investigated using an expected value model. For single-period planning, a marginal utility algorithm is developed that converges to a Karush-Kuhn-Tucker point by approximating the Lagrange multiplier of the budget constraint as the homogeneous marginal utility of positive investment decisions. In each case, the marginal utility of a maintenance investment is the product of the current Birnbaum importance of the component and the effectiveness of the investment. For the case of quasiconcave structure valuation functions, the global optimality of Karush-Kuhn- Tucker points could also be proven for the multi-period case. The second planning approach corresponds to the implementation of flexible planning to compute a policy that provides a good solution for the associated budget allocation for each period and residual budget depending on any feasible system state. For this purpose, the optimization problem is conceived as a stochastic dynamic program, and the policy sought is represented by the weights of a deep neural network. The training of this network is done using Deep Reinforcement Learning, and the Actor-Critic method "Deep Deterministic Policy Gradient" used is specifically designed to deal with overcountable state and action spaces. The two planning approaches are compared using randomly generated instances for different system structures (series, parallel, series-parallel, and bridge networks) with a random budget allocation and with each other. From this comparison, recommended actions for appropriate budget allocation are derived. With the methods developed in the thesis, it is for the first time possible to compute good period-spanning budget allocations for problems of maintenance planning of modular systems under nonstationary deterioration processes within realistic computation times of - depending on the planning approach - a few seconds to a few hours.

Vorschau

Zitieren

Zitierform:

Krause, Michael: Periodenübergreifende Budgetallokation in der Instandhaltung modularer Systeme - Ein Anwendungsfall von Deep Reinforcement Learning. Clausthal-Zellerfeld 2021. TU Clausthal.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Grafik öffnen

Rechte

Nutzung und Vervielfältigung:

Export