Die Einführung von Machine Learning in der Kreditrisikoanalyse begann in den frühen 2000er Jahren mit einfachen Entscheidungsbäumen. Damals verarbeiteten Banken hauptsächlich strukturierte Daten aus Kreditanträgen und Zahlungshistorien. Die ersten Modelle analysierten etwa 30 bis 40 Variablen pro Kunde.
Der Wandel durch große Datenmengen
Ab 2010 änderte sich die Situation grundlegend. Banken begannen, unstrukturierte Daten einzubeziehen: Transaktionsmuster, Kontoauszugstexte, externe Wirtschaftsindikatoren. Ein typisches Modell verarbeitet heute zwischen 200 und 800 Merkmale. Die Herausforderung liegt nicht im Algorithmus selbst, sondern in der Datenvorbereitung.
Aufbau eines funktionierenden Systems
Der erste Schritt besteht darin, historische Ausfalldaten zu sammeln. Sie benötigen mindestens drei Jahre Kreditdaten mit dokumentierten Ausfällen. Danach folgt die Feature-Engineering-Phase: Verhältniskennzahlen berechnen, zeitliche Muster erkennen, Kategorien kodieren. Gradient Boosting Machines liefern hier bessere Ergebnisse als neuronale Netze, weil sie mit fehlenden Werten umgehen können und die Entscheidungslogik nachvollziehbar bleibt.
Validierung unter realen Bedingungen
Die Deutschen Bundesbank verlangt eine Backtesting-Periode von mindestens einem Jahr. Sie trainieren das Modell mit Daten bis 2018, testen es mit 2019er-Daten und vergleichen die vorhergesagten mit den tatsächlichen Ausfallraten. Weicht die Vorhersage um mehr als 15 Prozent ab, muss das Modell überarbeitet werden. Dieser Prozess wiederholt sich vierteljährlich.