Betrugserkennung entwickelte sich von regelbasierten Systemen in den 1990er Jahren zu adaptiven Machine-Learning-Modellen. Frühe Systeme markierten Transaktionen anhand fester Schwellenwerte: Beträge über 5000 Euro oder Auslandstransaktionen. Diese Regeln erzeugten täglich Tausende Fehlalarme.
Warum Echtzeitanalyse notwendig wurde
Moderne Betrugsmuster ändern sich wöchentlich. Ein Modell muss Millionen Transaktionen pro Stunde verarbeiten und dabei Anomalien identifizieren. Random Forests und Isolation Forests eignen sich dafür, weil sie schnell trainieren und parallel arbeiten. Die Schwierigkeit liegt im Klassenungleichgewicht: Auf 10.000 legitime Transaktionen kommt statistisch eine betrügerische.
Datenquellen richtig kombinieren
Ein wirksames System nutzt vier Datentypen gleichzeitig. Transaktionsdaten enthalten Betrag, Zeitstempel und Händlerkategorie. Verhaltensdaten zeigen typische Ausgabemuster des Kunden. Gerätedaten erfassen IP-Adressen und Browserfingerprints. Externe Daten liefern Informationen über kompromittierte Kartennummern. Jede Quelle trägt unterschiedlich zur Genauigkeit bei. Bei Tests der Sparkasse Rheinland-Pfalz erhöhten Verhaltensdaten die Erkennungsrate um 18 Prozentpunkte.
Training mit unbalancierten Daten
Sie benötigen mindestens 1000 bestätigte Betrugsfälle für ein stabiles Modell. SMOTE generiert synthetische Minderheitsklassenbeispiele, aber Übersampling führt oft zu Overfitting. Besser funktioniert eine Kombination: Untersampling der Mehrheitsklasse plus Cost-Sensitive Learning, bei dem falsch-negative Vorhersagen stärker bestraft werden.