Steigen Ausfälle, wenn man das Limit erhöht? Eine Überprüfung mit drei offenen Datensätzen
(han-co.com)Original: han-co.com · Code·Notebooks (Koreanisch·Japanisch): GitHub
Wenn man das Kreditkartenlimit erhöht, steigt dann die Wahrscheinlichkeit, dass diese Person ausfällt — oder sinkt sie? Intuitiv würde man denken, sie steigt. Schließlich kann die Person mehr leihen. Öffnet man jedoch die Daten, zeigt sich das genaue Gegenteil. Dieser Beitrag ist ein Protokoll darüber, wie sich dieses Paradox mit Debiasing auflösen lässt, wie es mit drei offenen Datensätzen überprüft wurde und wie das Ganze am Ende zu einem unerwarteten Fazit führt.
In Teil 0 ging es um Selection Bias. Dieser Beitrag ist ein Praxisbeispiel dafür, wie dieser Selection Bias direkt auf Kausalinferenz trifft. Die Kausalinferenz selbst behandle ich in einer Grundlagenreihe noch gesondert und ausführlich; hier zeige ich einen Schritt früher, wie sie in der Praxis funktioniert. Verwendet wurden ausschließlich öffentlich verfügbare Codes und Daten.
1. Daten, die der Intuition genau widersprechen
Zunächst beginnen wir mit taiwanischen Kreditkartendaten. Es handelt sich um einen öffentlichen Datensatz zu 30.000 Kartenkund:innen in Taiwan aus dem Jahr 2005, der für jede Person das jeweilige Limit, den Rechnungsbetrag (Saldo) und die Information enthält, ob sie im Folgemonat in Verzug geraten ist (öffentlich über UCI verfügbar). Da es nur wenige offene Datensätze gibt, die Limit, Saldo und Ausfall gleichzeitig enthalten, ist er ein guter Ausgangspunkt. Hier zeichnen wir die tatsächliche Ausfallrate nach Limitsegmenten.
[IMG] Ausfallrate nach Limitsegment. Je höher das Limit, desto niedriger die Ausfallrate
Die Ausfallrate der untersten 10 % nach Limit liegt bei 35,9 %, die der obersten 10 % bei 11,9 %. Mit steigendem Limit sinkt die Ausfallrate kontinuierlich (Korrelationskoeffizient −0,15).
Die Gruppe mit fast 20-fach höherem Limit weist nur etwa ein Drittel so viele Ausfälle auf. Bedeutet das, man könne Limits einfach großzügig erhöhen? Natürlich nicht. Hier steckt eine Falle.
2. Der Täter ist Selection Bias
Limits werden nicht zufällig vergeben. Auf Basis bestehender Modelle oder Regeln erhalten von vornherein kreditwürdigere Personen höhere Limits. Deshalb ist „hohes Limit“ zugleich ein Signal für „Person, die ohnehin gut zurückzahlen wird“. Die negative Beziehung zwischen Limit und Ausfall ist also nicht der Effekt des Limits, sondern eine Illusion, die durch die hinter dem Limit verborgene Bonität entsteht. Das ist ein besonders offener Fall des Selection Bias aus Teil 0.
Trainiert man das Modell direkt auf diesen Daten, lernt es: „hohes Limit = sicher“. Simuliert man mit diesem Modell die Frage „Was passiert, wenn wir das Limit erhöhen?“, antwortet es, dass die Ausfälle sinken. Dieses Ergebnis unverändert für Policy-Entscheidungen zu verwenden, ist gefährlich.
3. Die Lösung: das Limit in ein „Residual“ verwandeln
Die Kernidee ist einfach. Vergleicht man Personen mit gleicher Bonität, aber unterschiedlichem Limit, wird der reine Effekt des Limits sichtbar. Perfektes Matching ist unmöglich, daher geht man stattdessen so vor.
- Mit Bonitäts-Features (X) wird für jede Person das „erwartete Limit“ vorhergesagt (als Nachbildung des bisherigen Limitvergabe-Verfahrens).
- Der Wert aus tatsächlichem minus erwartetem Limit ist das Limit-Residual (
rL). Es ist der Teil der Limitvariation, der nicht durch Bonität erklärt wird, sondern durch Policy oder Zufall entsteht. - Saldo und Ausfall werden auf die gleiche Weise ebenfalls in Residuen überführt.
- Dann wird eine Kette aufgebaut: vom Limit-Residual zum Saldo-Residual und weiter zum Ausfall (Pfad Limit→Saldo→Ausfall).
- Da Ausfall nur 0 oder 1 ist, wird die Differenz im Logit-Raum korrigiert; diese Korrektur wird zur anfangs vorhergesagten Ausfallwahrscheinlichkeit addiert und ergibt den Endwert.
Zwei Punkte sind wichtig. Erstens müssen die Residuen zur Vermeidung von Data Leakage zwingend per Cross-Fitting erzeugt werden. Wenn man mit den eigenen Datenpunkten auf sich selbst vorhersagt, werden die Residuen künstlich zu klein. Zweitens gibt es bei konsistenter Limitvergabe nur wenige Personen mit großem Residual. Diese seltenen Stichproben eines „natürlichen Experiments“ (Personen mit großem Residual) werden stärker gewichtet.
Das hat dieselbe Struktur wie Double Machine Learning (DML) in der Kausalinferenz. DML lässt sich so zusammenfassen: Treatment (hier das Limit) und Ergebnis (Ausfall) werden jeweils mit Machine Learning aus den Confoundern (Bonität) vorhergesagt und herausgerechnet; der Effekt wird dann über die Beziehung der verbleibenden Residuen geschätzt. Entscheidend ist, dass Machine Learning die Störfaktoren flexibel absorbiert, sein Bias aber durch Cross-Fitting nicht in die Effektschätzung hineinläuft. Im Kern geht es darum, aus dem Treatment „Limit“ den Confounder „Bonität“ herauszulösen.
Vorab noch eine Einschränkung: Die Bonitäts-Features, die wir kontrollieren, sind nur Proxy-Variablen für die tatsächlichen Kriterien der Limitvergabe (Einkommen, externe Kreditscores usw.). Debiasing „verringert“ Verzerrung also, es „beseitigt“ sie nicht vollständig. Je schwächer die Kontrollvariablen im Datensatz sind, desto eher kann sich im verbleibenden negativen Effekt auch nicht entfernte Verzerrung verbergen.
4. Validierung 1, taiwanische Kreditkarten: Der Bias verschwand, aber der Effekt fast auch
Nach Anwendung des Debiasing war das Paradox aufgelöst. Rund 70 % der sichtbaren Korrelation von −0,15 zwischen Limit und Ausfall waren Selection Bias; nach dessen Entfernung blieb nur ein kleiner direkter negativer Effekt (−0,05) übrig. Das ist die entgegengesetzte Richtung zur Hypothese („Limit↑→Ausfall↑“).
Wo lässt sich die Hypothese dann prüfen? In einem kontrafaktischen Diagramm, in dem die Limits aller Personen zwischen 0,5-fach und 2-fach variiert und die vorhergesagte Ausfallrate gezeichnet wird.
[IMG] Kontrafaktisch: vorhergesagte Ausfallrate bei erhöhtem Limit
Rot (naiv) gibt das Paradox Limit↑→Ausfall↓ unverändert aus. Die Saldo-Kette (blau) wird nahezu flach. Auslastung und direkte Kette (violett, grün) behalten ein schwaches Negativzeichen bei.
Bei genauerer Analyse zeigt sich Folgendes.
- Limit→Saldo ist positiv (+), aber die Übertragungsrate ist mit 5,7 % schwach. Erhöht man das Limit um 1, steigt der Saldo nur um 0,057. Bei einem Ratenkredit, der vollständig ausgezahlt wird, läge dieser Wert nahe 100 %; im Vergleich dazu wird ein Revolving-Limit kaum genutzt und daher nur schwer in Belastung übersetzt (sticky).
- Das eigentliche Belastungssignal war nicht der Saldo, sondern die Auslastung (Saldo/Limit). Und wenn das Limit steigt, sinkt die Auslastung sogar deutlich (−0,39, mehr Spielraum).
- Schätzt man nur den Saldo isoliert und linear sauber, ist Saldo→Ausfall signifikant positiv (+) (
p=0.001), die Hypothese gilt also. Allerdings ist die Größe des Effekts äußerst klein.
Daraus ergibt sich auch eine methodische Lehre. Verwendet man auf der schwachen Residual-Stufe ein flexibles GBM, kommt es zu Overfitting. Die Train-AUC steigt, aber die Test-AUC fällt sogar unter das Basismodell, und der Abstand zwischen Train und Test beträgt 0,047 — sechsmal so viel wie beim Basismodell mit 0,008. Eine lineare zweite Stufe, die nur Residuen verwendet, zeigt dagegen mit 0,009 nahezu keine Lücke und rekonstruiert den echten Effekt sauber. Schwache kausale Signale lassen sich unter Umständen besser mit linearen oder regulierten Modellen behandeln.
5. Eine weitere Falle: Das Beobachtungsfenster ist zu kurz
Der Ausfall in diesem Datensatz bedeutet „Verzug im nächsten Monat“. In der Praxis schauen Modelle für Kreditverluste meist auf 12 Monate. In einem kurzen Fenster gibt es einen weiteren Bias, der die Analyse stark beeinflusst: Aufschub (postponement). Personen mit freiem Limit können sich mit diesem Spielraum noch einen Monat über Wasser halten, sodass der Ausfall aus dem Beobachtungsfenster herausgeschoben wird. Der Ausfall sinkt dann nicht wirklich, sondern wird nur verschoben — im Datensatz erscheint das als „sicher“.
Das ist ein eigener Bias (Survival/Censoring), den Debiasing als Entfernung von Confoundern nicht erfassen kann. Das wurde überprüft, indem das Beobachtungsfenster von 1 auf 5 Monate verlängert wurde.
[IMG] Debiaster Limiteffekt bei verlängerter Beobachtungsdauer
Auch bei längerem Fenster drehte sich das Negativzeichen nicht ins Positive (von −0,06 bei 1 Monat zu −0,13 bei 5 Monaten). Allerdings wird in diesem Experiment mit zunehmendem Fenster die Bonitätskontrolle dünner und damit konfounded; zudem sind 5 Monate noch weit von 12 Monaten entfernt. Das Fazit lautet also: Mit UCI (1 Monat) lässt sich ein 12-Monats-Problem nicht validieren.
Deshalb waren echte Langfristdaten nötig.
6. Validierung 2, Lending Club: langfristig und „ausgezahlter“ Kredit
Lending Club ist eine US-amerikanische P2P-Kreditplattform. Verwendet werden 230.000 Kredite aus den Jahren 2007 bis 2013, deren Laufzeit bereits beendet ist. Da die Laufzeit beendet ist, kennt man das Endergebnis: vollständig zurückgezahlt oder abgeschrieben (charge-off). Führt man darauf dasselbe Debiasing aus, tritt eine entscheidende Unterscheidung zutage.
[IMG] Lending Club: ausgezahlter Kredit und Revolving-Limit
loan_amnt(ausgezahlter Kredit, grün): Auch nach Debiasing gilt sauber Kredit↑→Ausfall↑ (p<0.0001). Über mehrere Risikoklassen hinweg steigt der Effekt konsistent, und die Entfernung des Bias verstärkt ihn sogar noch. Die Hypothese gilt.total_rev_hi_lim(ungenutztes Revolving-Limit, violett): Selbst langfristig ist der Effekt nahezu 0. Genau wie beim UCI-Limit.
Der Kern des Unterschieds war also nicht das Beobachtungsfenster, sondern „ausgezahlter Kredit oder ungenutztes Limit“. Ein Ratenkredit wird vollständig ausgezahlt und ist damit zu 100 % Belastung; ein Revolving-Limit ist vor der Nutzung keine Belastung, sondern Spielraum (headroom). Die Brücke zwischen beiden ist die Übertragungsrate (Limit→Saldo), und weil sie im UCI-Datensatz nur 5,7 % beträgt, war der Limiteffekt dort schwach.
7. Validierung 3, Home Credit Karten: Die Definition des Kreditverlusts kippt das Vorzeichen
Home Credit ist ein über einen Kaggle-Wettbewerb veröffentlichter Datensatz, der zwei Arten von Daten enthält: monatliche Kreditkarten-Panels und beantragte Kredite (Ratenkredite). Zunächst sollte mit dem Karten-Panel, also Daten desselben Revolving-Produkts mit tatsächlich beobachtetem Limit, Saldo und Verzug über viele Monate, der Nachweis endgültig erbracht werden. Doch das Ergebnis kippte erneut. Diesmal war es eine Warnung.
Betrachtet man rund 16.000 tatsächlich genutzte aktive Karten, zeigt sich das genaue Gegenteil zum UCI-Datensatz: Je höher die Auslastung, desto niedriger der Ausfall. Warum?
[IMG] UCI und Home Credit: Das Vorzeichen von Auslastung→Ausfall kippt
Links bei UCI steigt die Ausfallrate mit höherer Auslastung (echte Belastung). Rechts bei Home Credit konzentrieren sich etwa 14 % Ausfall fast ausschließlich im untersten Auslastungsquantil (Saldo nahe 0), während die übrigen Quantile um etwa 0,1 % liegen.
Die Ursache war klar. Der „Ausfall“ bei Home Credit (SK_DPD≥90) erfasst nicht Kreditbelastung, sondern ruhende Konten mit kleinen Restbeträgen, die einfach liegen gelassen und dadurch überfällig wurden. Bei Personen, die die Karte tatsächlich nutzen, ist der Ausfall praktisch 0. Mit anderen Worten: Wenn die Outcome-Definition nicht „Kreditverlust“, sondern „liegen gelassen“ erfasst, kippt das Vorzeichen vollständig — selbst bei gutem Debiasing.
8. Validierung 4, Home Credit Hauptkredite: Hier kippt das Paradox endlich
Bis hierhin wurde Debiasing zwar angewendet, aber es gab keinen Datensatz, in dem das im Rohzustand negative Paradox nach dem Debiasing in ein positives (+) Vorzeichen umschlug. Doch direkt daneben lag ein Datensatz, der genau diese Bedingungen erfüllte: die beantragten Kredite desselben Home-Credit-Datensatzes (nicht Karten, sondern Hauptkredite; Ausfallrate 8 %, 300.000 Fälle). Es handelt sich um vollständig ausgezahlte Ratenkredite, und der Ausfall ist ein echter Kreditverlust. Außerdem wurden diesmal externe Kreditscores (EXT_SOURCE) und Einkommen gemeinsam kontrolliert.
[IMG] Home Credit Hauptkredite: Debiasing kehrt das Paradox um
Links (raw) zeigt sich das Paradox: Je größer der Kredit, desto niedriger der Ausfall (alle vier Variablen negativ). Rechts (debiasing) kippt es nach Entfernung der Bonität ins Positive (+).
| Variable | raw-Korrelation | Debiasing-Koeffizient | Urteil |
|---|---|---|---|
| Kreditbetrag | −0.030 | +0.018 | gekippt |
| Monatsrate | −0.013 | +0.059 (p≈10⁻²⁰) | gekippt (stärkster Effekt) |
| Kredit relativ zum Einkommen | −0.008 | +0.046 | gekippt |
| Kaufpreis des Gegenstands | −0.040 | −0.010 | nicht gekippt |
Die Koeffizienten in der Tabelle sind Logit-Koeffizienten auf standardisierte Residuen; ihre absolute Größe ist daher klein. Eine Monatsrate von +0,059 bedeutet nur, dass sich bei einer Erhöhung um 1 Standardabweichung die Ausfall-Odds um etwa 6 % erhöhen. Da es 300.000 Beobachtungen sind, ist der p-Wert extrem klein; das bedeutet nicht „großer Effekt“, sondern „das positive Vorzeichen ist sicher“. In diesem Beitrag geht es nicht um die Größe, sondern um die Richtung — also den Umschlag von negativ nach positiv.
Interessanterweise kippt nur der Kaufpreis des Gegenstands (AMT_GOODS_PRICE) nicht. Zurückgezahlt werden müssen Kreditbetrag und Rate, nicht der Warenpreis selbst — das passt exakt zur Theorie.
Warum kippt es hier, aber nicht bei UCI oder beim Revolving-Limit von Lending Club? Zwei Bedingungen müssen gleichzeitig erfüllt sein. Erstens muss es sich um ausgezahlten Kredit handeln (also reale Belastung durch vollständig geliehenes Geld), sodass der wahre Effekt positiv (+) ist. Zweitens muss der Selection Bias stark sein (größere Kredite gehen an bessere Kund:innen), sodass das Rohsignal negativ (−) erscheint. Hauptkredite erfüllen beides. Deshalb ist das Rohsignal durch Selection Bias verdeckt negativ, und das Debiasing legt den echten positiven Belastungseffekt frei.
9. Zusammenfassung: Wann kippt das Paradox?
| Kreditart | raw Limit-Ausfall | nach Debiasing | Beispiel |
|---|---|---|---|
| Ungenutztes Revolving-Limit | negativ (Paradox) | nahezu 0 | UCI, LC, HC Karten |
| Ausgezahlter Kredit, schwache Selektion | positiv (kein Paradox) | positiv | LC Kreditbetrag |
| Ausgezahlter Kredit, starke Selektion | negativ (Paradox) | positiv (kippt) | HC Hauptkredit |
Über alle drei Datensätze hinweg bleiben zwei Punkte.
- „Limit↑→Ausfall↑“ ist kein universelles Gesetz. Ein ungenutztes Limit ist, solange es nicht gezogen wird, keine Belastung, daher ist der Effekt nahezu 0; das Vorzeichen von Auslastung und Saldo hängt vom Portfolio und von der Definition des Kreditverlusts ab.
- Das Paradox kann sich unter passenden Bedingungen aber tatsächlich umkehren. Debiasing entfernt das falsche negative Signal und rekonstruiert das echte positive. Allerdings nur bei Kreditformen, die überhaupt reale ausgezahlte Belastung darstellen.
10. Was das für die Praxis bedeutet
Wenn man dieses Ergebnis in die Praxis überträgt, möchte ich zuerst zwei Dinge betonen.
Das eine ist die Einschränkung. Die Bonitäts-Features, die das Debiasing kontrolliert, sind nur Proxy-Variablen für die tatsächlichen Kriterien der Limitvergabe; den verbleibenden Effekt sollte man daher nicht vorschnell als „rein kausal“ bezeichnen. Das gilt besonders für Datensätze ohne Einkommen oder externe Scores, in denen sich echte Bonität nur schwer rekonstruieren lässt. Außerdem behandelt dieser Beitrag die Ausfallwahrscheinlichkeit (PD), während in der Praxis Kreditverluste oft auf Verlustbeträgen basieren. Verlustbeträge sind mechanisch mit dem Limit verknüpft (Limit↑→Exposure↑→Verlustbetrag↑), sodass im selben Datensatz auch ein positives (+) Vorzeichen erscheinen kann. Welche Variable als Outcome gewählt wird, verändert das Ergebnis.
Darum sollte man Methode und Schlussfolgerung trennen.
- Die Methode (Debiasing) ist valide und übertragbar. Wo ein echter positiver Effekt existiert (ausgezahlter Kredit bei Lending Club), rekonstruiert die Methode ihn sauber. Dass in anderen Daten ein negatives (−) oder nullnahes Ergebnis erscheint, ist kein Versagen der Methode, sondern eine korrekte Abbildung der Tatsache, dass diese Kreditform die Ausfälle ursprünglich nicht erhöht.
- Die Schlussfolgerung zur Richtung ist nicht übertragbar. Aus offenen Daten lässt sich nicht pauschal ableiten, dass in jedem Portfolio gilt: Limit↑→Ausfall↑.
- In Praxisdaten müssen zwei Dinge zwingend geprüft werden. Erstens die Übertragungsrate (
dBalance/dLimit): In welchem Maß wird eine Limiterhöhung tatsächlich zu ausgezahlter Belastung? Zweitens die Definition des Kreditverlusts: Erfasst der 12-Monats-Verlust echte Kreditverluste oder vielmehr Liegenlassen bzw. Kleinstrückstände?
Diese beiden Punkte entscheiden über das Vorzeichen des Limiteffekts. Debiasing ist nur der Ausgangspunkt; die eigentliche Antwort liegt im jeweiligen Portfolio.
Anhang. Daten und Reproduzierbarkeit
- UCI „Default of Credit Card Clients“ (Taiwan, 30.000 Fälle, 1 Monat Verzug)
- Lending Club, Kredite 2007 bis 2013 mit abgeschlossener Laufzeit (230.000 Fälle,
charge-off) - Home Credit
credit_card_balanceKarten-Panel undapplication_trainHauptkredite (300.000 Fälle, Ausfall 8 %) - Methode: K-fold Cross-Fitting-Residualisierung, isotonic calibration, Residualgewichtung, lineare zweite Stufe (DML). Python (
pandas,scikit-learn,lightgbm,statsmodels). - Code und Notebooks (Koreanisch·Japanisch): github.com/HangilKim11/blog-research
Alle Zahlen und Abbildungen in diesem Beitrag lassen sich mit offenen Daten reproduzieren. Die Schlussfolgerungen im Text beziehen sich auf offene Datensätze; für Praxisdaten muss das Vorzeichen anhand der beiden oben genannten Punkte direkt geprüft werden.
Dieser Beitrag wurde zuerst auf han-co.com veröffentlicht und erscheint gleichzeitig auf Koreanisch und Japanisch. Original und E-Mail-Abo → https://han-co.com/ko/blog/credit-limit-debiasing
Noch keine Kommentare.