- Erläutert visuell den Prozess, bei dem Computer mithilfe von statistical learning Muster in Daten automatisch identifizieren und Vorhersagen treffen
- Visualisiert Schritt für Schritt den Aufbau eines Modells zur Unterscheidung von Häusern in New York und San Francisco anhand eines Wohnungsdatensatzes
- Zeigt den Lern- und Vorhersageprozess konkret anhand von Konzepten wie decision tree, split point, branch und leaf node
- Macht beim Erhöhen der Modellgenauigkeit das Problem des overfitting visuell sichtbar und erklärt den Unterschied zwischen Trainingsdaten und Testdaten
- Ein interaktives Visualisierungsmaterial zum Lernen, das darauf ausgelegt ist, die Kernkonzepte von Machine Learning intuitiv verständlich zu machen
Grundkonzepte von Machine Learning
- Machine Learning ist eine Technik, bei der Computer statistical-learning-Verfahren anwenden, um Muster in Daten automatisch zu erkennen und darauf basierend präzise Vorhersagen zu treffen
- Als Beispiel wird mit Wohnungsdaten ein Modell aufgebaut, das Häuser in New York und San Francisco klassifiziert
- Eine solche Klassifikationsaufgabe wird im Machine Learning als classification-Problem bezeichnet
Intuitive Unterscheidung und Features
- San Francisco hat aufgrund seiner Topografie viele Hügel und eine höhere Lage
- Daher kann die elevation eines Hauses ein nützliches Kriterium sein, um die beiden Städte zu unterscheiden
- Zum Beispiel kann bei einer Höhe von mindestens 240 Fuß San Francisco zugeordnet werden
- Fügt man den price per square foot hinzu, ist eine feinere Unterscheidung möglich
- Liegt die Höhe bei höchstens 240 Fuß und der Preis pro Quadratfuß bei mindestens $1776, wird das Haus New York zugeordnet
- Jede Dimension der Daten wird als feature, predictor oder variable bezeichnet
Boundary und Modelltraining
- Auf Basis von Höhe und Preis lässt sich eine boundary in einem scatterplot visualisieren
- Diese Grenze in den Daten mathematisch zu identifizieren, ist der Kern von statistical learning
- Der tatsächliche Datensatz hat 7 Dimensionen, auf deren Grundlage das Modell trainiert wird
- Mit einer scatterplot matrix werden die Beziehungen zwischen den einzelnen Variablen visuell untersucht
Funktionsweise von Decision Trees
- Machine Learning nutzt statistical learning, um Muster in Daten zu finden; eine Methode dafür ist der decision tree
- Ein Decision Tree verzweigt Daten anhand von if-then-Regeln, jeweils auf Basis einer Variablen nach der anderen
- Beispiel: „Wenn die Höhe über einem bestimmten Wert liegt, dann San Francisco“
- Solche Verzweigungspunkte heißen split point und bilden die einzelnen branches des Baums
Genauigkeit der Aufteilung und Trade-off
- Eine anfängliche Aufteilung, etwa bei 240 Fuß, klassifiziert einige Häuser aus San Francisco falsch (false negatives)
- Versucht man umgekehrt, alle Häuser aus San Francisco einzuschließen, geraten auch Häuser aus New York hinein (false positives)
- Der beste Split ist derjenige, bei dem die Daten in jedem Ast möglichst homogen werden
- Zur Berechnung dienen unter anderem der Gini-Index und die cross entropy
Rekursion und Wachstum des Baums
- Der Algorithmus wiederholt diesen Prozess für jeden Teil-Datensatz und erweitert den Baum rekursiv
- Bei niedriger Höhe wird der Preis pro Quadratfuß als nächste Variable gewählt, bei hoher Höhe der Gesamtpreis
- Mit jeder weiteren Aufteilung steigt die prediction accuracy des Baums
- Nach einem zusätzlichen Schritt auf 84 %, nach mehreren Schritten bis auf 96 %
- Fügt man alle Verzweigungen hinzu, sind sogar 100 % Genauigkeit möglich
- Die endgültigen Verzweigungspunkte sind leaf nodes, und jeder Knoten klassifiziert Häuser anhand der Mehrheitsklasse
Vorhersage und Validierung
- Der trainierte Decision Tree sagt für jeden Datenpunkt die Stadt voraus, indem er den Verzweigungen des Baums folgt
- Die für das Training verwendeten Daten heißen training data, neue Daten test data
- Ein Modell kann auf den Trainingsdaten perfekt funktionieren, bei neuen Daten jedoch schlechter abschneiden
- Das liegt an overfitting: Das Modell hat auch unnötige Details mitgelernt
Zusammenfassung und nächste Schritte
- Machine Learning identifiziert Muster, indem es Grenzen in Daten findet, und trifft auf dieser Grundlage Vorhersagen
- Der decision tree ist eine typische Methode, Daten mithilfe von if-then-Regeln zu klassifizieren
- Overfitting ist das Phänomen, dass selbst bedeutungslose Unterscheidungen gelernt werden und dadurch die Generalisierungsfähigkeit sinkt
- Im nächsten Artikel wird die Beziehung zwischen overfitting und dem Bias-Variance-Trade-off behandelt
1 Kommentare
Hacker-News-Kommentare
Ich bin einer der Mitwirkenden an R2D3. Ich freue mich, diesen Beitrag heute zu sehen. Hier oder auf Bluesky beantworte ich gern Fragen
Das ist wirklich ein Meisterwerk. Jedes Mal, wenn ich Machine Learning einführe, nutze ich diese interaktive Erklärung. Eine ähnliche Sammlung gibt es hier
Ich habe früher meine S-TIER-Liste mit Lernressourcen erwähnt.
S-TIER bedeutet Inhalte, in denen Animationen, Visualisierungen und interaktive Elemente perfekt zusammenspielen.
A-TIER ist informativ, aber weniger visuell, und meinungsgetriebene Blogs ordne ich ganz unten ein.
Die S-TIER-Seiten, die ich ausgewählt habe, sind:
growingswe.com/blog, ciechanow.ski/archives, mlu-explain.github.io, seeing-theory.brown.edu, svg-tutorial.com, lumafield.com/scan-of-the-month/health-wearables
Auf dieser Grundlage würde ich gern einen Bookmark-Manager bauen, der alle Blog-Links auf HN automatisch klassifiziert
Zwei Projekte, die ich früher gemacht habe und besonders mag, sind Fill in the Blank und Grokking
Abgespeichert. Den meisten Erklärtexten zu LLMs fehlen solche visuellen Referenzen.
Meistens ist es entweder eine 10.000-Wörter-Abhandlung oder eine Ein-Zeilen-Zusammenfassung auf Twitter, ohne etwas dazwischen
Das ist ein Werk von 2015. Technisch wie konzeptionell war es seiner Zeit voraus
Wirklich großartig. Das ist ein spannendes Feld an der Schnittstelle von Datenvisualisierung und AI/ML.
Empfehlenswerte Anlaufstellen sind mlu-explain.github.io, visxai.io, die Explorables von Google PAIR und poloclub von GA Tech
Ich wünschte, es gäbe mehr Artikel wie diesen. Ich mag visuelles Lernen.
Mich erinnert das an Build Your Own React. Es ist nicht direkt verwandt, aber ein ähnlich gestalteter, leicht nachvollziehbarer Blog. Dieses Format ist sehr lernförderlich
Das ist mit Abstand die beste Erklärung von Entscheidungsbäumen, die ich bisher gesehen habe.
Die Animation, die beim Herunterscrollen den Aufteilungsprozess visuell zeigt, ist sehr viel intuitiver als lange Erklärungen im Lehrbuch
Diese interaktiven Erklärungen sind immer noch eines der besten Beispiele dafür, ML-Konzepte intuitiv verständlich zu machen.
Dieser Ansatz ist viel wirksamer als technische Texte, die mit Formeln anfangen
Ich frage mich, ob es Material gibt, das höherdimensionale Konzepte wie den Attention-Mechanismus von Transformern im Stil von R2D3 erklärt