Visuelle Einführung in Machine Learning (2015)

(r2d3.us)

6 Punkte von GN⁺ 2026-03-16 | 1 Kommentare | Auf WhatsApp teilen

Erläutert visuell den Prozess, bei dem Computer mithilfe von statistical learning Muster in Daten automatisch identifizieren und Vorhersagen treffen
Visualisiert Schritt für Schritt den Aufbau eines Modells zur Unterscheidung von Häusern in New York und San Francisco anhand eines Wohnungsdatensatzes
Zeigt den Lern- und Vorhersageprozess konkret anhand von Konzepten wie decision tree, split point, branch und leaf node
Macht beim Erhöhen der Modellgenauigkeit das Problem des overfitting visuell sichtbar und erklärt den Unterschied zwischen Trainingsdaten und Testdaten
Ein interaktives Visualisierungsmaterial zum Lernen, das darauf ausgelegt ist, die Kernkonzepte von Machine Learning intuitiv verständlich zu machen

Grundkonzepte von Machine Learning

Machine Learning ist eine Technik, bei der Computer statistical-learning-Verfahren anwenden, um Muster in Daten automatisch zu erkennen und darauf basierend präzise Vorhersagen zu treffen
Als Beispiel wird mit Wohnungsdaten ein Modell aufgebaut, das Häuser in New York und San Francisco klassifiziert
Eine solche Klassifikationsaufgabe wird im Machine Learning als classification-Problem bezeichnet

Intuitive Unterscheidung und Features

San Francisco hat aufgrund seiner Topografie viele Hügel und eine höhere Lage
- Daher kann die elevation eines Hauses ein nützliches Kriterium sein, um die beiden Städte zu unterscheiden
- Zum Beispiel kann bei einer Höhe von mindestens 240 Fuß San Francisco zugeordnet werden
Fügt man den price per square foot hinzu, ist eine feinere Unterscheidung möglich
- Liegt die Höhe bei höchstens 240 Fuß und der Preis pro Quadratfuß bei mindestens $1776, wird das Haus New York zugeordnet
Jede Dimension der Daten wird als feature, predictor oder variable bezeichnet

Boundary und Modelltraining

Auf Basis von Höhe und Preis lässt sich eine boundary in einem scatterplot visualisieren
Diese Grenze in den Daten mathematisch zu identifizieren, ist der Kern von statistical learning
Der tatsächliche Datensatz hat 7 Dimensionen, auf deren Grundlage das Modell trainiert wird
- Mit einer scatterplot matrix werden die Beziehungen zwischen den einzelnen Variablen visuell untersucht

Funktionsweise von Decision Trees

Machine Learning nutzt statistical learning, um Muster in Daten zu finden; eine Methode dafür ist der decision tree
Ein Decision Tree verzweigt Daten anhand von if-then-Regeln, jeweils auf Basis einer Variablen nach der anderen
Beispiel: „Wenn die Höhe über einem bestimmten Wert liegt, dann San Francisco“
Solche Verzweigungspunkte heißen split point und bilden die einzelnen branches des Baums

Genauigkeit der Aufteilung und Trade-off

Eine anfängliche Aufteilung, etwa bei 240 Fuß, klassifiziert einige Häuser aus San Francisco falsch (false negatives)
Versucht man umgekehrt, alle Häuser aus San Francisco einzuschließen, geraten auch Häuser aus New York hinein (false positives)
Der beste Split ist derjenige, bei dem die Daten in jedem Ast möglichst homogen werden
- Zur Berechnung dienen unter anderem der Gini-Index und die cross entropy

Rekursion und Wachstum des Baums

Der Algorithmus wiederholt diesen Prozess für jeden Teil-Datensatz und erweitert den Baum rekursiv
Bei niedriger Höhe wird der Preis pro Quadratfuß als nächste Variable gewählt, bei hoher Höhe der Gesamtpreis
Mit jeder weiteren Aufteilung steigt die prediction accuracy des Baums
- Nach einem zusätzlichen Schritt auf 84 %, nach mehreren Schritten bis auf 96 %
- Fügt man alle Verzweigungen hinzu, sind sogar 100 % Genauigkeit möglich
Die endgültigen Verzweigungspunkte sind leaf nodes, und jeder Knoten klassifiziert Häuser anhand der Mehrheitsklasse

Vorhersage und Validierung

Der trainierte Decision Tree sagt für jeden Datenpunkt die Stadt voraus, indem er den Verzweigungen des Baums folgt
Die für das Training verwendeten Daten heißen training data, neue Daten test data
Ein Modell kann auf den Trainingsdaten perfekt funktionieren, bei neuen Daten jedoch schlechter abschneiden
Das liegt an overfitting: Das Modell hat auch unnötige Details mitgelernt

Zusammenfassung und nächste Schritte

Machine Learning identifiziert Muster, indem es Grenzen in Daten findet, und trifft auf dieser Grundlage Vorhersagen
Der decision tree ist eine typische Methode, Daten mithilfe von if-then-Regeln zu klassifizieren
Overfitting ist das Phänomen, dass selbst bedeutungslose Unterscheidungen gelernt werden und dadurch die Generalisierungsfähigkeit sinkt
Im nächsten Artikel wird die Beziehung zwischen overfitting und dem Bias-Variance-Trade-off behandelt

1 Kommentare

GN⁺ 2026-03-16

Hacker-News-Kommentare

Ich bin einer der Mitwirkenden an R2D3. Ich freue mich, diesen Beitrag heute zu sehen. Hier oder auf Bluesky beantworte ich gern Fragen
- Ich würde gern eine Datenerfassungs-Pipeline auf diese Weise visualisieren, weiß aber nicht, wo ich anfangen soll. Ich habe das Bild im Kopf, aber bei der Umsetzung als Website bin ich ratlos
- Mich würde interessieren, ob es nach 10 Jahren Pläne für einen neuen Artikel gibt
Das ist wirklich ein Meisterwerk. Jedes Mal, wenn ich Machine Learning einführe, nutze ich diese interaktive Erklärung. Eine ähnliche Sammlung gibt es hier
- Gute Liste. Früher war Seeing Theory auf HN ein großes Thema, aber die Seite scheint inzwischen offline zu sein. Ich habe mein Datenvisualisierungstool in diesem PR ergänzt. Dort habe ich auch einen korrigierten Seeing-Theory-Link eingepflegt
Ich habe früher meine S-TIER-Liste mit Lernressourcen erwähnt.
S-TIER bedeutet Inhalte, in denen Animationen, Visualisierungen und interaktive Elemente perfekt zusammenspielen.
A-TIER ist informativ, aber weniger visuell, und meinungsgetriebene Blogs ordne ich ganz unten ein.
Die S-TIER-Seiten, die ich ausgewählt habe, sind:
growingswe.com/blog, ciechanow.ski/archives, mlu-explain.github.io, seeing-theory.brown.edu, svg-tutorial.com, lumafield.com/scan-of-the-month/health-wearables
Auf dieser Grundlage würde ich gern einen Bookmark-Manager bauen, der alle Blog-Links auf HN automatisch klassifiziert
- Auch auf visxai.io gibt es viele hervorragende Beispiele. Sehenswert ist der Hall-of-Fame-Bereich unten auf der Seite.
  Zwei Projekte, die ich früher gemacht habe und besonders mag, sind Fill in the Blank und Grokking
Abgespeichert. Den meisten Erklärtexten zu LLMs fehlen solche visuellen Referenzen.
Meistens ist es entweder eine 10.000-Wörter-Abhandlung oder eine Ein-Zeilen-Zusammenfassung auf Twitter, ohne etwas dazwischen
- Die Inhalte von 3Blue1Brown sind wirklich großartig. Er hat eine ganz eigene visuelle Sprache
Das ist ein Werk von 2015. Technisch wie konzeptionell war es seiner Zeit voraus
- Schade, dass es anscheinend keine weiteren Materialien von Tony Hschu und Stephanie Jyee gibt. Vielleicht weiß jemand mehr
Wirklich großartig. Das ist ein spannendes Feld an der Schnittstelle von Datenvisualisierung und AI/ML.
Empfehlenswerte Anlaufstellen sind mlu-explain.github.io, visxai.io, die Explorables von Google PAIR und poloclub von GA Tech
Ich wünschte, es gäbe mehr Artikel wie diesen. Ich mag visuelles Lernen.
Mich erinnert das an Build Your Own React. Es ist nicht direkt verwandt, aber ein ähnlich gestalteter, leicht nachvollziehbarer Blog. Dieses Format ist sehr lernförderlich
Das ist mit Abstand die beste Erklärung von Entscheidungsbäumen, die ich bisher gesehen habe.
Die Animation, die beim Herunterscrollen den Aufteilungsprozess visuell zeigt, ist sehr viel intuitiver als lange Erklärungen im Lehrbuch
Diese interaktiven Erklärungen sind immer noch eines der besten Beispiele dafür, ML-Konzepte intuitiv verständlich zu machen.
Dieser Ansatz ist viel wirksamer als technische Texte, die mit Formeln anfangen
Ich frage mich, ob es Material gibt, das höherdimensionale Konzepte wie den Attention-Mechanismus von Transformern im Stil von R2D3 erklärt
- Nicht ganz dasselbe, aber hilfreich sind Transformer Explainer und dieses YouTube-Video

Visuelle Einführung in Machine Learning (2015)

Grundkonzepte von Machine Learning

Intuitive Unterscheidung und Features

Boundary und Modelltraining

Funktionsweise von Decision Trees

Genauigkeit der Aufteilung und Trade-off

Rekursion und Wachstum des Baums

Vorhersage und Validierung

Zusammenfassung und nächste Schritte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare