- Das kürzlich veröffentlichte DeepSeek-OCR-Paper untersucht die Möglichkeit, dass große Sprachmodelle (LLMs) direkt mit Bildpixeln statt mit Text als Eingabe trainiert werden können
- Dieser Ansatz schlägt vor, den traditionellen OCR-Schritt (optische Zeichenerkennung) zu überspringen und visuelle Informationen direkt an das Modell weiterzugeben
- Karpathy verweist auf dieses Paper und stellt die Frage, ob Pixel-Eingaben einen reichhaltigeren Kontext als Text-Token liefern können
- Diese Idee steht im Zusammenhang mit der Entwicklungsrichtung von multimodaler KI und untersucht experimentell, ob Sprachmodelle visuelle Verständnisfähigkeiten verinnerlichen können
- Die Diskussion wird als wichtige Forschungslinie bewertet, die künftig die Eingabestruktur und das Trainingsparadigma von LLMs neu definieren könnte
Zentrale Konzepte des DeepSeek-OCR-Papers
- DeepSeek-OCR schlägt eine Architektur für große Sprachmodelle vor, die anstelle herkömmlicher textbasierter Eingaben Pixeldaten aus Dokumentbildern direkt verarbeitet
- Traditionelle OCR-Systeme extrahieren zunächst Text aus Bildern und übergeben diesen dann an ein Sprachmodell; dabei gehen jedoch Zeichenformen, Layout und visueller Kontext verloren
- Um diesen Verlust zu verringern, nutzt DeepSeek-OCR visuelle Informationen auf Pixelebene unverändert als Modelleingabe
- Das Modell ist so konzipiert, dass es verschiedene visuelle Elemente innerhalb eines Bildes gleichzeitig versteht, darunter Schrift, Tabellen, Formeln und Diagramme
- Dadurch wird nicht nur einfache Texterkennung möglich, sondern auch das Verständnis von Dokumentstrukturen und semantische Schlussfolgerungen
Karpathys Fragestellung
- Karpathy erwähnt das Paper in seinem Twitter-Thread und stellt die Frage: „Sind Pixel eine bessere Eingabe als Text?“
- Er weist darauf hin, dass die heutige Trainingsweise von LLMs allein mit Text-Token zu Informationsverlust führen kann
- Insbesondere merkt er an, dass eine integrierte Trainingsarchitektur ohne OCR-Schritt möglich sein könnte, wenn Sprachmodelle visuellen Kontext direkt lernen können
- Karpathy bewertet diesen Ansatz als potenziell vorteilhaft für die Generalisierungsfähigkeit des Modells und das multimodale Verständnis
- Gleichzeitig weist er aber auch auf praktische Grenzen hin, etwa hohe Rechenkosten bei Pixel-Eingaben und die Schwierigkeit, große Datensätze aufzubauen
Technische Bedeutung und potenzielle Auswirkungen
- Pixelbasierte Eingaben haben gegenüber textbasierten Eingaben den Vorteil einer höheren Informationsdichte und des Erhalts visuellen Kontexts
- Beispielsweise geht bei Dokumenten mit Tabellen oder Formeln während der Umwandlung in Text strukturelle Information verloren, während Pixel-Eingaben diese unverändert erhalten
- Andererseits bringen Pixel-Eingaben Probleme wie mehr Modellparameter, höhere Trainingskosten und langsamere Inferenz mit sich
- Deshalb wird in realen Anwendungen ein hybrider Ansatz aus Text und Pixeln als realistische Alternative diskutiert
- Die Diskussion gilt als experimentelle Untersuchung der Frage, ob LLMs über reines Sprachverständnis hinaus auch visuelle und räumliche Wahrnehmungsfähigkeiten verinnerlichen können
Bedeutung für die Industrie
- In Branchen, die komplexe Dokumentstrukturen verarbeiten, etwa Dokumentenverarbeitung, Finanzen, Recht und Gesundheitswesen, ist der Ansatz von DeepSeek-OCR von großer Bedeutung
- So könnte beispielsweise ein KI-System aufgebaut werden, das die visuelle Anordnung gescannter Verträge oder Rechnungen direkt versteht
- Karpathys Diskussion stößt eine grundlegende Neubetrachtung von KI-Eingabeformaten an und könnte die künftige Richtung des LLM-Designs beeinflussen
- Pixelbasierte LLMs könnten zu einer Ablösung oder Integration von OCR-Technologie führen und werden als neuer Wendepunkt in der Forschung zu multimodaler KI betrachtet
1 Kommentare
Hacker-News-Kommentare
Es geht nicht um Pixel, sondern um Percel. Pixel sind Bildpunkte, aber Percel sind Einheiten wahrgenommener Information, die auch Klang, Empfindungen und sogar Gedankentokens umfassen können
Beim Menschen werden mehrere Sinne zu Perceln kombiniert wahrgenommen, und neuronale Netze, insbesondere LLMs, verarbeiten Percel nicht einzeln, sondern gemeinsam im Kontext benachbarter Percel
Das Potenzial interdisziplinärer Forschung ist groß, aber es ist frustrierend, dass man schwer an Finanzierung kommt, nur weil es nicht in bestehende Raster passt
„Kill the tokenizer“ ist ein radikaler, aber grundlegender Vorschlag
Tokenisierung ist letztlich nur ein Hack, um Sprache quantifizierbar zu machen, und verzerrt ihr eigentliches Wesen
Die Vorstellung, dass Pixel eine mächtigere Repräsentationseinheit sein könnten, ist ungewohnt, aber irgendwer muss neue Ansätze ausprobieren
Deshalb fühlt sich visuell basierte Eingabe wie ein natürliches Ergebnis dieser Entwicklung an
Wenn man Text nicht rendert und per OCR liest, sondern Sprachsamples per TTS encodiert, wäre das vielleicht effizienter als Pixel. Natürlich hängt das auch von Auflösung oder Samplerate ab
Als interessante verwandte Arbeit gibt es ein Paper von Lex Flagel und anderen, in dem DNA-Sequenzdaten in Bilder umgewandelt und mit CNNs trainiert wurden
Dabei konnte das CNN genetische Messwerte reproduzieren, die zuvor mit klassischer textbasierter Analyse gewonnen wurden
Link zum Paper
Im Kern der jüngsten Diskussion steht das Bewusstsein dafür, dass wir bei der Darstellung von Sprache für Maschinen verlustbehaftete Abstraktionen verwenden
Tokenisierung ist nur eine davon, und Pixel oder Sprachsignale sind andere Näherungen
Der eigentliche Wert solcher Experimente liegt darin, die Entwurfsannahmen heutiger Architekturen zu überprüfen
Ansätze, die Alignment über mehrere Modalitäten lernen, könnten bessere latente Strukturen oder Trainingsverfahren aufdecken, was wiederum zu besseren bestehenden Text-Encodern führen könnte
Gerade bei Sprachen mit unscharfen Wortgrenzen könnten alternative Encodings sehr hilfreich sein
Die im Paper genannte Kette „Informationskompression → kürzeres Kontextfenster → höhere Effizienz“ ist interessant,
aber ich frage mich, ob die Kompressionsrate nicht sogar schlechter werden könnte, wenn Schriftgröße, Font oder Abstände variieren
Ich stimme Karpathy zu.
Einer der Vorteile von Texttokens ist, dass sie ein implizites Verständnis der Eingabemethode, also der QWERTY-Tastatur, mitlernen
Zum Beispiel werden „Hello“ und „Hwllo“ aufgrund benachbarter Tasten auf der Tastatur semantisch als ähnlich erkannt
Dafür wäre zwar mehr Training nötig, aber am Ende bekäme man eine verallgemeinerte Erkennungsfähigkeit
Man kann auch in Bildern Tippfehler erzeugen und damit trainieren, also halte ich das nicht für ein großes Problem
Wenn ich an mich selbst denke, höre ich in meinem Kopf einen Fluss von Wörtern
Nicht Seiten oder Bilder, sondern eine Folge von gesprochen klingenden Wörtern
Die heutige Tokenisierung könnte ineffizient sein. Sprache besitzt bereits eine hochgradig komprimierte Struktur,
aber es ist möglich, dass es im latenten Raum bessere Repräsentationsformen gibt
aber die heutige LLM-Architektur ist beim Umgang mit zu großen Ausgabeverteilungen ineffizient
Ich habe das Gefühl, dass dieser Ansatz noch weit davon entfernt ist, praktisch zu sein
Immer wenn ChatGPT vorschlägt: „Sollen wir das als Bild visualisieren?“, ist das Ergebnis voller Halluzinationen
Hier geht es darum, Text in Bilder umzuwandeln und einem LLM als Eingabe zu geben, nicht darum, Bilder zu erzeugen
Zuletzt gab es dazu auch Diskussionen unter
DeepSeek-OCR auf Nvidia Spark und
DeepSeek OCR project.
Beide wurden im Oktober 2025 intensiv diskutiert