3 Punkte von GN⁺ 2025-10-24 | 1 Kommentare | Auf WhatsApp teilen
  • Das kürzlich veröffentlichte DeepSeek-OCR-Paper untersucht die Möglichkeit, dass große Sprachmodelle (LLMs) direkt mit Bildpixeln statt mit Text als Eingabe trainiert werden können
  • Dieser Ansatz schlägt vor, den traditionellen OCR-Schritt (optische Zeichenerkennung) zu überspringen und visuelle Informationen direkt an das Modell weiterzugeben
  • Karpathy verweist auf dieses Paper und stellt die Frage, ob Pixel-Eingaben einen reichhaltigeren Kontext als Text-Token liefern können
  • Diese Idee steht im Zusammenhang mit der Entwicklungsrichtung von multimodaler KI und untersucht experimentell, ob Sprachmodelle visuelle Verständnisfähigkeiten verinnerlichen können
  • Die Diskussion wird als wichtige Forschungslinie bewertet, die künftig die Eingabestruktur und das Trainingsparadigma von LLMs neu definieren könnte

Zentrale Konzepte des DeepSeek-OCR-Papers

  • DeepSeek-OCR schlägt eine Architektur für große Sprachmodelle vor, die anstelle herkömmlicher textbasierter Eingaben Pixeldaten aus Dokumentbildern direkt verarbeitet
    • Traditionelle OCR-Systeme extrahieren zunächst Text aus Bildern und übergeben diesen dann an ein Sprachmodell; dabei gehen jedoch Zeichenformen, Layout und visueller Kontext verloren
    • Um diesen Verlust zu verringern, nutzt DeepSeek-OCR visuelle Informationen auf Pixelebene unverändert als Modelleingabe
  • Das Modell ist so konzipiert, dass es verschiedene visuelle Elemente innerhalb eines Bildes gleichzeitig versteht, darunter Schrift, Tabellen, Formeln und Diagramme
    • Dadurch wird nicht nur einfache Texterkennung möglich, sondern auch das Verständnis von Dokumentstrukturen und semantische Schlussfolgerungen

Karpathys Fragestellung

  • Karpathy erwähnt das Paper in seinem Twitter-Thread und stellt die Frage: „Sind Pixel eine bessere Eingabe als Text?“
    • Er weist darauf hin, dass die heutige Trainingsweise von LLMs allein mit Text-Token zu Informationsverlust führen kann
    • Insbesondere merkt er an, dass eine integrierte Trainingsarchitektur ohne OCR-Schritt möglich sein könnte, wenn Sprachmodelle visuellen Kontext direkt lernen können
  • Karpathy bewertet diesen Ansatz als potenziell vorteilhaft für die Generalisierungsfähigkeit des Modells und das multimodale Verständnis
    • Gleichzeitig weist er aber auch auf praktische Grenzen hin, etwa hohe Rechenkosten bei Pixel-Eingaben und die Schwierigkeit, große Datensätze aufzubauen

Technische Bedeutung und potenzielle Auswirkungen

  • Pixelbasierte Eingaben haben gegenüber textbasierten Eingaben den Vorteil einer höheren Informationsdichte und des Erhalts visuellen Kontexts
    • Beispielsweise geht bei Dokumenten mit Tabellen oder Formeln während der Umwandlung in Text strukturelle Information verloren, während Pixel-Eingaben diese unverändert erhalten
  • Andererseits bringen Pixel-Eingaben Probleme wie mehr Modellparameter, höhere Trainingskosten und langsamere Inferenz mit sich
    • Deshalb wird in realen Anwendungen ein hybrider Ansatz aus Text und Pixeln als realistische Alternative diskutiert
  • Die Diskussion gilt als experimentelle Untersuchung der Frage, ob LLMs über reines Sprachverständnis hinaus auch visuelle und räumliche Wahrnehmungsfähigkeiten verinnerlichen können

Bedeutung für die Industrie

  • In Branchen, die komplexe Dokumentstrukturen verarbeiten, etwa Dokumentenverarbeitung, Finanzen, Recht und Gesundheitswesen, ist der Ansatz von DeepSeek-OCR von großer Bedeutung
    • So könnte beispielsweise ein KI-System aufgebaut werden, das die visuelle Anordnung gescannter Verträge oder Rechnungen direkt versteht
  • Karpathys Diskussion stößt eine grundlegende Neubetrachtung von KI-Eingabeformaten an und könnte die künftige Richtung des LLM-Designs beeinflussen
  • Pixelbasierte LLMs könnten zu einer Ablösung oder Integration von OCR-Technologie führen und werden als neuer Wendepunkt in der Forschung zu multimodaler KI betrachtet

1 Kommentare

 
GN⁺ 2025-10-24
Hacker-News-Kommentare
  • Es geht nicht um Pixel, sondern um Percel. Pixel sind Bildpunkte, aber Percel sind Einheiten wahrgenommener Information, die auch Klang, Empfindungen und sogar Gedankentokens umfassen können
    Beim Menschen werden mehrere Sinne zu Perceln kombiniert wahrgenommen, und neuronale Netze, insbesondere LLMs, verarbeiten Percel nicht einzeln, sondern gemeinsam im Kontext benachbarter Percel

    • Ich habe dazu einmal einen Forschungsförderungsantrag geschrieben. ML-Forschende haben ihn als wenig praktisch verrissen, aber Neurowissenschaftler haben ihn stark unterstützt
      Das Potenzial interdisziplinärer Forschung ist groß, aber es ist frustrierend, dass man schwer an Finanzierung kommt, nur weil es nicht in bestehende Raster passt
    • Das Konzept ist so interessant, dass ich danach gesucht habe, aber nichts dazu gefunden habe. Ist das vielleicht ein selbst erfundener Neologismus, oder gibt es dazu Papers oder Forschung, auf die du dich beziehst?
    • Am Ende wirkt es für mich doch ähnlich wie das Konzept des latenten Raums. Es ist insofern vergleichbar, als verwandte Vektoren zu einer Struktur gebündelt sind
    • Wenn man Percel als Vektoren darstellen will, müsste man sie vermutlich in den latenten Raum abbilden, indem man die Dimensionen nach Wahrnehmungsmodalität (Sehen, Hören usw.) aufteilt
    • Nur als Scherz, aber ich hätte fast Lust, statt Percel Toxel zu sagen
  • Kill the tokenizer“ ist ein radikaler, aber grundlegender Vorschlag
    Tokenisierung ist letztlich nur ein Hack, um Sprache quantifizierbar zu machen, und verzerrt ihr eigentliches Wesen
    Die Vorstellung, dass Pixel eine mächtigere Repräsentationseinheit sein könnten, ist ungewohnt, aber irgendwer muss neue Ansätze ausprobieren

    • Wenn ich lese, verarbeite ich Text gleichzeitig visuell und auditiv
      Deshalb fühlt sich visuell basierte Eingabe wie ein natürliches Ergebnis dieser Entwicklung an
      Wenn man Text nicht rendert und per OCR liest, sondern Sprachsamples per TTS encodiert, wäre das vielleicht effizienter als Pixel. Natürlich hängt das auch von Auflösung oder Samplerate ab
    • Metas Byte Latent Transformer sollte den Tokenizer ersetzen, hat am Ende aber keine größere Aufmerksamkeit bekommen
    • Dann stellt sich allerdings die Frage, worüber beim Generieren wieder decodiert werden soll. Tokens bedeuten mehr als nur eine visuelle Darstellung, deshalb reicht es nicht, einfach Textbilder zu erzeugen
    • Text hat eine sehr hohe Informationsdichte. Deshalb ist er als Eingabe weiterhin effizient
    • Ich verstehe es auch nicht richtig. Ergibt es wirklich Sinn, dass das Bild von Text besser sein soll als der Text selbst? Das klingt eher so, als wolle man gleich den ganzen Bildschirm abfotografieren und die Kamera mittrainieren lassen
  • Als interessante verwandte Arbeit gibt es ein Paper von Lex Flagel und anderen, in dem DNA-Sequenzdaten in Bilder umgewandelt und mit CNNs trainiert wurden
    Dabei konnte das CNN genetische Messwerte reproduzieren, die zuvor mit klassischer textbasierter Analyse gewonnen wurden
    Link zum Paper

  • Im Kern der jüngsten Diskussion steht das Bewusstsein dafür, dass wir bei der Darstellung von Sprache für Maschinen verlustbehaftete Abstraktionen verwenden
    Tokenisierung ist nur eine davon, und Pixel oder Sprachsignale sind andere Näherungen
    Der eigentliche Wert solcher Experimente liegt darin, die Entwurfsannahmen heutiger Architekturen zu überprüfen
    Ansätze, die Alignment über mehrere Modalitäten lernen, könnten bessere latente Strukturen oder Trainingsverfahren aufdecken, was wiederum zu besseren bestehenden Text-Encodern führen könnte
    Gerade bei Sprachen mit unscharfen Wortgrenzen könnten alternative Encodings sehr hilfreich sein

  • Die im Paper genannte Kette „Informationskompression → kürzeres Kontextfenster → höhere Effizienz“ ist interessant,
    aber ich frage mich, ob die Kompressionsrate nicht sogar schlechter werden könnte, wenn Schriftgröße, Font oder Abstände variieren

  • Ich stimme Karpathy zu.
    Einer der Vorteile von Texttokens ist, dass sie ein implizites Verständnis der Eingabemethode, also der QWERTY-Tastatur, mitlernen
    Zum Beispiel werden „Hello“ und „Hwllo“ aufgrund benachbarter Tasten auf der Tastatur semantisch als ähnlich erkannt

    • Wenn AI mit pixelbasierter Eingabe lesen könnte, würde sie Varianten wie „HWLLO“ oder „H3LL0“ vermutlich über visuelle Ähnlichkeit ebenfalls ähnlich erkennen
      Dafür wäre zwar mehr Training nötig, aber am Ende bekäme man eine verallgemeinerte Erkennungsfähigkeit
    • Ich kann dem Gedanken des typo learning etwas abgewinnen. Ich habe das auch in meinem Video behandelt
      Man kann auch in Bildern Tippfehler erzeugen und damit trainieren, also halte ich das nicht für ein großes Problem
  • Wenn ich an mich selbst denke, höre ich in meinem Kopf einen Fluss von Wörtern
    Nicht Seiten oder Bilder, sondern eine Folge von gesprochen klingenden Wörtern

  • Die heutige Tokenisierung könnte ineffizient sein. Sprache besitzt bereits eine hochgradig komprimierte Struktur,
    aber es ist möglich, dass es im latenten Raum bessere Repräsentationsformen gibt

    • Auch in der Branche sind die Grenzen von Tokenizern gut bekannt. Aber eine tatsächlich skalierbare Alternative zu implementieren, ist extrem schwierig
    • Bildmodelle verwenden gröbere Tokens. Auch für Text könnte man große n-Gram-basierte Tokenvokabulare bauen,
      aber die heutige LLM-Architektur ist beim Umgang mit zu großen Ausgabeverteilungen ineffizient
  • Ich habe das Gefühl, dass dieser Ansatz noch weit davon entfernt ist, praktisch zu sein
    Immer wenn ChatGPT vorschlägt: „Sollen wir das als Bild visualisieren?“, ist das Ergebnis voller Halluzinationen

    • Aber Bildgenerierung und Bildeingabe sind zwei völlig verschiedene Probleme
      Hier geht es darum, Text in Bilder umzuwandeln und einem LLM als Eingabe zu geben, nicht darum, Bilder zu erzeugen
  • Zuletzt gab es dazu auch Diskussionen unter
    DeepSeek-OCR auf Nvidia Spark und
    DeepSeek OCR project.
    Beide wurden im Oktober 2025 intensiv diskutiert