25 Punkte von clumsypupil 2025-10-20 | 3 Kommentare | Auf WhatsApp teilen

Zusammenfassung in einer Zeile

Es wird eine optische Kontextkompression vorgeschlagen und validiert, bei der Dokumente/Chatverläufe in Bilder (visuelle Tokens) umgewandelt werden, um den LLM-Kontext stark zu verkleinern (≈7–20×), und anschließend präzise wieder als Text rekonstruiert werden (OCR). Durch die Kombination eines neuen Vision-Encoders (DeepEncoder) mit einem 3B-MoE-Decoder wird eine Dokument-Parsing-Leistung auf SOTA-Niveau auch mit wenigen visuellen Tokens erreicht.

Problemdefinition
• Bei LLMs steigen die quadratischen Kosten mit zunehmender Länge stark an.
• Wenn Dokumenttext als Bild gerendert wird, ist die Zahl der visuellen Tokens deutlich geringer als die der Text-Tokens → wenn die Bild-zu-Text-Rekonstruktion gut gelingt, ist eine hocheffiziente Kompression möglich.
• OCR ist ein guter Versuchsaufbau, weil natürliche Kompressions-/Rekonstruktionsabbildungen zwischen Bild und Text sowie quantitative Evaluation möglich sind.

Methodenüberblick

Architektur: DeepEncoder (Encoder) + DeepSeek-3B-MoE-A570M (Decoder)
• DeepEncoder (Kern)
• Besteht aus zwei Stufen:
1. Visueller Wahrnehmungsblock auf Basis von Window Attention (SAM-base-Familie, ~80M) → niedriger aktiver Speicherbedarf auch bei hoher Auflösung
2. 16×-Convolution-Kompressor zur starken Reduktion der Token-Anzahl, danach
3. Visueller Wissensblock auf Basis globaler Attention (CLIP-large, erstes Patch-Embedding entfernt)
• Unterstützung mehrerer Auflösungen (Modi): Tiny (64 Tokens, 512²), Small (100, 640²), Base (256, 1024²), Large (400,1280²) +
Gundam (n 640²-Kacheln + 1024²-Globalansicht → Tokens = n×100+256),
Gundam-M (1024²-Kacheln + 1280² global)
• Konzept der gültigen Tokens (valid): Leerräume durch Padding werden ausgeschlossen, sodass nur effektive Tokens gezählt werden (per Formel definiert).
• MoE-Decoder: DeepSeek-3B-MoE (12 Schichten) rekonstruiert aus den vom Encoder erzeugten komprimierten visuellen Tokens den ursprünglichen Text.

Daten-Engine & Training
• OCR 1.0 (klassisches OCR):
• 30 Millionen Internet-PDF-Seiten (ca. 100 Sprachen):
• Coarse: mit fitz extrahiert (für das Training der optischen Texterkennung)
• Fine: je 2 Millionen chinesische und englische Seiten mit fortgeschrittenem Layout/OCR präzise gelabelt (Boxen + Text interleaved), zusätzlich 3 Millionen Seiten aus Word-Dokumenten
• OCR für natürliche Szenen: je 10 Millionen chinesische/englische Samples (PaddleOCR-Labels)
• OCR 2.0 (Parsing komplexer synthetischer Bilder):
• Charts (pyecharts/matplotlib): 10 Millionen Bilder → als HTML-Tabellen gelabelt
• Chemische Formeln: 5 Millionen RDKit-Renderings aus PubChem-SMILES
• Ebene Geometrie: Datengenerierung nach dem Slow-Perception-Ansatz (u. a. Liniensegment-Wörterbuch)
• Allgemeine Vision: 100 Millionen LAION-Samples zur Encoder-Vortrainierung beigemischt
• Trainingsinfrastruktur: 20 Nodes (je 8×A100-40G), vierstufige Pipeline-Parallelisierung (Encoder 2, Decoder 2), DP=40, globaler Batch 640.
• Nur-Text: 90B Tok/Tag, multimodal: 70B Tok/Tag
• Produktive Datengenerierung: Mit 20 Nodes können pro Tag 33 Millionen Seiten erzeugt werden.

Experimentelle Ergebnisse

  1. Forschung zur optischen Kontextkompression (Compression) — Fox-Benchmark (100 englische Seiten, 600–1300 Tokens)
    • Für Small (100 visuelle Tokens) Präzision & Kompressionsverhältnis (Text-Tokens/visuelle Tokens):
    • 600–700: 98.5%, 6.7×
    • 700–800: 97.3%, 7.5×
    • 800–900: 96.8%, 8.5×
    • 900–1000: 96.8%, 9.7×
    • 1000–1100: 91.5%, 10.6×
    • 1100–1200: 89.8%, 11.3×
    • 1200–1300: 87.1%, 12.6×

    • Zusammenfassung: Bei 9–10× Kompression werden 96%+ Präzision erreicht, bei 10–12× etwa 90%, bei rund 20× etwa 60%.
    → Um 10× liegt die Qualität nahe an quasi-verlustfrei, darüber nimmt sie durch komplexe Layouts und Unschärfe bei niedriger Auflösung schrittweise ab.

  2. Praxisnahes Dokument-Parsing (OmniDocBench) — Editierdistanz (niedriger ist besser)
    • Mit nur 100 Tokens (640²) besser als GOT-OCR2.0 (256 Tokens)
    • Mit 400 Tokens (1280²) auf dem Niveau aktueller SOTA
    • Im Gundam-Modus (<800 Tokens) bessere Leistung als MinerU-2.0 (≈6,790 Tokens)
    → Sehr hohe Token-Effizienz (vergleichbare/bessere Leistung mit wenigen visuellen Tokens).

  3. Qualitative Ergebnisse (Funktionen)
    • Deep Parsing:
    • Chart → HTML-Tabelle,
    • chemische Formel → SMILES,
    • geometrische Figur → Wörterbuchstruktur (Liniensegmente/Koordinaten/Typ usw.)
    • Auch für natürliche Bilder ist grundlegendes Question Answering möglich.
    • Mehrsprachig: PDF-Erkennung in etwa 100 Sprachen (Layout-/Nicht-Layout-Ausgabe per Prompt steuerbar)

Bedeutung
• Es wird empirisch gezeigt, dass Kompression über visuelle Tokens eine vielversprechende Lösung für das Kostenproblem extrem langer LLM-Kontexte ist.
• Vorgeschlagen wird eine Memory-Decay-Strategie, bei der jüngere Dialoge/Kontexte hochauflösend bleiben und ältere Historien schrittweise verkleinert werden (höhere Kompressionsrate) → eine Ressourcenverteilung ähnlich der menschlichen Vergessenskurve.
• Optimierung des Token-Budgets: Es werden Richtlinien für die benötigte Token-Anzahl je nach Aufgabe/Dokumenttyp gegeben (für extrem dichte Inhalte wie Zeitungen werden Gundam/M-Modi empfohlen).

Einschränkungen & künftige Aufgaben
• Der aktuelle Stand ist eher ein OCR-basiertes PoC; für eine echte Digital↔Optisch↔Digital-Pipeline ist weitere Forschung zur Verlustanalyse nötig.
• Die Ursachen des Leistungseinbruchs jenseits von 10× Kompression (komplexe Layouts, Unschärfe bei niedriger Auflösung) müssen verbessert werden.
• Es gibt Themen bei der Format-/Benchmark-Konsistenz (z. B. kann das tatsächliche Ergebnis im Fox-Benchmark wegen unterschiedlicher Evaluationsformate unterschätzt sein).

Wichtige Punkte im Überblick
• DeepEncoder: Window Attention (geringe Aktivierung) → 16× Conv-Kompression → globale Attention (CLIP)
• Mehrere Auflösungen + Kacheln + globaler Blick (Gundam) für ein Gleichgewicht aus Speicher-/Token-Effizienz und Leistung
• Bei ≈10× Kompression wird eine Rekonstruktionspräzision von ~96% erreicht → möglicher Schlüssel zur drastischen Senkung der Kontextkosten
• OmniDocBench: Annäherung an bzw. Übertreffen von SOTA bei 100–800 visuellen Tokens
• Praxisnutzen von Charts über Chemie und Geometrie bis hin zu Mehrsprachigkeit

3 Kommentare

 
m00nlygreat 2025-10-21

Wow, beeindruckend haha. Aber wenn man es sowieso wiederherstellt, sind das dann nicht am Ende dieselben Token? Spart man da nicht nur Token im gespeicherten Zustand? Ich bin da etwas begriffsstutzig und weiß es nicht genau schnief. Kann das jemand so erklären, dass man es versteht?

 
luminance 2025-10-21

Die DeepSeek-Idee ist wirklich gut.

 
xguru 2025-10-21

DeepSeek OCR - ein hocheffizientes OCR-Modell durch Komprimierung des visuellen Kontexts
Siehe auch die von GN+ zusammengefasste Version und die Hacker-News-Kommentare.