Der aktuelle Stand generativer Modelle

xguru · 2025-01-06T10:21:01+09:00

Im Laufe des Jahres 2024 gab es sowohl bei der Text- als auch bei der Bildgenerierung große Fortschritte Anders als in der Anfangsphase, in der OpenAI allein davonzog, bauen seit Ende letzten Jahres verschiedene Labs wie Anthropic, DeepSeek und Qwen ihre Fronten im Wettbewerb aus Eine Übersicht über die Forschungstrends 2024–2025 sowie eine kurze Einordnung der künftig vielversprechenden Bereiche > „Ein Burggraben, der nur auf Closed Source aufgebaut ist, wird nicht lange halten > Auch OpenAI wird andere nicht daran hindern können, aufzuholen > Am Ende ist der wahre Burggraben, unsere Organisation und Kultur weiterzuentwickeln und Talente hervorzubringen, die Innovation schaffen können“ > ─ Liang Wenfeng, CEO von DeepSeek # Language Große Sprachmodelle (LLMs) stehen im Zentrum des aktuellen AI-Booms; hier fließen auch die meisten Forschungsanstrengungen und Investitionen hinein 2024 gab es große Fortschritte sowohl bei der Modellleistung als auch bei neuen Skalierungsparadigmen Architecture Neue Architekturen wie Mamba oder xLSTM wurden erprobt, doch zumindest vorerst dürfte der decoder-only Transformer die dominierende Hauptströmung bleiben Dense Transformer Llama 3 ist ein repräsentatives Beispiel; Meta optimiert den klassischen Dense Transformer bis ans Limit Die als Noam Transformer bezeichnete Form (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE usw.) hat sich de facto als Standard etabliert Ansätze wie die von DeepSeek vorgestellte Multi Latent Attention (MLA) dürften stärker in den Fokus rücken; auch Verfahren als Ersatz oder Modifikation von RoPE könnten auftauchen Mixture-of-Experts Mit den Gerüchten, GPT-4 sei ein riesiges MoE, ist das Thema 2024 erneut in den Vordergrund gerückt Im Open-Source-Bereich sind Mistrals Mixtral sowie DeepSeek v2·v3 repräsentative Beispiele MoE hat den Nachteil, dass das Serving nicht einfach ist, doch DeepSeek forscht hier sehr aktiv Künftig sind Forschungsarbeiten in viele Richtungen zu erwarten, etwa zu Routing-Mechanismen, zur Anwendung von MoE pro Layer oder zur Interpretierbarkeit von Experten Tokenization Viele sind der Meinung, dass es eine Innovation braucht, die Byte Pair Encoding ersetzt; bislang gibt es aber noch keine gravierenden Probleme, sodass es weiter genutzt wird Meta sorgte mit zwei Ansätzen für Aufmerksamkeit: CoT im latent space zu verarbeiten (byte-based) oder Transformer direkt auf Byte-Ebene zu trainieren Beim Byte Latent Transformer (BLT) wird für die Verarbeitung von Byte-Eingaben eine Encoder/Decoder-Struktur verwendet Es gibt Bedenken, ob die Qualität des Byte-Decoders nicht zum Flaschenhals werden könnte Reasoning In der zweiten Hälfte von 2024 verbesserten sich die Fähigkeiten der Modelle zum mathematischen, naturwissenschaftlichen und Coding-bezogenen Schließen sprunghaft (o1, o3, DeepSeek r1 usw.) Das hängt mit einem neuen Skalierungsparadigma zusammen, dem „inference-time compute“ Dabei erzeugt das Modell sehr lange Chain-of-Thoughts und überprüft sowie nutzt diesen Prozess selbstständig Wie OpenAIs o1 und o3 entstanden sind, ist nicht öffentlich, doch es ist wahrscheinlich, dass RL-Ansätze wie im Paper „Let’s Verify Step by Step“ verwendet wurden Es ist zu erwarten, dass auch Anthropic oder andere Labs ähnliche Reasoner vorstellen werden Von besonderem Interesse ist, ob sich dieser bisher stark auf STEM fokussierte Ansatz auch auf breitere Domänen wie kreatives Schreiben ausweiten lässt Distillation Es gibt die Vermutung, dass OpenAI bei der Einführung von o1 die Chain of Thought deshalb nicht offengelegt hat, weil Fälle des erneuten Trainings auf Modelloutputs (z. B. DeepSeek v3) erheblich zur Leistungssteigerung beitragen DeepSeek v3 reproduziert die für Reasoner typische lange CoT zwar nicht direkt, scheint intern aber Modi zu unterscheiden und bei Bedarf zu schlussfolgern Ob kleinere Modelle (wie o1-mini) an die Leistung großer Modelle heranreichen oder ob es intern geheime Distillation-Techniken gibt, ist ebenfalls ein spannendes Forschungsthema # Image Im Bildbereich steigen viele kleine und mittelgroße Labs ein, wodurch Innovationen schnell voranschreiten Die wichtigsten Modelle derzeit (Flux, Stable Diffusion 3, MidJourney, Sora usw.) basieren auf Diffusion Transformern, und das Flow-Matching-Framework ist der Mainstream Architecture Häufig verwendet werden Formen, die Diffusion Transformer mit adaptiver Normalisierung und MM-DIT-Strukturen kombinieren Versuche, Text-Encoder anstelle von CLIP durch kleinere LLMs zu ersetzen, dürften 2025 zunehmen Framework Es zeichnet sich ein Trend ab, Flow Matching gegenüber traditionellen probabilistischen Ansätzen zu bevorzugen Auch AutoRegressive-Modelle könnten wieder an Bedeutung gewinnen; das Paper zu Visual Autoregressive Modelling erhielt große Aufmerksamkeit Auch das von xAI veröffentlichte Verfahren zur Bildgenerierung wird als autoregressiv vermutet, die genauen Gründe dafür sind jedoch nicht bekannt # Multimodality OpenAI, Anthropic und andere boten bereits die Möglichkeit, Bilder in Modelle einzuspeisen, doch in der ersten Hälfte von 2024 gewann offenere multimodale Forschung deutlich an Dynamik Visual Language Models Verschiedene VLMs wie Qwen oder PaliGemma erschienen und werden für Bildbeschreibung oder Dokumentenparsing genutzt Die Struktur, bei der ein Vision Transformer mit einem vortrainierten LLM verbunden wird, hat sich als Standard etabliert 2025 dürften solche VLMs in Omni-Models integriert werden Omni-Modal Models OpenAI zeigte mit GPT-4o zwar ein Beispiel, das auch Bilder generiert, eine vollständige Offenlegung blieb jedoch aus Bei Chameleon und ähnlichen Arbeiten wurden frühe Fusionsmodelle mit Bild-Tokenizer und -Detokenizer erprobt Es gibt kontroverse Diskussionen darüber, nicht-textuelle Ausgaben ebenfalls als discrete tokens zu behandeln Gerüchte, dass Llama 4 bereits als omnimodales Modell trainiert wird, wecken Erwartungen # Agents and Human-AI Interfaces Die Definition von „AI Agent“ ist unscharf, doch hier wird damit vorläufig ein Ansatz bezeichnet, bei dem ein LLM Werkzeugnutzungsrechte erhält, um Ziele selbstständig zu erreichen Gemessen an SWE-Bench wird erwartet, dass bis Ende 2025 Code-Debugging und Feature-Implementierung auf einem gewissen Niveau automatisiert werden können Für einen Ersatz von Engineers ist es jedoch noch zu früh; zuerst dürfte die Einführung in Bereichen mit größerer Fehlertoleranz erfolgen, etwa bei Reiseplanung oder Informationssuche Editorartige UIs wie Cursor könnten für den Einsatz von Agenten besser geeignet sein Agent-Aufrufe verursachen hohe Token-Kosten, daher ist unklar, ob vollständig autonome Agenten in Bezug auf Kosten und Effizienz sinnvoll sind # 2025 Dass sich AI sehr schnell entwickelt, hört man oft; tatsächlich sind die Veränderungen aber so groß, dass sich ihr Tempo kaum noch abschätzen lässt Dieser Text behandelt nur kurz den aktuellen Stand rund um Text und Bild sowie die Erwartungen für 2025. Weitere bemerkenswerte Bereiche, die nicht abgedeckt wurden, sind: Trainingsoptimierung (Muon, NanoGPT speedruns) Video-Modelle (Lösung von Problemen bei Konsistenz und Inferenzgeschwindigkeit) Quantisierung (1-Bit-Quantisierung, Präzision unterhalb von FP8 usw.) Forschung zur Modellinterpretierbarkeit Evaluation und Benchmarks (es wäre wünschenswert, wenn arbeitsnahe Evaluierungen wie SWE-Bench zunehmen) Es bleibt zu hoffen, dass es 2025 weitere Fortschritte gibt

(nrehiew.github.io)

20 Punkte von xguru 2025-01-06 | 2 Kommentare | Auf WhatsApp teilen

Im Laufe des Jahres 2024 gab es sowohl bei der Text- als auch bei der Bildgenerierung große Fortschritte
Anders als in der Anfangsphase, in der OpenAI allein davonzog, bauen seit Ende letzten Jahres verschiedene Labs wie Anthropic, DeepSeek und Qwen ihre Fronten im Wettbewerb aus
Eine Übersicht über die Forschungstrends 2024–2025 sowie eine kurze Einordnung der künftig vielversprechenden Bereiche
> „Ein Burggraben, der nur auf Closed Source aufgebaut ist, wird nicht lange halten
> Auch OpenAI wird andere nicht daran hindern können, aufzuholen
> Am Ende ist der wahre Burggraben, unsere Organisation und Kultur weiterzuentwickeln und Talente hervorzubringen, die Innovation schaffen können“
> ─ Liang Wenfeng, CEO von DeepSeek

# Language

Große Sprachmodelle (LLMs) stehen im Zentrum des aktuellen AI-Booms; hier fließen auch die meisten Forschungsanstrengungen und Investitionen hinein
2024 gab es große Fortschritte sowohl bei der Modellleistung als auch bei neuen Skalierungsparadigmen
Architecture
- Neue Architekturen wie Mamba oder xLSTM wurden erprobt, doch zumindest vorerst dürfte der decoder-only Transformer die dominierende Hauptströmung bleiben
- Dense Transformer
  - Llama 3 ist ein repräsentatives Beispiel; Meta optimiert den klassischen Dense Transformer bis ans Limit
  - Die als Noam Transformer bezeichnete Form (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE usw.) hat sich de facto als Standard etabliert
  - Ansätze wie die von DeepSeek vorgestellte Multi Latent Attention (MLA) dürften stärker in den Fokus rücken; auch Verfahren als Ersatz oder Modifikation von RoPE könnten auftauchen
- Mixture-of-Experts
  - Mit den Gerüchten, GPT-4 sei ein riesiges MoE, ist das Thema 2024 erneut in den Vordergrund gerückt
  - Im Open-Source-Bereich sind Mistrals Mixtral sowie DeepSeek v2·v3 repräsentative Beispiele
  - MoE hat den Nachteil, dass das Serving nicht einfach ist, doch DeepSeek forscht hier sehr aktiv
  - Künftig sind Forschungsarbeiten in viele Richtungen zu erwarten, etwa zu Routing-Mechanismen, zur Anwendung von MoE pro Layer oder zur Interpretierbarkeit von Experten
Tokenization
- Viele sind der Meinung, dass es eine Innovation braucht, die Byte Pair Encoding ersetzt; bislang gibt es aber noch keine gravierenden Probleme, sodass es weiter genutzt wird
- Meta sorgte mit zwei Ansätzen für Aufmerksamkeit: CoT im latent space zu verarbeiten (byte-based) oder Transformer direkt auf Byte-Ebene zu trainieren
- Beim Byte Latent Transformer (BLT) wird für die Verarbeitung von Byte-Eingaben eine Encoder/Decoder-Struktur verwendet
- Es gibt Bedenken, ob die Qualität des Byte-Decoders nicht zum Flaschenhals werden könnte
Reasoning
- In der zweiten Hälfte von 2024 verbesserten sich die Fähigkeiten der Modelle zum mathematischen, naturwissenschaftlichen und Coding-bezogenen Schließen sprunghaft (o1, o3, DeepSeek r1 usw.)
- Das hängt mit einem neuen Skalierungsparadigma zusammen, dem „inference-time compute“
  - Dabei erzeugt das Modell sehr lange Chain-of-Thoughts und überprüft sowie nutzt diesen Prozess selbstständig
- Wie OpenAIs o1 und o3 entstanden sind, ist nicht öffentlich, doch es ist wahrscheinlich, dass RL-Ansätze wie im Paper „Let’s Verify Step by Step“ verwendet wurden
- Es ist zu erwarten, dass auch Anthropic oder andere Labs ähnliche Reasoner vorstellen werden
- Von besonderem Interesse ist, ob sich dieser bisher stark auf STEM fokussierte Ansatz auch auf breitere Domänen wie kreatives Schreiben ausweiten lässt
Distillation
- Es gibt die Vermutung, dass OpenAI bei der Einführung von o1 die Chain of Thought deshalb nicht offengelegt hat, weil Fälle des erneuten Trainings auf Modelloutputs (z. B. DeepSeek v3) erheblich zur Leistungssteigerung beitragen
- DeepSeek v3 reproduziert die für Reasoner typische lange CoT zwar nicht direkt, scheint intern aber Modi zu unterscheiden und bei Bedarf zu schlussfolgern
- Ob kleinere Modelle (wie o1-mini) an die Leistung großer Modelle heranreichen oder ob es intern geheime Distillation-Techniken gibt, ist ebenfalls ein spannendes Forschungsthema

# Image

Im Bildbereich steigen viele kleine und mittelgroße Labs ein, wodurch Innovationen schnell voranschreiten
Die wichtigsten Modelle derzeit (Flux, Stable Diffusion 3, MidJourney, Sora usw.) basieren auf Diffusion Transformern, und das Flow-Matching-Framework ist der Mainstream
Architecture
- Häufig verwendet werden Formen, die Diffusion Transformer mit adaptiver Normalisierung und MM-DIT-Strukturen kombinieren
- Versuche, Text-Encoder anstelle von CLIP durch kleinere LLMs zu ersetzen, dürften 2025 zunehmen
Framework
- Es zeichnet sich ein Trend ab, Flow Matching gegenüber traditionellen probabilistischen Ansätzen zu bevorzugen
- Auch AutoRegressive-Modelle könnten wieder an Bedeutung gewinnen; das Paper zu Visual Autoregressive Modelling erhielt große Aufmerksamkeit
- Auch das von xAI veröffentlichte Verfahren zur Bildgenerierung wird als autoregressiv vermutet, die genauen Gründe dafür sind jedoch nicht bekannt

# Multimodality

OpenAI, Anthropic und andere boten bereits die Möglichkeit, Bilder in Modelle einzuspeisen, doch in der ersten Hälfte von 2024 gewann offenere multimodale Forschung deutlich an Dynamik
Visual Language Models
- Verschiedene VLMs wie Qwen oder PaliGemma erschienen und werden für Bildbeschreibung oder Dokumentenparsing genutzt
- Die Struktur, bei der ein Vision Transformer mit einem vortrainierten LLM verbunden wird, hat sich als Standard etabliert
- 2025 dürften solche VLMs in Omni-Models integriert werden
Omni-Modal Models
- OpenAI zeigte mit GPT-4o zwar ein Beispiel, das auch Bilder generiert, eine vollständige Offenlegung blieb jedoch aus
- Bei Chameleon und ähnlichen Arbeiten wurden frühe Fusionsmodelle mit Bild-Tokenizer und -Detokenizer erprobt
- Es gibt kontroverse Diskussionen darüber, nicht-textuelle Ausgaben ebenfalls als discrete tokens zu behandeln
- Gerüchte, dass Llama 4 bereits als omnimodales Modell trainiert wird, wecken Erwartungen

# Agents and Human-AI Interfaces

Die Definition von „AI Agent“ ist unscharf, doch hier wird damit vorläufig ein Ansatz bezeichnet, bei dem ein LLM Werkzeugnutzungsrechte erhält, um Ziele selbstständig zu erreichen
Gemessen an SWE-Bench wird erwartet, dass bis Ende 2025 Code-Debugging und Feature-Implementierung auf einem gewissen Niveau automatisiert werden können
Für einen Ersatz von Engineers ist es jedoch noch zu früh; zuerst dürfte die Einführung in Bereichen mit größerer Fehlertoleranz erfolgen, etwa bei Reiseplanung oder Informationssuche
Editorartige UIs wie Cursor könnten für den Einsatz von Agenten besser geeignet sein
Agent-Aufrufe verursachen hohe Token-Kosten, daher ist unklar, ob vollständig autonome Agenten in Bezug auf Kosten und Effizienz sinnvoll sind

# 2025

Dass sich AI sehr schnell entwickelt, hört man oft; tatsächlich sind die Veränderungen aber so groß, dass sich ihr Tempo kaum noch abschätzen lässt
Dieser Text behandelt nur kurz den aktuellen Stand rund um Text und Bild sowie die Erwartungen für 2025. Weitere bemerkenswerte Bereiche, die nicht abgedeckt wurden, sind:
- Trainingsoptimierung (Muon, NanoGPT speedruns)
- Video-Modelle (Lösung von Problemen bei Konsistenz und Inferenzgeschwindigkeit)
- Quantisierung (1-Bit-Quantisierung, Präzision unterhalb von FP8 usw.)
- Forschung zur Modellinterpretierbarkeit
- Evaluation und Benchmarks (es wäre wünschenswert, wenn arbeitsnahe Evaluierungen wie SWE-Bench zunehmen)
Es bleibt zu hoffen, dass es 2025 weitere Fortschritte gibt

2 Kommentare

lonzino 2025-01-06

Danke.

zkdlfrlwl2 2025-01-06

Vielen Dank für die übersichtliche Zusammenfassung.