Leseliste für AI-Ingenieure 2025

(latent.space)

45 Punkte von GN⁺ 2025-01-14 | 3 Kommentare | Auf WhatsApp teilen

50 Paper, Modelle und Blogs für AI-Ingenieure, ausgewählt und in 10 Bereiche unterteilt
Einschließlich der Bereiche LLMs, Benchmarks, Prompting, RAG, Agenten, Codegenerierung, Vision, Sprache, Diffusion und Fine-Tuning

Abschnitt 1: LLMs an der Frontlinie

OpenAI-Modelle
- GPT1 (Paper), GPT2 (Paper), GPT3 (Paper), Codex (Paper), InstructGPT (Paper), GPT4 (Paper)
- GPT3.5 (ChatGPT-Einführung), 4o (GPT-4o-Einführung), o1 (o1-Preview), o3 (System Card)
Anthropic- und Google-Modelle
- Claude 3 (Paper), Gemini 1 (Paper)
- Claude 3.5 Sonnet (Details), Gemini 2.0 Flash (offizieller Blog), Flash Thinking (Gemini-API-Dokumentation), Gemma 2 (Paper)
Mit Meta verbundene LLaMA-Familie
- LLaMA 1 (Paper), LLaMA 2 (Paper), LLaMA 3 (Paper)
- Erweiterte Modelle: Mistral 7B (Paper), Mixtral (Paper), Pixtral (Paper)
DeepSeek-Modelle
- DeepSeek V1 (Paper), Coder (Paper), MoE (Paper), V2 (Paper), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (Paper) - ein auf allen Macs und iPhones enthaltenes Modell
Weitere bemerkenswerte Modelle und Forschung
- LLM-Modelle
  - AI2-Familie: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - Sonstige: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Forschung zu Scaling Laws
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Modelle auf dem neuesten Stand der Technik:
  - o1, o3, R1, QwQ, QVQ, f1
- Forschung zu Reasoning-Modellen:
  - Let’s Verify Step By Step, STaR, Vortrag von Noam Brown

Abschnitt 2: Benchmarks und Evaluierung

MMLU
- MMLU (Paper): der Standard für domänenübergreifende Wissens-Benchmarks
  - State-of-the-Art-Forschung im Jahr 2025 nutzt MMLU Pro (Paper), GPQA Diamond (Paper) und BIG-Bench Hard (Paper)
- GPQA (Paper): Fokus auf Fragengenerierung und Bewertung richtiger Antworten
- BIG-Bench (Paper): umfangreicher Benchmark mit vielfältigen Aufgabentypen
MuSR (Paper): Evaluierung in langen Kontexten
- Verwandte Arbeiten: LongBench (Paper), BABILong (Paper), RULER (Einführung)
- Problembearbeitung: Lost in the Middle (Paper), Needle in a Haystack (GitHub)
MATH (Paper): Sammlung von Mathematik-Olympiade-Aufgaben
- State-of-the-Art-Forschung fokussiert sich auf FrontierMath (Paper) und besonders schwierige Aufgaben
- Teilmengen: MATH Level 5, AIME, AMC10/AMC12
IFEval (Paper): zentraler Benchmark zur Bewertung der Befolgung von Anweisungen
- Offizielle Übernahme durch Apple (Link)
- Verwandter Benchmark: MT-Bench (Paper)
ARC AGI (offizielle Seite): Benchmark für abstraktes Schlussfolgern und „IQ-Tests“
- Im Gegensatz zu anderen Benchmarks, die schnell saturieren, bleibt er langfristig relevant
Zusätzliche Materialien
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: tiefgehende Analysen zu Benchmarks
- Materialien zu LLMs: LLM-as-Judge, Applied LLMs
- Datensatz-Ressourcen: Datasets

Abschnitt 3: Prompting, ICL und Chain-of-Thought

GPT-3 und In-Context Learning (ICL)
- GPT-3-Paper (Paper): Einführung des Konzepts In-Context Learning (ICL)
- ICL ist eng mit Prompting verbunden und ermöglicht es LLMs, innerhalb des Kontexts zu lernen und dieses Wissen anzuwenden
- Prompt Injection: Prompt-Manipulation und Sicherheitsprobleme (Zusammenfassung von Lilian Weng, Serie von Simon Willison)
The Prompt Report: Überblicksstudie zu Papers rund um Prompting
- Überblick: Zusammenfassung der allgemeinen Entwicklung von Prompting-Techniken und der neuesten Trends (zugehöriger Podcast)
Chain-of-Thought (CoT):
- Modellierung schrittweiser Denkprozesse
- Verwandte Arbeiten:
  - Scratchpads (Paper)
  - Let’s Think Step By Step (Paper)
Tree of Thought:
- Einführung der Konzepte Lookahead und Backtracking
- Effektive Methode zur Lösung komplexer Probleme (zugehöriger Podcast)
Prompt Tuning:
- Modellleistung kann auch ohne explizite Prompts angepasst werden:
  - Prefix-Tuning (Paper)
  - Entropiebasierte Anpassung des Decodings (GitHub)
  - Representation Engineering (Blog)
Automatic Prompt Engineering:
- Methode, bei der LLMs Prompts selbst erzeugen und optimieren
- Implementiert im DSPy Framework (Paper)
Neben Forschungspapern sind auch praxisnahe Leitfäden nützlich:
- Prompt-Engineering-Blog von Lilian Weng
- Prompting-Guide von Eugene Yan
- Tutorials und Workshops von Anthropic:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

Abschnitt 4: RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval: ein klassisches Referenzwerk zu den Grundlagen des Information Retrieval
- RAG ist ein Information-Retrieval-(IR-)Problem und eng mit einem Fachgebiet verbunden, das auf mehr als 60 Jahre Geschichte zurückblickt
- Wichtige Techniken:
  - TF-IDF, BM25: textbasierte Suche
  - FAISS, HNSW: Vektorsuche und Nearest-Neighbor-Suche
Meta RAG (Paper von 2020): erster Auftakt des Begriffs RAG
- HyDE (Dokumentation)
- Chunking (Studie)
- Rerankers (Cohere-Blog)
- Verarbeitung multimodaler Daten (YouTube)
MTEB: Benchmark zur Bewertung von Embeddings
- Kontroversen und Grenzen (zugehörige Diskussion)
- Beispiele für Embedding-Modelle:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (HuggingFace-Blog)
GraphRAG: Microsofts Integration von RAG und Wissensgraphen
- GraphRAG:
  - Integration von Wissensgraphen in den RAG-Workflow, um auf privaten Daten bessere Ergebnisse zu liefern
  - als Open Source veröffentlicht (Microsoft-Blog)
- Verwandte Forschung:
  - ColBERT, ColPali, ColQwen
RAGAS: einfache Methode zur RAG-Bewertung, die von OpenAI empfohlen wird
- Nvidia FACTS Framework (Paper)
- Extrinsic Hallucinations in LLMs (Überblick von Lilian Weng)
- Jason Weis Recall vs Precision (Tweet)
Lernmaterialien und RAG in der Praxis
- LlamaIndex (Dokumentation, Kurs)
- LangChain (Dokumentation, Tutorial-Video)
- RAG vs Long Context Debate:
  - Paper: Vergleich von RAG und Long-Context-Ansätzen

Abschnitt 5: Agenten

SWE-Bench:
- Ein repräsentativer Benchmark zur Bewertung von Agenten (mit Fokus auf Coding)
- Von Anthropic, Devin, OpenAI usw. übernommen und daher stark beachtet
- Verwandte Materialien:
  - SWE-Agent (Paper)
  - SWE-Bench Multimodal (Paper)
  - Konwinski Prize (Website)
- Zum Vergleich: WebArena (GitHub), SWE-Gym (zugehöriger Tweet)
ReAct:
- Ausgangspunkt der LLM-Forschung zu Tool-Nutzung und Function Calling
- Verwandte Forschung:
  - Gorilla (Leaderboard)
  - Toolformer (Paper)
  - HuggingGPT (Paper)
MemGPT:
- Ein Ansatz zur Emulation von Langzeitgedächtnis
- Wichtige Anwendungen:
  - ChatGPTs Memory- und Control-Funktionen
  - LangGraphs episodisches Gedächtnis
- Verwandte Systeme:
  - MetaGPT (Paper)
  - AutoGen (Paper)
  - Smallville (GitHub)
Voyager:
- Nvidias Ansatz einer kognitiven Architektur:
  - Leistungssteigerung durch Curriculum, Skill Library und Sandbox
- Konzeptuelle Erweiterung:
  - Agent Workflow Memory (Paper)
Anthropics Building Effective Agents:
- Die zentrale Zusammenfassung zum Agenten-Design im Jahr 2024
- Hauptthemen:
  - Chaining, Routing, Parallelisierung, Orchestrierung, Evaluation, Optimierung
- Verwandte Materialien:
  - Agentenforschung von Lilian Weng
  - LLM-Agentenforschung von Shunyu Yao
  - Agenten-Überblick für 2025 von Chip Huyen
Zusätzliche Lernmaterialien und Vorlesungen
- Aktuelles Agenten-Design 2024: NeurIPS-Zusammenfassung
- UC Berkeley MOOC: LLM Agents Vorlesung
- Diskussion zur Definition von Agenten: bei Bedarf diese Definition ansehen

Abschnitt 6: Code-Generierung (CodeGen)

The Stack paper
- Begann als code-zentriertes offenes Datensatz-Gegenstück zu The Pile
- Nachfolgearbeiten:
  - The Stack v2: verbesserter Datensatz
  - StarCoder: optimiertes Modell zur Code-Generierung
Paper zu offenen Code-Modellen
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Viele halten Claude 3.5 Sonnet für das beste Code-Modell, es gibt jedoch kein offizielles Paper
HumanEval/Codex
- Unverzichtbarer Benchmark im Coding-Bereich (inzwischen gesättigt)
- Moderne alternative Benchmarks:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - Bekannt für agentenzentrierte Bewertung, aber teuer und eher auf die Bewertung von Agenten als von Modellen fokussiert
AlphaCodeium
- Basierend auf der Leistung von Googles AlphaCode und AlphaCode2
- Nutzt Flow Engineering, um die Leistung bestehender Modelle deutlich zu verbessern
CriticGPT
- Fokus auf die Erkennung von Sicherheitsproblemen, die bei der Code-Generierung entstehen
  - OpenAIs CriticGPT wurde darauf trainiert, Sicherheitsprobleme zu identifizieren
  - Anthropic analysiert mit SAEs (Safety-relevant Activation Ensembles) LLM-Merkmale, die Probleme auslösen (Forschung)
In der Industrie verlagert sich der Schwerpunkt bei Code-Generierung von der Forschung in die Praxis:
- Einsatz von Code-Agenten wie Devin (Video)
- Praktische Ratschläge zur Code-Generierung (YouTube)

Abschnitt 7: Vision

Non-LLM-basierte Vision-Forschung
- YOLO:
  - Bekannt als Echtzeit-Objekterkennungsmodell
  - Inzwischen weiterentwickelt bis v11 (GitHub)
  - Jüngste Forschung: Transformer-Modelle auf Basis von DETR zeigen Ergebnisse, die YOLO übertreffen
- Hinweis: Auf die verschiedenen Versionen von YOLO und ihre Entwicklungslinie achten (verwandte Diskussion)
CLIP:
- Ein Erfolgsbeispiel für ein ViT-basiertes multimodales Modell
- Aktuelle Modelle:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIP bleibt weiterhin wichtiges Hintergrundwissen
MMVP benchmark:
- Bewertet die Grenzen von CLIP
- Multimodale Versionen: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- Ein repräsentatives Modell für Bild- und Video-Segmentierung
- Nachfolgende Forschung: SAM 2 (zugehöriger Podcast)
- Ergänzendes Modell: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA (Podcast)
- Early Fusion:
  - Metas Flamingo
  - Chameleon
  - Apples AIMv2
  - Rekas Core
- Referenzmaterial: Forschungsentwicklung multimodaler Vision
Neueste, noch nicht veröffentlichte Arbeiten:
- GPT4V System Card und abgeleitete Forschung (Paper)
- OpenAI 4o:
  - 4o Vision-Feinabstimmung
- Neueste Modelle:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - Weitere Modelle:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ

Abschnitt 8: Sprache

Whisper:
- OpenAIs erfolgreiches ASR-Modell
- Wichtige Versionen:
  - Whisper v2 (verwandte Diskussion)
  - Whisper v3 (verwandte Diskussion)
  - Distil-Whisper (GitHub)
  - Whisper v3 Turbo (Analyse)
- Whisper bietet mehrere Modelle mit offenen Gewichten, aber für einige Versionen gibt es kein Paper
AudioPaLM:
- Googles AudioPaLM ist Forschung aus der Zeit vor dem Übergang von PaLM zu Gemini
- Hinweis: Metas Sprachforschung zu Llama 3 (Paper)
NaturalSpeech:
- Eine der wichtigsten TTS-Arbeiten
- Kürzlich auf v3 aktualisiert (Paper)
Kyutai Moshi:
- Open-Weight-Modell für voll-duplexe Sprache-zu-Text
- Hochwertige Demo (YouTube)
- Referenzmodell: Hume OCTAVE (Blog)
OpenAI Realtime API: The Missing Manual:
- Inoffizielle Dokumentation zu OpenAIs Echtzeit-Sprach-API
- Wichtiges Werkzeug für aktuelle Agenten- und Echtzeit-Arbeiten
Empfohlene vielfältige Lösungen jenseits großer Forschungslabore:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Hinweis: State of Voice AI 2024
- Sprachmodell von NotebookLM:
  - Das Modell ist nicht veröffentlicht, aber es gibt eine ausführliche Erklärung des Modellierungsprozesses
Gemini 2.0: multimodales Modell, das Sprache und Vision natürlich integriert
- Ab 2025: Die Verschmelzung von Sprach- und Visionsmodalitäten entwickelt sich zu einem klaren Weg weiter

Abschnitt 9: Bild-/Video-Diffusion

Latent Diffusion:
- Die Kernarbeit hinter Stable Diffusion
- Erweiterte Versionen:
  - SD2 (offizielle Ankündigung)
  - SDXL und SD3
- Das Team entwickelt derzeit BFL Flux
OpenAI DALL-E-Serie:
- DALL-E, DALL-E-2, DALL-E-3
Google Imagen-Serie:
- Imagen, Imagen 2, Imagen 3
- Siehe auch: Ideogram
Consistency Models:
- Distillation von Diffusionsmodellen
- Erweiterungen:
  - LCMs
  - Neuestes Update: sCMs
Sora:
- OpenAIs Text-zu-Video-Tool (keine offizielle Arbeit vorhanden)
- Siehe auch:
  - DiT-Paper (gleiche Autoren)
  - OpenSora: Konkurrenzmodell auf Basis offener Gewichte
  - Zusammenfassung von Lilian Weng
ComfyUI:
- Erhält Aufmerksamkeit als Benutzeroberfläche für Vision-Modelle (zugehöriges Interview)
Spezialgebiete:
- Text Diffusion: textbasierte Diffusionsmodelle
- Music Diffusion: Diffusion für Musikgenerierung
- Autoregressive Image Generation: autoregressive Bildgenerierung
Wettbewerb bei Open Weights:
- Text-to-Video Arena
Aktuelle Trends verstehen:
- Nutzung von Stable-Diffusion- und DALL-E-Modellen
- Forschung zur Konvergenz von Text- und Video-Modalitäten

Abschnitt 10: Modell-Finetuning

LoRA/QLoRA:
- Standard für kostengünstiges Modell-Finetuning
- Wichtige Anwendungen:
  - Wird auch von lokalen Modellen und OpenAIs 4o unterstützt (Podcast dazu)
  - FSDP+QLoRA: Lehrmaterial
DPO:
- Unterstützt in OpenAIs Preference Finetuning
- Beliebt als Alternative zu PPO (Paper), wenn auch mit etwas geringerer Leistung
ReFT:
- Konzentriert sich auf Features des Modells statt auf das Finetuning einiger bestehender Layer
- Effizienter Finetuning-Ansatz
Orca 3/AgentInstruct:
- Geeignete Methode zur Erzeugung synthetischer Daten
- Verwandte Forschung:
  - NeurIPS’ Synthetic Data Picks
RL-Tuning:
- OpenAIs RL Finetuning for o1 ist umstritten, aber wichtiges Material
- Verwandte Forschung:
  - Let’s Verify Step By Step
  - Vortrag von Noam Brown hier
Unsloth-Notebooks:
- Praxisorientierte Notebooks auf GitHub verfügbar
HuggingFace-Guide:
- How to fine-tune open LLMs: ausführlicher Guide zum gesamten Finetuning-Prozess

Abschluss der Leseliste 2025 für AI-Ingenieure

Diese Liste ist umfangreich und kann einschüchternd wirken, aber es ist in Ordnung, unterwegs aufzugeben. Wichtig ist, wieder anzufangen
Sie wird auch 2025 fortlaufend aktualisiert, um auf dem neuesten Stand zu bleiben
Du kannst auch deine eigene Lernmethode entwickeln, aber wie man Papers in einer Stunde liest kann dabei hilfreich sein
Tipps zum Lesen und Lernen findest du hier
Gemeinsam mit der Community lernen
- Discord- und Telegram-Gruppen:
  - Discord-Gruppe von Krispin: https://app.discuna.com/invite/ai_engineer
  - Telegram-Gruppe von Fed of Flow AI, aktiv in NYC: AI NYC Telegram
  - Der Latent Space-Discord-Community beitreten: Discord-Einladungslink
- Notizen und Highlights teilen:
  - Blog des Lesers Niels: Notizen zur 2025 AI Engineer Reading List

3 Kommentare

kipsong133 2025-01-16

Wenn man es so betrachtet, gibt es tatsächlich noch jede Menge Material, das sich bei genauerem Hinsehen sehr lohnt.

GN⁺ 2025-01-14

Hacker-News-Kommentare

Die meisten Papers konzentrieren sich eher auf Wissensaneignung als auf tiefes Verständnis. Wenn man mit dem Thema nicht vertraut ist, ist es besser, mit Lehrbüchern statt mit Papers zu beginnen. Das aktuelle "Deep Learning: Foundations and Concepts (2024)" von Bishop und "AI Engineering (2024)" von Chip Huyen sind gute Ressourcen. Auch "Dive into Deep Learning" oder die Materialien von fast.ai sind zu empfehlen
Ich weiß nicht, was genau der Beruf "AI Engineer" sein soll, aber ich bezweifle, dass das Lesen von Forschungspapieren tatsächlich nötig ist. Wenn man sich nicht mit dem neuesten Stand der AI beschäftigt, ist das Lesen von Papers möglicherweise nicht besonders sinnvoll. Wichtiger ist es, die Reaktionen von LLMs zu verstehen und benutzerfreundliche Apps zu bauen. Wenn man die API von OpenAI oder Groq nutzt, ist es nicht besonders hilfreich, den Unterschied zwischen "multi head attention" und "single head attention" zu kennen
So eine Liste zu erstellen ist eine schwierige Aufgabe. Es gibt viele geeignete Kandidaten zusätzlich zu den ausgewählten, deshalb sollte man das eher als Curriculum sehen und aktuelle relevante Papers eher als bewegliche Verweise denn als feste Referenzen verstehen. Ein bestimmter Lesekanon wird in einem Paper-Club behandelt
Die Instruction-Fine-Tuning-Methoden der meisten Open-Source-Modelle stammen von Alpaca. Auch Papers zu Alpaca und zur Erzeugung synthetischer Daten sollten aufgenommen werden
Statt Zeit damit zu verschwenden, AI- und LLM-Papers zu lesen und zu verstehen, sollte man lieber über ELIZA lesen und sie selbst nachbauen. Man sollte sich auf Tensoren, Vektoren, Felder, Linguistik, Computerarchitektur und Netzwerke konzentrieren
Die Leseliste ist etwa ein Jahr alt. 2025 sollte man sich auf Techniken wie KTO, RLOO und DPO konzentrieren. 2025 sollte man sich nur auf Distillation und Optimierung konzentrieren. CoT ist nichts Neues, entscheidend ist modifiziertes CoT
Es ist interessant, dass der Begriff "AI" durch die jüngsten Fortschritte im Bereich DL fast vollständig vereinnahmt wurde. Es gibt keine Erwähnung von Russell & Norvig, Minsky, Shannon, Lenat usw. Wenn man an einer Einführung in breitere Themen rund um AI interessiert ist, verwenden die meisten Masterstudiengänge dasselbe Buch
Eine hervorragende Zusammenstellung. In Kombination mit dem untenstehenden Kurs erzielt man die besten Ergebnisse
Eine hervorragende Liste

francomoon7 2025-01-16

Was bedeutet es, Eliza selbst zu bauen?