- 50 Paper, Modelle und Blogs für AI-Ingenieure, ausgewählt und in 10 Bereiche unterteilt
- Einschließlich der Bereiche LLMs, Benchmarks, Prompting, RAG, Agenten, Codegenerierung, Vision, Sprache, Diffusion und Fine-Tuning
Abschnitt 1: LLMs an der Frontlinie
- OpenAI-Modelle
- Anthropic- und Google-Modelle
- Mit Meta verbundene LLaMA-Familie
- DeepSeek-Modelle
- Apple Intelligence
- Apple Intelligence (Paper) - ein auf allen Macs und iPhones enthaltenes Modell
- Weitere bemerkenswerte Modelle und Forschung
- LLM-Modelle
- AI2-Familie: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Sonstige: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Forschung zu Scaling Laws
- Modelle auf dem neuesten Stand der Technik:
- Forschung zu Reasoning-Modellen:
Abschnitt 2: Benchmarks und Evaluierung
- MMLU
- MMLU (Paper): der Standard für domänenübergreifende Wissens-Benchmarks
- State-of-the-Art-Forschung im Jahr 2025 nutzt MMLU Pro (Paper), GPQA Diamond (Paper) und BIG-Bench Hard (Paper)
- GPQA (Paper): Fokus auf Fragengenerierung und Bewertung richtiger Antworten
- BIG-Bench (Paper): umfangreicher Benchmark mit vielfältigen Aufgabentypen
- MuSR (Paper): Evaluierung in langen Kontexten
- MATH (Paper): Sammlung von Mathematik-Olympiade-Aufgaben
- State-of-the-Art-Forschung fokussiert sich auf FrontierMath (Paper) und besonders schwierige Aufgaben
- Teilmengen: MATH Level 5, AIME, AMC10/AMC12
- IFEval (Paper): zentraler Benchmark zur Bewertung der Befolgung von Anweisungen
- Offizielle Übernahme durch Apple (Link)
- Verwandter Benchmark: MT-Bench (Paper)
- ARC AGI (offizielle Seite): Benchmark für abstraktes Schlussfolgern und „IQ-Tests“
- Im Gegensatz zu anderen Benchmarks, die schnell saturieren, bleibt er langfristig relevant
- Zusätzliche Materialien
Abschnitt 3: Prompting, ICL und Chain-of-Thought
- GPT-3 und In-Context Learning (ICL)
- GPT-3-Paper (Paper): Einführung des Konzepts In-Context Learning (ICL)
- ICL ist eng mit Prompting verbunden und ermöglicht es LLMs, innerhalb des Kontexts zu lernen und dieses Wissen anzuwenden
- Prompt Injection: Prompt-Manipulation und Sicherheitsprobleme (Zusammenfassung von Lilian Weng, Serie von Simon Willison)
- The Prompt Report: Überblicksstudie zu Papers rund um Prompting
- Überblick: Zusammenfassung der allgemeinen Entwicklung von Prompting-Techniken und der neuesten Trends (zugehöriger Podcast)
- Chain-of-Thought (CoT):
- Modellierung schrittweiser Denkprozesse
- Verwandte Arbeiten:
- Scratchpads (Paper)
- Let’s Think Step By Step (Paper)
- Tree of Thought:
- Einführung der Konzepte Lookahead und Backtracking
- Effektive Methode zur Lösung komplexer Probleme (zugehöriger Podcast)
- Prompt Tuning:
- Modellleistung kann auch ohne explizite Prompts angepasst werden:
- Prefix-Tuning (Paper)
- Entropiebasierte Anpassung des Decodings (GitHub)
- Representation Engineering (Blog)
- Automatic Prompt Engineering:
- Methode, bei der LLMs Prompts selbst erzeugen und optimieren
- Implementiert im DSPy Framework (Paper)
- Neben Forschungspapern sind auch praxisnahe Leitfäden nützlich:
Abschnitt 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: ein klassisches Referenzwerk zu den Grundlagen des Information Retrieval
- RAG ist ein Information-Retrieval-(IR-)Problem und eng mit einem Fachgebiet verbunden, das auf mehr als 60 Jahre Geschichte zurückblickt
- Wichtige Techniken:
- TF-IDF, BM25: textbasierte Suche
- FAISS, HNSW: Vektorsuche und Nearest-Neighbor-Suche
- Meta RAG (Paper von 2020): erster Auftakt des Begriffs RAG
- MTEB: Benchmark zur Bewertung von Embeddings
- GraphRAG: Microsofts Integration von RAG und Wissensgraphen
- GraphRAG:
- Integration von Wissensgraphen in den RAG-Workflow, um auf privaten Daten bessere Ergebnisse zu liefern
- als Open Source veröffentlicht (Microsoft-Blog)
- Verwandte Forschung:
- RAGAS: einfache Methode zur RAG-Bewertung, die von OpenAI empfohlen wird
- Lernmaterialien und RAG in der Praxis
Abschnitt 5: Agenten
- SWE-Bench:
- Ein repräsentativer Benchmark zur Bewertung von Agenten (mit Fokus auf Coding)
- Von Anthropic, Devin, OpenAI usw. übernommen und daher stark beachtet
- Verwandte Materialien:
- Zum Vergleich: WebArena (GitHub), SWE-Gym (zugehöriger Tweet)
- ReAct:
- Ausgangspunkt der LLM-Forschung zu Tool-Nutzung und Function Calling
- Verwandte Forschung:
- MemGPT:
- Ein Ansatz zur Emulation von Langzeitgedächtnis
- Wichtige Anwendungen:
- Verwandte Systeme:
- Voyager:
- Nvidias Ansatz einer kognitiven Architektur:
- Leistungssteigerung durch Curriculum, Skill Library und Sandbox
- Konzeptuelle Erweiterung:
- Agent Workflow Memory (Paper)
- Anthropics Building Effective Agents:
- Die zentrale Zusammenfassung zum Agenten-Design im Jahr 2024
- Hauptthemen:
- Chaining, Routing, Parallelisierung, Orchestrierung, Evaluation, Optimierung
- Verwandte Materialien:
- Zusätzliche Lernmaterialien und Vorlesungen
Abschnitt 6: Code-Generierung (CodeGen)
- The Stack paper
- Begann als code-zentriertes offenes Datensatz-Gegenstück zu The Pile
- Nachfolgearbeiten:
- Paper zu offenen Code-Modellen
- HumanEval/Codex
- Unverzichtbarer Benchmark im Coding-Bereich (inzwischen gesättigt)
- Moderne alternative Benchmarks:
- SWE-Bench
- Bekannt für agentenzentrierte Bewertung, aber teuer und eher auf die Bewertung von Agenten als von Modellen fokussiert
- AlphaCodeium
- Basierend auf der Leistung von Googles AlphaCode und AlphaCode2
- Nutzt Flow Engineering, um die Leistung bestehender Modelle deutlich zu verbessern
- CriticGPT
- Fokus auf die Erkennung von Sicherheitsproblemen, die bei der Code-Generierung entstehen
- OpenAIs CriticGPT wurde darauf trainiert, Sicherheitsprobleme zu identifizieren
- Anthropic analysiert mit SAEs (Safety-relevant Activation Ensembles) LLM-Merkmale, die Probleme auslösen (Forschung)
- In der Industrie verlagert sich der Schwerpunkt bei Code-Generierung von der Forschung in die Praxis:
- Einsatz von Code-Agenten wie Devin (Video)
- Praktische Ratschläge zur Code-Generierung (YouTube)
Abschnitt 7: Vision
- Non-LLM-basierte Vision-Forschung
- YOLO:
- Bekannt als Echtzeit-Objekterkennungsmodell
- Inzwischen weiterentwickelt bis v11 (GitHub)
- Jüngste Forschung: Transformer-Modelle auf Basis von DETR zeigen Ergebnisse, die YOLO übertreffen
- Hinweis: Auf die verschiedenen Versionen von YOLO und ihre Entwicklungslinie achten (verwandte Diskussion)
- CLIP:
- Ein Erfolgsbeispiel für ein ViT-basiertes multimodales Modell
- Aktuelle Modelle:
- CLIP bleibt weiterhin wichtiges Hintergrundwissen
- MMVP benchmark:
- Segment Anything Model (SAM):
- Early Fusion vs Late Fusion:
- Neueste, noch nicht veröffentlichte Arbeiten:
- GPT4V System Card und abgeleitete Forschung (Paper)
- OpenAI 4o:
- Neueste Modelle:
- Claude 3.5 Sonnet/Haiku
- Gemini 2.0 Flash
- o1
- Weitere Modelle:
Abschnitt 8: Sprache
- Whisper:
- OpenAIs erfolgreiches ASR-Modell
- Wichtige Versionen:
- Whisper bietet mehrere Modelle mit offenen Gewichten, aber für einige Versionen gibt es kein Paper
- AudioPaLM:
- Googles AudioPaLM ist Forschung aus der Zeit vor dem Übergang von PaLM zu Gemini
- Hinweis: Metas Sprachforschung zu Llama 3 (Paper)
- NaturalSpeech:
- Eine der wichtigsten TTS-Arbeiten
- Kürzlich auf v3 aktualisiert (Paper)
- Kyutai Moshi:
- Open-Weight-Modell für voll-duplexe Sprache-zu-Text
- Hochwertige Demo (YouTube)
- Referenzmodell: Hume OCTAVE (Blog)
- OpenAI Realtime API: The Missing Manual:
- Inoffizielle Dokumentation zu OpenAIs Echtzeit-Sprach-API
- Wichtiges Werkzeug für aktuelle Agenten- und Echtzeit-Arbeiten
- Empfohlene vielfältige Lösungen jenseits großer Forschungslabore:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Hinweis: State of Voice AI 2024
- Sprachmodell von NotebookLM:
- Gemini 2.0: multimodales Modell, das Sprache und Vision natürlich integriert
- Ab 2025: Die Verschmelzung von Sprach- und Visionsmodalitäten entwickelt sich zu einem klaren Weg weiter
Abschnitt 9: Bild-/Video-Diffusion
- Latent Diffusion:
- Die Kernarbeit hinter Stable Diffusion
- Erweiterte Versionen:
- Das Team entwickelt derzeit BFL Flux
- OpenAI DALL-E-Serie:
- Google Imagen-Serie:
- Consistency Models:
- Distillation von Diffusionsmodellen
- Erweiterungen:
- Sora:
- OpenAIs Text-zu-Video-Tool (keine offizielle Arbeit vorhanden)
- Siehe auch:
- ComfyUI:
- Spezialgebiete:
- Wettbewerb bei Open Weights:
- Aktuelle Trends verstehen:
- Nutzung von Stable-Diffusion- und DALL-E-Modellen
- Forschung zur Konvergenz von Text- und Video-Modalitäten
Abschnitt 10: Modell-Finetuning
- LoRA/QLoRA:
- Standard für kostengünstiges Modell-Finetuning
- Wichtige Anwendungen:
- DPO:
- ReFT:
- Konzentriert sich auf Features des Modells statt auf das Finetuning einiger bestehender Layer
- Effizienter Finetuning-Ansatz
- Orca 3/AgentInstruct:
- Geeignete Methode zur Erzeugung synthetischer Daten
- Verwandte Forschung:
- RL-Tuning:
- Unsloth-Notebooks:
- Praxisorientierte Notebooks auf GitHub verfügbar
- HuggingFace-Guide:
Abschluss der Leseliste 2025 für AI-Ingenieure
- Diese Liste ist umfangreich und kann einschüchternd wirken, aber es ist in Ordnung, unterwegs aufzugeben. Wichtig ist, wieder anzufangen
- Sie wird auch 2025 fortlaufend aktualisiert, um auf dem neuesten Stand zu bleiben
- Du kannst auch deine eigene Lernmethode entwickeln, aber wie man Papers in einer Stunde liest kann dabei hilfreich sein
- Tipps zum Lesen und Lernen findest du hier
- Gemeinsam mit der Community lernen
- Discord- und Telegram-Gruppen:
- Notizen und Highlights teilen:
3 Kommentare
Wenn man es so betrachtet, gibt es tatsächlich noch jede Menge Material, das sich bei genauerem Hinsehen sehr lohnt.
Hacker-News-Kommentare
Die meisten Papers konzentrieren sich eher auf Wissensaneignung als auf tiefes Verständnis. Wenn man mit dem Thema nicht vertraut ist, ist es besser, mit Lehrbüchern statt mit Papers zu beginnen. Das aktuelle "Deep Learning: Foundations and Concepts (2024)" von Bishop und "AI Engineering (2024)" von Chip Huyen sind gute Ressourcen. Auch "Dive into Deep Learning" oder die Materialien von fast.ai sind zu empfehlen
Ich weiß nicht, was genau der Beruf "AI Engineer" sein soll, aber ich bezweifle, dass das Lesen von Forschungspapieren tatsächlich nötig ist. Wenn man sich nicht mit dem neuesten Stand der AI beschäftigt, ist das Lesen von Papers möglicherweise nicht besonders sinnvoll. Wichtiger ist es, die Reaktionen von LLMs zu verstehen und benutzerfreundliche Apps zu bauen. Wenn man die API von OpenAI oder Groq nutzt, ist es nicht besonders hilfreich, den Unterschied zwischen "multi head attention" und "single head attention" zu kennen
So eine Liste zu erstellen ist eine schwierige Aufgabe. Es gibt viele geeignete Kandidaten zusätzlich zu den ausgewählten, deshalb sollte man das eher als Curriculum sehen und aktuelle relevante Papers eher als bewegliche Verweise denn als feste Referenzen verstehen. Ein bestimmter Lesekanon wird in einem Paper-Club behandelt
Die Instruction-Fine-Tuning-Methoden der meisten Open-Source-Modelle stammen von Alpaca. Auch Papers zu Alpaca und zur Erzeugung synthetischer Daten sollten aufgenommen werden
Statt Zeit damit zu verschwenden, AI- und LLM-Papers zu lesen und zu verstehen, sollte man lieber über ELIZA lesen und sie selbst nachbauen. Man sollte sich auf Tensoren, Vektoren, Felder, Linguistik, Computerarchitektur und Netzwerke konzentrieren
Die Leseliste ist etwa ein Jahr alt. 2025 sollte man sich auf Techniken wie KTO, RLOO und DPO konzentrieren. 2025 sollte man sich nur auf Distillation und Optimierung konzentrieren. CoT ist nichts Neues, entscheidend ist modifiziertes CoT
Es ist interessant, dass der Begriff "AI" durch die jüngsten Fortschritte im Bereich DL fast vollständig vereinnahmt wurde. Es gibt keine Erwähnung von Russell & Norvig, Minsky, Shannon, Lenat usw. Wenn man an einer Einführung in breitere Themen rund um AI interessiert ist, verwenden die meisten Masterstudiengänge dasselbe Buch
Eine hervorragende Zusammenstellung. In Kombination mit dem untenstehenden Kurs erzielt man die besten Ergebnisse
Eine hervorragende Liste
Was bedeutet es, Eliza selbst zu bauen?