45 Punkte von GN⁺ 2025-01-14 | 3 Kommentare | Auf WhatsApp teilen
  • 50 Paper, Modelle und Blogs für AI-Ingenieure, ausgewählt und in 10 Bereiche unterteilt
  • Einschließlich der Bereiche LLMs, Benchmarks, Prompting, RAG, Agenten, Codegenerierung, Vision, Sprache, Diffusion und Fine-Tuning

Abschnitt 1: LLMs an der Frontlinie

Abschnitt 2: Benchmarks und Evaluierung

  • MMLU
    • MMLU (Paper): der Standard für domänenübergreifende Wissens-Benchmarks
      • State-of-the-Art-Forschung im Jahr 2025 nutzt MMLU Pro (Paper), GPQA Diamond (Paper) und BIG-Bench Hard (Paper)
    • GPQA (Paper): Fokus auf Fragengenerierung und Bewertung richtiger Antworten
    • BIG-Bench (Paper): umfangreicher Benchmark mit vielfältigen Aufgabentypen
  • MuSR (Paper): Evaluierung in langen Kontexten
  • MATH (Paper): Sammlung von Mathematik-Olympiade-Aufgaben
    • State-of-the-Art-Forschung fokussiert sich auf FrontierMath (Paper) und besonders schwierige Aufgaben
    • Teilmengen: MATH Level 5, AIME, AMC10/AMC12
  • IFEval (Paper): zentraler Benchmark zur Bewertung der Befolgung von Anweisungen
    • Offizielle Übernahme durch Apple (Link)
    • Verwandter Benchmark: MT-Bench (Paper)
  • ARC AGI (offizielle Seite): Benchmark für abstraktes Schlussfolgern und „IQ-Tests“
    • Im Gegensatz zu anderen Benchmarks, die schnell saturieren, bleibt er langfristig relevant
  • Zusätzliche Materialien

Abschnitt 3: Prompting, ICL und Chain-of-Thought

Abschnitt 4: RAG (Retrieval-Augmented Generation)

  • Introduction to Information Retrieval: ein klassisches Referenzwerk zu den Grundlagen des Information Retrieval
    • RAG ist ein Information-Retrieval-(IR-)Problem und eng mit einem Fachgebiet verbunden, das auf mehr als 60 Jahre Geschichte zurückblickt
    • Wichtige Techniken:
      • TF-IDF, BM25: textbasierte Suche
      • FAISS, HNSW: Vektorsuche und Nearest-Neighbor-Suche
  • Meta RAG (Paper von 2020): erster Auftakt des Begriffs RAG
  • MTEB: Benchmark zur Bewertung von Embeddings
  • GraphRAG: Microsofts Integration von RAG und Wissensgraphen
    • GraphRAG:
      • Integration von Wissensgraphen in den RAG-Workflow, um auf privaten Daten bessere Ergebnisse zu liefern
      • als Open Source veröffentlicht (Microsoft-Blog)
    • Verwandte Forschung:
  • RAGAS: einfache Methode zur RAG-Bewertung, die von OpenAI empfohlen wird
  • Lernmaterialien und RAG in der Praxis

Abschnitt 5: Agenten

Abschnitt 6: Code-Generierung (CodeGen)

  • The Stack paper
    • Begann als code-zentriertes offenes Datensatz-Gegenstück zu The Pile
    • Nachfolgearbeiten:
  • Paper zu offenen Code-Modellen
  • HumanEval/Codex
    • Unverzichtbarer Benchmark im Coding-Bereich (inzwischen gesättigt)
    • Moderne alternative Benchmarks:
    • SWE-Bench
      • Bekannt für agentenzentrierte Bewertung, aber teuer und eher auf die Bewertung von Agenten als von Modellen fokussiert
  • AlphaCodeium
    • Basierend auf der Leistung von Googles AlphaCode und AlphaCode2
    • Nutzt Flow Engineering, um die Leistung bestehender Modelle deutlich zu verbessern
  • CriticGPT
    • Fokus auf die Erkennung von Sicherheitsproblemen, die bei der Code-Generierung entstehen
      • OpenAIs CriticGPT wurde darauf trainiert, Sicherheitsprobleme zu identifizieren
      • Anthropic analysiert mit SAEs (Safety-relevant Activation Ensembles) LLM-Merkmale, die Probleme auslösen (Forschung)
  • In der Industrie verlagert sich der Schwerpunkt bei Code-Generierung von der Forschung in die Praxis:
    • Einsatz von Code-Agenten wie Devin (Video)
    • Praktische Ratschläge zur Code-Generierung (YouTube)

Abschnitt 7: Vision

Abschnitt 8: Sprache

  • Whisper:
    • OpenAIs erfolgreiches ASR-Modell
    • Wichtige Versionen:
    • Whisper bietet mehrere Modelle mit offenen Gewichten, aber für einige Versionen gibt es kein Paper
  • AudioPaLM:
    • Googles AudioPaLM ist Forschung aus der Zeit vor dem Übergang von PaLM zu Gemini
    • Hinweis: Metas Sprachforschung zu Llama 3 (Paper)
  • NaturalSpeech:
    • Eine der wichtigsten TTS-Arbeiten
    • Kürzlich auf v3 aktualisiert (Paper)
  • Kyutai Moshi:
    • Open-Weight-Modell für voll-duplexe Sprache-zu-Text
    • Hochwertige Demo (YouTube)
    • Referenzmodell: Hume OCTAVE (Blog)
  • OpenAI Realtime API: The Missing Manual:
    • Inoffizielle Dokumentation zu OpenAIs Echtzeit-Sprach-API
    • Wichtiges Werkzeug für aktuelle Agenten- und Echtzeit-Arbeiten
  • Empfohlene vielfältige Lösungen jenseits großer Forschungslabore:
  • Gemini 2.0: multimodales Modell, das Sprache und Vision natürlich integriert
    • Ab 2025: Die Verschmelzung von Sprach- und Visionsmodalitäten entwickelt sich zu einem klaren Weg weiter

Abschnitt 9: Bild-/Video-Diffusion

Abschnitt 10: Modell-Finetuning

Abschluss der Leseliste 2025 für AI-Ingenieure

3 Kommentare

 
kipsong133 2025-01-16

Wenn man es so betrachtet, gibt es tatsächlich noch jede Menge Material, das sich bei genauerem Hinsehen sehr lohnt.

 
GN⁺ 2025-01-14
Hacker-News-Kommentare
  • Die meisten Papers konzentrieren sich eher auf Wissensaneignung als auf tiefes Verständnis. Wenn man mit dem Thema nicht vertraut ist, ist es besser, mit Lehrbüchern statt mit Papers zu beginnen. Das aktuelle "Deep Learning: Foundations and Concepts (2024)" von Bishop und "AI Engineering (2024)" von Chip Huyen sind gute Ressourcen. Auch "Dive into Deep Learning" oder die Materialien von fast.ai sind zu empfehlen

  • Ich weiß nicht, was genau der Beruf "AI Engineer" sein soll, aber ich bezweifle, dass das Lesen von Forschungspapieren tatsächlich nötig ist. Wenn man sich nicht mit dem neuesten Stand der AI beschäftigt, ist das Lesen von Papers möglicherweise nicht besonders sinnvoll. Wichtiger ist es, die Reaktionen von LLMs zu verstehen und benutzerfreundliche Apps zu bauen. Wenn man die API von OpenAI oder Groq nutzt, ist es nicht besonders hilfreich, den Unterschied zwischen "multi head attention" und "single head attention" zu kennen

  • So eine Liste zu erstellen ist eine schwierige Aufgabe. Es gibt viele geeignete Kandidaten zusätzlich zu den ausgewählten, deshalb sollte man das eher als Curriculum sehen und aktuelle relevante Papers eher als bewegliche Verweise denn als feste Referenzen verstehen. Ein bestimmter Lesekanon wird in einem Paper-Club behandelt

  • Die Instruction-Fine-Tuning-Methoden der meisten Open-Source-Modelle stammen von Alpaca. Auch Papers zu Alpaca und zur Erzeugung synthetischer Daten sollten aufgenommen werden

  • Statt Zeit damit zu verschwenden, AI- und LLM-Papers zu lesen und zu verstehen, sollte man lieber über ELIZA lesen und sie selbst nachbauen. Man sollte sich auf Tensoren, Vektoren, Felder, Linguistik, Computerarchitektur und Netzwerke konzentrieren

  • Die Leseliste ist etwa ein Jahr alt. 2025 sollte man sich auf Techniken wie KTO, RLOO und DPO konzentrieren. 2025 sollte man sich nur auf Distillation und Optimierung konzentrieren. CoT ist nichts Neues, entscheidend ist modifiziertes CoT

  • Es ist interessant, dass der Begriff "AI" durch die jüngsten Fortschritte im Bereich DL fast vollständig vereinnahmt wurde. Es gibt keine Erwähnung von Russell & Norvig, Minsky, Shannon, Lenat usw. Wenn man an einer Einführung in breitere Themen rund um AI interessiert ist, verwenden die meisten Masterstudiengänge dasselbe Buch

  • Eine hervorragende Zusammenstellung. In Kombination mit dem untenstehenden Kurs erzielt man die besten Ergebnisse

  • Eine hervorragende Liste

 
francomoon7 2025-01-16

Was bedeutet es, Eliza selbst zu bauen?