- 10 wichtige Herausforderungen, über die im LLM-Bereich gesprochen wird, plus eine Linksammlung für weiterführendes Lernen
Verringerung und Messung von Halluzinationen
- Das größte Hindernis bei der Einführung von LLMs in Unternehmen sind Halluzinationen
- Die Entwicklung von Metriken zur Abschwächung und Messung von Halluzinationen ist ein populäres Forschungsthema, auf das sich viele Startups konzentrieren
- Als vorläufige Tipps zur Reduzierung von Halluzinationen gelten unter anderem: dem Prompt Kontext hinzufügen, Chain-Of-Thought, Self-Consistency und das Modell um knappe Antworten bitten
Optimierung von Kontextlänge und Kontextaufbau
- Die meisten Fragen benötigen Kontext
- Laut der SituatedQA-Arbeit hängt ein erheblicher Teil von Information-Retrieval-Fragen vom Kontext ab und wird je nach Kontext unterschiedlich beantwortet (16,5 % des NQ-Open-Datensatzes)
- In Unternehmensfällen dürfte dieser Anteil deutlich höher sein (bei einem Kundensupport-Chatbot wären z. B. die Historie des jeweiligen Kunden oder Informationen zum Produkt der Kontext)
- Die Kontextlänge ist besonders wichtig für RAG (Retrieval Augmented Generation)
- RAG arbeitet in zwei Schritten
- Chunking (Indexierung): Alle Dokumente sammeln, die im LLM verwendet werden sollen. Embeddings erzeugen, sie in Chunks aufteilen, damit sie im LLM genutzt werden können, und die Embeddings in einer Vektor-Datenbank speichern
- Abfrage: Wenn der Nutzer eine Abfrage sendet, wandelt das LLM sie in ein Embedding um. Anschließend werden aus der Vektor-Datenbank die Chunks geholt, die dem Embedding am ähnlichsten sind
- Je länger der Kontext ist, desto mehr Chunks können eingefügt werden. Wenn das Modell auf mehr Informationen zugreifen kann, werden die Antworten dann besser?
- Nicht unbedingt. Wie viel Kontext ein Modell verwendet und wie effizient es diesen Kontext nutzt, sind zwei verschiedene Fragen
- Neben den Bemühungen, die Kontextlänge von Modellen zu erhöhen, gibt es auch Arbeit daran, Kontext effizienter zu gestalten
- Das wird Prompt Engineering oder Prompt Construction genannt
- Eine aktuelle Arbeit zeigt zum Beispiel, dass Modelle Informationen am Anfang oder Ende eines Kontexts besser verstehen als in der Mitte
Integration anderer Datenmodalitäten
- Multimodality ist sehr leistungsfähig, wird aber noch unterschätzt
- Warum das wichtig ist
- Es gibt Anwendungsfälle mit sehr unterschiedlichen Datentypen, etwa in Medizin, Robotik, E-Commerce, Einzelhandel, Gaming und Unterhaltung
- Für medizinische Vorhersagen werden Text (Arztnotizen, Fragebögen) und Bilder (CT, X-Ray, MRI) benötigt
- Produkt-Metadaten umfassen Bilder, Videos, Beschreibungen und tabellarische Daten
- Multimodality wird die Modellleistung deutlich verbessern
- Modelle, die Text und Bilder verstehen können, sind leistungsfähiger als Modelle, die nur Text verstehen
- Bei textbasierten Modellen gibt es zudem die Sorge, dass die im Internet verfügbaren Daten zum Training bald ausgeschöpft sein könnten, da dafür enorme Mengen an Textdaten nötig sind
- Wenn Textdaten knapp werden, müssen andere Datenmodalitäten genutzt werden
- Besonders vielversprechend ist, dass Menschen mit Sehbehinderung durch Multimodality im Internet suchen und die reale Welt erkunden können
LLMs schneller und günstiger machen
- Als GPT-3.5 im November 2022 erschien, sorgten sich viele Menschen um Latenz und die Kosten des Einsatzes in der Produktion
- Inzwischen hat sich die Analyse von Latenz und Kosten jedoch stark verändert
- Noch nicht einmal ein halbes Jahr später hatte die Community Wege gefunden, Modelle zu bauen, die mit nur 2 % des Speicherbedarfs von GPT-3.5 in der Leistung sehr nah an GPT-3.5 herankommen
- Der Kernpunkt: Wenn etwas gut genug ist, finden Menschen Wege, es schnell und günstig zu machen
- Vier wichtige Techniken zur Modelloptimierung/-komprimierung, die bereits vor 4 Jahren zusammengefasst wurden
- Quantization: die gebräuchlichste Methode zur Modelloptimierung. Die Modellgröße wird reduziert, indem weniger Bits zur Darstellung von Parametern verwendet werden. Statt 32-Bit-Floating-Point kommen 16 Bit oder sogar 4 Bit zum Einsatz
- Knowledge distillation: Ein kleineres Modell (Schüler) wird darauf trainiert, ein größeres Modell oder ein Ensemble von Modellen (Lehrer) nachzuahmen
- Low-rank factorization: Hochdimensionale Tensoren werden durch niedrigdimensionale Tensoren ersetzt, um die Anzahl der Parameter zu verringern. Ein 3x3-Tensor kann beispielsweise in das Produkt eines 3x1- und eines 1x3-Tensors zerlegt werden, sodass statt 9 nur 6 Parameter nötig sind
- Pruning
- Diese vier Techniken sind auch heute noch relevant und populär. Alpaca nutzte Knowledge distillation, und QLoRA verwendete eine Kombination aus Low-rank factorization und Quantization
Entwurf neuer Modellarchitekturen
- Seit AlexNet im Jahr 2012 kamen und gingen viele Architekturen wie LSTM und seq2seq
- Im Vergleich dazu ist der Transformer bemerkenswert ausdauernd. Er erschien 2017, und es ist spannend, wie lange er noch dominieren wird
- Eine neue Architektur zu entwickeln, die den Transformer übertrifft, ist nicht einfach. Er wurde in den vergangenen 6 Jahren massiv optimiert
- Neue Architekturen müssen in Größenordnungen leistungsfähig sein, die heute tatsächlich Interesse wecken
- Transformer wurden ursprünglich dafür entworfen, schnell auf TPUs zu laufen, und später für GPUs optimiert
- 2021 gab es im Labor von Chris Ré viel Aufregung rund um S4.
Auch heute wird weiter in neue Architekturen investiert; zuletzt wurde gemeinsam mit dem Startup Together die Architektur Monarch Mixer entwickelt
Entwicklung von GPU-Alternativen
- Seit AlexNet 2012 sind GPUs die dominierende Hardware für Deep Learning
- Ein Grund für die Popularität von AlexNet war, dass es die erste Arbeit war, die GPUs erfolgreich zum Training neuronaler Netze einsetzte
Vor den GPUs hätte man zum Trainieren eines Modells in der Größenordnung von AlexNet Tausende CPUs gebraucht
Im Vergleich zu Tausenden CPUs waren 2 GPUs für Doktoranden und Forschende deutlich zugänglicher und lösten den Deep-Learning-Boom aus
- In den vergangenen 10 Jahren haben große Unternehmen, Startups und viele andere Firmen versucht, neue Hardware für AI zu entwickeln
- Besonders auffällig sind Googles TPU, Graphcores IPU und Cerebras
- SambaNova erhielt mehr als 1 Milliarde US-Dollar an Finanzierung für die Entwicklung neuer AI-Chips, pivotierte dann aber zu einer Plattform für generative AI
- Eine Zeit lang gab es große Erwartungen an Quantum Computing; wichtige Akteure sind unter anderem
- IBMs QPU
- Googles Quantencomputer veröffentlichte Anfang dieses Jahres in Nature einen wichtigen Meilenstein zur Reduzierung von Quantenfehlern. Auf die Quantenmaschine kann über Google Colab zugegriffen werden
- das MIT Center for Quantum Engineering, das Max-Planck-Institut für Quantenoptik, die Chicago Quantum Exchange, das Oak Ridge National Laboratory usw.
- Eine weitere sehr interessante Richtung sind photonic chips
- Heutige Chips bewegen Daten mit Elektrizität und verbrauchen daher viel Energie; außerdem entstehen Latenzen
- Photonische Chips bewegen Daten mit Photonen und nutzen die Lichtgeschwindigkeit für schnelleres und effizienteres Computing
- Verschiedene Startups in diesem Bereich haben Hunderte Millionen US-Dollar an Finanzierung erhalten, darunter Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) und Luminous Computing ($115M)
Agenten einsatzfähig machen
- Agenten sind LLMs, die Aufgaben wie Internetsuche, das Senden von E-Mails oder Reservierungen ausführen können
- Im Vergleich zu den anderen in diesem Text genannten Forschungsrichtungen ist dies wohl das früheste Entwicklungsstadium
- Wegen ihrer Neuartigkeit und ihres enormen Potenzials sind Agenten äußerst populär
- Auto-GPT ist nach GitHub Stars inzwischen das 25.-beliebteste Repo
- GPT-Engineering ist ein weiteres populäres Repository
- Trotz der Begeisterung gibt es weiterhin Zweifel, ob LLMs zuverlässig und leistungsfähig genug sind, um ihnen Handlungsvollmachten zu übertragen
- Das bemerkenswerteste Startup in diesem Bereich ist Adept
- gegründet von zwei Co-Autoren des Transformer-Papers und einem ehemaligen OpenAI-VP; bisher fast 500 Millionen US-Dollar finanziert
Verbesserung des Lernens durch Human Preferences
- RLHF, Reinforcement Learning from Human Preference, ist cool, aber etwas hacky
Es wäre nicht überraschend, wenn Menschen bessere Wege finden würden, LLMs zu trainieren. Bei RLHF gibt es noch ungelöste Fragen
- Wie lassen sich menschliche Präferenzen mathematisch ausdrücken?
- Derzeit werden menschliche Präferenzen durch Vergleiche bestimmt
- Menschliche Labeler entscheiden, ob Antwort A besser ist als Antwort B, berücksichtigen aber nicht, um wie viel besser Antwort A ist
- Was ist mit menschlichem Geschmack?
- Anthropic bewertete die Qualität von Modellantworten entlang der drei Achsen hilfreich, ehrlich und harmlos
- DeepMind versucht, Antworten zu erzeugen, die den meisten Menschen gefallen
- Wollen wir eine AI, die Position bezieht, oder eine langweilige AI, die potenziell kontroverse Themen meidet?
- Wenn man Unterschiede in Kultur, Religion und politischer Ausrichtung berücksichtigt: Wessen Präferenzen sind dann „menschliche“ Präferenzen?
- Es ist sehr schwierig, Trainingsdaten zu erhalten, die alle potenziellen Nutzer ausreichend repräsentieren
Im Fall des InstructGPT-Datensatzes von OpenAI gab es zum Beispiel keine Labeler über 65 Jahre. Die Labeler waren überwiegend von den Philippinen und aus Bangladesch
- Community-getriebene Bemühungen können trotz guter Absichten zu verzerrten Daten führen
Im Fall des OpenAssistant-Datensatzes gaben beispielsweise 201 von 222 Antwortenden (90,5 %) an, männlich zu sein
Effizienz von Chat-Interfaces verbessern
- Seit ChatGPT gibt es viele Diskussionen darüber, ob Chat ein geeignetes Interface für verschiedene Aufgaben ist
- Diese Diskussion ist nicht neu; in Asien wird Chat seit etwa 10 Jahren als Interface für Super-Apps genutzt
- Ich persönlich mag Chat-Interfaces aus folgenden Gründen
- Chat ist ein Interface, dessen Nutzung sich schnell erlernen lässt, auch für Menschen, die zuvor kaum mit Computern oder dem Internet in Berührung kamen
- Chat-Interfaces sind barrierearm. Wenn die Hände beschäftigt sind, kann man statt Text auch Sprache nutzen
- Chat ist ein unglaublich mächtiges Interface. Man kann jede Art von Anfrage stellen, und selbst wenn die Antwort nicht gut ist, gibt es immerhin eine Antwort
- Dennoch gibt es noch Bereiche, in denen sich Chat-Interfaces verbessern lassen
- mehrere Nachrichten pro Turn
- multimodale Eingaben
- Integration generativer AI in Workflows
- Nachrichten bearbeiten und löschen
Aufbau von LLMs für nicht-englische Sprachen
- Derzeit funktionieren English-First-LLMs bei Leistung, Latenz und Geschwindigkeit für andere Sprachen nicht besonders gut
- Einige frühe Leser dieses Textes meinten, diese Richtung müsse nicht aufgenommen werden
- Das sei eher ein logistisches als ein Forschungsproblem. Man wisse bereits, wie es geht, und müsse nur Geld und Aufwand investieren
Doch das stimmt nicht. Die meisten Sprachen sind ressourcenarm. Im Vergleich zu Englisch oder Chinesisch gibt es deutlich weniger hochwertige Daten, und für das Training großer Modelle könnten andere Techniken nötig sein
- Pessimistischere Stimmen sagen sogar voraus, dass künftig viele Sprachen verschwinden und das Internet zu zwei Welten wird: einer englischen und einer mandarinsprachigen. Erinnert sich noch jemand an Esperando?
- Wie sich AI-Tools wie maschinelle Übersetzung und Chatbots auf das Sprachenlernen auswirken, ist noch unklar
Werden sie Menschen helfen, neue Sprachen schneller zu lernen, oder den Bedarf, überhaupt neue Sprachen zu lernen, vollständig beseitigen?
1 Kommentare
Die Autorin dieses Artikels hat offenbar das bei O'Reilly erschienene Buch Designing Machine Learning Systems geschrieben.
Die Übersetzung erschien bei Hanbit Publishing.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220