Offene Herausforderungen in der LLM-Forschung

xguru · 2023-08-22T11:22:02+09:00

10 wichtige Herausforderungen, über die im LLM-Bereich gesprochen wird, plus eine Linksammlung für weiterführendes Lernen Verringerung und Messung von Halluzinationen Das größte Hindernis bei der Einführung von LLMs in Unternehmen sind Halluzinationen Die Entwicklung von Metriken zur Abschwächung und Messung von Halluzinationen ist ein populäres Forschungsthema, auf das sich viele Startups konzentrieren Als vorläufige Tipps zur Reduzierung von Halluzinationen gelten unter anderem: dem Prompt Kontext hinzufügen, Chain-Of-Thought, Self-Consistency und das Modell um knappe Antworten bitten Optimierung von Kontextlänge und Kontextaufbau Die meisten Fragen benötigen Kontext Laut der SituatedQA-Arbeit hängt ein erheblicher Teil von Information-Retrieval-Fragen vom Kontext ab und wird je nach Kontext unterschiedlich beantwortet (16,5 % des NQ-Open-Datensatzes) In Unternehmensfällen dürfte dieser Anteil deutlich höher sein (bei einem Kundensupport-Chatbot wären z. B. die Historie des jeweiligen Kunden oder Informationen zum Produkt der Kontext) Die Kontextlänge ist besonders wichtig für RAG (Retrieval Augmented Generation) RAG arbeitet in zwei Schritten Chunking (Indexierung): Alle Dokumente sammeln, die im LLM verwendet werden sollen. Embeddings erzeugen, sie in Chunks aufteilen, damit sie im LLM genutzt werden können, und die Embeddings in einer Vektor-Datenbank speichern Abfrage: Wenn der Nutzer eine Abfrage sendet, wandelt das LLM sie in ein Embedding um. Anschließend werden aus der Vektor-Datenbank die Chunks geholt, die dem Embedding am ähnlichsten sind Je länger der Kontext ist, desto mehr Chunks können eingefügt werden. Wenn das Modell auf mehr Informationen zugreifen kann, werden die Antworten dann besser? Nicht unbedingt. Wie viel Kontext ein Modell verwendet und wie effizient es diesen Kontext nutzt, sind zwei verschiedene Fragen Neben den Bemühungen, die Kontextlänge von Modellen zu erhöhen, gibt es auch Arbeit daran, Kontext effizienter zu gestalten Das wird Prompt Engineering oder Prompt Construction genannt Eine aktuelle Arbeit zeigt zum Beispiel, dass Modelle Informationen am Anfang oder Ende eines Kontexts besser verstehen als in der Mitte Integration anderer Datenmodalitäten Multimodality ist sehr leistungsfähig, wird aber noch unterschätzt Warum das wichtig ist Es gibt Anwendungsfälle mit sehr unterschiedlichen Datentypen, etwa in Medizin, Robotik, E-Commerce, Einzelhandel, Gaming und Unterhaltung Für medizinische Vorhersagen werden Text (Arztnotizen, Fragebögen) und Bilder (CT, X-Ray, MRI) benötigt Produkt-Metadaten umfassen Bilder, Videos, Beschreibungen und tabellarische Daten Multimodality wird die Modellleistung deutlich verbessern Modelle, die Text und Bilder verstehen können, sind leistungsfähiger als Modelle, die nur Text verstehen Bei textbasierten Modellen gibt es zudem die Sorge, dass die im Internet verfügbaren Daten zum Training bald ausgeschöpft sein könnten, da dafür enorme Mengen an Textdaten nötig sind Wenn Textdaten knapp werden, müssen andere Datenmodalitäten genutzt werden Besonders vielversprechend ist, dass Menschen mit Sehbehinderung durch Multimodality im Internet suchen und die reale Welt erkunden können LLMs schneller und günstiger machen Als GPT-3.5 im November 2022 erschien, sorgten sich viele Menschen um Latenz und die Kosten des Einsatzes in der Produktion Inzwischen hat sich die Analyse von Latenz und Kosten jedoch stark verändert Noch nicht einmal ein halbes Jahr später hatte die Community Wege gefunden, Modelle zu bauen, die mit nur 2 % des Speicherbedarfs von GPT-3.5 in der Leistung sehr nah an GPT-3.5 herankommen Der Kernpunkt: Wenn etwas gut genug ist, finden Menschen Wege, es schnell und günstig zu machen Vier wichtige Techniken zur Modelloptimierung/-komprimierung, die bereits vor 4 Jahren zusammengefasst wurden Quantization: die gebräuchlichste Methode zur Modelloptimierung. Die Modellgröße wird reduziert, indem weniger Bits zur Darstellung von Parametern verwendet werden. Statt 32-Bit-Floating-Point kommen 16 Bit oder sogar 4 Bit zum Einsatz Knowledge distillation: Ein kleineres Modell (Schüler) wird darauf trainiert, ein größeres Modell oder ein Ensemble von Modellen (Lehrer) nachzuahmen Low-rank factorization: Hochdimensionale Tensoren werden durch niedrigdimensionale Tensoren ersetzt, um die Anzahl der Parameter zu verringern. Ein 3x3-Tensor kann beispielsweise in das Produkt eines 3x1- und eines 1x3-Tensors zerlegt werden, sodass statt 9 nur 6 Parameter nötig sind Pruning Diese vier Techniken sind auch heute noch relevant und populär. Alpaca nutzte Knowledge distillation, und QLoRA verwendete eine Kombination aus Low-rank factorization und Quantization Entwurf neuer Modellarchitekturen Seit AlexNet im Jahr 2012 kamen und gingen viele Architekturen wie LSTM und seq2seq Im Vergleich dazu ist der Transformer bemerkenswert ausdauernd. Er erschien 2017, und es ist spannend, wie lange er noch dominieren wird Eine neue Architektur zu entwickeln, die den Transformer übertrifft, ist nicht einfach. Er wurde in den vergangenen 6 Jahren massiv optimiert Neue Architekturen müssen in Größenordnungen leistungsfähig sein, die heute tatsächlich Interesse wecken Transformer wurden ursprünglich dafür entworfen, schnell auf TPUs zu laufen, und später für GPUs optimiert 2021 gab es im Labor von Chris Ré viel Aufregung rund um S4. Auch heute wird weiter in neue Architekturen investiert; zuletzt wurde gemeinsam mit dem Startup Together die Architektur Monarch Mixer entwickelt Entwicklung von GPU-Alternativen Seit AlexNet 2012 sind GPUs die dominierende Hardware für Deep Learning Ein Grund für die Popularität von AlexNet war, dass es die erste Arbeit war, die GPUs erfolgreich zum Training neuronaler Netze einsetzte Vor den GPUs hätte man zum Trainieren eines Modells in der Größenordnung von AlexNet Tausende CPUs gebraucht Im Vergleich zu Tausenden CPUs waren 2 GPUs für Doktoranden und Forschende deutlich zugänglicher und lösten den Deep-Learning-Boom aus In den vergangenen 10 Jahren haben große Unternehmen, Startups und viele andere Firmen versucht, neue Hardware für AI zu entwickeln Besonders auffällig sind Googles TPU, Graphcores IPU und Cerebras SambaNova erhielt mehr als 1 Milliarde US-Dollar an Finanzierung für die Entwicklung neuer AI-Chips, pivotierte dann aber zu einer Plattform für generative AI Eine Zeit lang gab es große Erwartungen an Quantum Computing; wichtige Akteure sind unter anderem IBMs QPU Googles Quantencomputer veröffentlichte Anfang dieses Jahres in Nature einen wichtigen Meilenstein zur Reduzierung von Quantenfehlern. Auf die Quantenmaschine kann über Google Colab zugegriffen werden das MIT Center for Quantum Engineering, das Max-Planck-Institut für Quantenoptik, die Chicago Quantum Exchange, das Oak Ridge National Laboratory usw. Eine weitere sehr interessante Richtung sind photonic chips Heutige Chips bewegen Daten mit Elektrizität und verbrauchen daher viel Energie; außerdem entstehen Latenzen Photonische Chips bewegen Daten mit Photonen und nutzen die Lichtgeschwindigkeit für schnelleres und effizienteres Computing Verschiedene Startups in diesem Bereich haben Hunderte Millionen US-Dollar an Finanzierung erhalten, darunter Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) und Luminous Computing ($115M) Agenten einsatzfähig machen Agenten sind LLMs, die Aufgaben wie Internetsuche, das Senden von E-Mails oder Reservierungen ausführen können Im Vergleich zu den anderen in diesem Text genannten Forschungsrichtungen ist dies wohl das früheste Entwicklungsstadium Wegen ihrer Neuartigkeit und ihres enormen Potenzials sind Agenten äußerst populär Auto-GPT ist nach GitHub Stars inzwischen das 25.-beliebteste Repo GPT-Engineering ist ein weiteres populäres Repository Trotz der Begeisterung gibt es weiterhin Zweifel, ob LLMs zuverlässig und leistungsfähig genug sind, um ihnen Handlungsvollmachten zu übertragen Das bemerkenswerteste Startup in diesem Bereich ist Adept gegründet von zwei Co-Autoren des Transformer-Papers und einem ehemaligen OpenAI-VP; bisher fast 500 Millionen US-Dollar finanziert Verbesserung des Lernens durch Human Preferences RLHF, Reinforcement Learning from Human Preference, ist cool, aber etwas hacky Es wäre nicht überraschend, wenn Menschen bessere Wege finden würden, LLMs zu trainieren. Bei RLHF gibt es noch ungelöste Fragen Wie lassen sich menschliche Präferenzen mathematisch ausdrücken? Derzeit werden menschliche Präferenzen durch Vergleiche bestimmt Menschliche Labeler entscheiden, ob Antwort A besser ist als Antwort B, berücksichtigen aber nicht, um wie viel besser Antwort A ist Was ist mit menschlichem Geschmack? Anthropic bewertete die Qualität von Modellantworten entlang der drei Achsen hilfreich, ehrlich und harmlos DeepMind versucht, Antworten zu erzeugen, die den meisten Menschen gefallen Wollen wir eine AI, die Position bezieht, oder eine langweilige AI, die potenziell kontroverse Themen meidet? Wenn man Unterschiede in Kultur, Religion und politischer Ausrichtung berücksichtigt: Wessen Präferenzen sind dann „menschliche“ Präferenzen? Es ist sehr schwierig, Trainingsdaten zu erhalten, die alle potenziellen Nutzer ausreichend repräsentieren Im Fall des InstructGPT-Datensatzes von OpenAI gab es zum Beispiel keine Labeler über 65 Jahre. Die Labeler waren überwiegend von den Philippinen und aus Bangladesch Community-getriebene Bemühungen können trotz guter Absichten zu verzerrten Daten führen Im Fall des OpenAssistant-Datensatzes gaben beispielsweise 201 von 222 Antwortenden (90,5 %) an, männlich zu sein Effizienz von Chat-Interfaces verbessern Seit ChatGPT gibt es viele Diskussionen darüber, ob Chat ein geeignetes Interface für verschiedene Aufgaben ist Diese Diskussion ist nicht neu; in Asien wird Chat seit etwa 10 Jahren als Interface für Super-Apps genutzt Ich persönlich mag Chat-Interfaces aus folgenden Gründen Chat ist ein Interface, dessen Nutzung sich schnell erlernen lässt, auch für Menschen, die zuvor kaum mit Computern oder dem Internet in Berührung kamen Chat-Interfaces sind barrierearm. Wenn die Hände beschäftigt sind, kann man statt Text auch Sprache nutzen Chat ist ein unglaublich mächtiges Interface. Man kann jede Art von Anfrage stellen, und selbst wenn die Antwort nicht gut ist, gibt es immerhin eine Antwort Dennoch gibt es noch Bereiche, in denen sich Chat-Interfaces verbessern lassen mehrere Nachrichten pro Turn multimodale Eingaben Integration generativer AI in Workflows Nachrichten bearbeiten und löschen Aufbau von LLMs für nicht-englische Sprachen Derzeit funktionieren English-First-LLMs bei Leistung, Latenz und Geschwindigkeit für andere Sprachen nicht besonders gut Einige frühe Leser dieses Textes meinten, diese Richtung müsse nicht aufgenommen werden Das sei eher ein logistisches als ein Forschungsproblem. Man wisse bereits, wie es geht, und müsse nur Geld und Aufwand investieren Doch das stimmt nicht. Die meisten Sprachen sind ressourcenarm. Im Vergleich zu Englisch oder Chinesisch gibt es deutlich weniger hochwertige Daten, und für das Training großer Modelle könnten andere Techniken nötig sein Pessimistischere Stimmen sagen sogar voraus, dass künftig viele Sprachen verschwinden und das Internet zu zwei Welten wird: einer englischen und einer mandarinsprachigen. Erinnert sich noch jemand an Esperando? Wie sich AI-Tools wie maschinelle Übersetzung und Chatbots auf das Sprachenlernen auswirken, ist noch unklar Werden sie Menschen helfen, neue Sprachen schneller zu lernen, oder den Bedarf, überhaupt neue Sprachen zu lernen, vollständig beseitigen?

(huyenchip.com)

30 Punkte von xguru 2023-08-22 | 1 Kommentare | Auf WhatsApp teilen

10 wichtige Herausforderungen, über die im LLM-Bereich gesprochen wird, plus eine Linksammlung für weiterführendes Lernen

Verringerung und Messung von Halluzinationen

Das größte Hindernis bei der Einführung von LLMs in Unternehmen sind Halluzinationen
Die Entwicklung von Metriken zur Abschwächung und Messung von Halluzinationen ist ein populäres Forschungsthema, auf das sich viele Startups konzentrieren
Als vorläufige Tipps zur Reduzierung von Halluzinationen gelten unter anderem: dem Prompt Kontext hinzufügen, Chain-Of-Thought, Self-Consistency und das Modell um knappe Antworten bitten

Optimierung von Kontextlänge und Kontextaufbau

Die meisten Fragen benötigen Kontext
Laut der SituatedQA-Arbeit hängt ein erheblicher Teil von Information-Retrieval-Fragen vom Kontext ab und wird je nach Kontext unterschiedlich beantwortet (16,5 % des NQ-Open-Datensatzes)
In Unternehmensfällen dürfte dieser Anteil deutlich höher sein (bei einem Kundensupport-Chatbot wären z. B. die Historie des jeweiligen Kunden oder Informationen zum Produkt der Kontext)
Die Kontextlänge ist besonders wichtig für RAG (Retrieval Augmented Generation)
RAG arbeitet in zwei Schritten
- Chunking (Indexierung): Alle Dokumente sammeln, die im LLM verwendet werden sollen. Embeddings erzeugen, sie in Chunks aufteilen, damit sie im LLM genutzt werden können, und die Embeddings in einer Vektor-Datenbank speichern
- Abfrage: Wenn der Nutzer eine Abfrage sendet, wandelt das LLM sie in ein Embedding um. Anschließend werden aus der Vektor-Datenbank die Chunks geholt, die dem Embedding am ähnlichsten sind
Je länger der Kontext ist, desto mehr Chunks können eingefügt werden. Wenn das Modell auf mehr Informationen zugreifen kann, werden die Antworten dann besser?
Nicht unbedingt. Wie viel Kontext ein Modell verwendet und wie effizient es diesen Kontext nutzt, sind zwei verschiedene Fragen
Neben den Bemühungen, die Kontextlänge von Modellen zu erhöhen, gibt es auch Arbeit daran, Kontext effizienter zu gestalten
- Das wird Prompt Engineering oder Prompt Construction genannt
- Eine aktuelle Arbeit zeigt zum Beispiel, dass Modelle Informationen am Anfang oder Ende eines Kontexts besser verstehen als in der Mitte

Integration anderer Datenmodalitäten

Multimodality ist sehr leistungsfähig, wird aber noch unterschätzt
Warum das wichtig ist
- Es gibt Anwendungsfälle mit sehr unterschiedlichen Datentypen, etwa in Medizin, Robotik, E-Commerce, Einzelhandel, Gaming und Unterhaltung
  - Für medizinische Vorhersagen werden Text (Arztnotizen, Fragebögen) und Bilder (CT, X-Ray, MRI) benötigt
  - Produkt-Metadaten umfassen Bilder, Videos, Beschreibungen und tabellarische Daten
- Multimodality wird die Modellleistung deutlich verbessern
  - Modelle, die Text und Bilder verstehen können, sind leistungsfähiger als Modelle, die nur Text verstehen
  - Bei textbasierten Modellen gibt es zudem die Sorge, dass die im Internet verfügbaren Daten zum Training bald ausgeschöpft sein könnten, da dafür enorme Mengen an Textdaten nötig sind
  - Wenn Textdaten knapp werden, müssen andere Datenmodalitäten genutzt werden
Besonders vielversprechend ist, dass Menschen mit Sehbehinderung durch Multimodality im Internet suchen und die reale Welt erkunden können

LLMs schneller und günstiger machen

Als GPT-3.5 im November 2022 erschien, sorgten sich viele Menschen um Latenz und die Kosten des Einsatzes in der Produktion
Inzwischen hat sich die Analyse von Latenz und Kosten jedoch stark verändert
Noch nicht einmal ein halbes Jahr später hatte die Community Wege gefunden, Modelle zu bauen, die mit nur 2 % des Speicherbedarfs von GPT-3.5 in der Leistung sehr nah an GPT-3.5 herankommen
Der Kernpunkt: Wenn etwas gut genug ist, finden Menschen Wege, es schnell und günstig zu machen
Vier wichtige Techniken zur Modelloptimierung/-komprimierung, die bereits vor 4 Jahren zusammengefasst wurden
- Quantization: die gebräuchlichste Methode zur Modelloptimierung. Die Modellgröße wird reduziert, indem weniger Bits zur Darstellung von Parametern verwendet werden. Statt 32-Bit-Floating-Point kommen 16 Bit oder sogar 4 Bit zum Einsatz
- Knowledge distillation: Ein kleineres Modell (Schüler) wird darauf trainiert, ein größeres Modell oder ein Ensemble von Modellen (Lehrer) nachzuahmen
- Low-rank factorization: Hochdimensionale Tensoren werden durch niedrigdimensionale Tensoren ersetzt, um die Anzahl der Parameter zu verringern. Ein 3x3-Tensor kann beispielsweise in das Produkt eines 3x1- und eines 1x3-Tensors zerlegt werden, sodass statt 9 nur 6 Parameter nötig sind
- Pruning
Diese vier Techniken sind auch heute noch relevant und populär. Alpaca nutzte Knowledge distillation, und QLoRA verwendete eine Kombination aus Low-rank factorization und Quantization

Entwurf neuer Modellarchitekturen

Seit AlexNet im Jahr 2012 kamen und gingen viele Architekturen wie LSTM und seq2seq
Im Vergleich dazu ist der Transformer bemerkenswert ausdauernd. Er erschien 2017, und es ist spannend, wie lange er noch dominieren wird
Eine neue Architektur zu entwickeln, die den Transformer übertrifft, ist nicht einfach. Er wurde in den vergangenen 6 Jahren massiv optimiert
Neue Architekturen müssen in Größenordnungen leistungsfähig sein, die heute tatsächlich Interesse wecken
- Transformer wurden ursprünglich dafür entworfen, schnell auf TPUs zu laufen, und später für GPUs optimiert
2021 gab es im Labor von Chris Ré viel Aufregung rund um S4.
Auch heute wird weiter in neue Architekturen investiert; zuletzt wurde gemeinsam mit dem Startup Together die Architektur Monarch Mixer entwickelt

Entwicklung von GPU-Alternativen

Seit AlexNet 2012 sind GPUs die dominierende Hardware für Deep Learning
Ein Grund für die Popularität von AlexNet war, dass es die erste Arbeit war, die GPUs erfolgreich zum Training neuronaler Netze einsetzte
Vor den GPUs hätte man zum Trainieren eines Modells in der Größenordnung von AlexNet Tausende CPUs gebraucht
Im Vergleich zu Tausenden CPUs waren 2 GPUs für Doktoranden und Forschende deutlich zugänglicher und lösten den Deep-Learning-Boom aus
In den vergangenen 10 Jahren haben große Unternehmen, Startups und viele andere Firmen versucht, neue Hardware für AI zu entwickeln
Besonders auffällig sind Googles TPU, Graphcores IPU und Cerebras
SambaNova erhielt mehr als 1 Milliarde US-Dollar an Finanzierung für die Entwicklung neuer AI-Chips, pivotierte dann aber zu einer Plattform für generative AI
Eine Zeit lang gab es große Erwartungen an Quantum Computing; wichtige Akteure sind unter anderem
- IBMs QPU
- Googles Quantencomputer veröffentlichte Anfang dieses Jahres in Nature einen wichtigen Meilenstein zur Reduzierung von Quantenfehlern. Auf die Quantenmaschine kann über Google Colab zugegriffen werden
- das MIT Center for Quantum Engineering, das Max-Planck-Institut für Quantenoptik, die Chicago Quantum Exchange, das Oak Ridge National Laboratory usw.
Eine weitere sehr interessante Richtung sind photonic chips
- Heutige Chips bewegen Daten mit Elektrizität und verbrauchen daher viel Energie; außerdem entstehen Latenzen
- Photonische Chips bewegen Daten mit Photonen und nutzen die Lichtgeschwindigkeit für schnelleres und effizienteres Computing
- Verschiedene Startups in diesem Bereich haben Hunderte Millionen US-Dollar an Finanzierung erhalten, darunter Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) und Luminous Computing ($115M)

Agenten einsatzfähig machen

Agenten sind LLMs, die Aufgaben wie Internetsuche, das Senden von E-Mails oder Reservierungen ausführen können
Im Vergleich zu den anderen in diesem Text genannten Forschungsrichtungen ist dies wohl das früheste Entwicklungsstadium
Wegen ihrer Neuartigkeit und ihres enormen Potenzials sind Agenten äußerst populär
Auto-GPT ist nach GitHub Stars inzwischen das 25.-beliebteste Repo
GPT-Engineering ist ein weiteres populäres Repository
Trotz der Begeisterung gibt es weiterhin Zweifel, ob LLMs zuverlässig und leistungsfähig genug sind, um ihnen Handlungsvollmachten zu übertragen
Das bemerkenswerteste Startup in diesem Bereich ist Adept
- gegründet von zwei Co-Autoren des Transformer-Papers und einem ehemaligen OpenAI-VP; bisher fast 500 Millionen US-Dollar finanziert

Verbesserung des Lernens durch Human Preferences

RLHF, Reinforcement Learning from Human Preference, ist cool, aber etwas hacky
Es wäre nicht überraschend, wenn Menschen bessere Wege finden würden, LLMs zu trainieren. Bei RLHF gibt es noch ungelöste Fragen
- Wie lassen sich menschliche Präferenzen mathematisch ausdrücken?
  - Derzeit werden menschliche Präferenzen durch Vergleiche bestimmt
  - Menschliche Labeler entscheiden, ob Antwort A besser ist als Antwort B, berücksichtigen aber nicht, um wie viel besser Antwort A ist
- Was ist mit menschlichem Geschmack?
  - Anthropic bewertete die Qualität von Modellantworten entlang der drei Achsen hilfreich, ehrlich und harmlos
  - DeepMind versucht, Antworten zu erzeugen, die den meisten Menschen gefallen
  - Wollen wir eine AI, die Position bezieht, oder eine langweilige AI, die potenziell kontroverse Themen meidet?
- Wenn man Unterschiede in Kultur, Religion und politischer Ausrichtung berücksichtigt: Wessen Präferenzen sind dann „menschliche“ Präferenzen?
Es ist sehr schwierig, Trainingsdaten zu erhalten, die alle potenziellen Nutzer ausreichend repräsentieren
Im Fall des InstructGPT-Datensatzes von OpenAI gab es zum Beispiel keine Labeler über 65 Jahre. Die Labeler waren überwiegend von den Philippinen und aus Bangladesch
Community-getriebene Bemühungen können trotz guter Absichten zu verzerrten Daten führen
Im Fall des OpenAssistant-Datensatzes gaben beispielsweise 201 von 222 Antwortenden (90,5 %) an, männlich zu sein

Effizienz von Chat-Interfaces verbessern

Seit ChatGPT gibt es viele Diskussionen darüber, ob Chat ein geeignetes Interface für verschiedene Aufgaben ist
Diese Diskussion ist nicht neu; in Asien wird Chat seit etwa 10 Jahren als Interface für Super-Apps genutzt
Ich persönlich mag Chat-Interfaces aus folgenden Gründen
- Chat ist ein Interface, dessen Nutzung sich schnell erlernen lässt, auch für Menschen, die zuvor kaum mit Computern oder dem Internet in Berührung kamen
- Chat-Interfaces sind barrierearm. Wenn die Hände beschäftigt sind, kann man statt Text auch Sprache nutzen
- Chat ist ein unglaublich mächtiges Interface. Man kann jede Art von Anfrage stellen, und selbst wenn die Antwort nicht gut ist, gibt es immerhin eine Antwort
Dennoch gibt es noch Bereiche, in denen sich Chat-Interfaces verbessern lassen
- mehrere Nachrichten pro Turn
- multimodale Eingaben
- Integration generativer AI in Workflows
- Nachrichten bearbeiten und löschen

Aufbau von LLMs für nicht-englische Sprachen

Derzeit funktionieren English-First-LLMs bei Leistung, Latenz und Geschwindigkeit für andere Sprachen nicht besonders gut
Einige frühe Leser dieses Textes meinten, diese Richtung müsse nicht aufgenommen werden
- Das sei eher ein logistisches als ein Forschungsproblem. Man wisse bereits, wie es geht, und müsse nur Geld und Aufwand investieren
  Doch das stimmt nicht. Die meisten Sprachen sind ressourcenarm. Im Vergleich zu Englisch oder Chinesisch gibt es deutlich weniger hochwertige Daten, und für das Training großer Modelle könnten andere Techniken nötig sein
- Pessimistischere Stimmen sagen sogar voraus, dass künftig viele Sprachen verschwinden und das Internet zu zwei Welten wird: einer englischen und einer mandarinsprachigen. Erinnert sich noch jemand an Esperando?
Wie sich AI-Tools wie maschinelle Übersetzung und Chatbots auf das Sprachenlernen auswirken, ist noch unklar
Werden sie Menschen helfen, neue Sprachen schneller zu lernen, oder den Bedarf, überhaupt neue Sprachen zu lernen, vollständig beseitigen?

1 Kommentare

joone 2023-08-31

Die Autorin dieses Artikels hat offenbar das bei O'Reilly erschienene Buch Designing Machine Learning Systems geschrieben.
Die Übersetzung erschien bei Hanbit Publishing.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220