1 Punkte von GN⁺ 2023-12-22 | 1 Kommentare | Auf WhatsApp teilen

Sammlung zum Lesen von NLP-Facharbeiten

  • Die Sammlung zum Lesen von Facharbeiten über Natural Language Processing (NLP) besteht aus 22 Einträgen.
  • Diese Sammlung wurde kürzlich aktualisiert und ist nützlich, um die neuesten Forschungstrends im Bereich NLP zu erfassen.
  • NLP ist eine Technologie, die es Computern ermöglicht, menschliche Sprache zu verstehen und zu verarbeiten, und hat vielfältige Anwendungsbereiche wie maschinelle Übersetzung, Sentiment-Analyse und Frage-Antwort-Systeme.

Meinung von GN⁺

  • Diese Sammlung bietet einen Überblick über die neueste Forschung im NLP-Bereich und dürfte für Forschende oder Entwickler mit Interesse an NLP sehr nützlich sein.
  • NLP ist innerhalb der KI-Technologien ein besonders schnell voranschreitendes Feld, und über diese Sammlung lassen sich aktuelle Trends und innovative Ideen kennenlernen.
  • Technologien der natürlichen Sprachverarbeitung sind tief in unseren Alltag integriert, und diese Sammlung gibt einen Einblick in die Entwicklungsrichtung der Technik und ihre zukünftigen Möglichkeiten.

1 Kommentare

 
GN⁺ 2023-12-22
Hacker-News-Kommentare
  • Es hat eine Weile gedauert, bis ich dieses Paper verstanden habe, weil es auf den Techniken des Papers „Deja Vu“ aufbaut und komplexe Verfahren behandelt, die Sparsity ausnutzen:

    • Das Paper „Deja Vu“ beobachtet, dass Modelle mit geringer Weight-Sparsity eine hohe „kontextuelle Sparsity“ aufweisen. Das heißt, Matrixmultiplikationen erzeugen abhängig von der Eingabe Vektoren, die an verschiedenen Positionen viele Nullen enthalten.
    • Das Paper weist darauf hin, dass man diese Sparsity nutzen kann, um manche Zeilen der Matrix gar nicht erst zu laden.
    • Um jedoch gute Performance-Gewinne zu erzielen, muss man im Voraus vorhersagen können, welche Zeilen übersprungen werden können. Das ist mit einer niedrigdimensionalen Matrix möglich.
    • Das Paper von Apple legt nahe, dass diese Erkenntnis nicht nur die Lade-Performance aus dem RAM verbessert, sondern auch das Laden aus Flash-Speicher ermöglicht, ohne Bandbreite zu opfern:
      • Bemerkenswert ist, dass die Attention-Matrix leichtgewichtig ist und das sparse Laden des Feedforward-Netzwerks (FFN) entscheidend ist.
      • Das Paper weist darauf hin, dass die Vorhersage der Ausgabe einer ReLU-Schicht deutlich bessere Sparsity liefert als die Vorhersage der Eingabe des FFN. Das bedeutet: „Wenn man nach dem Matmul vorhersagen kann, dass dieser Vektor-Slot vor der ReLU einen negativen Wert haben wird, kann man 0 ausgeben, ohne die betreffende Matrixspalte zu laden.“
      • Das Paper schlägt vor, dass die meisten FFN-Zeilen überhaupt nicht geladen werden müssen und dass man für jedes FFN einen Cache der zuletzt verwendeten FFN-Zeilen vorhalten und ihn bei Bedarf aus dem Flash-Speicher aktualisieren kann.
    • Im Paper geht es auch um Chunk-Loading und die Korrelation zwischen Projektionsebenen, aber die zentrale Erkenntnis ist der oben genannte Teil.
  • Ich hatte gehofft, im Fazit des Papers einen Abschnitt dazu zu finden, wie diese Funktion für Nutzer bereitgestellt werden soll, aber vielleicht fällt diese Diskussion außerhalb des Umfangs.

    • Ich frage mich, ob so etwas den Nutzern über API-Aufrufe und Einstellungen in CoreML bereitgestellt wird, zum Beispiel indem man ein use_flash-Flag setzt, oder ob es sich um eine für den Nutzer transparente Runtime-Optimierung handelt. Ich würde gern wissen, ob es gute Talks oder Präsentationen gibt, in denen Apple über die Entwicklungs-Roadmap von CoreML, Metal usw. spricht.
  • Ich frage mich, ab welchem Anteil des Modells, den man nicht mehr laden muss, man tatsächlich einen Performance-Unterschied sieht.

    • Zum Beispiel: Wenn man 90 % der Performance aus dem RAM beibehalten will, reicht dann die Hälfte des Speichers aus, oder braucht man eher 90 % oder 95 % davon?
    • Mich interessiert, wie schnell der Performance-Verlust gegenüber der maximalen Performance einsetzt, wenn man den RAM reduziert. Das Diagramm vergleicht zwar mit dem Basisalgorithmus bei geringerem RAM, aber das ist eine andere (wenn auch gute!) Frage.
    • Wenn man mit einem 8-GB-Modell gute Leistung erzielen kann, ohne das gesamte Modell in den Telefonspeicher zu laden, wäre das eindeutig sehr nützlich.
  • Bemerkenswert ist, dass Apple-Geräte im Vergleich zu ähnlichen Geräten der Konkurrenz sehr wenig RAM haben.

    • Das liegt zum Teil daran, dass Apples Software-Teams effizientere Sprachen wie Objective-C verwenden, und zum Teil daran, dass iOS-Anwendungen nicht auf eine Vielzahl von Bildschirmauflösungen abzielen und daher seltener hochauflösende Texturen laden und dann herunterskalieren müssen.
    • Außerdem werden RAM-Preise auch dann nicht dramatisch günstiger, wenn man auf Apples Größenordnung RAM einkauft, sodass mehr RAM die Marge stärker belastet als das Hinzufügen anderer Funktionen.
    • All das wird jedoch zum Problem, wenn man Large Language Models (LLMs) einsetzen will, denn diese verbrauchen von Natur aus viel RAM. Und jede Speicherspartechnik kann auch von Konkurrenten mit mehr RAM genutzt werden, um größere und bessere Modelle umzusetzen.
  • Mein Verständnis des Themas ist begrenzt, aber ich frage mich, ob man mit dieser Technik LLMs auf Mobiltelefonen offline ausführen kann.

    • Falls ja, könnte das zu vielen interessanten Anwendungen führen, etwa zu KI-gestützter Inhaltsmoderation, ohne vertrauliche Daten nach außen zu senden.
  • Ich finde es gut, dass in neueren Artikeln statt von „AI“ von „LLM“ die Rede ist.

    • So wird klar, dass es um eine konkrete Technologie geht und nicht um Marketing-Hype.
  • Es ist etwas überraschend, dass dieses Paper FlashAttention nicht erwähnt.

    • Da beide Arbeiten Flash-Speicher nutzen, hätte es zumindest erwähnt werden sollen.
  • Hat Apple ein iranisches Unternehmen übernommen?

  • Zum Beispiel soll das OPT-6.7B-Modell innerhalb der FFN-Schichten eine Sparsity von 97 % zeigen.

    • Ich frage mich, ob jemand weiß, was die hier genannte Metrik genau bedeutet. Heißt das, dass die Schicht 97 % Nullwerte enthält, oder dass sie sich auf 3 % ihrer Größe komprimieren lässt?
  • Ich hoffe, dass diese Technik in llama.cpp und candle integriert wird.

    • Diese Fortschritte sind wirklich beeindruckend, und ich hoffe, dass sie irgendwann auch in diesen Bibliotheken ankommen.