17 Punkte von GN⁺ 2024-12-20 | 1 Kommentare | Auf WhatsApp teilen
  • ModernBERT ist ein neues reines Encoder-Modell, das aktuelle Techniken nutzt und bei Geschwindigkeit und Genauigkeit besser abschneidet als BERT und seine Nachfolgemodelle
  • Es unterstützt lange Kontextlängen von 8192 Tokens und wurde auch mit Code-Daten trainiert
  • Es kann in vielen Anwendungsbereichen eingesetzt werden und eignet sich besonders für groß angelegte Code-Suche und neue IDE-Funktionen

Einführung

  • BERT wurde 2018 veröffentlicht und ist noch immer weit verbreitet; es eignet sich besonders für Suche, Klassifikation und Entitätsextraktion.
  • ModernBERT ist als Ersatz für BERT gedacht und erreicht eine Pareto-Verbesserung bei Geschwindigkeit und Genauigkeit.
  • Durch die lange Kontextlänge und die Einbeziehung von Code-Daten erschließt es neue Anwendungsfelder.

Nur-Decoder-Modelle

  • Nur-Decoder-Modelle wie GPT, Llama und Claude sind generative Modelle, die menschenähnliche Inhalte erzeugen können.
  • Diese Modelle sind jedoch groß, langsam und verursachen hohe Kosten.
  • Reine Encoder-Modelle sind praxisnah, effizient und für viele Aufgaben gut geeignet.

Reine Encoder-Modelle

  • Reine Encoder-Modelle wandeln Eingaben in numerische Vektoren um und repräsentieren sie so.
  • Während Nur-Decoder-Modelle keine zukünftigen Tokens sehen können, betrachten reine Encoder-Modelle Tokens bidirektional und arbeiten dadurch effizient.
  • Reine Encoder-Modelle werden in vielen Anwendungsfeldern eingesetzt und sind besonders wichtig für RAG-Pipelines und Empfehlungssysteme.

Leistungsüberblick

  • ModernBERT zeigt bei unterschiedlichen Aufgaben eine hohe Genauigkeit und ist schneller als DeBERTaV3, während es weniger Speicher verbraucht.
  • Bei Long-Context-Inferenz ist es bis zu 3-mal schneller als andere hochwertige Modelle.
  • Bei der Code-Suche zeigt es eine herausragende Leistung und eröffnet Möglichkeiten für die Entwicklung neuer Anwendungen.

Effizienz

  • ModernBERT legt den Schwerpunkt auf Praxistauglichkeit und zeigt bei unterschiedlichen Eingabelängen eine hohe Geschwindigkeit.
  • Bei Long-Context-Eingaben ist es 2- bis 3-mal schneller als andere Modelle.
  • Es ermöglicht größere Batch-Größen und lässt sich dadurch auch auf kleineren GPUs effektiv einsetzen.

Was ModernBERT modern macht

  • ModernBERT verbessert Encoder-Modelle, indem es aktuelle Engineering-Ansätze anwendet.
  • Es setzt auf die Transformer++-Architektur, um die Leistung zu steigern.
  • Im Fokus stehen Effizienz sowie moderne Datengrößen und Datenquellen.

Ein neuer Transformer

  • ModernBERT verwendet die Transformer++-Architektur, um die Leistung zu verbessern.
  • Es nutzt RoPE zur besseren Positionskodierung und ersetzt MLP-Layer durch GeGLU-Layer.
  • Unnötige Bias-Terme werden entfernt, um die Parameternutzung zu optimieren.

Honda-Civic-Upgrade für die Rennstrecke

  • ModernBERT legt Wert auf Geschwindigkeit und kann in vielen Anwendungsbereichen effizient eingesetzt werden.
  • Es nutzt die Geschwindigkeitsverbesserungen von Flash Attention 2, um die Effizienz zu steigern.
  • Mit Alternating Attention, Unpadding und Sequence Packing reduziert es verschwendete Rechenarbeit.

Hinweise zur Hardware

  • ModernBERT wurde mit Blick auf Hardware-Design entwickelt, damit es auf verschiedenen GPUs optimale Leistung erzielt.
  • Das Modell wurde unter Berücksichtigung einer tiefen, schmalen Struktur und der Hardware-Effizienz entworfen.

Training

  • ModernBERT wird mit Daten aus verschiedenen Quellen trainiert und nutzt 2 Billionen Tokens.
  • Durch einen dreistufigen Trainingsprozess zeigt es bei vielen Aufgaben eine hervorragende Leistung.
  • In der frühen Trainingsphase wird ein Batch-Size-Warmup genutzt, um die Geschwindigkeit zu erhöhen.

Fazit

  • ModernBERT verbessert die Leistung reiner Encoder-Modelle durch den Einsatz aktueller Techniken.
  • Es bietet starke Leistung bei vielen Aufgaben und ein attraktives Größen-/Leistungsverhältnis.
  • Man erwartet kreative Einsatzmöglichkeiten aus der Community und veranstaltet derzeit einen Wettbewerb für Demos.

1 Kommentare

 
GN⁺ 2024-12-20
Hacker-News-Kommentare
  • Jeremy von Answer.AI erwartet, dass die Veröffentlichung des neuen Modells zur Grundlage für verschiedene Startups und Projekte werden könnte
    • Was im Blogbeitrag erwähnt wird, ist nur die Spitze des Eisbergs, und es gibt viele Möglichkeiten, das Modell auf unterschiedliche Weise fein abzustimmen
  • Reine Encoder-Modelle verzeichnen jeden Monat über 1 Milliarde Downloads, also dreimal so viele wie reine Decoder-Modelle
    • Das liegt auch daran, dass Decoder-Nutzer nicht Hugging Face verwenden, sondern API-Aufrufe, und daran, dass Encoder die heimlichen Helden der meisten ernsthaften ML-Anwendungen sind
    • Für Ranking, Empfehlungen, RAG usw. werden Encoder benötigt, und üblicherweise kommen Modelle aus der BERT-, RoBERTa- und ALBERT-Familie zum Einsatz
  • Als BERT-Modelle vor ein paar Jahren für Zusammenfassungen usw. verwendet wurden, fühlte es sich wie ein Wunder an
    • Ich werde warten, bis Ollama es in die Bibliothek aufnimmt, und die jüngsten Geschwindigkeitsverbesserungen bei LLMs sind beeindruckend
    • Apple unterstützt BERT-Modelle schon seit Längerem im Entwickler-SDK, und ich frage mich, wie schnell sie mit neuer Technik nachziehen werden
  • Beim Lesen des Papers war ich von der Hinzufügung lokaler Attention-Layer beeindruckt
    • Ich habe damit seit Jahren im Lucidrains-Repository experimentiert und bin überrascht, dass sich das nicht stärker weiterentwickelt hat
    • Die Inferenzgeschwindigkeit ist hervorragend, und es wurden viele Verbesserungen vorgenommen, etwa die Entfernung von NSP, stärkeres Masking, RoPE und langer Kontext
    • Ich würde gern ein "ModernTinyBERT" bauen, aber die Layer sind so komplex ineinander verschachtelt, dass es schwierig ist
  • Ich frage mich, wo BERT-Modelle derzeit eingesetzt werden
    • Ich habe sie als bessere Alternative zu LLMs für bestimmte Aufgaben verstanden, da sie Kontext bidirektional besser verstehen können
    • Allerdings sind auch LLMs leistungsstark, sodass der Unterschied gering sein könnte
  • Ich frage mich, ob sich das Modell mit SentenceTransformers feinabstimmen lässt
    • ColBERT ist im Benchmark enthalten, und ich frage mich, ob answerai-colbert-small-v2 bald erscheinen wird
  • Ich frage mich, ob jemand eine RAG-Evaluierung zu ModernBERT gesehen hat
  • Das Team von Answer.ai liefert heute ab, und Jeremy und sein Team verdienen Lob für die gute Arbeit
  • Ich frage mich, ob das Modell nur Englisch unterstützt und ob geplant ist, ein mehrsprachiges Modell oder einsprachige Modelle für andere Sprachen zu veröffentlichen
  • Schade, dass man das Modell nicht ERNIE genannt hat; das war eine verpasste Chance