ModernBERT – ein Modell als Ersatz für BERT

(huggingface.co)

17 Punkte von GN⁺ 2024-12-20 | 1 Kommentare | Auf WhatsApp teilen

ModernBERT ist ein neues reines Encoder-Modell, das aktuelle Techniken nutzt und bei Geschwindigkeit und Genauigkeit besser abschneidet als BERT und seine Nachfolgemodelle
Es unterstützt lange Kontextlängen von 8192 Tokens und wurde auch mit Code-Daten trainiert
Es kann in vielen Anwendungsbereichen eingesetzt werden und eignet sich besonders für groß angelegte Code-Suche und neue IDE-Funktionen

Einführung

BERT wurde 2018 veröffentlicht und ist noch immer weit verbreitet; es eignet sich besonders für Suche, Klassifikation und Entitätsextraktion.
ModernBERT ist als Ersatz für BERT gedacht und erreicht eine Pareto-Verbesserung bei Geschwindigkeit und Genauigkeit.
Durch die lange Kontextlänge und die Einbeziehung von Code-Daten erschließt es neue Anwendungsfelder.

Nur-Decoder-Modelle

Nur-Decoder-Modelle wie GPT, Llama und Claude sind generative Modelle, die menschenähnliche Inhalte erzeugen können.
Diese Modelle sind jedoch groß, langsam und verursachen hohe Kosten.
Reine Encoder-Modelle sind praxisnah, effizient und für viele Aufgaben gut geeignet.

Reine Encoder-Modelle

Reine Encoder-Modelle wandeln Eingaben in numerische Vektoren um und repräsentieren sie so.
Während Nur-Decoder-Modelle keine zukünftigen Tokens sehen können, betrachten reine Encoder-Modelle Tokens bidirektional und arbeiten dadurch effizient.
Reine Encoder-Modelle werden in vielen Anwendungsfeldern eingesetzt und sind besonders wichtig für RAG-Pipelines und Empfehlungssysteme.

Leistungsüberblick

ModernBERT zeigt bei unterschiedlichen Aufgaben eine hohe Genauigkeit und ist schneller als DeBERTaV3, während es weniger Speicher verbraucht.
Bei Long-Context-Inferenz ist es bis zu 3-mal schneller als andere hochwertige Modelle.
Bei der Code-Suche zeigt es eine herausragende Leistung und eröffnet Möglichkeiten für die Entwicklung neuer Anwendungen.

Effizienz

ModernBERT legt den Schwerpunkt auf Praxistauglichkeit und zeigt bei unterschiedlichen Eingabelängen eine hohe Geschwindigkeit.
Bei Long-Context-Eingaben ist es 2- bis 3-mal schneller als andere Modelle.
Es ermöglicht größere Batch-Größen und lässt sich dadurch auch auf kleineren GPUs effektiv einsetzen.

Was ModernBERT modern macht

ModernBERT verbessert Encoder-Modelle, indem es aktuelle Engineering-Ansätze anwendet.
Es setzt auf die Transformer++-Architektur, um die Leistung zu steigern.
Im Fokus stehen Effizienz sowie moderne Datengrößen und Datenquellen.

Ein neuer Transformer

ModernBERT verwendet die Transformer++-Architektur, um die Leistung zu verbessern.
Es nutzt RoPE zur besseren Positionskodierung und ersetzt MLP-Layer durch GeGLU-Layer.
Unnötige Bias-Terme werden entfernt, um die Parameternutzung zu optimieren.

Honda-Civic-Upgrade für die Rennstrecke

ModernBERT legt Wert auf Geschwindigkeit und kann in vielen Anwendungsbereichen effizient eingesetzt werden.
Es nutzt die Geschwindigkeitsverbesserungen von Flash Attention 2, um die Effizienz zu steigern.
Mit Alternating Attention, Unpadding und Sequence Packing reduziert es verschwendete Rechenarbeit.

Hinweise zur Hardware

ModernBERT wurde mit Blick auf Hardware-Design entwickelt, damit es auf verschiedenen GPUs optimale Leistung erzielt.
Das Modell wurde unter Berücksichtigung einer tiefen, schmalen Struktur und der Hardware-Effizienz entworfen.

Training

ModernBERT wird mit Daten aus verschiedenen Quellen trainiert und nutzt 2 Billionen Tokens.
Durch einen dreistufigen Trainingsprozess zeigt es bei vielen Aufgaben eine hervorragende Leistung.
In der frühen Trainingsphase wird ein Batch-Size-Warmup genutzt, um die Geschwindigkeit zu erhöhen.

Fazit

ModernBERT verbessert die Leistung reiner Encoder-Modelle durch den Einsatz aktueller Techniken.
Es bietet starke Leistung bei vielen Aufgaben und ein attraktives Größen-/Leistungsverhältnis.
Man erwartet kreative Einsatzmöglichkeiten aus der Community und veranstaltet derzeit einen Wettbewerb für Demos.

1 Kommentare

GN⁺ 2024-12-20

Hacker-News-Kommentare

Jeremy von Answer.AI erwartet, dass die Veröffentlichung des neuen Modells zur Grundlage für verschiedene Startups und Projekte werden könnte
- Was im Blogbeitrag erwähnt wird, ist nur die Spitze des Eisbergs, und es gibt viele Möglichkeiten, das Modell auf unterschiedliche Weise fein abzustimmen
Reine Encoder-Modelle verzeichnen jeden Monat über 1 Milliarde Downloads, also dreimal so viele wie reine Decoder-Modelle
- Das liegt auch daran, dass Decoder-Nutzer nicht Hugging Face verwenden, sondern API-Aufrufe, und daran, dass Encoder die heimlichen Helden der meisten ernsthaften ML-Anwendungen sind
- Für Ranking, Empfehlungen, RAG usw. werden Encoder benötigt, und üblicherweise kommen Modelle aus der BERT-, RoBERTa- und ALBERT-Familie zum Einsatz
Als BERT-Modelle vor ein paar Jahren für Zusammenfassungen usw. verwendet wurden, fühlte es sich wie ein Wunder an
- Ich werde warten, bis Ollama es in die Bibliothek aufnimmt, und die jüngsten Geschwindigkeitsverbesserungen bei LLMs sind beeindruckend
- Apple unterstützt BERT-Modelle schon seit Längerem im Entwickler-SDK, und ich frage mich, wie schnell sie mit neuer Technik nachziehen werden
Beim Lesen des Papers war ich von der Hinzufügung lokaler Attention-Layer beeindruckt
- Ich habe damit seit Jahren im Lucidrains-Repository experimentiert und bin überrascht, dass sich das nicht stärker weiterentwickelt hat
- Die Inferenzgeschwindigkeit ist hervorragend, und es wurden viele Verbesserungen vorgenommen, etwa die Entfernung von NSP, stärkeres Masking, RoPE und langer Kontext
- Ich würde gern ein "ModernTinyBERT" bauen, aber die Layer sind so komplex ineinander verschachtelt, dass es schwierig ist
Ich frage mich, wo BERT-Modelle derzeit eingesetzt werden
- Ich habe sie als bessere Alternative zu LLMs für bestimmte Aufgaben verstanden, da sie Kontext bidirektional besser verstehen können
- Allerdings sind auch LLMs leistungsstark, sodass der Unterschied gering sein könnte
Ich frage mich, ob sich das Modell mit SentenceTransformers feinabstimmen lässt
- ColBERT ist im Benchmark enthalten, und ich frage mich, ob answerai-colbert-small-v2 bald erscheinen wird
Ich frage mich, ob jemand eine RAG-Evaluierung zu ModernBERT gesehen hat
Das Team von Answer.ai liefert heute ab, und Jeremy und sein Team verdienen Lob für die gute Arbeit
Ich frage mich, ob das Modell nur Englisch unterstützt und ob geplant ist, ein mehrsprachiges Modell oder einsprachige Modelle für andere Sprachen zu veröffentlichen
Schade, dass man das Modell nicht ERNIE genannt hat; das war eine verpasste Chance

ModernBERT – ein Modell als Ersatz für BERT

Einführung

Nur-Decoder-Modelle

Reine Encoder-Modelle

Leistungsüberblick

Effizienz

Was ModernBERT modern macht

Ein neuer Transformer

Honda-Civic-Upgrade für die Rennstrecke

Hinweise zur Hardware

Training

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare