- Nutzt Hyena, eine neue Architektur als Ersatz für den Transformer, um sehr lange (Ultra Long) Kontexte zu unterstützen
- Hyena basiert auf einem von der Signalverarbeitung inspirierten Sequenzmodell
- Das erste Alternativmodell, das bei der Bewertung kurzer und langer Kontexte mit Transformern konkurrieren kann
- Erreicht bei Aufgaben auf dem OpenLLM-Leaderboard eine ähnliche Leistung wie Llama-2, Yi und Mistral 7B und zeigt starke Ergebnisse bei der Zusammenfassung langer Kontexte
- StripedHyena ist bei Training, Fine-Tuning und Generierung mit langen Sequenzen schneller und speichereffizienter
- Wurde mit einer neuen Technik des Model Grafting optimiert, mit der sich die Modellarchitektur während des Trainings ändern lässt
- StripedHyena entstand durch die Verbindung von Architekturkomponenten aus Transformer und Hyena und wurde auf einem gemischten RedPajama-Datensatz trainiert, der mit längeren Kontextdaten erweitert wurde
Noch keine Kommentare.