9 Punkte von xguru 2023-12-13 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Nutzt Hyena, eine neue Architektur als Ersatz für den Transformer, um sehr lange (Ultra Long) Kontexte zu unterstützen
    • Hyena basiert auf einem von der Signalverarbeitung inspirierten Sequenzmodell
  • Das erste Alternativmodell, das bei der Bewertung kurzer und langer Kontexte mit Transformern konkurrieren kann
  • Erreicht bei Aufgaben auf dem OpenLLM-Leaderboard eine ähnliche Leistung wie Llama-2, Yi und Mistral 7B und zeigt starke Ergebnisse bei der Zusammenfassung langer Kontexte
  • StripedHyena ist bei Training, Fine-Tuning und Generierung mit langen Sequenzen schneller und speichereffizienter
  • Wurde mit einer neuen Technik des Model Grafting optimiert, mit der sich die Modellarchitektur während des Trainings ändern lässt
    • StripedHyena entstand durch die Verbindung von Architekturkomponenten aus Transformer und Hyena und wurde auf einem gemischten RedPajama-Datensatz trainiert, der mit längeren Kontextdaten erweitert wurde

Noch keine Kommentare.

Noch keine Kommentare.