[Übersetzung] Eine Erklärung zu Megabyte von Meta AI

(discuss.pytorch.kr)

12 Punkte von ninebow 2023-05-27 | Noch keine Kommentare. | Auf WhatsApp teilen

Einführung in die Hauptarchitektur von MegaByte
- Patch Embedder: bettet die Eingabe ein und teilt sie in Patches auf
- Global Module: ein autoregressiver Transformer, der Self-Attention ausführt
- Local Module: sagt auf Basis der vom globalen Modell erhaltenen Eingabe den nächsten Patch voraus
Einführung in den Multiscale Transformer
Einführung in den autoregressiven Transformer
Probleme aktueller Modelle: Tokenization, Scalability, Generation Speed
Vorgeschlagene Lösungsansätze
- Self-Attention mit auf O(N^(4/3)) reduzierten Rechenkosten
- Anwendung der Feedforward-Layer auf Patch-Ebene
- Parallele Verarbeitung beim Decoding
(Zusätzlich) Neueste Entwicklungen bei Meta AI
- SAM: https://de.news.hada.io/topic?id=8893
- MTIA: https://de.news.hada.io/topic?id=9246
- DINOv2: https://de.news.hada.io/topic?id=9269
- ImageBIND: https://de.news.hada.io/topic?id=9156
- (Nicht im Artikel, aber zusätzlich) MMS: https://de.news.hada.io/topic?id=9245
- (Ebenfalls nicht im Artikel) LIMA: https://de.news.hada.io/topic?id=9239

Verwandte Beiträge