LANISTR: Ein neues Framework zum Lernen aus strukturierten und unstrukturierten Daten
(research.google)• LANISTR ist ein neues Framework, das multimodales Lernen ermöglicht, indem es unstrukturierte Daten (Bilder, Text) und strukturierte Daten (Zeitreihen, Tabellen) aufnimmt, ausrichtet und fusioniert und schließlich Vorhersagen erzeugt.
• Insbesondere adressiert es Probleme wie Overfitting und suboptimale Generalisierung beim Training auf Datensätzen mit begrenzter Größe sowie das Problem fehlender Modalitäten in multimodalen Daten mit zwei oder mehr Modalitäten.
• Die Architektur von LANISTR besteht aus modalitätsspezifischen Encodern und einem multimodalen Encoder-Decoder-Modul, das als Fusionsmechanismus dient und mittels Cross-Attention Beziehungen zwischen Modalitäten erfasst.
• Im Kern basiert die Methodik von LANISTR auf maskierungsbasiertem Training, das sowohl auf unimodaler als auch auf multimodaler Ebene angewendet wird. Es gibt zwei Arten von Pretraining-Zielen: ein unimodales Maskierungsziel und einen ähnlichkeitsbasierten multimodalen Maskierungsverlust.
• LANISTR erzielt bei mehreren anspruchsvollen Aufgaben Ergebnisse auf dem neuesten Stand der Technik und übertrifft konkurrierende Baselines sowohl auf dem medizinischen Datensatz MIMIC-IV als auch auf Amazon-Review-Daten.
• Es zeigt, wie wichtig es ist, unbeschriftete und beschriftete Daten gemeinsam zu nutzen, um aus strukturierten und unstrukturierten Daten zu lernen, und demonstriert die Fähigkeit, alle Modalitäten unverändert aktiv aufzunehmen, während des unbeaufsichtigten Pretrainings große Mengen unbeschrifteter Daten zu nutzen und fehlende Modalitäten nahtlos zu verarbeiten.
• LANISTR hat potenzielle Anwendungen in verschiedenen Bereichen, darunter medizinische Diagnostik und Prognosen der Einzelhandelsnachfrage.
Noch keine Kommentare.