3 Punkte von xguru 2024-06-21 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Meta Fundamental AI Research (FAIR) hat neue Forschungsergebnisse veröffentlicht
  • Darunter sind 6 Forschungsresultate mit Fokus auf den Kernthemen Innovation, Kreativität, Effizienz und Verantwortung

Meta Chameleon

  • Ein Modell mit einheitlicher Architektur, das Text und Bilder als Eingabe annimmt und eine Kombination aus Text und Bildern als Ausgabe erzeugen kann
    • Da Text und Bilder nicht mit diffusionbasierter Lernmethode, sondern per Tokenisierung verarbeitet werden, ist ein integrierter Ansatz möglich und Design, Wartung sowie Erweiterung werden erleichtert
    • Zentrale Komponenten der Modelle Chameleon 7B und 34B wurden unter einer nichtkommerziellen bzw. forschungsorientierten Lizenz veröffentlicht
    • Das Bildgenerierungsmodell wurde noch nicht veröffentlicht

Multi-Token Prediction

  • Vorgeschlagen wird ein neuer Ansatz, bei dem statt der herkömmlichen Vorhersage eines einzelnen Worts mehrere Wörter gleichzeitig vorhergesagt werden
    • Modellleistung und Trainingseffizienz verbessern sich, außerdem steigt die Geschwindigkeit
    • Ein vortrainiertes Modell für Code-Vervollständigung wurde unter einer nichtkommerziellen bzw. forschungsorientierten Lizenz veröffentlicht

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

  • Ein Text-zu-Musik-Generierungsmodell, das Text-Prompts in Musikclips umwandelt
    • Es kann verschiedene Eingaben wie bestimmte Akkorde oder Beats annehmen und dadurch die erzeugte Musikausgabe besser steuern
    • Zur Extraktion von Informationen, die für spezifische Steuerung relevant sind, werden Information bottleneck layer und temporal blurring eingesetzt
    • Die Bewertung zeigt: Die Generierungsqualität ist ähnlich wie beim Referenzmodell, bietet aber deutlich vielfältigere Steuerungsmöglichkeiten
    • Forschungspapier und Sample-Seite wurden veröffentlicht; Inferenz-Code und vortrainiertes Modell sollen später ebenfalls veröffentlicht werden

AudioSeal

  • Eine Audio-Watermarking-Technik zur Erkennung von KI-generierter Sprache
    • Sie kann innerhalb längerer Audioclips KI-generierte Abschnitte präzise identifizieren
    • Durch einen lokalen Erkennungsansatz statt bestehender komplexer Decoding-Algorithmen werden Geschwindigkeit und Effizienz verbessert
    • Veröffentlicht unter kommerzieller Lizenz; Teil einer Forschung zur Verhinderung des Missbrauchs verschiedener generativer KI-Tools

Unterstützung für die Veröffentlichung des PRISM-Datensatzes

  • Für die Verbesserung von LLMs ist es wichtig, Feedback von unterschiedlichen Menschen zu erhalten
    • In der Forschungsgemeinschaft wurden Fragen zu Methoden, Domänen und Zielen des Feedback-Prozesses aufgeworfen
    • Meta unterstützt die Veröffentlichung des PRISM-Datensatzes, der soziodemografische Merkmale und Präferenzen von 1.500 vielfältigen Teilnehmenden aus 75 Ländern abbildet
    • Der Datensatz ordnet die Präferenzen und das detaillierte Feedback jeder Person zu 8.011 Echtzeitgesprächen mit 21 LLMs zu
    • Ziel ist es, eine breitere Beteiligung an der KI-Entwicklung und einen inklusiveren Ansatz beim Technologie-Design zu fördern

Messung und Verbesserung geografischer Unterschiede in Text-zu-Bild-Generierungssystemen

  • Es ist wichtig, dass Text-zu-Bild-Modelle für alle Menschen gut funktionieren und die geografische sowie kulturelle Vielfalt der Welt widerspiegeln
    • Es wurde eine automatische Metrik namens "DIG In" entwickelt, um potenzielle geografische Unterschiede zu bewerten
    • Es wurden mehr als 65.000 Annotationen und über 20 Umfrageantworten gesammelt, um zu erforschen, wie Menschen geografische Repräsentation wahrnehmen
    • Dabei wurde festgestellt, dass Menschen geografische Repräsentation eher über bestimmte Komponenten innerhalb eines Bildes als über das Gesamtbild erkennen
    • Darauf aufbauend werden Wege erforscht, die Ausgabediversität von Text-zu-Bild-Modellen zu verbessern
    • Einführung von Contextualized Vendi Score guidance zur Erhöhung der Repräsentationsdiversität erzeugter Samples bei gleichbleibender Bildqualität und Prompt-Generierungs-Konsistenz

Noch keine Kommentare.

Noch keine Kommentare.