- Meta Fundamental AI Research (FAIR) hat neue Forschungsergebnisse veröffentlicht
- Darunter sind 6 Forschungsresultate mit Fokus auf den Kernthemen Innovation, Kreativität, Effizienz und Verantwortung
Meta Chameleon
- Ein Modell mit einheitlicher Architektur, das Text und Bilder als Eingabe annimmt und eine Kombination aus Text und Bildern als Ausgabe erzeugen kann
- Da Text und Bilder nicht mit diffusionbasierter Lernmethode, sondern per Tokenisierung verarbeitet werden, ist ein integrierter Ansatz möglich und Design, Wartung sowie Erweiterung werden erleichtert
- Zentrale Komponenten der Modelle Chameleon 7B und 34B wurden unter einer nichtkommerziellen bzw. forschungsorientierten Lizenz veröffentlicht
- Das Bildgenerierungsmodell wurde noch nicht veröffentlicht
Multi-Token Prediction
- Vorgeschlagen wird ein neuer Ansatz, bei dem statt der herkömmlichen Vorhersage eines einzelnen Worts mehrere Wörter gleichzeitig vorhergesagt werden
- Modellleistung und Trainingseffizienz verbessern sich, außerdem steigt die Geschwindigkeit
- Ein vortrainiertes Modell für Code-Vervollständigung wurde unter einer nichtkommerziellen bzw. forschungsorientierten Lizenz veröffentlicht
JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)
- Ein Text-zu-Musik-Generierungsmodell, das Text-Prompts in Musikclips umwandelt
- Es kann verschiedene Eingaben wie bestimmte Akkorde oder Beats annehmen und dadurch die erzeugte Musikausgabe besser steuern
- Zur Extraktion von Informationen, die für spezifische Steuerung relevant sind, werden Information bottleneck layer und temporal blurring eingesetzt
- Die Bewertung zeigt: Die Generierungsqualität ist ähnlich wie beim Referenzmodell, bietet aber deutlich vielfältigere Steuerungsmöglichkeiten
- Forschungspapier und Sample-Seite wurden veröffentlicht; Inferenz-Code und vortrainiertes Modell sollen später ebenfalls veröffentlicht werden
AudioSeal
- Eine Audio-Watermarking-Technik zur Erkennung von KI-generierter Sprache
- Sie kann innerhalb längerer Audioclips KI-generierte Abschnitte präzise identifizieren
- Durch einen lokalen Erkennungsansatz statt bestehender komplexer Decoding-Algorithmen werden Geschwindigkeit und Effizienz verbessert
- Veröffentlicht unter kommerzieller Lizenz; Teil einer Forschung zur Verhinderung des Missbrauchs verschiedener generativer KI-Tools
Unterstützung für die Veröffentlichung des PRISM-Datensatzes
- Für die Verbesserung von LLMs ist es wichtig, Feedback von unterschiedlichen Menschen zu erhalten
- In der Forschungsgemeinschaft wurden Fragen zu Methoden, Domänen und Zielen des Feedback-Prozesses aufgeworfen
- Meta unterstützt die Veröffentlichung des PRISM-Datensatzes, der soziodemografische Merkmale und Präferenzen von 1.500 vielfältigen Teilnehmenden aus 75 Ländern abbildet
- Der Datensatz ordnet die Präferenzen und das detaillierte Feedback jeder Person zu 8.011 Echtzeitgesprächen mit 21 LLMs zu
- Ziel ist es, eine breitere Beteiligung an der KI-Entwicklung und einen inklusiveren Ansatz beim Technologie-Design zu fördern
Messung und Verbesserung geografischer Unterschiede in Text-zu-Bild-Generierungssystemen
- Es ist wichtig, dass Text-zu-Bild-Modelle für alle Menschen gut funktionieren und die geografische sowie kulturelle Vielfalt der Welt widerspiegeln
- Es wurde eine automatische Metrik namens "DIG In" entwickelt, um potenzielle geografische Unterschiede zu bewerten
- Es wurden mehr als 65.000 Annotationen und über 20 Umfrageantworten gesammelt, um zu erforschen, wie Menschen geografische Repräsentation wahrnehmen
- Dabei wurde festgestellt, dass Menschen geografische Repräsentation eher über bestimmte Komponenten innerhalb eines Bildes als über das Gesamtbild erkennen
- Darauf aufbauend werden Wege erforscht, die Ausgabediversität von Text-zu-Bild-Modellen zu verbessern
- Einführung von Contextualized Vendi Score guidance zur Erhöhung der Repräsentationsdiversität erzeugter Samples bei gleichbleibender Bildqualität und Prompt-Generierungs-Konsistenz
Noch keine Kommentare.