Datensätze

xguru · 2024-06-21T09:46:01+09:00

Meta Fundamental AI Research (FAIR) hat neue Forschungsergebnisse veröffentlicht Darunter sind 6 Forschungsresultate mit Fokus auf den Kernthemen Innovation, Kreativität, Effizienz und Verantwortung Meta Chameleon Ein Modell mit einheitlicher Architektur, das Text und Bilder als Eingabe annimmt und eine Kombination aus Text und Bildern als Ausgabe erzeugen kann Da Text und Bilder nicht mit diffusionbasierter Lernmethode, sondern per Tokenisierung verarbeitet werden, ist ein integrierter Ansatz möglich und Design, Wartung sowie Erweiterung werden erleichtert Zentrale Komponenten der Modelle Chameleon 7B und 34B wurden unter einer nichtkommerziellen bzw. forschungsorientierten Lizenz veröffentlicht Das Bildgenerierungsmodell wurde noch nicht veröffentlicht Multi-Token Prediction Vorgeschlagen wird ein neuer Ansatz, bei dem statt der herkömmlichen Vorhersage eines einzelnen Worts mehrere Wörter gleichzeitig vorhergesagt werden Modellleistung und Trainingseffizienz verbessern sich, außerdem steigt die Geschwindigkeit Ein vortrainiertes Modell für Code-Vervollständigung wurde unter einer nichtkommerziellen bzw. forschungsorientierten Lizenz veröffentlicht JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation) Ein Text-zu-Musik-Generierungsmodell, das Text-Prompts in Musikclips umwandelt Es kann verschiedene Eingaben wie bestimmte Akkorde oder Beats annehmen und dadurch die erzeugte Musikausgabe besser steuern Zur Extraktion von Informationen, die für spezifische Steuerung relevant sind, werden Information bottleneck layer und temporal blurring eingesetzt Die Bewertung zeigt: Die Generierungsqualität ist ähnlich wie beim Referenzmodell, bietet aber deutlich vielfältigere Steuerungsmöglichkeiten Forschungspapier und Sample-Seite wurden veröffentlicht; Inferenz-Code und vortrainiertes Modell sollen später ebenfalls veröffentlicht werden AudioSeal Eine Audio-Watermarking-Technik zur Erkennung von KI-generierter Sprache Sie kann innerhalb längerer Audioclips KI-generierte Abschnitte präzise identifizieren Durch einen lokalen Erkennungsansatz statt bestehender komplexer Decoding-Algorithmen werden Geschwindigkeit und Effizienz verbessert Veröffentlicht unter kommerzieller Lizenz; Teil einer Forschung zur Verhinderung des Missbrauchs verschiedener generativer KI-Tools Unterstützung für die Veröffentlichung des PRISM-Datensatzes Für die Verbesserung von LLMs ist es wichtig, Feedback von unterschiedlichen Menschen zu erhalten In der Forschungsgemeinschaft wurden Fragen zu Methoden, Domänen und Zielen des Feedback-Prozesses aufgeworfen Meta unterstützt die Veröffentlichung des PRISM-Datensatzes, der soziodemografische Merkmale und Präferenzen von 1.500 vielfältigen Teilnehmenden aus 75 Ländern abbildet Der Datensatz ordnet die Präferenzen und das detaillierte Feedback jeder Person zu 8.011 Echtzeitgesprächen mit 21 LLMs zu Ziel ist es, eine breitere Beteiligung an der KI-Entwicklung und einen inklusiveren Ansatz beim Technologie-Design zu fördern Messung und Verbesserung geografischer Unterschiede in Text-zu-Bild-Generierungssystemen Es ist wichtig, dass Text-zu-Bild-Modelle für alle Menschen gut funktionieren und die geografische sowie kulturelle Vielfalt der Welt widerspiegeln Es wurde eine automatische Metrik namens "DIG In" entwickelt, um potenzielle geografische Unterschiede zu bewerten Es wurden mehr als 65.000 Annotationen und über 20 Umfrageantworten gesammelt, um zu erforschen, wie Menschen geografische Repräsentation wahrnehmen Dabei wurde festgestellt, dass Menschen geografische Repräsentation eher über bestimmte Komponenten innerhalb eines Bildes als über das Gesamtbild erkennen Darauf aufbauend werden Wege erforscht, die Ausgabediversität von Text-zu-Bild-Modellen zu verbessern Einführung von Contextualized Vendi Score guidance zur Erhöhung der Repräsentationsdiversität erzeugter Samples bei gleichbleibender Bildqualität und Prompt-Generierungs-Konsistenz

(ai.meta.com)

3 Punkte von xguru 2024-06-21 | Noch keine Kommentare. | Auf WhatsApp teilen

Meta Fundamental AI Research (FAIR) hat neue Forschungsergebnisse veröffentlicht
Darunter sind 6 Forschungsresultate mit Fokus auf den Kernthemen Innovation, Kreativität, Effizienz und Verantwortung

Meta Chameleon

Ein Modell mit einheitlicher Architektur, das Text und Bilder als Eingabe annimmt und eine Kombination aus Text und Bildern als Ausgabe erzeugen kann
- Da Text und Bilder nicht mit diffusionbasierter Lernmethode, sondern per Tokenisierung verarbeitet werden, ist ein integrierter Ansatz möglich und Design, Wartung sowie Erweiterung werden erleichtert
- Zentrale Komponenten der Modelle Chameleon 7B und 34B wurden unter einer nichtkommerziellen bzw. forschungsorientierten Lizenz veröffentlicht
- Das Bildgenerierungsmodell wurde noch nicht veröffentlicht

Multi-Token Prediction

Vorgeschlagen wird ein neuer Ansatz, bei dem statt der herkömmlichen Vorhersage eines einzelnen Worts mehrere Wörter gleichzeitig vorhergesagt werden
- Modellleistung und Trainingseffizienz verbessern sich, außerdem steigt die Geschwindigkeit
- Ein vortrainiertes Modell für Code-Vervollständigung wurde unter einer nichtkommerziellen bzw. forschungsorientierten Lizenz veröffentlicht

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

Ein Text-zu-Musik-Generierungsmodell, das Text-Prompts in Musikclips umwandelt
- Es kann verschiedene Eingaben wie bestimmte Akkorde oder Beats annehmen und dadurch die erzeugte Musikausgabe besser steuern
- Zur Extraktion von Informationen, die für spezifische Steuerung relevant sind, werden Information bottleneck layer und temporal blurring eingesetzt
- Die Bewertung zeigt: Die Generierungsqualität ist ähnlich wie beim Referenzmodell, bietet aber deutlich vielfältigere Steuerungsmöglichkeiten
- Forschungspapier und Sample-Seite wurden veröffentlicht; Inferenz-Code und vortrainiertes Modell sollen später ebenfalls veröffentlicht werden

AudioSeal

Eine Audio-Watermarking-Technik zur Erkennung von KI-generierter Sprache
- Sie kann innerhalb längerer Audioclips KI-generierte Abschnitte präzise identifizieren
- Durch einen lokalen Erkennungsansatz statt bestehender komplexer Decoding-Algorithmen werden Geschwindigkeit und Effizienz verbessert
- Veröffentlicht unter kommerzieller Lizenz; Teil einer Forschung zur Verhinderung des Missbrauchs verschiedener generativer KI-Tools

Unterstützung für die Veröffentlichung des PRISM-Datensatzes

Für die Verbesserung von LLMs ist es wichtig, Feedback von unterschiedlichen Menschen zu erhalten
- In der Forschungsgemeinschaft wurden Fragen zu Methoden, Domänen und Zielen des Feedback-Prozesses aufgeworfen
- Meta unterstützt die Veröffentlichung des PRISM-Datensatzes, der soziodemografische Merkmale und Präferenzen von 1.500 vielfältigen Teilnehmenden aus 75 Ländern abbildet
- Der Datensatz ordnet die Präferenzen und das detaillierte Feedback jeder Person zu 8.011 Echtzeitgesprächen mit 21 LLMs zu
- Ziel ist es, eine breitere Beteiligung an der KI-Entwicklung und einen inklusiveren Ansatz beim Technologie-Design zu fördern

Messung und Verbesserung geografischer Unterschiede in Text-zu-Bild-Generierungssystemen

Es ist wichtig, dass Text-zu-Bild-Modelle für alle Menschen gut funktionieren und die geografische sowie kulturelle Vielfalt der Welt widerspiegeln
- Es wurde eine automatische Metrik namens "DIG In" entwickelt, um potenzielle geografische Unterschiede zu bewerten
- Es wurden mehr als 65.000 Annotationen und über 20 Umfrageantworten gesammelt, um zu erforschen, wie Menschen geografische Repräsentation wahrnehmen
- Dabei wurde festgestellt, dass Menschen geografische Repräsentation eher über bestimmte Komponenten innerhalb eines Bildes als über das Gesamtbild erkennen
- Darauf aufbauend werden Wege erforscht, die Ausgabediversität von Text-zu-Bild-Modellen zu verbessern
- Einführung von Contextualized Vendi Score guidance zur Erhöhung der Repräsentationsdiversität erzeugter Samples bei gleichbleibender Bildqualität und Prompt-Generierungs-Konsistenz