Was multimodale KI außer Bilderzeugung noch leisten kann
(blog.naver.com)Multimodale KI kann neben der Bilderzeugung auch unvollständige Bilder vervollständigen, die nächste Äußerung in einem Video vorhersagen, verknüpfte Text- und Bildsuche durchführen, Comics übersetzen, das Krebsrisiko vorhersagen und Hassrede erkennen.
- Unvollständige Bilder vervollständigen
- Nüwa, entwickelt von Microsoft Research Asia und der Peking-Universität, demonstriert eine entsprechende Funktion.
- Gibt man ein unvollständiges Bild ein, ergänzt das Modell die fehlenden Teile und vervollständigt es.
- Gibt man eine Skizze ein, erzeugt es dazu passende Bilder oder Videos.
- Es kann auch die nächste Szene eines Videos vorhersagen und darstellen.
- Die nächste Äußerung in einem Video vorhersagen
- Ein von Google Research entwickeltes Modell sagt die nächste Äußerung voraus, wenn eine Videoszene und eine Transkription der gesprochenen Worte vorliegen.
- Video und Text dienen dabei als „Kontext“ für die Vorhersage der Äußerung.
- Text- und Bildsuche
- Mit MUM von Google kann ein Nutzer ein Foto von Wanderschuhen in das Suchfeld hochladen und eingeben: „Kann ich diese Schuhe für eine Besteigung des Fuji verwenden?“ Das System versteht das Bild, verknüpft es mit der Frage und kann mitteilen, dass die Wanderschuhe dafür gut geeignet sein dürften.
- Es kann auch Blogs mit Listen empfohlener Ausrüstung anzeigen.
- Comic-Übersetzung
- Das von Forschern der Universität Tokio und dem japanischen Machine-Translation-Unternehmen Mantra vorgestellte „Multimodal Context-Aware Translation Framework“ kann Comics unter Berücksichtigung von Illustrationen und Dialogen in andere Sprachen übersetzen.
- Es extrahiert aus Bildern japanischer Manga Kontextinformationen wie Szenen, die Lesereihenfolge der Dialoge und visuelle Informationen.
- Anhand dieser Informationen übersetzt es die Texte in Sprechblasen aus dem Japanischen ins Englische.
- Krebsrisiko vorhersagen
- Eine von Forschern der Harvard Medical School und des Brigham and Women’s Hospital entwickelte multimodale KI kann anhand von Zellgewebebildern und textbasierten Genomikdaten die Wahrscheinlichkeit einer Krebserkrankung vorhersagen.
- Die Forscher trainierten zwei separate Modelle mit mikroskopischen Bildern von Zellgewebe und textbasierten Genomikdaten.
- Anschließend wurden beide Modelle in ein einziges System integriert, das vorhersagt, ob ein Patient ein hohes oder niedriges Risiko für verschiedene Krebsarten hat.
- Das „Bild“ eines bestimmten Objekts lernen und davon ausgehend die „3D-Daten“ oder das „Video“ desselben Objekts erkennen
- OmniVore von Meta kann sogar ein 3D-Modell eines Kürbisses erkennen, obwohl es nur mit Bildern von Kürbissen trainiert wurde.
- Ebenso kann es Videos von Yachten erkennen, obwohl es nur Bilder von Yachten gelernt hat.
- Hassrede erkennen
- Multimodale KI kann auch dabei helfen, Hassrede in Social-Media-Beiträgen zu erkennen, indem sie sowohl Bild- als auch Textinhalte berücksichtigt.
- Hassrede kann auch in Form von Memes auftreten, die Bild und Text kombinieren.
- Meta erklärt, dass eine KI, um zu erkennen, „ob ein Meme hasserfüllt ist oder nicht“, sowohl das Meme-Bild als auch den Textinhalt berücksichtigen muss.
- Ein Meme mit einem Bild einer leeren Wüste und dem Text „Schau, wie viele Menschen dich lieben“ ist auf subtile Weise angreifend.
- Damit KI die tatsächliche Bedeutung eines Memes mit Hassrede erfassen kann, muss sie das Meme ganzheitlich analysieren.
- Sie muss Bild und Text zusammenführen und verstehen, wie sich die Bedeutung verändert, wenn beides gemeinsam auftritt.
- Von multimodaler KI wird erwartet, dass sie diese Funktion leisten kann, indem sie Bild und Text gleichzeitig verarbeitet.
- Meta geht davon aus, dass die eigenen Fähigkeiten zum umfassenden Verständnis von Social-Media-Inhalten zur Erkennung von Hassrede durch multimodale KI weiterentwickelt werden.
- Meta hat den Datensatz „Hateful Memes“ erstellt und veröffentlicht, um die Entwicklung von Systemen zur Erkennung multimodaler Hassrede zu unterstützen.
Noch keine Kommentare.