4 Punkte von GN⁺ 2024-02-15 | Noch keine Kommentare. | Auf WhatsApp teilen

Funktionsweise von MGIE (MLLM-Guided Image Editing)

  • Befehlsinterpretation mit MLLM: MGIE verwendet ein MLLM, um aus der Eingabe des Nutzers klare und prägnante Anweisungen abzuleiten. So kann es beispielsweise aus der Eingabe „Mach den Himmel blauer“ die Anweisung „Erhöhe die Sättigung des Himmelsbereichs um 20 %“ erzeugen.
  • Erzeugung visueller Vorstellungskraft: MGIE erzeugt eine visuelle Vorstellungskraft als latente Repräsentation, die das Wesen der gewünschten Bearbeitung erfasst. Diese wird verwendet, um Manipulationen auf Pixelebene anzuleiten.
  • End-to-End-Trainingsansatz: MGIE nutzt einen neuen End-to-End-Trainingsansatz, der die Ableitung von Anweisungen, die Erzeugung visueller Vorstellungskraft und das Bildbearbeitungsmodul gemeinsam optimiert.

Was kann MGIE?

  • Bearbeitung auf Basis klarer Anweisungen: MGIE erzeugt klare und prägnante Anweisungen, die den Bearbeitungsprozess effektiv steuern.
  • Photoshop-ähnliche Anpassungen: MGIE kann gängige Photoshop-ähnliche Bearbeitungen wie Zuschneiden, Größenänderung, Drehen, Spiegeln und das Hinzufügen von Filtern durchführen. Auch komplexere Bearbeitungen wie das Ändern des Hintergrunds, das Hinzufügen oder Entfernen von Objekten sowie das Mischen von Bildern sind möglich.
  • Optimierung des gesamten Fotos: MGIE kann die Qualität des gesamten Fotos optimieren, darunter Helligkeit, Kontrast, Schärfe und Farbbalance, und zudem künstlerische Effekte wie Skizzen-, Malerei- oder Comic-Effekte anwenden.
  • Lokale Bearbeitung: MGIE kann bestimmte Bereiche oder Objekte im Bild bearbeiten, etwa Gesicht, Augen, Haare, Kleidung oder Accessoires, und deren Eigenschaften wie Form, Größe, Farbe, Textur und Stil verändern.

Wie verwendet man MGIE?

  • Open-Source-Projekt: MGIE wird als Open-Source-Projekt auf GitHub bereitgestellt; dort finden sich Code, Daten und vortrainierte Modelle.
  • Demo-Notebook und Web-Demo: Das Projekt bietet Demo-Notebooks, die zeigen, wie sich MGIE für verschiedene Bearbeitungsaufgaben einsetzen lässt. Außerdem kann MGIE online über eine auf Hugging Face Spaces gehostete Web-Demo ausprobiert werden.
  • Benutzerfreundliches Design: MGIE ist so konzipiert, dass es leicht zu nutzen und flexibel anpassbar ist. Nutzer können Bilder per natürlichsprachiger Anweisung bearbeiten, und MGIE erzeugt zusammen mit dem bearbeiteten Bild auch die abgeleiteten Anweisungen.

Warum ist MGIE wichtig?

  • Innovation im Bereich instruktionsbasierter Bildbearbeitung: MGIE stellt einen Durchbruch im Bereich der instruktionsbasierten Bildbearbeitung dar, einer anspruchsvollen und wichtigen Aufgabe für KI und menschliche Kreativität.
  • Praktisches Werkzeug: MGIE kann dabei helfen, Bilder für private oder professionelle Zwecke zu erzeugen, zu verändern und zu optimieren, etwa für Social Media, E-Commerce, Bildung, Unterhaltung und Kunst.
  • Stärkung von Apples KI-Forschungs- und Entwicklungskompetenz: MGIE unterstreicht Apples wachsende Stärke in KI-Forschung und -Entwicklung und zeigt, wie KI alltägliche kreative Aufgaben verbessern kann.

Meinung von GN⁺

  • MGIE ist ein innovatives KI-Modell, das Bilder auf Basis natürlichsprachiger Anweisungen bearbeitet, und dürfte eine große Hilfe dabei sein, kreative Ideen visuell umzusetzen.
  • Das Tool kann technisch komplexe Bildbearbeitungsaufgaben vereinfachen und so zu einer besseren Nutzererfahrung beitragen.
  • Ein Beispiel für Apples Wachstum im Bereich KI-Forschung und -Entwicklung

Noch keine Kommentare.

Noch keine Kommentare.