5 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Ein leichtgewichtiges Spezialistenmodell, das hochwertiges Bild-Inpainting, bislang dominiert von industriellen Foundation-Modellen im 10B-Maßstab, mit weniger als 2 % der Parameter bei gleichwertiger oder höherer Qualität umsetzt
  • Läuft mit 0,22B (226M) Parametern und erreicht im Vergleich zu FLUX.1-Fill-Dev mit 11,9B Parametern eine mehr als 15-fach schnellere Inferenz
  • Rekonstruiert den Diffusion-Backbone mit dem Local-λ Mix Interaction (LλMI) Block, der räumlichen Kontext und globale semantische Informationen in lineare Matrizen fester Größe komprimiert
  • Überträgt die Ausdrucksstärke eines großen Teacher-Modells mithilfe einer adaptiven Distillation mit mehreren Granularitätsstufen, die nur im Latent Space arbeitet, auf ein leichtgewichtiges Modell
  • Ein task-spezifischer Specialist-Ansatz, der zeigt, dass statt bloßem Skalieren der Modellgröße intelligentere, leichtere und schnellere Modelle möglich sind, wenn die Aufgabe klar definiert ist

Hintergrund und Problemdefinition

  • Industrielle Foundation-Modelle im 10B-Maßstab haben die Grenzen des Bild-Inpaintings verschoben, ihre enormen Rechenkosten schränken den praktischen Einsatz jedoch stark ein
  • Der Aufbau aufgabenspezifischer Spezialistenmodelle ist eine vielversprechende Alternative, doch extreme Architekturkompression führt zu einem gravierenden Representation Bottleneck
  • Um dies zu überwinden, wird das hocheffiziente, leichtgewichtige Inpainting-Framework Moebius vorgeschlagen

Methode — Gesamte Pipeline

  • Verwendet eine Struktur, die das Latent Diffusion Model (LDM)-Framework mit Latent Categories Guidance (LCG) kombiniert
  • Rekonstruiert das Denoising-U-Net systematisch mit dem vorgeschlagenen LλMI Block und erreicht damit extreme Architektureffizienz
  • In der Trainingsphase wird eine adaptive Distillation mit mehreren Granularitätsstufen eingesetzt, um den leichtgewichtigen Specialist am großen Teacher auszurichten und den durch extreme Strukturkompression verursachten Kapazitätsverlust zu verringern

Zentrale Ergebnisse (Highlights)

  • Extreme Parametereffizienz (< 2 %)

    • Arbeitet mit nur 0,22B (226M) Parametern, also mit weniger als 2 % der Größe des großen Modells FLUX.1-Fill-Dev (11,9B)
    • Widerlegt die Annahme, dass schwere Rechenlast zwingend notwendig sei, und ermöglicht hochwertiges Inpainting auch auf Consumer- und Edge-Geräten
  • 15-fache Beschleunigung der Inferenz (26 ms/Schritt)

    • Erreicht auf einer einzelnen GPU eine sehr geringe Inferenzlatenz von 26,01 ms pro Schritt
    • In Kombination mit optimierten Sampling-Schritten wird die Gesamtlaufzeit gegenüber Modellen der 10B-Klasse um mehr als das 15-Fache beschleunigt
  • Inpainting-Qualität auf 10B-Niveau

    • Belegt, dass Größenreduktion nicht gleichbedeutend mit geringerer Ausdrucksstärke ist
    • Durch die Synergie aus Architektur und Distillation übertrifft es in einigen Szenarien wie komplexen Texturen oder natürlicher Gesichtsdarstellung sogar SOTA-Modelle der 10B-Klasse (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)
    • Validiert auf sechs Benchmarks für natürliche Szenen (Places2) und Personenszenen (CelebA-HQ, FFHQ)
  • Zentrale Innovationen auf Synergiebasis

    • Architekturdesign (LλMI Block): Rekonstruiert Self-Attention und Cross-Attention, komprimiert räumlichen Kontext und globale semantische Informationen in lineare Matrizen fester Größe und vermeidet so quadratische Rechenlast
    • Adaptive Distillation mit mehreren Granularitätsstufen: Überträgt die Ausdrucksstärke des Teacher-Modells PixelHacker ausschließlich im Latent Space und vermeidet dadurch teures Pixel-Space-Decoding
      • Richtet Supervision auf mehreren Granularitätsstufen aus, von mikroskopischen Zwischenfeatures bis zu makroskopischen Diffusion-Trajektorien, und balanciert das Training dynamisch mit einem adaptiven Loss-Gewichtungsmechanismus auf Basis der Gradientennorm aus
    • Optimales Synergiegleichgewicht: Untersucht systematisch die wechselseitigen Beschränkungen und Obergrenzen zwischen komprimierter Struktur und Distillation
      • Kartiert die Grenze der Architektur-Distillation-Synergie, um sicherzustellen, dass Moebius mit 0,22B (Student) die semantische Inferenzfähigkeit von PixelHacker (Teacher) maximal aufnimmt, ohne in Ausdruckssättigung zu geraten
  • Aufgabenspezifische Spezialisten statt überdimensionierter Allzweckmodelle

    • Ein Ansatz, der die grundlegende Frage beantwortet: „Wenn die Aufgabe klar definiert ist, können Modelle dann intelligenter, leichter und schneller sein?“
    • Fungiert als hochoptimierter Specialist, der reales Bild-Inpainting und KI-Objektentfernung von übermäßig aufgeblähten Parametergrößen befreit

Bewertung und Vergleich

  • Umfangreiche Experimente wurden sowohl mit natürlichen Szenen (Places2) als auch mit Personenszenen (CelebA-HQ, FFHQ) durchgeführt
  • Hinsichtlich der Generierungsqualität wurden Ergebnisse auf Augenhöhe mit dem industriellen Allzweckmodell FLUX.1-Fill-Dev der 10B-Klasse oder darüber hinaus bestätigt
  • Mit weniger als 2 % der Parameter (0,22B vs. 11,9B) und einer mehr als 15-fachen Beschleunigung der Inferenzzeit setzt das Modell einen neuen Effizienzmaßstab für hochfidelitätsstarkes Inpainting

1 Kommentare

 
GN⁺ 4 시간 전
Hacker-News-Kommentare
  • Ich habe es zum Laufen mit ONNX gebracht (dank Claude Opus 4.8), und jetzt gibt es eine interaktive Demo, in der das Modell komplett im Browser läuft. Der Download ist etwa 1,3 GB groß: https://simonw.github.io/moebius-web/
    Der Code ist hier: https://github.com/simonw/moebius-web
    Claude-Code-Protokoll: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
    Im Blog habe ich es ausführlicher beschrieben: https://simonwillison.net/2026/Jun/22/porting-moebius/

    • Ich habe auch versucht, genau dasselbe zu machen (mit gpt 5.5 + code), und es nicht geschafft, das Modell in ONNX auszuführen
    • Gut gemacht. Die unet-Gewichte sind fp32, daher würde mich interessieren, ob du auch geringere Präzision wie fp16 ausprobiert hast
  • Ich habe es kurz ausprobiert, und für ein 0.2B-Modell ist es sehr beeindruckend, aber ich finde es nicht überzeugend, dass es mit 10B-Modellen mithalten kann
    Bei natürlichen Bildern funktionierte es recht ordentlich, aber die inpainteten Bereiche waren sichtbar glatter als die Umgebung, und bei neuen Objekten war es sehr schwach. Außerdem ist die Ausgabe auf 512x512 begrenzt, was die Praxistauglichkeit verringert

    • Mich würde interessieren, ob du die gezeigten Beispiele für repräsentativ für die tatsächliche Leistung hältst oder ob sie eher cherrypicked wirken
  • Ich habe vor ein paar Jahren ein Inpainting-Projekt für einen Kunden gemacht. Dabei ging es darum, Banneranzeigen für Konzertveranstalter per Inpainting so anzupassen, dass man leicht Anzeigen in verschiedenen Flächengrößen erzeugen konnte, und ich habe Weihnachtskampagnen für einige bekannte Sänger betreut
    Am seltsamsten war, wenn das Inpainting-Tool merkwürdige Leute ins Bild eingefügt hat. Der Sänger war mit Glitzerdeko und Rot gestaltet, und das Modell fügte einen mürrischen alten Mann mit Zylinder hinzu. Ich kann mich nicht erinnern, auf einen „gruseligen alten Mann hinzufügen“-Button geklickt zu haben
    Damals lief das Backend mit Stable Diffusion, und wir haben mehrere Model-Hosting-Dienste durchprobiert, darunter Amazon. Das war sehr kompliziert, weil die Anforderungen an Eingabebilder überall anders waren. Manche konnten Seitenverhältnisse wie ein 200x60-Banner nicht abbilden und scheiterten, andere verlangten vor dem Eingeben ein Resize, sodass wir von Anfang an niedrig aufgelöste Bilder einspeisten. Garbage in, garbage out
    Am Ende war viel Vorarbeit nötig, und der Kunde hat meine Versuche letztlich nicht wirklich verwendet

    • Wenn der Sänger mit Glitzer und Rot gestaltet war und das Modell einen mürrischen alten Mann mit Zylinder hinzugefügt hat, erinnert das an Dickens’ A Christmas Carol
      Im Vereinigten Königreich gibt es bestimmt eine Vorschrift, dass bei Weihnachtsveranstaltungen im Hintergrund eine Figur wie Scrooge stehen muss, damit die Leute nicht zu ausgelassen werden
    • Diese Community-Modelle von damals, Merge-Modelle und Fine-Tuning-Modelle, waren alle übertrainiert und auf Porträts und Frontalaufnahmen optimiert. Sie wollten aus allem Menschen machen
      Schon Face-Inpainting war nur mit mehreren Tools halbwegs machbar, und alles andere zu inpainten war fast unmöglich. Diese Modelle waren auch besonders schwach darin, Objekte natürlich in eine Szene einzupassen. Eine schlampige Halskette oder ein Gürtel gingen vielleicht irgendwie, aber sobald man ein neues Objekt in eine Szene einfügen wollte, scheiterte es auf endlos viele Arten
      Auch bei der Auflösung funktionierten sie bei 512x512 viel besser, und je weiter man davon abwich, desto mehr Probleme gab es
      Wenn du versucht hast, Banneranzeigen zu inpainten, ist es sehr wahrscheinlich, dass sie stark verzerrt wurden. Diese Modelle konnten nicht mit Schriftarten umgehen und waren auch bei pixelgenauer Übertragung schwach. Der einzige realistisch praktikable Ansatz damals wäre wohl gewesen, die Banneranzeige manuell einzusetzen und nur die Kanten mit KI zu korrigieren. Natürlich braucht man dafür ein gewisses künstlerisches Gespür
      Wenn du nur zwei Bilder eingespeist und gehofft hast, das Modell würde den Rest schon erledigen, war der Versuch mutig, aber unmöglich
    • Das liegt daran, dass kleine Modelle wie SD auf sehr spezifischen Auflösungen trainiert wurden. Fortgeschrittenere Modelle werden mit höherer Qualität oder auf vielfältigeren Auflösungssätzen trainiert
      Wenn man mit einem hochwertigen Modell ein Bild in niedriger Auflösung erzeugt, fühlt es sich tatsächlich eher so an, als würde es einen Teil aus einem viel größeren Bild ausschneiden und ausgeben. So wirkt es jedenfalls nach vielen Stunden Experimentieren, und selbst wenn ich bei einem großen Modell ein Objekt in die Mitte setzen will, landet es oft nicht wirklich in der Mitte. Was meine GPU verkraftet, hat eben auch Grenzen
  • Es gibt ein paar Demo-Spaces, die das verwenden. Dieser hier sah am besten aus und erlaubt es, die Maske direkt zu malen, aber bei allen Bildern, die ich ausprobiert habe, ist er gescheitert: https://huggingface.co/spaces/multimodalart/Moebius

    • Ich habe etwas herumprobiert und es zum Laufen gebracht, aber die Qualität war eher mäßig. Ich experimentiere noch mit den freigegebenen Einstellungen; anschauen kann man es hier: https://huggingface.co/spaces/jonatei/MoebiusDemo
      Ich arbeite gerade aktiv daran, daher kann es zwischendurch mal kaputt sein :)
      Es läuft auf einer kostenlosen CPU, deshalb dauert ein Bild etwa 80 Sekunden
  • Ich habe eine kleine App gebaut, die komplett im Browser läuft und mit der man alle Fine-Tuning-Modelle ausprobieren kann: https://inpaintlab.com/

  • Ich weiß nicht, was Inpainting ist. In den Kommentaren scheinen alle den Begriff zu kennen, aber auf der verlinkten Seite habe ich keine Erklärung gesehen

    • Wenn du auf die Visualisierung klickst, kannst du sehen, wie es tatsächlich funktioniert. Der violette Bereich ist der Teil, den der Nutzer als zu inpaintenden Bereich markiert hat; wenn man auf das Bild klickt, sieht man das Ergebnis
      Im Grunde betrachtet das Modell den Kontext außerhalb des violetten Bereichs und entscheidet, was dort am besten passen würde, um diesen Teil des Bildes neu zu zeichnen. Es wird oft zum Entfernen von Objekten verwendet, kann aber wie in den Beispielen gezeigt auch andere Aufgaben übernehmen
  • Nicht besonders gut. Der inpaintete Bereich ist wie immer viel zu glatt im Vergleich zu den feinen, hochfrequenten Texturen natürlicher Fotos
    Es taugt höchstens dazu, in Thumbnails gerade so etwas zu entfernen

    • Das hier und auch die Beispiele sind cherrypicked. Das Beispiel mit den entfernten Stromleitungen in einem Naturfoto ist besonders schlecht. An der entfernten Stelle bleibt ein Streifen deutlich sichtbar
      Schon das Standard-Reparaturwerkzeug in Photoshop konnte vor ein paar Jahren ein ähnliches Niveau erreichen
  • Ich wünschte, es gäbe so ein Modell für Manga-Übersetzungen. Bei leichten Inpainting-Modellen für Animation und Manga scheint aktuell LaMa de facto der Standard zu sein, aber das Modell ist schon ein paar Jahre alt, daher dürfte es noch Verbesserungspotenzial geben

    • Ich arbeite gerade daran, ein Animationsprogramm für meinen Sohn (Leapfrog Letter Factory, falls es jemanden interessiert) outzupainten und anschließend hochzuskalieren, aber lokal war das ziemlich schwierig
      Ich frage mich, ob man dieses Modell neu trainieren oder feinabstimmen könnte. Es heißt doch, dass dabei „Experten“ entstehen — vielleicht könnten diese Experten verschiedene Arten von Charakterübersetzungen besser verstehen
  • Das ist die Art von nützlicher KI. Dadurch werden wirklich viele Anwendungsfälle möglich

    • Genau deshalb ist es frustrierend. Es gibt viele Anwendungsfälle, in denen lokal laufende, auf einen bestimmten Zweck zugeschnittene Modelle, die eine Sache zuverlässig gut machen, einen echten Unterschied bewirken könnten
      Aber niemand wird 1 Milliarde Dollar investieren, um erstaunliche Staubentfernung oder perfekte Szenensegmentierung zu bauen
      Stattdessen müssen wir alles in die Cloud hochladen und dann ein riesiges multimodales Frontier-Modell höflich bitten, genau die eine Aufgabe zu erledigen, die wir wollen
    • Ich frage mich, wie oft du in den letzten 7 Tagen Fotos bearbeitet hast, die du mit deinem Handy aufgenommen hast
  • Ich verstehe es nicht. Wo kann man das ausprobieren? Oder ist das einfach nur Werbung?