Moebius: 0,2B-Bild-Inpainting-Modell erreicht Leistung auf 10B-Niveau
(hustvl.github.io)- Ein leichtgewichtiges Spezialistenmodell, das hochwertiges Bild-Inpainting, bislang dominiert von industriellen Foundation-Modellen im 10B-Maßstab, mit weniger als 2 % der Parameter bei gleichwertiger oder höherer Qualität umsetzt
- Läuft mit 0,22B (226M) Parametern und erreicht im Vergleich zu FLUX.1-Fill-Dev mit 11,9B Parametern eine mehr als 15-fach schnellere Inferenz
- Rekonstruiert den Diffusion-Backbone mit dem Local-λ Mix Interaction (LλMI) Block, der räumlichen Kontext und globale semantische Informationen in lineare Matrizen fester Größe komprimiert
- Überträgt die Ausdrucksstärke eines großen Teacher-Modells mithilfe einer adaptiven Distillation mit mehreren Granularitätsstufen, die nur im Latent Space arbeitet, auf ein leichtgewichtiges Modell
- Ein task-spezifischer Specialist-Ansatz, der zeigt, dass statt bloßem Skalieren der Modellgröße intelligentere, leichtere und schnellere Modelle möglich sind, wenn die Aufgabe klar definiert ist
Hintergrund und Problemdefinition
- Industrielle Foundation-Modelle im 10B-Maßstab haben die Grenzen des Bild-Inpaintings verschoben, ihre enormen Rechenkosten schränken den praktischen Einsatz jedoch stark ein
- Der Aufbau aufgabenspezifischer Spezialistenmodelle ist eine vielversprechende Alternative, doch extreme Architekturkompression führt zu einem gravierenden Representation Bottleneck
- Um dies zu überwinden, wird das hocheffiziente, leichtgewichtige Inpainting-Framework Moebius vorgeschlagen
Methode — Gesamte Pipeline
- Verwendet eine Struktur, die das Latent Diffusion Model (LDM)-Framework mit Latent Categories Guidance (LCG) kombiniert
- Rekonstruiert das Denoising-U-Net systematisch mit dem vorgeschlagenen LλMI Block und erreicht damit extreme Architektureffizienz
- In der Trainingsphase wird eine adaptive Distillation mit mehreren Granularitätsstufen eingesetzt, um den leichtgewichtigen Specialist am großen Teacher auszurichten und den durch extreme Strukturkompression verursachten Kapazitätsverlust zu verringern
Zentrale Ergebnisse (Highlights)
-
Extreme Parametereffizienz (< 2 %)
- Arbeitet mit nur 0,22B (226M) Parametern, also mit weniger als 2 % der Größe des großen Modells FLUX.1-Fill-Dev (11,9B)
- Widerlegt die Annahme, dass schwere Rechenlast zwingend notwendig sei, und ermöglicht hochwertiges Inpainting auch auf Consumer- und Edge-Geräten
-
15-fache Beschleunigung der Inferenz (26 ms/Schritt)
- Erreicht auf einer einzelnen GPU eine sehr geringe Inferenzlatenz von 26,01 ms pro Schritt
- In Kombination mit optimierten Sampling-Schritten wird die Gesamtlaufzeit gegenüber Modellen der 10B-Klasse um mehr als das 15-Fache beschleunigt
-
Inpainting-Qualität auf 10B-Niveau
- Belegt, dass Größenreduktion nicht gleichbedeutend mit geringerer Ausdrucksstärke ist
- Durch die Synergie aus Architektur und Distillation übertrifft es in einigen Szenarien wie komplexen Texturen oder natürlicher Gesichtsdarstellung sogar SOTA-Modelle der 10B-Klasse (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)
- Validiert auf sechs Benchmarks für natürliche Szenen (Places2) und Personenszenen (CelebA-HQ, FFHQ)
-
Zentrale Innovationen auf Synergiebasis
- Architekturdesign (LλMI Block): Rekonstruiert Self-Attention und Cross-Attention, komprimiert räumlichen Kontext und globale semantische Informationen in lineare Matrizen fester Größe und vermeidet so quadratische Rechenlast
- Adaptive Distillation mit mehreren Granularitätsstufen: Überträgt die Ausdrucksstärke des Teacher-Modells PixelHacker ausschließlich im Latent Space und vermeidet dadurch teures Pixel-Space-Decoding
- Richtet Supervision auf mehreren Granularitätsstufen aus, von mikroskopischen Zwischenfeatures bis zu makroskopischen Diffusion-Trajektorien, und balanciert das Training dynamisch mit einem adaptiven Loss-Gewichtungsmechanismus auf Basis der Gradientennorm aus
- Optimales Synergiegleichgewicht: Untersucht systematisch die wechselseitigen Beschränkungen und Obergrenzen zwischen komprimierter Struktur und Distillation
- Kartiert die Grenze der Architektur-Distillation-Synergie, um sicherzustellen, dass Moebius mit 0,22B (Student) die semantische Inferenzfähigkeit von PixelHacker (Teacher) maximal aufnimmt, ohne in Ausdruckssättigung zu geraten
-
Aufgabenspezifische Spezialisten statt überdimensionierter Allzweckmodelle
- Ein Ansatz, der die grundlegende Frage beantwortet: „Wenn die Aufgabe klar definiert ist, können Modelle dann intelligenter, leichter und schneller sein?“
- Fungiert als hochoptimierter Specialist, der reales Bild-Inpainting und KI-Objektentfernung von übermäßig aufgeblähten Parametergrößen befreit
Bewertung und Vergleich
- Umfangreiche Experimente wurden sowohl mit natürlichen Szenen (Places2) als auch mit Personenszenen (CelebA-HQ, FFHQ) durchgeführt
- Hinsichtlich der Generierungsqualität wurden Ergebnisse auf Augenhöhe mit dem industriellen Allzweckmodell FLUX.1-Fill-Dev der 10B-Klasse oder darüber hinaus bestätigt
- Mit weniger als 2 % der Parameter (0,22B vs. 11,9B) und einer mehr als 15-fachen Beschleunigung der Inferenzzeit setzt das Modell einen neuen Effizienzmaßstab für hochfidelitätsstarkes Inpainting
1 Kommentare
Hacker-News-Kommentare
Ich habe es zum Laufen mit ONNX gebracht (dank Claude Opus 4.8), und jetzt gibt es eine interaktive Demo, in der das Modell komplett im Browser läuft. Der Download ist etwa 1,3 GB groß: https://simonw.github.io/moebius-web/
Der Code ist hier: https://github.com/simonw/moebius-web
Claude-Code-Protokoll: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Im Blog habe ich es ausführlicher beschrieben: https://simonwillison.net/2026/Jun/22/porting-moebius/
Ich habe es kurz ausprobiert, und für ein 0.2B-Modell ist es sehr beeindruckend, aber ich finde es nicht überzeugend, dass es mit 10B-Modellen mithalten kann
Bei natürlichen Bildern funktionierte es recht ordentlich, aber die inpainteten Bereiche waren sichtbar glatter als die Umgebung, und bei neuen Objekten war es sehr schwach. Außerdem ist die Ausgabe auf 512x512 begrenzt, was die Praxistauglichkeit verringert
Ich habe vor ein paar Jahren ein Inpainting-Projekt für einen Kunden gemacht. Dabei ging es darum, Banneranzeigen für Konzertveranstalter per Inpainting so anzupassen, dass man leicht Anzeigen in verschiedenen Flächengrößen erzeugen konnte, und ich habe Weihnachtskampagnen für einige bekannte Sänger betreut
Am seltsamsten war, wenn das Inpainting-Tool merkwürdige Leute ins Bild eingefügt hat. Der Sänger war mit Glitzerdeko und Rot gestaltet, und das Modell fügte einen mürrischen alten Mann mit Zylinder hinzu. Ich kann mich nicht erinnern, auf einen „gruseligen alten Mann hinzufügen“-Button geklickt zu haben
Damals lief das Backend mit Stable Diffusion, und wir haben mehrere Model-Hosting-Dienste durchprobiert, darunter Amazon. Das war sehr kompliziert, weil die Anforderungen an Eingabebilder überall anders waren. Manche konnten Seitenverhältnisse wie ein 200x60-Banner nicht abbilden und scheiterten, andere verlangten vor dem Eingeben ein Resize, sodass wir von Anfang an niedrig aufgelöste Bilder einspeisten. Garbage in, garbage out
Am Ende war viel Vorarbeit nötig, und der Kunde hat meine Versuche letztlich nicht wirklich verwendet
Im Vereinigten Königreich gibt es bestimmt eine Vorschrift, dass bei Weihnachtsveranstaltungen im Hintergrund eine Figur wie Scrooge stehen muss, damit die Leute nicht zu ausgelassen werden
Schon Face-Inpainting war nur mit mehreren Tools halbwegs machbar, und alles andere zu inpainten war fast unmöglich. Diese Modelle waren auch besonders schwach darin, Objekte natürlich in eine Szene einzupassen. Eine schlampige Halskette oder ein Gürtel gingen vielleicht irgendwie, aber sobald man ein neues Objekt in eine Szene einfügen wollte, scheiterte es auf endlos viele Arten
Auch bei der Auflösung funktionierten sie bei 512x512 viel besser, und je weiter man davon abwich, desto mehr Probleme gab es
Wenn du versucht hast, Banneranzeigen zu inpainten, ist es sehr wahrscheinlich, dass sie stark verzerrt wurden. Diese Modelle konnten nicht mit Schriftarten umgehen und waren auch bei pixelgenauer Übertragung schwach. Der einzige realistisch praktikable Ansatz damals wäre wohl gewesen, die Banneranzeige manuell einzusetzen und nur die Kanten mit KI zu korrigieren. Natürlich braucht man dafür ein gewisses künstlerisches Gespür
Wenn du nur zwei Bilder eingespeist und gehofft hast, das Modell würde den Rest schon erledigen, war der Versuch mutig, aber unmöglich
Wenn man mit einem hochwertigen Modell ein Bild in niedriger Auflösung erzeugt, fühlt es sich tatsächlich eher so an, als würde es einen Teil aus einem viel größeren Bild ausschneiden und ausgeben. So wirkt es jedenfalls nach vielen Stunden Experimentieren, und selbst wenn ich bei einem großen Modell ein Objekt in die Mitte setzen will, landet es oft nicht wirklich in der Mitte. Was meine GPU verkraftet, hat eben auch Grenzen
Es gibt ein paar Demo-Spaces, die das verwenden. Dieser hier sah am besten aus und erlaubt es, die Maske direkt zu malen, aber bei allen Bildern, die ich ausprobiert habe, ist er gescheitert: https://huggingface.co/spaces/multimodalart/Moebius
Ich arbeite gerade aktiv daran, daher kann es zwischendurch mal kaputt sein :)
Es läuft auf einer kostenlosen CPU, deshalb dauert ein Bild etwa 80 Sekunden
Ich habe eine kleine App gebaut, die komplett im Browser läuft und mit der man alle Fine-Tuning-Modelle ausprobieren kann: https://inpaintlab.com/
Ich weiß nicht, was Inpainting ist. In den Kommentaren scheinen alle den Begriff zu kennen, aber auf der verlinkten Seite habe ich keine Erklärung gesehen
Im Grunde betrachtet das Modell den Kontext außerhalb des violetten Bereichs und entscheidet, was dort am besten passen würde, um diesen Teil des Bildes neu zu zeichnen. Es wird oft zum Entfernen von Objekten verwendet, kann aber wie in den Beispielen gezeigt auch andere Aufgaben übernehmen
Nicht besonders gut. Der inpaintete Bereich ist wie immer viel zu glatt im Vergleich zu den feinen, hochfrequenten Texturen natürlicher Fotos
Es taugt höchstens dazu, in Thumbnails gerade so etwas zu entfernen
Schon das Standard-Reparaturwerkzeug in Photoshop konnte vor ein paar Jahren ein ähnliches Niveau erreichen
Ich wünschte, es gäbe so ein Modell für Manga-Übersetzungen. Bei leichten Inpainting-Modellen für Animation und Manga scheint aktuell LaMa de facto der Standard zu sein, aber das Modell ist schon ein paar Jahre alt, daher dürfte es noch Verbesserungspotenzial geben
Ich frage mich, ob man dieses Modell neu trainieren oder feinabstimmen könnte. Es heißt doch, dass dabei „Experten“ entstehen — vielleicht könnten diese Experten verschiedene Arten von Charakterübersetzungen besser verstehen
Das ist die Art von nützlicher KI. Dadurch werden wirklich viele Anwendungsfälle möglich
Aber niemand wird 1 Milliarde Dollar investieren, um erstaunliche Staubentfernung oder perfekte Szenensegmentierung zu bauen
Stattdessen müssen wir alles in die Cloud hochladen und dann ein riesiges multimodales Frontier-Modell höflich bitten, genau die eine Aufgabe zu erledigen, die wir wollen
Ich verstehe es nicht. Wo kann man das ausprobieren? Oder ist das einfach nur Werbung?
Edit: Ich glaube, ich habe es gefunden
https://huggingface.co/hustvl/Moebius