Moebius: 0,2B-Bild-Inpainting-Modell erreicht Leistung auf 10B-Niveau

(hustvl.github.io)

5 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Ein leichtgewichtiges Spezialistenmodell, das hochwertiges Bild-Inpainting, bislang dominiert von industriellen Foundation-Modellen im 10B-Maßstab, mit weniger als 2 % der Parameter bei gleichwertiger oder höherer Qualität umsetzt
Läuft mit 0,22B (226M) Parametern und erreicht im Vergleich zu FLUX.1-Fill-Dev mit 11,9B Parametern eine mehr als 15-fach schnellere Inferenz
Rekonstruiert den Diffusion-Backbone mit dem Local-λ Mix Interaction (LλMI) Block, der räumlichen Kontext und globale semantische Informationen in lineare Matrizen fester Größe komprimiert
Überträgt die Ausdrucksstärke eines großen Teacher-Modells mithilfe einer adaptiven Distillation mit mehreren Granularitätsstufen, die nur im Latent Space arbeitet, auf ein leichtgewichtiges Modell
Ein task-spezifischer Specialist-Ansatz, der zeigt, dass statt bloßem Skalieren der Modellgröße intelligentere, leichtere und schnellere Modelle möglich sind, wenn die Aufgabe klar definiert ist

Hintergrund und Problemdefinition

Industrielle Foundation-Modelle im 10B-Maßstab haben die Grenzen des Bild-Inpaintings verschoben, ihre enormen Rechenkosten schränken den praktischen Einsatz jedoch stark ein
Der Aufbau aufgabenspezifischer Spezialistenmodelle ist eine vielversprechende Alternative, doch extreme Architekturkompression führt zu einem gravierenden Representation Bottleneck
Um dies zu überwinden, wird das hocheffiziente, leichtgewichtige Inpainting-Framework Moebius vorgeschlagen

Methode — Gesamte Pipeline

Verwendet eine Struktur, die das Latent Diffusion Model (LDM)-Framework mit Latent Categories Guidance (LCG) kombiniert
Rekonstruiert das Denoising-U-Net systematisch mit dem vorgeschlagenen LλMI Block und erreicht damit extreme Architektureffizienz
In der Trainingsphase wird eine adaptive Distillation mit mehreren Granularitätsstufen eingesetzt, um den leichtgewichtigen Specialist am großen Teacher auszurichten und den durch extreme Strukturkompression verursachten Kapazitätsverlust zu verringern

Zentrale Ergebnisse (Highlights)

Extreme Parametereffizienz (< 2 %)
- Arbeitet mit nur 0,22B (226M) Parametern, also mit weniger als 2 % der Größe des großen Modells FLUX.1-Fill-Dev (11,9B)
- Widerlegt die Annahme, dass schwere Rechenlast zwingend notwendig sei, und ermöglicht hochwertiges Inpainting auch auf Consumer- und Edge-Geräten
15-fache Beschleunigung der Inferenz (26 ms/Schritt)
- Erreicht auf einer einzelnen GPU eine sehr geringe Inferenzlatenz von 26,01 ms pro Schritt
- In Kombination mit optimierten Sampling-Schritten wird die Gesamtlaufzeit gegenüber Modellen der 10B-Klasse um mehr als das 15-Fache beschleunigt
Inpainting-Qualität auf 10B-Niveau
- Belegt, dass Größenreduktion nicht gleichbedeutend mit geringerer Ausdrucksstärke ist
- Durch die Synergie aus Architektur und Distillation übertrifft es in einigen Szenarien wie komplexen Texturen oder natürlicher Gesichtsdarstellung sogar SOTA-Modelle der 10B-Klasse (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)
- Validiert auf sechs Benchmarks für natürliche Szenen (Places2) und Personenszenen (CelebA-HQ, FFHQ)
Zentrale Innovationen auf Synergiebasis
- Architekturdesign (LλMI Block): Rekonstruiert Self-Attention und Cross-Attention, komprimiert räumlichen Kontext und globale semantische Informationen in lineare Matrizen fester Größe und vermeidet so quadratische Rechenlast
- Adaptive Distillation mit mehreren Granularitätsstufen: Überträgt die Ausdrucksstärke des Teacher-Modells PixelHacker ausschließlich im Latent Space und vermeidet dadurch teures Pixel-Space-Decoding
  - Richtet Supervision auf mehreren Granularitätsstufen aus, von mikroskopischen Zwischenfeatures bis zu makroskopischen Diffusion-Trajektorien, und balanciert das Training dynamisch mit einem adaptiven Loss-Gewichtungsmechanismus auf Basis der Gradientennorm aus
- Optimales Synergiegleichgewicht: Untersucht systematisch die wechselseitigen Beschränkungen und Obergrenzen zwischen komprimierter Struktur und Distillation
  - Kartiert die Grenze der Architektur-Distillation-Synergie, um sicherzustellen, dass Moebius mit 0,22B (Student) die semantische Inferenzfähigkeit von PixelHacker (Teacher) maximal aufnimmt, ohne in Ausdruckssättigung zu geraten
Aufgabenspezifische Spezialisten statt überdimensionierter Allzweckmodelle
- Ein Ansatz, der die grundlegende Frage beantwortet: „Wenn die Aufgabe klar definiert ist, können Modelle dann intelligenter, leichter und schneller sein?“
- Fungiert als hochoptimierter Specialist, der reales Bild-Inpainting und KI-Objektentfernung von übermäßig aufgeblähten Parametergrößen befreit

Bewertung und Vergleich

Umfangreiche Experimente wurden sowohl mit natürlichen Szenen (Places2) als auch mit Personenszenen (CelebA-HQ, FFHQ) durchgeführt
Hinsichtlich der Generierungsqualität wurden Ergebnisse auf Augenhöhe mit dem industriellen Allzweckmodell FLUX.1-Fill-Dev der 10B-Klasse oder darüber hinaus bestätigt
Mit weniger als 2 % der Parameter (0,22B vs. 11,9B) und einer mehr als 15-fachen Beschleunigung der Inferenzzeit setzt das Modell einen neuen Effizienzmaßstab für hochfidelitätsstarkes Inpainting

1 Kommentare

GN⁺ 4 시간 전

Hacker-News-Kommentare

Ich habe es zum Laufen mit ONNX gebracht (dank Claude Opus 4.8), und jetzt gibt es eine interaktive Demo, in der das Modell komplett im Browser läuft. Der Download ist etwa 1,3 GB groß: https://simonw.github.io/moebius-web/
Der Code ist hier: https://github.com/simonw/moebius-web
Claude-Code-Protokoll: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Im Blog habe ich es ausführlicher beschrieben: https://simonwillison.net/2026/Jun/22/porting-moebius/
- Ich habe auch versucht, genau dasselbe zu machen (mit gpt 5.5 + code), und es nicht geschafft, das Modell in ONNX auszuführen
- Gut gemacht. Die unet-Gewichte sind fp32, daher würde mich interessieren, ob du auch geringere Präzision wie fp16 ausprobiert hast
Ich habe es kurz ausprobiert, und für ein 0.2B-Modell ist es sehr beeindruckend, aber ich finde es nicht überzeugend, dass es mit 10B-Modellen mithalten kann
Bei natürlichen Bildern funktionierte es recht ordentlich, aber die inpainteten Bereiche waren sichtbar glatter als die Umgebung, und bei neuen Objekten war es sehr schwach. Außerdem ist die Ausgabe auf 512x512 begrenzt, was die Praxistauglichkeit verringert
- Mich würde interessieren, ob du die gezeigten Beispiele für repräsentativ für die tatsächliche Leistung hältst oder ob sie eher cherrypicked wirken
Ich habe vor ein paar Jahren ein Inpainting-Projekt für einen Kunden gemacht. Dabei ging es darum, Banneranzeigen für Konzertveranstalter per Inpainting so anzupassen, dass man leicht Anzeigen in verschiedenen Flächengrößen erzeugen konnte, und ich habe Weihnachtskampagnen für einige bekannte Sänger betreut
Am seltsamsten war, wenn das Inpainting-Tool merkwürdige Leute ins Bild eingefügt hat. Der Sänger war mit Glitzerdeko und Rot gestaltet, und das Modell fügte einen mürrischen alten Mann mit Zylinder hinzu. Ich kann mich nicht erinnern, auf einen „gruseligen alten Mann hinzufügen“-Button geklickt zu haben
Damals lief das Backend mit Stable Diffusion, und wir haben mehrere Model-Hosting-Dienste durchprobiert, darunter Amazon. Das war sehr kompliziert, weil die Anforderungen an Eingabebilder überall anders waren. Manche konnten Seitenverhältnisse wie ein 200x60-Banner nicht abbilden und scheiterten, andere verlangten vor dem Eingeben ein Resize, sodass wir von Anfang an niedrig aufgelöste Bilder einspeisten. Garbage in, garbage out
Am Ende war viel Vorarbeit nötig, und der Kunde hat meine Versuche letztlich nicht wirklich verwendet
- Wenn der Sänger mit Glitzer und Rot gestaltet war und das Modell einen mürrischen alten Mann mit Zylinder hinzugefügt hat, erinnert das an Dickens’ A Christmas Carol
  Im Vereinigten Königreich gibt es bestimmt eine Vorschrift, dass bei Weihnachtsveranstaltungen im Hintergrund eine Figur wie Scrooge stehen muss, damit die Leute nicht zu ausgelassen werden
- Diese Community-Modelle von damals, Merge-Modelle und Fine-Tuning-Modelle, waren alle übertrainiert und auf Porträts und Frontalaufnahmen optimiert. Sie wollten aus allem Menschen machen
  Schon Face-Inpainting war nur mit mehreren Tools halbwegs machbar, und alles andere zu inpainten war fast unmöglich. Diese Modelle waren auch besonders schwach darin, Objekte natürlich in eine Szene einzupassen. Eine schlampige Halskette oder ein Gürtel gingen vielleicht irgendwie, aber sobald man ein neues Objekt in eine Szene einfügen wollte, scheiterte es auf endlos viele Arten
  Auch bei der Auflösung funktionierten sie bei 512x512 viel besser, und je weiter man davon abwich, desto mehr Probleme gab es
  Wenn du versucht hast, Banneranzeigen zu inpainten, ist es sehr wahrscheinlich, dass sie stark verzerrt wurden. Diese Modelle konnten nicht mit Schriftarten umgehen und waren auch bei pixelgenauer Übertragung schwach. Der einzige realistisch praktikable Ansatz damals wäre wohl gewesen, die Banneranzeige manuell einzusetzen und nur die Kanten mit KI zu korrigieren. Natürlich braucht man dafür ein gewisses künstlerisches Gespür
  Wenn du nur zwei Bilder eingespeist und gehofft hast, das Modell würde den Rest schon erledigen, war der Versuch mutig, aber unmöglich
- Das liegt daran, dass kleine Modelle wie SD auf sehr spezifischen Auflösungen trainiert wurden. Fortgeschrittenere Modelle werden mit höherer Qualität oder auf vielfältigeren Auflösungssätzen trainiert
  Wenn man mit einem hochwertigen Modell ein Bild in niedriger Auflösung erzeugt, fühlt es sich tatsächlich eher so an, als würde es einen Teil aus einem viel größeren Bild ausschneiden und ausgeben. So wirkt es jedenfalls nach vielen Stunden Experimentieren, und selbst wenn ich bei einem großen Modell ein Objekt in die Mitte setzen will, landet es oft nicht wirklich in der Mitte. Was meine GPU verkraftet, hat eben auch Grenzen
Es gibt ein paar Demo-Spaces, die das verwenden. Dieser hier sah am besten aus und erlaubt es, die Maske direkt zu malen, aber bei allen Bildern, die ich ausprobiert habe, ist er gescheitert: https://huggingface.co/spaces/multimodalart/Moebius
- Ich habe etwas herumprobiert und es zum Laufen gebracht, aber die Qualität war eher mäßig. Ich experimentiere noch mit den freigegebenen Einstellungen; anschauen kann man es hier: https://huggingface.co/spaces/jonatei/MoebiusDemo
  Ich arbeite gerade aktiv daran, daher kann es zwischendurch mal kaputt sein :)
  Es läuft auf einer kostenlosen CPU, deshalb dauert ein Bild etwa 80 Sekunden
Ich habe eine kleine App gebaut, die komplett im Browser läuft und mit der man alle Fine-Tuning-Modelle ausprobieren kann: https://inpaintlab.com/
Ich weiß nicht, was Inpainting ist. In den Kommentaren scheinen alle den Begriff zu kennen, aber auf der verlinkten Seite habe ich keine Erklärung gesehen
- Wenn du auf die Visualisierung klickst, kannst du sehen, wie es tatsächlich funktioniert. Der violette Bereich ist der Teil, den der Nutzer als zu inpaintenden Bereich markiert hat; wenn man auf das Bild klickt, sieht man das Ergebnis
  Im Grunde betrachtet das Modell den Kontext außerhalb des violetten Bereichs und entscheidet, was dort am besten passen würde, um diesen Teil des Bildes neu zu zeichnen. Es wird oft zum Entfernen von Objekten verwendet, kann aber wie in den Beispielen gezeigt auch andere Aufgaben übernehmen
Nicht besonders gut. Der inpaintete Bereich ist wie immer viel zu glatt im Vergleich zu den feinen, hochfrequenten Texturen natürlicher Fotos
Es taugt höchstens dazu, in Thumbnails gerade so etwas zu entfernen
- Das hier und auch die Beispiele sind cherrypicked. Das Beispiel mit den entfernten Stromleitungen in einem Naturfoto ist besonders schlecht. An der entfernten Stelle bleibt ein Streifen deutlich sichtbar
  Schon das Standard-Reparaturwerkzeug in Photoshop konnte vor ein paar Jahren ein ähnliches Niveau erreichen
Ich wünschte, es gäbe so ein Modell für Manga-Übersetzungen. Bei leichten Inpainting-Modellen für Animation und Manga scheint aktuell LaMa de facto der Standard zu sein, aber das Modell ist schon ein paar Jahre alt, daher dürfte es noch Verbesserungspotenzial geben
- Ich arbeite gerade daran, ein Animationsprogramm für meinen Sohn (Leapfrog Letter Factory, falls es jemanden interessiert) outzupainten und anschließend hochzuskalieren, aber lokal war das ziemlich schwierig
  Ich frage mich, ob man dieses Modell neu trainieren oder feinabstimmen könnte. Es heißt doch, dass dabei „Experten“ entstehen — vielleicht könnten diese Experten verschiedene Arten von Charakterübersetzungen besser verstehen
Das ist die Art von nützlicher KI. Dadurch werden wirklich viele Anwendungsfälle möglich
- Genau deshalb ist es frustrierend. Es gibt viele Anwendungsfälle, in denen lokal laufende, auf einen bestimmten Zweck zugeschnittene Modelle, die eine Sache zuverlässig gut machen, einen echten Unterschied bewirken könnten
  Aber niemand wird 1 Milliarde Dollar investieren, um erstaunliche Staubentfernung oder perfekte Szenensegmentierung zu bauen
  Stattdessen müssen wir alles in die Cloud hochladen und dann ein riesiges multimodales Frontier-Modell höflich bitten, genau die eine Aufgabe zu erledigen, die wir wollen
- Ich frage mich, wie oft du in den letzten 7 Tagen Fotos bearbeitet hast, die du mit deinem Handy aufgenommen hast
Ich verstehe es nicht. Wo kann man das ausprobieren? Oder ist das einfach nur Werbung?
- Sieht gut aus, aber ich verstehe nicht, wie man es benutzt
  Edit: Ich glaube, ich habe es gefunden
  https://huggingface.co/hustvl/Moebius

Moebius: 0,2B-Bild-Inpainting-Modell erreicht Leistung auf 10B-Niveau

Hintergrund und Problemdefinition

Methode — Gesamte Pipeline

Zentrale Ergebnisse (Highlights)

Extreme Parametereffizienz (< 2 %)

15-fache Beschleunigung der Inferenz (26 ms/Schritt)

Inpainting-Qualität auf 10B-Niveau

Zentrale Innovationen auf Synergiebasis

Aufgabenspezifische Spezialisten statt überdimensionierter Allzweckmodelle

Bewertung und Vergleich

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare