3 Punkte von GN⁺ 2024-08-02 | 1 Kommentare | Auf WhatsApp teilen
  • Erzeugt hochwertige 3D-Assets aus einem einzelnen Bild in nur 0,5 Sekunden
  • Auf Basis von TripoSR entwickelt; zeichnet sich durch umfangreiche Architekturverbesserungen und erweiterte Funktionen aus
  • Anwendbar nicht nur für Spiele- und Virtual-Reality-Entwickler, sondern auch für Fachleute im Einzelhandel, in der Architektur, im Design und in anderen grafikintensiven Berufen
  • Das Modell ist auf Hugging Face verfügbar und wird unter der Stability AI Community License veröffentlicht
  • Über die Stability AI API und den Stable Assistant-Chatbot lässt sich einfach auf das Modell zugreifen; außerdem können 3D-Kreationen im 3D-Viewer geteilt und in Augmented Reality ausprobiert werden
  • Kann mit einer kostenlosen Testversion ausprobiert werden

Funktionsweise

  • Nutzer beginnen damit, ein einzelnes Bild eines Objekts hochzuladen
  • Stable Fast 3D erzeugt schnell ein vollständiges 3D-Asset, einschließlich UV-unwrapped Mesh, Materialparametern und Albedo-Farben mit reduzierter Beleuchtung
  • Optional kann eine Quad- oder Dreiecksrekonstruktion durchgeführt werden, was die Verarbeitungszeit nur um 100–200 ms erhöht

Anwendungsfälle

  • Nutzung schneller Inferenzzeiten, bei denen Experimentieren in der Vorproduktion entscheidend ist
  • Statische Assets für Spiele (Hintergrundobjekte, Requisiten, Möbel)
  • 3D-Modelle für E-Commerce
  • Schnelle Modellerstellung für AR/VR

Wenn Geschwindigkeit auf Qualität trifft

  • Leistungsvorteil gegenüber Wettbewerbern in mehreren Kernbereichen
  • Hohe Geschwindigkeit von 0,5 Sekunden pro 3D-Asset auf einer GPU mit 7 GB VRAM
  • Hochwertige UV-unwrapped Meshes und Materialparameter
  • Reduzierte Verflechtung von Beleuchtung in Texturen
  • Zusätzliche Materialparameter und die Erzeugung von Normal Maps möglich

Forschung und Entwicklung

  • Basiert auf TripoSR, verfügt jedoch über ein vollständig neu trainiertes Modell und wichtige Architekturänderungen
  • Zu den Verbesserungen gehören explizite Mesh-Erzeugung und neue Techniken für die schnelle Erzeugung texturierter Meshes
  • Im Technical Report wird hervorgehoben, wie mit reduzierter eingebrannter Beleuchtung und Materialparametern schnelle Inferenzgeschwindigkeiten erreicht werden

Verfügbarkeit

  • Der Modellcode für Stable Fast 3D ist auf Github und Hugging Face verfügbar
  • Unter der Stability AI Community License sind nichtkommerzielle Nutzung sowie kommerzielle Nutzung bis zu einem Jahresumsatz von $1M erlaubt
  • Zugriff auf das Modell über die API und Stable Assistant möglich

Meinung von GN⁺

  • Diese 3D-Modellerzeugungstechnologie ist interessant, da sie in verschiedenen Bereichen wie Spielen, Virtual/Augmented Reality, Design und Architektur eingesetzt werden kann. Besonders die schnelle Erzeugung hochwertiger 3D-Assets aus einem einzelnen Bild dürfte die Produktivität steigern.
  • Allerdings könnte die zunehmende Verbreitung solcher KI-basierten Modelle Auswirkungen auf die Arbeitsplätze von Fachkräften wie Grafikdesignern oder Modellierern haben, da 3D-Assets, die bisher manuell erstellt wurden, automatisiert werden könnten. KI wird Menschen zwar kaum vollständig ersetzen, aber eine teilweise Verringerung ihrer Rolle scheint unvermeidlich.
  • Außerdem sollte die Urheberrechtsfrage bei den erzeugten 3D-Modellen berücksichtigt werden. Für die beim Training verwendeten Bilder sollten angemessene Vergütung oder Credits vorgesehen werden. Es scheint notwendig, rechtliche Regulierung und Leitlinien für KI-generierte Inhalte zu schaffen.
  • Vergleichbare Technologien sind etwa Nvidia Instant Nerf und Epic Games' RealityScan. Sie bieten Funktionen zur Erzeugung von 3D-Modellen aus Fotos oder Scans und haben den Vorteil einer hohen Kompatibilität mit Game Engines. Allerdings scheinen sie bei der Geschwindigkeit, mit der Stable Fast 3D aus einem einzelnen Bild hochwertige Ergebnisse liefert, noch hinterherzuhinken.
  • Kurz gesagt dürfte Stable Fast 3D mit seinem Fokus auf hohe Geschwindigkeit und Qualität zur Produktivitätssteigerung in 3D-Grafikbereichen wie Games und XR beitragen. Gleichzeitig ist ein Prozess zur gesellschaftlichen Verständigung über ethische und rechtliche Fragen erforderlich.

1 Kommentare

 
GN⁺ 2024-08-02
Hacker-News-Kommentare
  • Trotz der vielen Erwartungen an LLMs ist es wahrscheinlich, dass Bildgenerierung und grafische Assets derzeit die langfristigen Gewinner der KI sein werden

    • „Halluzinationen“ sind kein Bug, sondern ein Feature
    • Unrealistische und verzerrte Ausgaben lassen sich leicht erkennen, ohne komplexe statistische Tests
    • Die menschliche Intuition ist für die Bewertung nützlich und wird im Gegensatz zu Textgenerierungsmodellen nicht überschätzt
    • Verlustbehaftete oder verrauschte Methoden können für viele kreative Arbeiten dennoch nützlich sein
    • Perfektion ist nicht erforderlich, und verzerrte Merkmale lassen sich leicht erkennen und verbessern
    • Konsistenz ist nicht zwingend nötig, aber wenn sie erreicht wird, kann sie für Anwendungen wie Video großen Mehrwert bieten
    • Techniken wie LoRA ermöglichen es auch ungeschulten Nutzern, gezielt Modelle für bestimmte Charaktere, Stile oder Konzepte zu trainieren
    • Bild-/Visual-Generierungsmodelle haben sich im vergangenen Jahr stark verbessert, und die Verbesserungsgeschwindigkeit hat sich nicht stärker verlangsamt als bei Textmodellen
    • Die Zukunft wird keine vollständige Ersetzung von Fotografen, Filmregisseuren usw. sein, sondern eine Generation leistungsstarker KI-gestützter Werkzeuge
    • Werkzeuge, mit denen sich Konzepte per ein paar Text-Prompts zu Bildern hinzufügen oder daraus entfernen lassen, sind äußerst nützlich
    • Wie bei Photoshop in den 90ern entsteht eine neue Generation von Power-Usern
  • Beim dritten getesteten Bild sah die 3D-KI bei allen Ergebnissen wie ein 2D-Rendering eines 3D-Modells aus

    • Getestet wurde mit einem Cel-Shading-Bild, und die Modellausgabe war sehr flach und hatte eine schlechte Topologie
    • Ohne korrekte Schatten scheint sie die Struktur nicht zu verstehen, da sie die Normalenvektoren nicht neu berechnen kann
    • Es wäre gut, den Eingabesatz anzugeben, bei dem voraussichtlich brauchbare Ergebnisse geliefert werden
  • Noch nicht perfekt, aber ziemlich cool

    • Es könnte als einfacher Deko-Zusatz genutzt werden, der einer Hauptszene mehr Komplexität verleiht, statt als zentrales Asset
    • Es kann in Situationen verwendet werden, in denen kein 2D-Billboard-Impostor infrage kommt
    • Man kann Bilder mit Midjourney, Bing oder Dalle3 erzeugen, sie per Drag-and-drop hineinziehen und überraschend gute 3D-Präsentationen erhalten
    • Es kann als Dekoration in 3D-Szenen verwendet werden, in denen die Kamera die Rückseite nicht sieht
  • Ich kann es kaum erwarten, dass sich diese Technik verbessert

    • Die Testergebnisse waren nicht nützlich
    • Es ist mehr Arbeit nötig, um schlechte Modelle aus der Bildausgabe zu korrigieren
    • Wahrscheinlich ist es besser, eine Reihe von Schritten zu durchlaufen, um langsam ein qualitativ hochwertigeres Endprodukt zu erhalten
    • Vielleicht übersehe ich auch einfach den Anwendungsfall
  • Mit 7 GB VRAM dauert es auf einer GPU 0,5 Sekunden, um ein 3D-Asset zu erzeugen

    • Ich dachte, es wäre ein Modell nur für Rechenzentren, aber 7 GB VRAM deuten darauf hin, dass es auf Hardware läuft, die viele 3D-Künstler bereits besitzen
  • Ich hoffe wirklich, dass in diesem Bereich echte Fortschritte erzielt werden

    • Im HuggingFace-Demo kann man ein Bild per Drag-and-drop ausprobieren
    • Mit einem Katzenbild funktionierte es nicht gut, mit einem iPhone-Bild aber ziemlich gut
    • Bei einem Pfannkuchenbild war es beeindruckend, bei einem Raketenbild furchtbar
    • Bei einem Billardkugel-Bild war es dann wieder beeindruckend
  • Ich plane, mit dieser Technik viele interessante Dinge in 3D zu drucken

  • Es sieht so aus, als hätten sie die klassische Infomercial-Taktik verwendet, das Vergleichsbild zu entsättigen, damit es besser aussieht

  • Auf der Projektseite kann man mit dem Modell interagieren

  • Das weckt meine Begeisterung fürs Bemalen von Miniaturen