3 Punkte von GN⁺ 2025-01-23 | 1 Kommentare | Auf WhatsApp teilen
  • Hunyuan3D 2.0 ist ein groß angelegtes 3D-Synthesesystem zur Erzeugung hochauflösender texturierter 3D-Assets
  • Zwei Hauptkomponenten:
    • Hunyuan3D-DiT: ein groß angelegtes Modell zur Formerzeugung, das auf einem skalierbaren flow-basierten Diffusion Transformer basiert und eine stabile Grundlage bietet, indem es Geometrie erzeugt, die auf bestimmte Bedingungsbilder ausgerichtet ist
    • Hunyuan3D-Paint: nutzt leistungsfähiges Vorwissen über Geometrie und Diffusion, um hochauflösende und lebendige Texturkarten für generierte Meshes oder manuell erstellte Meshes zu erzeugen
  • Hunyuan3D-Studio ist eine Plattform, die den Prozess der Neuerstellung von 3D-Assets vereinfacht und es sowohl Profis als auch Amateuren ermöglicht, Meshes effizient zu bearbeiten oder zu animieren
  • Hunyuan3D 2.0 zeigt gegenüber bestehenden Open-Source- und proprietären Modellen eine überlegene Leistung: bei geometrischen Details, Bedingungsausrichtung, Texturqualität usw.

Hunyuan3D 2.0

Architektur

  • Zweistufige Generierungspipeline: erst Mesh-Erzeugung, dann Synthese der Texturkarte
  • Trennt die Schwierigkeiten der Form- und Texturerzeugung und bietet flexible Texturierung für generierte oder manuell erstellte Meshes

Leistung

  • Hunyuan3D 2.0 zeigt im Vergleich zu anderen Open-Source- und proprietären 3D-Generierungsmethoden eine überlegene Leistung
  • Übertrifft alle Benchmarks bei CMMD, FID_CLIP, FID und CLIP-score

Vortrainierte Modelle

  • Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B Parameter
  • Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B Parameter
  • Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B Parameter

API-Nutzung

  • Diffusers-ähnliches API-Design zur Nutzung der Modelle Hunyuan3D-DiT und Hunyuan3D-Paint
  • Mesh-Erzeugung über Hunyuan3D-DiT möglich
  • Textursynthese über Hunyuan3D-Paint möglich

Gradio-App

  • Kann über die Gradio-App auf einem persönlichen Computer gehostet werden

📑 Open-Source-Plan

  • Einschließlich Inferenz-Code, Modell-Checkpoints, technischem Bericht, ComfyUI und TensorRT-Version

1 Kommentare

 
GN⁺ 2025-01-23
Hacker-News-Kommentare
  • In Fragen zu 3D-Mesh-Modellen gibt es eine Diskussion darüber, ob es ein für Photogrammetrie geeignetes Modell gibt. Es wurden hochwertige Fotos mit konsistenter Beleuchtung und einfarbigem Hintergrund verwendet, aber typische Anwendungen erzeugen Meshes mit niedriger Polygonzahl oder vielen Löchern.

  • Es gibt die Ansicht, dass generative KI die Grenzkosten für die Erstellung interaktiver 3D-Inhalte auf null senken wird. Das könnte das Potenzial haben, das Metaverse zu beleben.

  • Die Lizenz von Tencent Hunyuan 3D 2.0 gilt nicht in der Europäischen Union, im Vereinigten Königreich und in Korea.

  • Es gibt die Meinung, dass zwar ein Diagramm zeigt, wie das Mesh mit dem Marching-Cubes-Algorithmus erzeugt wird, es in Wirklichkeit aber auf andere Weise erzeugt zu werden scheint.

  • Es gibt Fragen dazu, ob sich das KI-Modell zu Hause ausführen lässt. Zum Beispiel wird diskutiert, ob es auf einer 4090-Grafikkarte laufen kann.

  • Es gibt die Meinung, dass alles, was das Wort „fortgeschritten“ enthält, gut sei.

  • Systeme für nutzergenerierte Inhalte könnten unter dem Problem der „Penis-Problematik“ leiden.

  • Es gibt die Ansicht, dass man generativen Modellen vertrauen, ihre Ergebnisse aber überprüfen sollte. Es ist wichtig, es selbst auszuprobieren.

  • Man hat das auf der Huggingface-Seite verlinkte Modell ausprobiert, konnte es aber wegen eines Overuse-Fehlers nicht testen. Die Ergebnisse sehen ziemlich gut aus.

  • Es scheint lange Prompts zu brauchen, was Misstrauen wecken könnte. Um herauszufinden, wie schwierig die tatsächliche Nutzung ist, wurde es mit einfachen Prompts ausprobiert.

  • Das Ergebnis für den Prompt „Gitarre“ zeigte eine etwas dicke Gitarre, und der Prompt „Monstera-Blatt“ ergab eine etwas seltsame Form.

  • Das Ergebnis für den Charakter-Prompt „Super Mario“ wirkt fragwürdig. Luigi sollte anders aussehen als Mario, tut es aber nicht.

  • Das Ergebnis für den Prompt „Peach“ ist zum Lachen. Heraus kam ein Pfirsich mit einem niedlichen Gesicht.

  • Das Ergebnis für den Prompt „Toad“ sieht wie ein deformierter Squirtle aus.

  • Das Paper ist auf arXiv zu finden. Generative Modelle werden auf vielen Daten trainiert und könnten eine datenbankähnliche Schnittstelle benötigen.

  • Man kann sich ein Modell vorstellen, das auf funktionale Objekte für den 3D-Druck zugeschnitten ist.