1 Punkte von GN⁺ 2025-02-10 | 1 Kommentare | Auf WhatsApp teilen

1 Kommentare

 
GN⁺ 2025-02-10
Hacker-News-Kommentare
  • Eine Beschreibung eines vielfältigen Demo-Toolkastens

    • Segment Anything 2: Erstellt mit wenigen Klicks Video-Cutouts und unterhaltsame visuelle Effekte
    • Seamless Translation: Man kann erleben, wie die eigene Stimme in einer anderen Sprache klingt
    • Animated Drawings: Erweckt handgezeichnete Skizzen als Animationen zum Leben
    • Audiobox: Erstellt Audio-Storys mit KI-generierten Stimmen und Geräuschen
  • Seamless Translation ist ziemlich beeindruckend

    • Als ein Nutzer, der Englisch und Spanisch spricht, einen englischen Satz aufnahm und die erzeugte spanische Ausgabe hörte, klang sie fast wie sein eigenes Spanisch
    • Allerdings enthält das Spanisch des Nutzers mehr kastilische Eigenheiten
  • Ich frage mich, warum im Titel „Aidemos“ steht

  • Ich frage mich, wohin Metas KI-Forschung steuert

    • Die Ziele von Google und MSFT verstehe ich, aber bei Meta ist mir das Endziel nicht ganz klar
  • Die Seamless-Translation-Demo ist großartig

    • Die übersetzte Stimme klingt ähnlich wie die ursprüngliche eigene Stimme
    • Wenn sich das in Echtzeit umsetzen ließe, wäre das erstaunlich
  • Meta versteht die Wirkung von GPT-3 und ChatGPT sehr genau

    • Das Modell ist der Ausgangspunkt, und die UX rund um das Modell zeigt die Intelligenz
    • Das fällt besonders bei visuellen Modellen auf
    • Es ist interessant, dass SAM2 sagt, es könne „alles sehen“
    • Es ist beeindruckend zu sehen, wie man auf einen Fußball klickt und das Modell ihn im Video nahtlos verfolgt, selbst wenn er verdeckt wird
  • Nicht alle Demos sind enthalten

    • Zum Beispiel fehlt die Meta-Motivo-Demo (ein Steuerungsmodell für Humanoide)
  • Es wird die Meldung angezeigt: „Derzeit ist die Website in Ihrer Region nicht verfügbar“

  • Ich frage mich, wo all die Links zu den Modellen sind

  • Interessant, aber ich wünschte, Meta würde klarer sagen, was es tatsächlich will

    • Vermutlich bedeutet es: „Bitte stellt uns Daten aus realen Nutzungssituationen zur Verfügung, damit wir die Modelle weiter trainieren können“
  • Ich habe vor einigen Jahren einmal eine Altersschätzungs-Technologie genutzt

    • Nutzer luden ein Bild hoch, halfen dabei, 10 % der Gesichts-Landmarkenpunkte auszurichten, und dann wurde der Schätzer ausgeführt
    • Wenn das Ergebnis falsch war, wurde um Korrekturen gebeten, um es zu verbessern
    • Es ist immer noch cool, aber im Vergleich zu dieser früheren Erfahrung haut es mich nicht besonders um