2 Punkte von GN⁺ 2024-11-04 | 1 Kommentare | Auf WhatsApp teilen
  • Standard Intelligence erforscht skalierbares Cross-Modality-Lernen und hat mit hertz-dev ein Open-Source-Audio-Only-Transformer-Basismodell veröffentlicht.

  • hertz-dev verfügt über 8,5 Milliarden Parameter und ist auf Audio-Modellierung spezialisiert.

  • hertz-codec

    • Ein konvolutioneller Audio-Autoencoder, der Mono-Sprache mit 16 kHz in eine latente 8-Hz-Repräsentation umwandelt.
    • Übertrifft Soundstream und Encodec bei 1 kbps Bitrate und erreicht eine ähnliche Leistung wie DAC.
    • Verfügt über 5 Millionen Encoder-Parameter und 95 Millionen Decoder-Parameter.
  • hertz-vae

    • Ein Transformer-Decoder mit 1,8 Milliarden Parametern, der als gelernter Prior für das Audio-VAE dient.
    • Nutzt 8192 gesampelte latente Repräsentationen, um den nächsten kodierten Audio-Frame vorherzusagen.
  • hertz-dev

    • Ein Transformer-Stack mit 6,6 Milliarden Parametern.
    • Wurde mit teilweise initialisierten Gewichten eines vortrainierten Sprachmodells über eine einzige Epoche mit 500 Milliarden Tokens trainiert.
    • Das Modell ist ein geeigneter Ausgangspunkt für Forschende, um es für verschiedene Aufgaben feinzujustieren.
    • Die theoretische Latenz auf einer RTX 4090 beträgt 65 ms, die tatsächliche durchschnittliche Latenz 120 ms.
  • Ausblick

    • Hertz-dev gibt einen Ausblick auf die Zukunft von Sprachinteraktionen in Echtzeit und lässt sich von Forschenden leicht feinjustieren und skalieren.
    • Eine größere Version von Hertz ist in Entwicklung und soll durch Reinforcement-Learning-Tuning die rohen Fähigkeiten des Modells und seine finale Konsistenz deutlich verbessern.
  • Beispielgenerierungen

    • Um die Audio-Modellierungsfähigkeiten von hertz-dev zu zeigen, werden Beispiele für Einkanal- und Zweikanal-Generierung sowie Echtzeitgespräche zwischen Modell und Mensch bereitgestellt.
  • Ziele von Standard Intelligence

    • Das Ziel ist der Aufbau allgemeiner künstlicher Intelligenz; derzeit besteht das Team aus vier Personen.
    • Gesucht werden Menschen, die am Aufbau von AGI interessiert sind, und auch Anfragen von potenziellen Investoren sind willkommen.

1 Kommentare

 
GN⁺ 2024-11-04
Hacker-News-Kommentare
  • Menschen, die an Sprachmodellen arbeiten, fragen sich, ob die vom System erzeugten Klänge physiologische Auswirkungen haben

    • Es ist ein Modell, das deutlich besser ist als bestehende Open-Source-TTS-Engines
    • Es wäre gut, multimodale Fähigkeiten hinzuzufügen, damit es auch Text verarbeiten kann
    • Man könnte Ausgaben wie bei Piper feinabstimmen, damit sie mit natürlicherer Intonation wiedergegeben werden
    • Es wäre nützlich, wenn ein Text-LLM an Piper und Piper an Hertz-dev gekoppelt würde
  • Hertz wird als das erste Modell bezeichnet, aber es gibt ein ähnliches Modell namens Moshi

    • Moshi kann auf einem MacBook ausgeführt werden
    • Moshi-Link
  • Teslas rein visionsbasierter Ansatz für autonomes Fahren macht die Technologie zugänglicher und besser skalierbar

    • Er ermöglicht schnelle Iterationen durch das Sammeln großer Datensätze
    • Es ist möglich, dass in einem ausgereiften Stadium zusätzliche Sensordaten wieder integriert werden
  • Jemand erkundet Ideen für Sprachinteraktionssysteme

    • Derzeit wandeln die meisten Sprachinteraktionen Sprache in Text und dann wieder in Audio um
    • Wenn man ein System entwickeln könnte, das direkt per Sprache antwortet, ohne den Umweg über Text, könnte es natürliche und spontane Antworten erzeugen
    • Es stellt sich die Frage, ob das Sprachinteraktionsmodell dem Standardprozess Sprache-zu-Text-zu-Sprache folgt oder Sprache-zu-Sprache-Verarbeitung erforscht
  • Es wird nach der Lizenz der Modellgewichte gefragt

  • Die Sprachbeispiele erzeugen oft bedeutungslose Laute, sind akustisch aber hervorragend

    • Mit SD und LLMs kann man Reaktionen auf kleine Änderungen untersuchen und so debuggen
    • Da Hertz-dev Ton als Eingabe verwendet, ist es schwer zu unterscheiden, welche Token angepasst werden sollten
    • Für den Echtzeiteinsatz ist solches Herumprobieren nicht möglich
    • Es wird gefragt, wie sich das Verhalten von Hertz-dev systematisch untersuchen lässt
  • Jemand erkundet VUI (Voice User Interface) und hält es für nützlich

    • VUI sei die Zukunft der Computerinteraktion
    • Dadurch könnten Kinder und ältere Menschen als neue Nutzergruppen hinzukommen
  • Die Codec-Parameter erinnern an einen militärischen Sprach-Codec aus dem Jahr 2010

    • Es werden 120-ms-Frames verwendet und mit 16-kHz-Audio kodiert
    • IEEE-Link
  • Die Stimme klingt leicht verzerrt und es gibt Hintergrundrauschen

    • Es wird gefragt, ob das eine Grenze des Modells oder ein Qualitätsproblem der Trainingsdaten ist
  • Link zum Hertz-dev-Repository