-
Standard Intelligence erforscht skalierbares Cross-Modality-Lernen und hat mit hertz-dev ein Open-Source-Audio-Only-Transformer-Basismodell veröffentlicht.
-
hertz-dev verfügt über 8,5 Milliarden Parameter und ist auf Audio-Modellierung spezialisiert.
-
hertz-codec
- Ein konvolutioneller Audio-Autoencoder, der Mono-Sprache mit 16 kHz in eine latente 8-Hz-Repräsentation umwandelt.
- Übertrifft Soundstream und Encodec bei 1 kbps Bitrate und erreicht eine ähnliche Leistung wie DAC.
- Verfügt über 5 Millionen Encoder-Parameter und 95 Millionen Decoder-Parameter.
-
hertz-vae
- Ein Transformer-Decoder mit 1,8 Milliarden Parametern, der als gelernter Prior für das Audio-VAE dient.
- Nutzt 8192 gesampelte latente Repräsentationen, um den nächsten kodierten Audio-Frame vorherzusagen.
-
hertz-dev
- Ein Transformer-Stack mit 6,6 Milliarden Parametern.
- Wurde mit teilweise initialisierten Gewichten eines vortrainierten Sprachmodells über eine einzige Epoche mit 500 Milliarden Tokens trainiert.
- Das Modell ist ein geeigneter Ausgangspunkt für Forschende, um es für verschiedene Aufgaben feinzujustieren.
- Die theoretische Latenz auf einer RTX 4090 beträgt 65 ms, die tatsächliche durchschnittliche Latenz 120 ms.
-
Ausblick
- Hertz-dev gibt einen Ausblick auf die Zukunft von Sprachinteraktionen in Echtzeit und lässt sich von Forschenden leicht feinjustieren und skalieren.
- Eine größere Version von Hertz ist in Entwicklung und soll durch Reinforcement-Learning-Tuning die rohen Fähigkeiten des Modells und seine finale Konsistenz deutlich verbessern.
-
Beispielgenerierungen
- Um die Audio-Modellierungsfähigkeiten von hertz-dev zu zeigen, werden Beispiele für Einkanal- und Zweikanal-Generierung sowie Echtzeitgespräche zwischen Modell und Mensch bereitgestellt.
-
Ziele von Standard Intelligence
- Das Ziel ist der Aufbau allgemeiner künstlicher Intelligenz; derzeit besteht das Team aus vier Personen.
- Gesucht werden Menschen, die am Aufbau von AGI interessiert sind, und auch Anfragen von potenziellen Investoren sind willkommen.
1 Kommentare
Hacker-News-Kommentare
Menschen, die an Sprachmodellen arbeiten, fragen sich, ob die vom System erzeugten Klänge physiologische Auswirkungen haben
Hertz wird als das erste Modell bezeichnet, aber es gibt ein ähnliches Modell namens Moshi
Teslas rein visionsbasierter Ansatz für autonomes Fahren macht die Technologie zugänglicher und besser skalierbar
Jemand erkundet Ideen für Sprachinteraktionssysteme
Es wird nach der Lizenz der Modellgewichte gefragt
Die Sprachbeispiele erzeugen oft bedeutungslose Laute, sind akustisch aber hervorragend
Jemand erkundet VUI (Voice User Interface) und hält es für nützlich
Die Codec-Parameter erinnern an einen militärischen Sprach-Codec aus dem Jahr 2010
Die Stimme klingt leicht verzerrt und es gibt Hintergrundrauschen
Link zum Hertz-dev-Repository