1 Punkte von GN⁺ 2024-10-28 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Tutorial-Reihe zum Aufbau eines Workflows, der PDFs in Podcasts umwandelt
  • Man kann dabei auch Experimente mit Text-zu-Sprache-Modellen kennenlernen
  • Auch ohne Vorkenntnisse zu LLMs, Prompts oder Audio-Modellen wird alles in den jeweiligen Notebooks behandelt

Schritt-für-Schritt-Prozess

  • Schritt 1: PDF-Vorverarbeitung
    Mit dem Modell Llama-3.2-1B-Instruct wird das PDF vorverarbeitet und als .txt-Datei gespeichert.
  • Schritt 2: Transkript erstellen
    Mit dem Modell Llama-3.1-70B-Instruct wird aus dem Text ein Podcast-Transkript erstellt.
  • Schritt 3: Dramatische Überarbeitung
    Mit dem Modell Llama-3.1-8B-Instruct wird das Transkript dramatischer gestaltet.
  • Schritt 4: Text-zu-Sprache-Workflow
    Mit den Modellen parler-tts/parler-tts-mini-v1 und bark/suno wird ein dialogorientierter Podcast erzeugt.

Detaillierte Schritte zur Ausführung der Notebooks

  • Anforderungen
    Um die Llama-Modelle 70B, 8B und 1B zu nutzen, wird ein GPU-Server oder ein API-Anbieter benötigt.
  • Notebook 1
    Verarbeitet PDFs und wandelt sie mit einem Feather-light-Modell in .txt-Dateien um.
  • Notebook 2
    Nimmt die Ausgabe von Notebook 1 und wandelt sie kreativ in ein Podcast-Transkript um.
  • Notebook 3
    Nimmt das vorherige Transkript und ergänzt dramatische Elemente und Pausen im Dialog.
  • Notebook 4
    Wandelt das Ergebnis des letzten Notebooks in einen Podcast um.

Künftige Verbesserungen/zusätzliche Ideen

  • Experimente mit Sprachmodellen: TTS-Modelle müssen verbessert werden, um natürlicher zu klingen.
  • LLM-gegen-LLM-Diskussion: Zwei Agenten diskutieren ein Thema und erstellen daraus eine Podcast-Gliederung.
  • Test zur Transkript-Erstellung mit einem 405B-Modell.
  • Bessere Prompts schreiben.
  • Unterstützung für Funktionen, die Websites, Audiodateien, YouTube-Links usw. erfassen können.

Zusammenfassung von GN⁺

  • NotebookLlama ist ein Open-Source-Projekt, das PDFs in Podcasts umwandelt und dabei verschiedene LLM- und TTS-Modelle nutzt, um kreative Inhalte zu erzeugen.
  • Das Projekt zeigt durch Experimente mit LLM- und TTS-Modellen das Potenzial, natürlichere Stimmen zu erzeugen.
  • Als ähnliche Projekte mit vergleichbaren Funktionen werden Googles TTS API und Amazon Polly empfohlen.

1 Kommentare

 
GN⁺ 2024-10-28
Hacker-News-Kommentare
  • Je mehr man sich die „Episoden“ von NotebookLM anhört, desto überzeugter ist man, dass Google auf Basis eines bestehenden multimodalen Backbones ein Modell für „Podcast-Diskussionen“ mit zwei Sprechern trainiert hat

    • Die Art, wie sich die beiden Sprecher wie Menschen gegenseitig ins Wort fallen und miteinander sprechen, wirkt sehr natürlich
    • Möglicherweise wurde das Modell anhand echter Podcasts und ihrer Transkripte feinabgestimmt
    • Am Beispiel einer „The Daily“-Episode wird vermutet, dass ein Sprachmodell einen fiktiven Artikel schreibt, der den Podcast-Inhalt zusammenfasst, dieser dann in das Zwei-Sprecher-Modell eingespeist wird und anschließend geprüft wird, wie gut das erzeugte Transkript mit dem Eingabeartikel übereinstimmt
  • NotebookLM ist selbst für technisch wenig versierte Menschen sehr beeindruckend

    • Eltern in den 70ern und auch ein 8-jähriges Kind seien von dieser Technik völlig verblüfft und nutzen sie weiter
  • Die Wahl der TTS-Engine wird als seltsam empfunden

    • Im Vergleich zu modernen offenen TTS-Systemen seien XTTSv2 oder das neue F5-TTS die bessere Wahl gewesen
  • Die Beispielausgaben werden als sehr unzureichend bewertet

    • Dabei wird betont, dass das NotebookLM-Team mit einem bestehenden Foundation Model ein Erfolgsprodukt geschaffen hat
  • Es wird gehofft, dass das Produkt auch in anderen Sprachen und mit verschiedenen Akzenten erscheint, insbesondere mit südostasiatischen Akzenten

  • Es wird vermutet, dass NotebookLM gar kein Open Source ist, sondern eher nur ein paar Experimente in einem iPython-Notebook

    • Auf LLM-Ebene sei die Funktionalität nicht besonders neu, aber die Verpackung als Produkt sei interessant
    • Der „Podcast“-Teil sei nur eine Einführung bzw. Übersicht über einen großen Korpus; nützlicher sei es, sich die zitierten Referenzmaterialien über Gespräche mit dem Bot geben zu lassen
  • Es zeigt, wie schnell Prototyping mit LLMs ist

    • Menschen, die noch nie eine API verwendet haben, wird empfohlen, es einmal auszuprobieren
  • Es wird hinterfragt, ob NotebookLM nur Podcasts erzeugt

    • Podcasts seien unterhaltsam, aber auch eine etwas verspielte Funktion
  • Es wäre gut, wenn es lokal auf dem Smartphone laufen könnte

    • Wenn man zum Beispiel Arbeitsdokumente in Podcasts umwandeln und sie beim Fahren anhören könnte, würde das die Produktivität stark steigern
  • Die Beispiele werden als etwas roh bewertet

  • Es wird erwähnt, dass man gern die Ausgaben von jemandem hören würde, der NotebookLM selbst genutzt hat