NotebookLlama – Open-Source-Version von Googles NotebookLM

(github.com/meta-llama)

1 Punkte von GN⁺ 2024-10-28 | 1 Kommentare | Auf WhatsApp teilen

Die bisherige GitHub-Seite des NotebookLlama-Rezepts ist keine Implementierungsdokumentation, sondern eine Hinweisseite, die auf den neuen Speicherort verweist
Der neue Speicherort führt zum Dokument Building a Notebook Llama: A Step-by-Step Guide
Im Text des bisherigen Pfads wird derselbe Umzugshinweis wiederholt; die eigentlichen Inhalte sind daher im neuen Dokument zu finden
Wenn bestehende Lesezeichen und Skripte auf diesen GitHub-Pfad verweisen, müssen sie auf die neue URL aktualisiert werden
Die aktuelle Seite enthält keine Anleitung zur Nutzung von NotebookLlama wie Installation, Code-Struktur oder Ausführungsschritte

Neuer Speicherort des NotebookLlama-Rezepts

Das NotebookLlama-Rezept wurde aus dem bisherigen GitHub-Verzeichnis an einen neuen Speicherort verschoben
Der Titel des neuen Dokuments lautet Building a Notebook Llama: A Step-by-Step Guide

Wenn der bisherige Pfad verwendet wird

Wenn bestehende Lesezeichen oder Skripte auf diese GitHub-Seite zeigen, sollten sie auf die neue Dokument-URL geändert werden
Im Text der aktuellen GitHub-Seite werden der Umzugshinweis und eine Dankesformel wiederholt

Inhalte, die auf der aktuellen Seite fehlen

Diese Seite enthält keine Informationen zur Installation von NotebookLlama, zur Code-Struktur, zu Ausführungsschritten oder zur Funktionsbeschreibung

1 Kommentare

GN⁺ 2024-10-28

Hacker-News-Kommentare

Je mehr ich mir die NotebookLM-„Episoden“ anhöre, desto sicherer bin ich, dass Google ein Zwei-Personen-Dialogmodell darauf trainiert hat, direkt auf einem bestehenden multimodalen Basismodell Podcasts zu erzeugen
Die Art, wie sich die beiden Sprecher ins Wort fallen und gleichzeitig sprechen, wirkt unheimlich menschlich
Es erscheint auch plausibel, dass sie echte Podcasts und Transkripte in großem Maßstab verwendet und aus den Transkripten synthetisches „Eingabematerial“ erstellt haben, das dann als Trainingsbeispiele diente
Man könnte zum Beispiel eine Episode von The Daily nehmen, ein Sprachmodell einen fiktiven Text schreiben lassen, der den Inhalt des Podcasts zusammenfasst, diesen Text dann in das Zwei-Sprecher-Modell einspeisen und das ausgegebene Audio transkribieren, um zu prüfen, wie gut es zum Eingabetext passt
Vielleicht übersehe ich ein entscheidendes Detail, aber ich glaube nicht, dass diese Natürlichkeit des Podcasts allein aus einem einfachen Texttranskript entstehen kann
- Wenn ich swyx weiterdenke, ist die Wahrscheinlichkeit groß, dass dieses TTS Googles lange im Keller liegendes Soundstorm ist, das nun endlich zum Einsatz kommt
  https://google-research.github.io/seanet/soundstorm/examples...
- Es gibt gute und schlechte Nachrichten: So wurde es nicht gemacht
  Es gab einen frühen Podcast mit einem Interview des leitenden Engineers des Audiomodells: https://www.latent.space/p/notebooklm
  Kurz gesagt wurde bestätigt, dass Skript und Audio getrennt erzeugt werden, aber das TTS-Modell ist dem, was Open Source oder kommerziell zugänglich ist, im Training weit voraus
- Bei NotebookLM hatte ich einen ähnlichen Eindruck, habe aber auch etwas Merkwürdiges bemerkt
  Manchmal spricht Moderator A, und plötzlich beendet Moderator B den Satz
  Meist erklärt A dabei gerade etwas an B oder beantwortet eine Frage, sodass es im Kontext keinen Sinn ergibt; ich weiß nicht, wie ich das deuten soll, aber es ist ein interessantes Phänomen
Das ist eigentlich ziemlich eindeutig nicht Open Source: https://github.com/meta-llama/llama-recipes/blob/d83d0ae7f5c...
Es gibt auch keine LICENSE-Datei, also kann man diesen Code derzeit höchstens als Referenz verwenden
- Zum direkten Einsatz wirkt es nicht besonders nützlich, aber der explorative Ansatz selbst ist im Klartext klar und gut dokumentiert
  Selbst wenn man es nicht unverändert verwenden kann, ist es als Beitrag zum öffentlichen Wissen durchaus etwas, wofür man dankbar sein kann
- Vielleicht ist es ein Versehen, weil es nicht mit dem übereinstimmt, was im README steht: https://github.com/meta-llama/llama-models/blob/main/models/...
  Hier wird auf die Lizenz von Meta Llama 3.2 verwiesen
- Danke, aber ich werde es trotzdem einfach verwenden
Es ist gut, das zu sehen. Technikaffine Leute unterschätzen NotebookLM auf eigene Gefahr
Die klugen, aber nicht besonders technischen Menschen, die ich kenne, haben NotebookLM fast durchweg als AI-Killer-App wahrgenommen
Meine Eltern in den Siebzigern und mein achtjähriges Kind waren beide davon verblüfft und spielen ständig damit herum
Wie unten jemand angemerkt hat, geht es hier konkret um die „Podcast“-Funktion
- Als jemand, der keine Podcasts hört, ist mir nicht klar, welche Gefahr entsteht, wenn man mit NotebookLM keine Podcasts erzeugt
- Ich verstehe, warum es für viele cool wirkt, aber für mich ist es das Gegenteil von Zeitersparnis
  Eher ein Werkzeug, das Zeit frisst
  Es fühlt sich ähnlich an wie Videos, deren Existenzberechtigung daher kommt, dass manche Menschen, sogar Entwickler, nicht lesen können oder sich von längeren Texten einschüchtern lassen
  Es gibt einen Wettbewerbsnachteil, der sich nur teilweise abmildern lässt, indem man selbst sehr kurze Textseiten noch mit Videos versieht
- Ich weiß nicht. Meinst du, dass „kluge, aber nicht technische“ Menschen nicht lesen können?
  Ich verstehe nicht, was man verpassen würde, wenn man das ignoriert, so wie ich andere Podcasts ignoriere
  Ich habe fast nie jemanden gesehen, der sagt, er habe durch Podcasts etwas gelernt; meistens ist es eher verstreutes Wissen aus anderen Bereichen, das man nie braucht
- Ich frage mich, ob du über NotebookLM insgesamt sprichst oder konkret über den Podcast-Trick
- Jedes Mal, wenn ich einen NotebookLM-Podcast zu irgendeinem Artikel oder Blogpost höre, denke ich, es wäre viel besser gewesen, denselben Text einfach per AI-Text-to-Speech vorlesen zu lassen
Ich habe in den letzten Monaten versucht, etwas Ähnliches wie NotebookLM zu bauen, also personalisierte News-Podcasts (https://www.tailoredpod.ai)
Das größte Problem ist, dass die bestehenden guten TTS-APIs zu teuer sind, sodass normale Firmen ohne internen Zugang zu Googles Modellen nur schwer ein Produkt wie NotebookLM bauen können
OpenAI bietet noch am ehesten eine TTS-API mit gutem Preis-Leistungs-Verhältnis an, aber selbst dann ist es zu teuer, um mehrere Stunden Audio kostenlos zu erzeugen
Open-Source-TTS-Modelle holen zwar langsam auf, brauchen aber noch immer starke Hardware. Zum Beispiel: https://github.com/SWivid/F5-TTS
- Habt ihr Nutzer? Wenn TTS der Flaschenhals ist, kann ich vielleicht helfen. Die E-Mail steht in meinem Profil
- Mich würde interessieren, was du unter „starker Hardware“ verstehst
Die Auswahl der TTS-Engine ist ziemlich seltsam
Gemessen an offenen TTS-Systemen ist keines davon auch nur annähernd auf dem neuesten Stand
XTTSv2 oder das neue F5-TTS wären viel bessere Optionen gewesen
- Der Code kann jederzeit aktualisiert werden, um solche Engines zu verwenden
  Wenn Meta etwas auf GitHub veröffentlicht, geht es eher darum, einen Proof of Concept bereitzustellen, nicht das „Beste“ zu liefern
  Auch die Lizenzen solcher TTS-Systeme sind wichtig, es reicht also nicht, dass sie nur offen sind
  Wenn es ein Produkt für Endnutzer wäre, hätten sie sicher besseres TTS verwendet
- Auf der Seite mit den Verbesserungspunkten steht:
  „Sprachmodell-Experimente: Das ist die Grenze dessen, wie natürlich das TTS-Modell klingt. Mit einer besseren Pipeline und mit Hilfe von jemandem, der mehr davon versteht, könnte das verbessert werden. PRs willkommen! :)“
Die Beispielausgabe ist ziemlich schwach.
Es ist zwar eine coole Demo, aber sie unterstreicht vor allem, wie sehr das NotebookLM-Team mit nahezu demselben Basismodell wie den bereits verfügbaren Modellen ein Hit-Produkt geschaffen hat.
Das wirkt weniger wie ein Open-Source-NotebookLM als eher wie ein paar Experimente in einem iPython-Notebook.
Was NotebookLM auf LLM-Ebene macht, ist nicht besonders neu; interessant ist aus meiner Sicht vielmehr, wie es als Produkt verpackt wurde und sich damit von anderen Produkten unterscheidet.
Der „Podcast“-Teil ist eigentlich eher eine Einführung oder Übersicht zu einem großen Korpus, und deutlich nützlicher ist die Funktion, mit einem Bot über diesen Korpus zu sprechen und dabei Quellenangaben zu erhalten.
Dieses Beispiel zeigt allerdings, dass sich mit LLMs sehr schnell Prototypen bauen lassen.
Wer die API noch nicht ausprobiert hat, sollte es einmal versuchen.
- Stimme ich nicht zu.
  Das Neue an NotebookLM ist die Art, wie sich die beiden Sprecher gegenseitig ins Wort fallen und sich ihre Rede überlappt.
  Andere Open-Source-Lösungen können das nicht und sprechen einfach nur abwechselnd.
Es gibt noch eine weitere Jupyter-basierte Notebook-Lösung mit Unterstützung für LLaMA-Modelle: https://raku.land/zef:antononcube/Jupyter::Chatbook
Das Demo-Video gibt es hier: https://youtu.be/zVX-SqRfFPA
Macht das hier nur Podcasts?
An den anderen Funktionen von NotebookLM bin ich stärker interessiert.
Podcasts sind unterhaltsam, kommen mir aber eher wie ein Gimmick vor.
- Umgekehrt habe ich die Podcast-Funktion mehrfach genutzt und mit vielen Leuten geteilt.
  Sie war ein gutes System und Medium, um komplexe Informationen zu verstehen, die ich sonst wohl nicht verarbeitet hätte.
Wenn man das lokal auf dem Smartphone laufen lassen könnte, wäre das ziemlich cool.
Ich stelle mir vor, man bekommt Arbeitsdokumente, zum Beispiel ein Product Requirements Document, und lässt sie in Podcasts umwandeln, damit man sie während der Fahrt anhören kann.
Das würde die Produktivität stark erhöhen, und man müsste sich auch keine Sorgen um Compliance-Probleme machen.
- Es wäre großartig, wenn ChatGPT oder Claude eine Android-Auto-App bauen würden, die man während der Fahrt nutzen kann.

NotebookLlama – Open-Source-Version von Googles NotebookLM

Neuer Speicherort des NotebookLlama-Rezepts

Wenn der bisherige Pfad verwendet wird

Inhalte, die auf der aktuellen Seite fehlen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare