Buch-Empfehlungsdienst auf Basis eines Empfehlungsmodells mit 3 Milliarden Goodreads-Rezensionen

(book.sv)

1 Punkte von GN⁺ 2025-11-07 | 1 Kommentare | Auf WhatsApp teilen

Wenn Nutzende Bücher eingeben, die sie gelesen haben, schlägt ein Empfehlungsmodell das nächste Buch zum Lesen vor
In Suchergebnissen und Empfehlungen werden nur Bücher oberhalb einer Popularitätsschwelle angezeigt
Weniger populäre Bücher können in einem anderen Bereich der Website (intersect) genutzt werden
Die genauesten Empfehlungen werden bei der Eingabe von mindestens 3 Büchern geliefert
Eine experimentelle Umsetzung personalisierter Leseempfehlungstechnologie, die große Mengen an Rezensionsdaten nutzt

Buch-Empfehlungsfunktion

Wenn Nutzende Bücher eingeben, die sie bereits gelesen haben, werden modellbasierte Empfehlungen bereitgestellt
- Auf Grundlage der eingegebenen Buchliste werden als Nächstes lesenswerte Bücher vorgeschlagen
In Empfehlungen und Suchergebnissen werden nur hinreichend populäre Bücher aufgenommen
- Bücher unterhalb des Popularitätsschwellenwerts werden aus den Empfehlungsergebnissen ausgeschlossen

Eingabe- und Suchweise

Ergebnisse werden angezeigt, sobald im Suchfeld mindestens zwei Zeichen eingegeben werden
Von Nutzenden ausgewählte Bücher werden im Bereich „Selected Books“ angezeigt;
wurde noch kein Buch ausgewählt, erscheint der Hinweis „No books selected yet“

Zusätzliche Funktionen

Weniger populäre Bücher können auf der Seite /intersect separat genutzt werden
Bei der Eingabe von mindestens 3 Büchern verbessert sich die Empfehlungsgenauigkeit

Service-Überblick

Die Website verwendet ein Empfehlungsmodell auf Basis großer Goodreads-Rezensionsdatenmengen (3 Milliarden Einträge)
Ziel ist es, abhängig von der Lesehistorie der Nutzenden eine personalisierte Buch-Empfehlungserfahrung bereitzustellen
Im Originaltext gibt es keine zusätzlichen technischen Details oder Algorithmusbeschreibungen

1 Kommentare

GN⁺ 2025-11-07

Hacker-News-Kommentare

Ich frage mich, ob das nicht gegen Abschnitt 4 der Goodreads-Nutzungsbedingungen verstößt.
Dort steht, man solle Inhalte des Dienstes nicht durch Bearbeitung, Vervielfältigung, Verbreitung oder die Erstellung abgeleiteter Werke nutzen. Um die Inhalte der Rezensenten für das Training eines LLM zu verwenden, scheint eine ausdrückliche Erlaubnis nötig zu sein.
- Ich glaube, dass solche Klauseln heute nicht mehr besonders viel bedeuten.
  Ob Scraping legal ist, hängt von der jeweiligen Gerichtsbarkeit ab. In den USA wurde durch den Präzedenzfall HiQ Labs v. LinkedIn anerkannt, dass das Abrufen öffentlicher Webseiten kein Verstoß gegen den CFAA ist. Deshalb gibt es so viele Startups für das Scraping öffentlicher Daten.
- Technisch gesehen wird das eigentliche Werk von Goodreads nicht öffentlich genutzt.
  Auf der Website werden nur Titel und Autor angezeigt, und die gehören nicht Goodreads.
  Es könnte zwar unter die Klausel zur „Erstellung abgeleiteter Werke“ fallen, aber eine Buchempfehlung auf Basis von Rezensionen als Rechtsverletzung zu sehen, erscheint schwer vertretbar.
  Das ist in etwa vergleichbar mit einem YouTuber, der ein Video macht wie „Buchempfehlungen nach dem Lesen von 50 Rezensionen“.
- Heutzutage gilt sogar das Training eines LLM mit ganzen Büchern als Fair Use, daher ist es gut möglich, dass auch für Rezensionen keine Erlaubnis nötig ist. Trotzdem würde ich gern die Meinung eines Rechtsexperten dazu hören.
- Ich weiß nicht, warum man eine Frage stellt, deren Antwort man offenbar schon kennt.
Ich habe immer weiter Bücher hinzugefügt und dann die Meldung bekommen: „zu viele“. Wirklich eine sehr interessante Idee.
Allerdings hätte ich ein paar Vorschläge.
- UI: Bücher, auf die man „Add“ geklickt hat, sollten aus der Empfehlungsliste verschwinden. Wenn sie dort bleiben, ist das verwirrend.
- Empfehlungsvielfalt: Das System hat Bücher, die ich bereits gelesen habe, zwar sehr gut getroffen, aber es gab nur wenige neue Entdeckungen.
  Wenn meine Liste gelesener Bücher lang genug ist, wäre es schön, ähnliche Leser („eigenfriends“) zu finden und mir umstrittene oder nischige Bücher zu empfehlen, die diese gelesen haben.
  Als Nächstes wäre es spannend, ein VLM anzubinden und per Bücherregal-Foto Eingaben zu ermöglichen.
- Auf der „intersect“-Seite der Website kann man mehrere Bücher eingeben und die Menge gemeinsamer Leser finden.
  Wenn man zum Beispiel „Lenin’s Tomb“ und „Secondhand Time“ eingibt, kann man andere Bücher sehen, die von Leuten gelesen wurden, die beide gelesen haben.
  Das ist ähnlich wie bei Filmaffinity. Dort basieren Empfehlungen auf Gruppen von Nutzern mit ähnlichem Geschmack, die „soulmates“ genannt werden.
  Persönlich denke ich, dass man frischere Empfehlungen eher durch Filterung von Freunden mit anderem Geschmack bekommt als durch umstrittene Bücher.
Die Website ist schnell und wirklich beeindruckend.
Wenn man aber einen Band aus einer Reihe eingibt, zum Beispiel Discworld #33, dominiert diese Reihe die Empfehlungen. Ich würde gern Reihen ausschließen, die ich bereits lese.
Außerdem wurden einige Bücher, die auf Goodreads vorhanden sind, bei der Suche nicht gefunden. Sie scheinen im Datensatz zu fehlen.
Beim Klick auf den „Similar“-Button kamen formal ähnliche, aber kontextuell andere Bücher heraus.
Trotzdem passte es bei allgemeinen Büchern gut zu meiner Wunschliste.
- Ich denke, die Behandlung von Reihen ist das größte Problem.
  Die Testmetriken und Qualitätschecks waren gut genug für einen Release, aber die Lösung wäre wohl, mit einem Transformer-Modell 100–200 Kandidaten zu erzeugen und dann einen Reranker anzuwenden.
Aus Sicht von jemandem, der schon Empfehlungssysteme gebaut hat, beginnt jetzt der wirklich schwierige Teil.
Im Moment ist das eher content-basierte Empfehlung, aber künftig muss man auch Metriken wie Serendipität und Neuheit berücksichtigen.
In echten Services war es effektiv, je nach Ziel verschiedene Recommender zu haben und die Ergebnisse gewichtet zu integrieren.
Zum Beispiel eine Mischung aus content-basierten, graph-basierten und zweckoptimierten Modellen, sogar auf Basis von TF‑IDF/BM25/Splade.
Da Menschen auf unterschiedliche Weise Empfehlungen erhalten möchten, ist die benutzerspezifische Gewichtungsanpassung der Schlüssel.
Der Autor der eingegebenen Bücher sollte aus den Ergebnissen ausgeschlossen werden.
Wenn ich den Schriftsteller ohnehin schon mag, finde ich andere Werke von selbst, daher ist eine Empfehlung desselben Autors nicht besonders sinnvoll.
Wirklich interessante Empfehlungen sind Bücher, die (1) mir gefallen und (2) unerwartet sind.
Zu ähnliche Empfehlungen bergen das Risiko einer Echokammer.
- Reihen auszuschließen finde ich auch sinnvoll, aber beim Autor wäre mir eine Option lieber.
  Oft weiß man gar nicht, ob ein Autor, den man schon einmal gelesen hat, noch andere Werke hat.
- Dass bereits gelesene Bücher immer wieder empfohlen werden, ist nicht besonders gut.
Ich habe verschiedene Bücher eingegeben, und es hat Bücher, die ich schon gelesen und gemocht habe, gut getroffen.
Es wäre aber schön, wenn man auch ein Negativsignal für Bücher, die man nicht mag, hinzufügen könnte.
Insgesamt waren die Ergebnisse ziemlich beeindruckend.
In der robots.txt steht ausdrücklich Scraping verboten (disallow).
Unabhängig von rechtlichen Fragen wirkt das ethisch problematisch.
- Als jemand, der häufig Rezensionen auf Goodreads schreibt, empfinde ich diese Nutzung als unangenehm.
Das zuletzt hinzugefügte Buch scheint die Empfehlungsergebnisse übermäßig stark zu beeinflussen.
- Das liegt an den Eigenschaften von positional embeddings.
  Der letzte Eintrag wird für die Vorhersage der nächsten Interaktion als am relevantesten gewichtet.
  Wenn man mehr Bücher hinzufügt, wird dieser Effekt abgeschwächt.
Wir bauen diesen Datensatz seit 2016 auf, und das ist bereits abgedeckt.
Derzeit läuft eine geschlossene Beta über TestFlight, die bald öffentlich werden soll.
Vor etwa fünf Jahren habe ich mir eine Engine vorgestellt, die neue Filme findet, wenn man sagt: „Empfiehl mir gute Gangsterfilme“.
Damals meinten die meisten, das sei unmöglich, aber inzwischen scheint es machbar zu sein.
Wenn es allerdings einen so großen Datensatz gibt, frage ich mich, ob man dafür überhaupt AI braucht.
Vielleicht könnte man statt Modellen wie SASRec/RAG mit einfachen Rankings und Schnittmengenberechnungen wie beim alten last.fm ähnliche Ergebnisse erzielen.
Früher hatte ich einmal eine Art „Gehirn“-Graphstruktur für Empfehlungen im Kopf, bei der Scores entlang der Verbindungen zwischen Items weitergegeben werden.
Ich könnte mir vorstellen, dass Varianten davon auch bei Amazon verwendet werden.
- Allein mit der Anfrage „Empfiehl mir gute Gangsterfilme“ geht das nicht.
  Wenn man nicht weiß, welche Filme der Nutzer gesehen hat oder welchen Geschmack er hat, kann man nicht präzise Filme empfehlen, die er noch nicht gesehen hat und mögen würde.
  Am Ende wird es zu einem allgemeinen Empfehlungssystem, sobald man diese Informationsbeschränkung lockert.
- Zur Einordnung: last.fm verwendete ebenfalls keine bloßen Rankings, sondern grundlegende Machine-Learning-Algorithmen.

Buch-Empfehlungsdienst auf Basis eines Empfehlungsmodells mit 3 Milliarden Goodreads-Rezensionen

Buch-Empfehlungsfunktion

Eingabe- und Suchweise

Zusätzliche Funktionen

Service-Überblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare