- Wenn Nutzende Bücher eingeben, die sie gelesen haben, schlägt ein Empfehlungsmodell das nächste Buch zum Lesen vor
- In Suchergebnissen und Empfehlungen werden nur Bücher oberhalb einer Popularitätsschwelle angezeigt
- Weniger populäre Bücher können in einem anderen Bereich der Website (
intersect) genutzt werden
- Die genauesten Empfehlungen werden bei der Eingabe von mindestens 3 Büchern geliefert
- Eine experimentelle Umsetzung personalisierter Leseempfehlungstechnologie, die große Mengen an Rezensionsdaten nutzt
Buch-Empfehlungsfunktion
- Wenn Nutzende Bücher eingeben, die sie bereits gelesen haben, werden modellbasierte Empfehlungen bereitgestellt
- Auf Grundlage der eingegebenen Buchliste werden als Nächstes lesenswerte Bücher vorgeschlagen
- In Empfehlungen und Suchergebnissen werden nur hinreichend populäre Bücher aufgenommen
- Bücher unterhalb des Popularitätsschwellenwerts werden aus den Empfehlungsergebnissen ausgeschlossen
Eingabe- und Suchweise
- Ergebnisse werden angezeigt, sobald im Suchfeld mindestens zwei Zeichen eingegeben werden
- Von Nutzenden ausgewählte Bücher werden im Bereich „Selected Books“ angezeigt;
wurde noch kein Buch ausgewählt, erscheint der Hinweis „No books selected yet“
Zusätzliche Funktionen
- Weniger populäre Bücher können auf der Seite
/intersect separat genutzt werden
- Bei der Eingabe von mindestens 3 Büchern verbessert sich die Empfehlungsgenauigkeit
Service-Überblick
- Die Website verwendet ein Empfehlungsmodell auf Basis großer Goodreads-Rezensionsdatenmengen (3 Milliarden Einträge)
- Ziel ist es, abhängig von der Lesehistorie der Nutzenden eine personalisierte Buch-Empfehlungserfahrung bereitzustellen
- Im Originaltext gibt es keine zusätzlichen technischen Details oder Algorithmusbeschreibungen
1 Kommentare
Hacker-News-Kommentare
Dort steht, man solle Inhalte des Dienstes nicht durch Bearbeitung, Vervielfältigung, Verbreitung oder die Erstellung abgeleiteter Werke nutzen. Um die Inhalte der Rezensenten für das Training eines LLM zu verwenden, scheint eine ausdrückliche Erlaubnis nötig zu sein.
Ob Scraping legal ist, hängt von der jeweiligen Gerichtsbarkeit ab. In den USA wurde durch den Präzedenzfall HiQ Labs v. LinkedIn anerkannt, dass das Abrufen öffentlicher Webseiten kein Verstoß gegen den CFAA ist. Deshalb gibt es so viele Startups für das Scraping öffentlicher Daten.
Auf der Website werden nur Titel und Autor angezeigt, und die gehören nicht Goodreads.
Es könnte zwar unter die Klausel zur „Erstellung abgeleiteter Werke“ fallen, aber eine Buchempfehlung auf Basis von Rezensionen als Rechtsverletzung zu sehen, erscheint schwer vertretbar.
Das ist in etwa vergleichbar mit einem YouTuber, der ein Video macht wie „Buchempfehlungen nach dem Lesen von 50 Rezensionen“.
Allerdings hätte ich ein paar Vorschläge.
Wenn meine Liste gelesener Bücher lang genug ist, wäre es schön, ähnliche Leser („eigenfriends“) zu finden und mir umstrittene oder nischige Bücher zu empfehlen, die diese gelesen haben.
Als Nächstes wäre es spannend, ein VLM anzubinden und per Bücherregal-Foto Eingaben zu ermöglichen.
Wenn man zum Beispiel „Lenin’s Tomb“ und „Secondhand Time“ eingibt, kann man andere Bücher sehen, die von Leuten gelesen wurden, die beide gelesen haben.
Das ist ähnlich wie bei Filmaffinity. Dort basieren Empfehlungen auf Gruppen von Nutzern mit ähnlichem Geschmack, die „soulmates“ genannt werden.
Persönlich denke ich, dass man frischere Empfehlungen eher durch Filterung von Freunden mit anderem Geschmack bekommt als durch umstrittene Bücher.
Wenn man aber einen Band aus einer Reihe eingibt, zum Beispiel Discworld #33, dominiert diese Reihe die Empfehlungen. Ich würde gern Reihen ausschließen, die ich bereits lese.
Außerdem wurden einige Bücher, die auf Goodreads vorhanden sind, bei der Suche nicht gefunden. Sie scheinen im Datensatz zu fehlen.
Beim Klick auf den „Similar“-Button kamen formal ähnliche, aber kontextuell andere Bücher heraus.
Trotzdem passte es bei allgemeinen Büchern gut zu meiner Wunschliste.
Die Testmetriken und Qualitätschecks waren gut genug für einen Release, aber die Lösung wäre wohl, mit einem Transformer-Modell 100–200 Kandidaten zu erzeugen und dann einen Reranker anzuwenden.
Im Moment ist das eher content-basierte Empfehlung, aber künftig muss man auch Metriken wie Serendipität und Neuheit berücksichtigen.
In echten Services war es effektiv, je nach Ziel verschiedene Recommender zu haben und die Ergebnisse gewichtet zu integrieren.
Zum Beispiel eine Mischung aus content-basierten, graph-basierten und zweckoptimierten Modellen, sogar auf Basis von TF‑IDF/BM25/Splade.
Da Menschen auf unterschiedliche Weise Empfehlungen erhalten möchten, ist die benutzerspezifische Gewichtungsanpassung der Schlüssel.
Wenn ich den Schriftsteller ohnehin schon mag, finde ich andere Werke von selbst, daher ist eine Empfehlung desselben Autors nicht besonders sinnvoll.
Wirklich interessante Empfehlungen sind Bücher, die (1) mir gefallen und (2) unerwartet sind.
Zu ähnliche Empfehlungen bergen das Risiko einer Echokammer.
Oft weiß man gar nicht, ob ein Autor, den man schon einmal gelesen hat, noch andere Werke hat.
Es wäre aber schön, wenn man auch ein Negativsignal für Bücher, die man nicht mag, hinzufügen könnte.
Insgesamt waren die Ergebnisse ziemlich beeindruckend.
Unabhängig von rechtlichen Fragen wirkt das ethisch problematisch.
Der letzte Eintrag wird für die Vorhersage der nächsten Interaktion als am relevantesten gewichtet.
Wenn man mehr Bücher hinzufügt, wird dieser Effekt abgeschwächt.
Derzeit läuft eine geschlossene Beta über TestFlight, die bald öffentlich werden soll.
Damals meinten die meisten, das sei unmöglich, aber inzwischen scheint es machbar zu sein.
Wenn es allerdings einen so großen Datensatz gibt, frage ich mich, ob man dafür überhaupt AI braucht.
Vielleicht könnte man statt Modellen wie SASRec/RAG mit einfachen Rankings und Schnittmengenberechnungen wie beim alten last.fm ähnliche Ergebnisse erzielen.
Früher hatte ich einmal eine Art „Gehirn“-Graphstruktur für Empfehlungen im Kopf, bei der Scores entlang der Verbindungen zwischen Items weitergegeben werden.
Ich könnte mir vorstellen, dass Varianten davon auch bei Amazon verwendet werden.
Wenn man nicht weiß, welche Filme der Nutzer gesehen hat oder welchen Geschmack er hat, kann man nicht präzise Filme empfehlen, die er noch nicht gesehen hat und mögen würde.
Am Ende wird es zu einem allgemeinen Empfehlungssystem, sobald man diese Informationsbeschränkung lockert.