Die Falle der ISBN

(rygoldstein.com)

8 Punkte von GN⁺ 2026-02-21 | 4 Kommentare | Auf WhatsApp teilen

Beim Versuch, eine saubere und praktische App zur Erfassung gelesener Bücher wie die Film-Tracking-App Letterboxd zu bauen, erwiesen sich die strukturellen Probleme des ISBN-Systems als zentrales Hindernis
Es zeigte sich, dass die Google Books API für die Buchsuche mehrere ISBN-Versionen desselben Werks jeweils als eigene Einträge zurückgibt
Das liegt an der bibliografischen Struktur (FRBR-Modell), die zwischen „Werk“ (work), „Expression“ (expression) und „Manifestation“ (manifestation) unterscheidet; dadurch sind die Daten stark aufgegliedert, obwohl Nutzer oft nur festhalten wollen, dass sie ein Buch gelesen haben
OpenLibrary bietet zwar eine werkzentrierte Datenstruktur, enthält aber weiterhin Duplikate und Unvollständigkeiten und ist deshalb keine vollständige Alternative
Anders als bei Filmdatenbanken wie TMDB fehlt im Buchbereich eine hochwertige öffentliche Metadaten-Infrastruktur, was ein zentrales Hindernis für die Entwicklung sozialer, buchzentrierter Plattformen ist

Vergleich von Letterboxd und Buchplattformen

Letterboxd ermöglicht mit einer sauberen Oberfläche und nicht aufdringlichen Social-Funktionen eine einfache Verwaltung des Filmkonsums
- Nutzer können unkompliziert festhalten, welche Filme sie gesehen haben und wann
GoodReads hingegen macht das Erfassen von Büchern durch eine komplexe UI und mehrstufige Klickpfade umständlich
- „Gelesene Bücher“ und „Noch zu lesen“ sind auf einer Seite vermischt, und Lesenchallenges, Newsletter und andere Zusatzelemente nehmen Platz ein
- Dass GoodReads so unkomfortabel ist, liegt daran, dass es ein Nebenprodukt mit niedriger Priorität im Buchverkaufsgeschäft von Amazon ist
Auch Storygraph hat ähnliche Probleme, sodass Nutzer ihre persönlichen Aufzeichnungen am Ende oft in Obsidian-Dateien verwalten

Google Books API und das ISBN-Problem

Für die Buchsuche wurde die Google Books API verwendet, dabei tauchte jedoch das Problem auf, dass dasselbe Werk unter mehreren ISBNs doppelt in den Suchergebnissen erscheint
- Sucht man zum Beispiel nach „The Last Unicorn“, werden Hardcover, Taschenbuch, eBook, überarbeitete Ausgabe usw. jeweils mit unterschiedlicher ISBN als eigene Einträge zurückgegeben
Jede ISBN steht für ein anderes Format oder eine andere Ausgabe, Nutzer möchten aber oft nur festhalten, dass sie „das Buch gelesen haben“
Diese Struktur erschwert Suche und Datenintegration und eignet sich daher schlecht für ein Erfassungssystem auf Ebene einzelner Werke

Das FRBR-Modell und ein werkbasierter Ansatz

Das in der Bibliothekswissenschaft verwendete FRBR-Modell unterteilt Buchdaten in vier Ebenen
- Work (Werk): das abstrakte schöpferische Werk selbst (z. B. der Roman "The Last Unicorn")
- Expression (Expression): eine bestimmte Fassung
- Manifestation (Manifestation): das physische Format einer bestimmten Ausgabe (Taschenbuch, Hardcover usw.)
- Item (Exemplar): ein einzelner physischer Gegenstand innerhalb einer Sammlung
Google Books liefert überwiegend Daten auf Ebene von „Expression“ oder „Manifestation“, während Nutzer eine abstrakte Einheit auf Ebene des „Werks“ brauchen
OpenLibrary bietet eine werkzentrierte Datenstruktur, enthält aber weiterhin doppelte Einträge
- Beispiel: Bei der Suche nach Hotel Iris von Yoko Ogawa erscheint dasselbe Werk viermal

Grenzen von Datenqualität und Ökosystem

Letterboxd basiert auf The Movie Database (TMDB), und TMDB umfasst rund 1 Million Filmdatensätze
OpenLibrary dagegen enthält mehr als 40 Millionen Werke, aber viele der Daten sind unvollständig und nicht bereinigt
Filmdaten sind qualitativ hochwertig, weil kommerzielle Plattformen und Community-Beiträge zusammenwirken; bei Buchdaten sind Größe und fehlende Finanzierung das Problem
Dadurch fehlt die Datengrundlage, um einen Letterboxd-ähnlichen Dienst für Bücher aufzubauen

Fazit und weitere Versuche

Da es keine vollständige Open-Source-Infrastruktur für Buchmetadaten gibt, ist die Entwicklung einer Plattform zur Bucherfassung deutlich schwieriger als im Filmbereich
Der Autor will dennoch weiter versuchen, ein unabhängiges System zur Bucherfassung aufzubauen
Wie bei der Suche nach dem eigenen Filmgeschmack braucht auch das Erfassen von Büchern einen personalisierten Ansatz

4 Kommentare

nemorize 2026-02-21

Na ja … ISBN ist schließlich ein Identifikator für eine Publikation, nicht für den Inhalt …
Der Titel ist ziemlich krasses Clickbait, haha.

roxie 2026-02-27

Es sieht so aus, als wäre das Feld für die Inhaltskennung leer ;_;

yeobi222 2026-02-22

Es stimmt auch, dass das ISBN-System bei einer wirklich systematischen Klassifizierung nicht besonders viel berücksichtigt ...
Nach den Regeln muss zwar für jede Neuauflage eine eigene Nummer vergeben werden, aber da die unterste Kategorie der Verlag ist, ist die Verwaltung trotz der Notwendigkeit einer werkbezogenen Klassifizierung nicht einfach.

GN⁺ 2026-02-21

Hacker-News-Kommentare

Das erinnert mich an die Datenbankstruktur von MusicBrainz
Zum Beispiel ist das Album Nevermind von Nirvana eine einzelne Release Group, während es verschiedene Medien- oder länderspezifische Wiederveröffentlichungen gibt, etwa Kassette, CD, LP oder Promo-Versionen
In manchen Fällen lassen sie sich durch Katalognummer oder Barcode unterscheiden, in anderen sind es trotz identischem Code tatsächlich unterschiedliche Versionen
Selbst dieselbe Aufnahme kann sich durch Remastering, Schnitt oder Zensur unterscheiden
MusicBrainz verfolgt solche Unterschiede sehr detailliert und trennt klar zwischen identischen und nicht identischen Aufnahmen
Bei Coverversionen oder Standards, die von mehreren Künstlern aufgenommen wurden, werden auf der Ebene des „Work“ Informationen zu Komponist und Texter verknüpft
Ich finde, dass ein solch ausgefeiltes relationales Datenbankdesign sehr nützlich ist, um die Gleichheit und Unterschiede kreativer Werke festzuhalten
Relevanter Link
- In letzter Zeit gibt es auch eine Datenbank namens BookBrainz für Bücher, die als Alpha-Version betrieben wird
  bookbrainz.org/about
  Wenn das Schema MusicBrainz ähnelt, dürfte sich daraus sehr leicht Daten extrahieren lassen
- Als ich eine CD mit Bachs Doppelkonzert für Violine in MusicBrainz eintragen wollte, hatte ich einmal einen CD-ID-Indexierungsfehler
  Ich habe ein Konto angelegt, die Daten selbst hochgeladen und den Eintrag nach mehreren Korrekturen erfolgreich abgeschlossen
  Dabei fand ich auf einer chinesischen Website Informationen zu derselben australischen CD-Ausgabe und nutzte sie als Referenz, wobei mir klar wurde, dass je nach Markt leicht unterschiedliche Versionen existieren
  Ich kann mich daher stark in das MusicBrainz-Team hineinversetzen, wenn es darum geht, dass Menschen bei der Pflege „eindeutiger Identifikatoren“ viel zu nachlässig sind
- Das Album In My Tribe von 10000 Maniacs ist ein gutes Beispiel
  Die Ausgabe von 1987 und die von 1989 (die Version ohne „Peace Train“) hatten dieselbe UPC-Nummer
  Ich erinnere mich noch daran, wie ich Mitte der 90er in gebrauchten CD-Läden nach der Version vor der Entfernung gesucht habe
- Ich habe vor Kurzem CD-Barcodes gescannt, und MusicBrainz hat 90 bis 95 % davon erkannt
  Beim Rest war ich verwirrt, weil mehrere Versionen mit unterschiedlicher Track-Anzahl je nach Region existierten
  Wenn es eine Funktion gäbe, um Künstlerinformationen pro Track anzugeben, wäre die Suchgenauigkeit vermutlich höher gewesen
- Bei einem über Kindle Press veröffentlichten Buch gibt es dieselbe ISBN, aber mindestens drei offizielle überarbeitete Auflagen und mehrere kleinere Korrekturversionen
  Selbst wenn sich nur Tippfehler geändert haben, ist eine Unterscheidung schwierig
Wikidata ist eine FRBR-kompatible offene Datenbank, und die Qualität der buchbezogenen Daten hat sich in den letzten Jahren stark verbessert
Hotel Iris von Yoko Ogawa, das als Beispiel genannt wurde, ist nicht dasselbe Werk, sondern verschiedene Übersetzungen
Übersetzungen sollten als vom Original abgeleitete, aber eigenständige Werke betrachtet werden
Allerdings sind die Listen durcheinandergeraten, sodass es viele Fehler gibt
- In FRBR werden Übersetzungen im Allgemeinen ebenfalls als dasselbe Werk (work) betrachtet
  OpenLibrary fasst sie unter einem Work zusammen und speichert Sprach- und Übersetzerinformationen in der jeweiligen Edition
  Die derzeitigen Dubletten scheinen durch einen automatischen Zusammenführungsprozess nach Sprache entstanden zu sein
- Selbst wenn man Übersetzungen als eigene Ableitungen betrachtet, sollten sie bei der Suche unter einer Einheit zusammengefasst werden
  Ideal wäre, dass Nutzer Original und Übersetzungen gemeinsam durchsuchen können
Ich empfehle LibraryThing
Ich finde es deutlich besser als Goodreads
Es ist wichtig, die WEMI-Struktur (work, expression, manifestation, item) eines Buchs zu unterscheiden
„Ich habe Don Quijote gelesen“ ist eine Aussage auf der Work-Ebene, während „Mein Exemplar hat einen Kaffeefleck“ eine Aussage auf der Item-Ebene ist
Bei einem Lesewettbewerb auf Bundesstaatsebene wurden Bücher nur über ISBN verwaltet, sodass Schüler sie nur schwer finden konnten
Deshalb habe ich mithilfe der ISBN-Mapping-Datenbank von WorldCat einen SQL-Join hinzugefügt, der verschiedene ISBNs mit demselben Inhalt verknüpft
Das Ergebnis war, dass die Schüler über einen Zeitraum von zehn Jahren mehr als eine Million zusätzliche Bücher gelesen haben
- Danach kam die Frage auf, ob man die SQL-Abfrage sehen könne
Anna’s Archive leistet einen großen Beitrag zur Bereinigung ISBN-bezogener Daten
Es hat WorldCat gescrapet und nutzt diese Daten, und derzeit wird auch eine ISSN-Datenbank für Periodika aufgebaut
Bei ISSN ist der Stand im Vergleich zu Büchern noch sehr unzureichend
Es erinnert daran, dass Open Library aus frühen Arbeiten von Brewster Kahle (Gründer des Internet Archive) und Aaron Swartz hervorgegangen ist
Relevanter Blog
Es kam öfter vor, dass ich in einer echten Buchhandlung ein Buch ansah und kaufte und zu Hause feststellte, dass ich dieselbe Ausgabe bereits besaß
Wenn ich mein Bestandsverzeichnis per ISBN hätte durchsuchen können, hätte ich solche Doppelkäufe vermeiden können
- Darauf antwortete jemand, dass ihm das nicht passiert, weil er fast tausend E-Books besitzt und genau weiß, welche Bücher er hat
Ich habe einmal als privates Projekt eine Buchverwaltungsseite mit der ISBNDB API gebaut
Bei der Titelsuche waren zahllose Ausgaben, Sprachen und Bindungsarten vermischt, sodass die Ergebnisse sehr unübersichtlich wurden
Ich habe die Resultate auf Basis der Jaccard-Ähnlichkeit geordnet, aber perfekt war das nicht
OpenLibrary wird gerade als Alternative geprüft
Die App StoryGraph ist meiner Meinung nach nicht schlecht
Gut finde ich die Oberfläche, die Rücksicht auf Nutzer nimmt, die AI-Funktionen vermeiden möchten
Auch die Suchfunktion ist gut
- Hardcover.app ist ebenfalls eine gute Alternative
  Ich nutze es persönlich seit 2017 und habe es mit dem Ziel gewählt, dem Oligopol zu entkommen
Eine ISBN enthält einen Verlagsidentifikator, weshalb dasselbe Buch je nach Markt eine andere ISBN haben kann
- In Neuseeland werden ISBNs über einen staatlichen Bibliotheksdienst vergeben, wobei man den Namen des Verlags registrieren muss
  Das ist ein kostenloser Dienst, kann also je nach Land anders sein
- ISBNs werden von Verlagen oder Unternehmen blockweise gekauft und intern einzelnen Imprints zugewiesen
  Der Verlagsname selbst ist daher nicht direkt enthalten, aber die Struktur erlaubt eine Identifikation