Die Falle der ISBN
(rygoldstein.com)- Beim Versuch, eine saubere und praktische App zur Erfassung gelesener Bücher wie die Film-Tracking-App Letterboxd zu bauen, erwiesen sich die strukturellen Probleme des ISBN-Systems als zentrales Hindernis
- Es zeigte sich, dass die Google Books API für die Buchsuche mehrere ISBN-Versionen desselben Werks jeweils als eigene Einträge zurückgibt
- Das liegt an der bibliografischen Struktur (FRBR-Modell), die zwischen „Werk“ (work), „Expression“ (expression) und „Manifestation“ (manifestation) unterscheidet; dadurch sind die Daten stark aufgegliedert, obwohl Nutzer oft nur festhalten wollen, dass sie ein Buch gelesen haben
- OpenLibrary bietet zwar eine werkzentrierte Datenstruktur, enthält aber weiterhin Duplikate und Unvollständigkeiten und ist deshalb keine vollständige Alternative
- Anders als bei Filmdatenbanken wie TMDB fehlt im Buchbereich eine hochwertige öffentliche Metadaten-Infrastruktur, was ein zentrales Hindernis für die Entwicklung sozialer, buchzentrierter Plattformen ist
Vergleich von Letterboxd und Buchplattformen
- Letterboxd ermöglicht mit einer sauberen Oberfläche und nicht aufdringlichen Social-Funktionen eine einfache Verwaltung des Filmkonsums
- Nutzer können unkompliziert festhalten, welche Filme sie gesehen haben und wann
- GoodReads hingegen macht das Erfassen von Büchern durch eine komplexe UI und mehrstufige Klickpfade umständlich
- „Gelesene Bücher“ und „Noch zu lesen“ sind auf einer Seite vermischt, und Lesenchallenges, Newsletter und andere Zusatzelemente nehmen Platz ein
- Dass GoodReads so unkomfortabel ist, liegt daran, dass es ein Nebenprodukt mit niedriger Priorität im Buchverkaufsgeschäft von Amazon ist
- Auch Storygraph hat ähnliche Probleme, sodass Nutzer ihre persönlichen Aufzeichnungen am Ende oft in Obsidian-Dateien verwalten
Google Books API und das ISBN-Problem
- Für die Buchsuche wurde die Google Books API verwendet, dabei tauchte jedoch das Problem auf, dass dasselbe Werk unter mehreren ISBNs doppelt in den Suchergebnissen erscheint
- Sucht man zum Beispiel nach „The Last Unicorn“, werden Hardcover, Taschenbuch, eBook, überarbeitete Ausgabe usw. jeweils mit unterschiedlicher ISBN als eigene Einträge zurückgegeben
- Jede ISBN steht für ein anderes Format oder eine andere Ausgabe, Nutzer möchten aber oft nur festhalten, dass sie „das Buch gelesen haben“
- Diese Struktur erschwert Suche und Datenintegration und eignet sich daher schlecht für ein Erfassungssystem auf Ebene einzelner Werke
Das FRBR-Modell und ein werkbasierter Ansatz
- Das in der Bibliothekswissenschaft verwendete FRBR-Modell unterteilt Buchdaten in vier Ebenen
- Work (Werk): das abstrakte schöpferische Werk selbst (z. B. der Roman "The Last Unicorn")
- Expression (Expression): eine bestimmte Fassung
- Manifestation (Manifestation): das physische Format einer bestimmten Ausgabe (Taschenbuch, Hardcover usw.)
- Item (Exemplar): ein einzelner physischer Gegenstand innerhalb einer Sammlung
- Google Books liefert überwiegend Daten auf Ebene von „Expression“ oder „Manifestation“, während Nutzer eine abstrakte Einheit auf Ebene des „Werks“ brauchen
- OpenLibrary bietet eine werkzentrierte Datenstruktur, enthält aber weiterhin doppelte Einträge
- Beispiel: Bei der Suche nach Hotel Iris von Yoko Ogawa erscheint dasselbe Werk viermal
Grenzen von Datenqualität und Ökosystem
- Letterboxd basiert auf The Movie Database (TMDB), und TMDB umfasst rund 1 Million Filmdatensätze
- OpenLibrary dagegen enthält mehr als 40 Millionen Werke, aber viele der Daten sind unvollständig und nicht bereinigt
- Filmdaten sind qualitativ hochwertig, weil kommerzielle Plattformen und Community-Beiträge zusammenwirken; bei Buchdaten sind Größe und fehlende Finanzierung das Problem
- Dadurch fehlt die Datengrundlage, um einen Letterboxd-ähnlichen Dienst für Bücher aufzubauen
Fazit und weitere Versuche
- Da es keine vollständige Open-Source-Infrastruktur für Buchmetadaten gibt, ist die Entwicklung einer Plattform zur Bucherfassung deutlich schwieriger als im Filmbereich
- Der Autor will dennoch weiter versuchen, ein unabhängiges System zur Bucherfassung aufzubauen
- Wie bei der Suche nach dem eigenen Filmgeschmack braucht auch das Erfassen von Büchern einen personalisierten Ansatz
4 Kommentare
Na ja … ISBN ist schließlich ein Identifikator für eine Publikation, nicht für den Inhalt …
Der Titel ist ziemlich krasses Clickbait, haha.
Es sieht so aus, als wäre das Feld für die Inhaltskennung leer ;_;
Es stimmt auch, dass das ISBN-System bei einer wirklich systematischen Klassifizierung nicht besonders viel berücksichtigt ...
Nach den Regeln muss zwar für jede Neuauflage eine eigene Nummer vergeben werden, aber da die unterste Kategorie der Verlag ist, ist die Verwaltung trotz der Notwendigkeit einer werkbezogenen Klassifizierung nicht einfach.
Hacker-News-Kommentare
Das erinnert mich an die Datenbankstruktur von MusicBrainz
Zum Beispiel ist das Album Nevermind von Nirvana eine einzelne Release Group, während es verschiedene Medien- oder länderspezifische Wiederveröffentlichungen gibt, etwa Kassette, CD, LP oder Promo-Versionen
In manchen Fällen lassen sie sich durch Katalognummer oder Barcode unterscheiden, in anderen sind es trotz identischem Code tatsächlich unterschiedliche Versionen
Selbst dieselbe Aufnahme kann sich durch Remastering, Schnitt oder Zensur unterscheiden
MusicBrainz verfolgt solche Unterschiede sehr detailliert und trennt klar zwischen identischen und nicht identischen Aufnahmen
Bei Coverversionen oder Standards, die von mehreren Künstlern aufgenommen wurden, werden auf der Ebene des „Work“ Informationen zu Komponist und Texter verknüpft
Ich finde, dass ein solch ausgefeiltes relationales Datenbankdesign sehr nützlich ist, um die Gleichheit und Unterschiede kreativer Werke festzuhalten
Relevanter Link
bookbrainz.org/about
Wenn das Schema MusicBrainz ähnelt, dürfte sich daraus sehr leicht Daten extrahieren lassen
Ich habe ein Konto angelegt, die Daten selbst hochgeladen und den Eintrag nach mehreren Korrekturen erfolgreich abgeschlossen
Dabei fand ich auf einer chinesischen Website Informationen zu derselben australischen CD-Ausgabe und nutzte sie als Referenz, wobei mir klar wurde, dass je nach Markt leicht unterschiedliche Versionen existieren
Ich kann mich daher stark in das MusicBrainz-Team hineinversetzen, wenn es darum geht, dass Menschen bei der Pflege „eindeutiger Identifikatoren“ viel zu nachlässig sind
Die Ausgabe von 1987 und die von 1989 (die Version ohne „Peace Train“) hatten dieselbe UPC-Nummer
Ich erinnere mich noch daran, wie ich Mitte der 90er in gebrauchten CD-Läden nach der Version vor der Entfernung gesucht habe
Beim Rest war ich verwirrt, weil mehrere Versionen mit unterschiedlicher Track-Anzahl je nach Region existierten
Wenn es eine Funktion gäbe, um Künstlerinformationen pro Track anzugeben, wäre die Suchgenauigkeit vermutlich höher gewesen
Selbst wenn sich nur Tippfehler geändert haben, ist eine Unterscheidung schwierig
Wikidata ist eine FRBR-kompatible offene Datenbank, und die Qualität der buchbezogenen Daten hat sich in den letzten Jahren stark verbessert
Hotel Iris von Yoko Ogawa, das als Beispiel genannt wurde, ist nicht dasselbe Werk, sondern verschiedene Übersetzungen
Übersetzungen sollten als vom Original abgeleitete, aber eigenständige Werke betrachtet werden
Allerdings sind die Listen durcheinandergeraten, sodass es viele Fehler gibt
OpenLibrary fasst sie unter einem Work zusammen und speichert Sprach- und Übersetzerinformationen in der jeweiligen Edition
Die derzeitigen Dubletten scheinen durch einen automatischen Zusammenführungsprozess nach Sprache entstanden zu sein
Ideal wäre, dass Nutzer Original und Übersetzungen gemeinsam durchsuchen können
Ich empfehle LibraryThing
Ich finde es deutlich besser als Goodreads
Es ist wichtig, die WEMI-Struktur (work, expression, manifestation, item) eines Buchs zu unterscheiden
„Ich habe Don Quijote gelesen“ ist eine Aussage auf der Work-Ebene, während „Mein Exemplar hat einen Kaffeefleck“ eine Aussage auf der Item-Ebene ist
Bei einem Lesewettbewerb auf Bundesstaatsebene wurden Bücher nur über ISBN verwaltet, sodass Schüler sie nur schwer finden konnten
Deshalb habe ich mithilfe der ISBN-Mapping-Datenbank von WorldCat einen SQL-Join hinzugefügt, der verschiedene ISBNs mit demselben Inhalt verknüpft
Das Ergebnis war, dass die Schüler über einen Zeitraum von zehn Jahren mehr als eine Million zusätzliche Bücher gelesen haben
Anna’s Archive leistet einen großen Beitrag zur Bereinigung ISBN-bezogener Daten
Es hat WorldCat gescrapet und nutzt diese Daten, und derzeit wird auch eine ISSN-Datenbank für Periodika aufgebaut
Bei ISSN ist der Stand im Vergleich zu Büchern noch sehr unzureichend
Es erinnert daran, dass Open Library aus frühen Arbeiten von Brewster Kahle (Gründer des Internet Archive) und Aaron Swartz hervorgegangen ist
Relevanter Blog
Es kam öfter vor, dass ich in einer echten Buchhandlung ein Buch ansah und kaufte und zu Hause feststellte, dass ich dieselbe Ausgabe bereits besaß
Wenn ich mein Bestandsverzeichnis per ISBN hätte durchsuchen können, hätte ich solche Doppelkäufe vermeiden können
Ich habe einmal als privates Projekt eine Buchverwaltungsseite mit der ISBNDB API gebaut
Bei der Titelsuche waren zahllose Ausgaben, Sprachen und Bindungsarten vermischt, sodass die Ergebnisse sehr unübersichtlich wurden
Ich habe die Resultate auf Basis der Jaccard-Ähnlichkeit geordnet, aber perfekt war das nicht
OpenLibrary wird gerade als Alternative geprüft
Die App StoryGraph ist meiner Meinung nach nicht schlecht
Gut finde ich die Oberfläche, die Rücksicht auf Nutzer nimmt, die AI-Funktionen vermeiden möchten
Auch die Suchfunktion ist gut
Ich nutze es persönlich seit 2017 und habe es mit dem Ziel gewählt, dem Oligopol zu entkommen
Eine ISBN enthält einen Verlagsidentifikator, weshalb dasselbe Buch je nach Markt eine andere ISBN haben kann
Das ist ein kostenloser Dienst, kann also je nach Land anders sein
Der Verlagsname selbst ist daher nicht direkt enthalten, aber die Struktur erlaubt eine Identifikation