- Digitale Ausgabe der 11. Auflage der Encyclopædia Britannica von 1910–1911 mit Volltextsuche, Querverweisen und Anmerkungen
- Obere Navigation mit den Bereichen Articles, Contributors, Topics und Ancillary
- Im Titel ausdrücklich als Encyclopædia Britannica und Eleventh Edition · 1910–1911 gekennzeichnet
- In der Einführungszeile direkt als Fully searchable, cross-referenced, and annotated bezeichnet
- Keine zusätzlichen Fließtext-Erklärungen, Beispiele oder detaillierten Funktionsbeschreibungen angegeben
Überblick
- Digitale Ausgabe der 11. Auflage der Encyclopædia Britannica von 1910–1911 mit Volltextsuche, Querverweisen und Anmerkungen
- Obere Navigation mit den Bereichen Articles, Contributors, Topics und Ancillary
- Im Titel als Encyclopædia Britannica und Eleventh Edition · 1910–1911 gekennzeichnet
- Die Einführungszeile lautet direkt Fully searchable, cross-referenced, and annotated
- Zusätzliche Fließtext-Erklärungen, Beispiele oder detaillierte Funktionsbeschreibungen werden nicht bereitgestellt
Verfügbare Informationen
- Als Kerneigenschaften der digitalen Ausgabe sind Suchbarkeit, Querverweise und Anmerkungen direkt erkennbar
- Es gibt keine ausführliche Beschreibung des Artikelinhalts oder detaillierte Einführungen zu einzelnen Einträgen
- Metadaten zu Autorenschaft, Veröffentlichung oder Referenzen sind von dieser Zusammenfassung ausgenommen
1 Kommentare
Hacker-News-Kommentare
Ich habe die Encyclopædia Britannica von 1911 als saubere, strukturiert durchsuchbare Website neu aufgebaut. Sie ist unter https://britannica11.org/ zu sehen.
Ich habe etwa 37.000 Artikel anhand der ursprünglichen Bände rekonstruiert und Funktionen wie klickbare Abschnitts-Inhaltsverzeichnisse, Querverweis-Links, Autorensuche, Anzeige von Originalband und -seite, Verlinkung zu den Originalscans jeder Seite, ergänzende Materialien, Themenindex und Volltextsuche mit Metadaten eingebaut.
Die Hauptarbeit lag in der Rekonstruktions-Pipeline für Titelstruktur, über mehrere Seiten laufende Artikel, Tabellen, Formeln, Mehrsprachigkeit, Fußnoten und Tafeln.
Das Ziel war, das Gefühl des Originals zu bewahren und es zugleich in eine Form zu bringen, die wirklich benutzbar ist.
Besonders interessiert mich Feedback zur Suchqualität, zur Navigation zwischen Abschnitten und Querverweisen sowie zu Stellen, an denen die Struktur unnatürlich wirkt.
Fragen zur Pipeline oder zum Datenmodell sind ebenfalls willkommen.
Als ich aber einmal in einem Artikel war und dann zu einem anderen Thema wechseln wollte, funktionierte das Suchfeld oben, "Search titles and full text...", nicht.
Außerdem war mir beim ersten Besuch nicht ganz klar, wo ich anfangen soll, und ich habe nicht sofort verstanden, dass man auf "Articles" oder "Topics" klicken muss, um die Erkundung zu beginnen. Ich hatte wohl erwartet, dass das Hauptbild selbst als Einstieg dient.
Ich finde dieses Projekt wirklich großartig. Ich überlege selbst schon lange, etwas Ähnliches in kleinerem Maßstab zu machen.
Die Britannica von 1911 ist aus mehreren Gründen besonders berühmt, aber der bekannteste dürfte sein, dass sie die letzte Enzyklopädie vor dem Ersten Weltkrieg ist.
Deshalb spürt man darin noch den Optimismus der 1. und 2. industriellen Revolution und der Progressive Era, ohne schon von dem Schock des „Krieges, der alle Kriege beenden sollte“ geprägt zu sein.
Ich habe auf https://britannica11.org testweise zufällig nach Portuguese East Africa gesucht, es sofort gefunden und gut dargestellt bekommen; das Ergebnis war https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa.
Als höflicher Wunsch: Eine Parallelansicht von Text und Originalseitenbild wäre großartig.
Dann könnte man die OCR-Treue direkt prüfen und zugleich den schönen Druck sehen, ohne für jede Seite ein neues Fenster öffnen zu müssen.
Ich persönlich würde die Website gern als Einstiegspunkt nutzen, dann vor allem die Bilder lesen und nur zum Prüfen oder Kopieren zum Text wechseln.
Mir war zwar klar, dass es die Originalbilder gibt, aber sie waren nicht sehr auffällig; ich habe die Seitenleiste erst beim dritten Besuch gefunden. Ein Mittelweg wie optionale Thumbnails könnte auch gut funktionieren.
Vor allem ist die Seite schnell.
Und in der Version des OP gibt es auch ein paar Treueprobleme. In https://britannica11.org/article/18-0684-s2/molecule fehlt unter „the molecules of other kinds“ ein Teil einer Formel; das lässt sich durch Vergleich von [1] https://britannica11.org/article/18-0684-s2/molecule#:~:text=the%20molecules%20of%20other%20kinds und [2] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/688 erkennen.
Außerdem ist Fußnote 1 in der OP-Version an „as they have always done“ angehängt, gehört aber in Wirklichkeit zu „Atom“ auf S. 654. Das lässt sich mit [3] https://britannica11.org/article/18-0684-s2/molecule#:~:text=as%20they%20have%20always%20done und [4] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/684#cite_note-654f1-1 vergleichen.
Aus den genannten Gründen habe ich selbst auch schon über eine Text-und-Seite-nebeneinander-Ansicht nachgedacht, sie aber noch nicht gebaut.
Das Feedback, dass die Scan-Links nicht sofort auffallen, ist ebenfalls hilfreich; ich sollte sie deutlicher machen.
Zur Info: Wenn man links im Rand auf den Link vol:page klickt, springt man direkt zum Scan der gerade gelesenen Seite.
Bei Artikeln wie „Adolescence“ stößt man auf Vorstellungen, die heute ziemlich schockierend wirken.
Zum Beispiel steht dort sinngemäß, dass man Mädchen in der Pubertät Bewegung und intellektuelle Bildung zumutenmäßig reduzieren und ihnen Ruhe verordnen solle.
In der Praxis leben viele Menschen ohnehin ähnlich, und auch die Frauenbewegung hat sich, nachdem sie zeitweise stark das Gegenteil forciert hat, später teils in Richtung der Wahlfreiheit entwickelt, nicht in den Arbeitsmarkt gehen zu müssen.
Die Vorliebe für das sogenannte „soft life“ ist zeitübergreifend, und ich vermute, dass auch Männer sich deutlich häufiger für Rollen mit geringerer intellektueller Belastung und schrittweiserem Verlauf entscheiden würden, wenn ihnen eine kulturell weithin offene Option bestünde, von jemand anderem wirtschaftlich getragen zu werden.
Dann könnten sich manche Ungleichgewichte in der Repräsentation anderer Bereiche teilweise auch nicht durch erzwungene stärkere Beteiligung von Frauen, sondern durch freiwilligen Rückzug von Männern ausgleichen.
Überraschend nützlich ist auch, dass LLMs die typischen ziegelsteinartigen Absätze historischer Texte mit reichlich Formatierung auflockern.
Und wenn man noch einmal einen Prompt wie „Wie würde dieser Text heute aufgenommen werden?“ hinterherschickt, weisen sie recht ausführlich auf Stellen hin, die nach heutigen Maßstäben problematisch oder schwer akzeptabel wären.
Mich hat interessiert, wie die Informationen intern strukturiert sind. Ich habe kürzlich gelernt, dass in den Digital Humanities für solche Arbeiten oft XML-TEI und ähnliche semantische Auszeichnungen verwendet werden.
Ich habe BaseX und XQuery gelernt, indem ich mir eine in XML-TEI kodierte Latin-English-Lewis-&-Short-Ausgabe angesehen habe, und fand es unterhaltsam, Fragen zu stellen wie „Welcher klassische Autor verwendet ein Wort, das im gesamten Korpus nur einmal vorkommt?“ oder „Welches ist das längste Hapax-Wort?“.
Es war auch großartig, dass die Tufts University solche Materialien öffentlich zugänglich gemacht hat.
Die Britannica von 1911 in BaseX zu laden und mit XQuery darin herumzustochern, wäre sicher sehr unterhaltsam.
Der Text selbst ist zwar Public Domain, aber ich habe bisher noch keinen strukturierten Massenexport veröffentlicht.
Allerdings wurde auch in diesem Thread vielfach nach Datensatz-Zugang gefragt, daher prüfe ich das ernsthaft; wenn ich etwas veröffentliche, möchte ich lieber eine Form mit erhaltener Struktur anbieten als nur einen Klartext-Dump.
Im Vergleich zu modernen Texten fand ich den deutlich anderen Stil und Aufbau interessant.
Im Eintrag zu Copenhagen https://britannica11.org/article/07-0111-copenhagen/copenhagen werden Geografie und Sehenswürdigkeiten zum Beispiel präzise beschrieben, gleichzeitig streuen die Autoren aber ganz ungeniert wertende Adjektive und persönliche Meinungen zu Dingen ein, die sie interessant oder seltsam finden.
Außerdem hatte der Abschnitt unten zur Battle of Copenhagen das Gefühl, als wechsle plötzlich sogar das Genre: von geografischer Beschreibung zu einer szenischen Darstellung der Seeschlacht.
Geografie, Geschichte und manchmal ziemlich starke Meinungen stehen dort nebeneinander, und gerade dadurch liest es sich für mich besser.
Etwas dazu habe ich auch in meinem Einführungstext unter https://britannica11.org/about.html festgehalten.
Die Stelle, an der Les Misérables als „the greatest epic and dramatic novel ever created or conceived“ gepriesen wird, ist ein gutes Beispiel dafür.
Ich habe lange darüber nachgedacht, ob man an vergleichsweise neue Enzyklopädien wie Encarta oder Britannica von 2021 herankommt.
Vor den LLMs, aber nach Corona, klingt das wie eine merkwürdige Grenzzone, in der man auf eine der letzten Informationsquellen mit weniger AI-Verunreinigung hoffen könnte.
Eines meiner liebsten Dinge in der Kindheit war eine CD-ROM-Enzyklopädie, und in Zeiten, als das Internet noch nicht überall war, war es wunderbar, an verregneten Nachmittagen Lieblingsartikel zu öffnen, zu lesen und dabei etwas zu lernen.
Eine Motivation dieses Projekts war auch, auf Grundlage des Originals von 1911 und seiner Struktur dieses Gefühl des Entdeckens wiederzubeleben.
Wer die Encyclopedia Britannica von 1911 mag, wird vermutlich auch https://OldEncyc.com interessant finden.
Dort kann man in 22 alten Enzyklopädie-Ausgaben von 1728 bis 1926 nach Band und Buchstabenbereich stöbern. Es ist nicht so suchorientiert wie die Website des OP, aber die Materialbreite ist groß.
Ein sehr kleiner Bugreport: Die derzeit gewählte Schriftart unterstützt das Zeichen ℔ nicht, deshalb sehen Artikel wie https://britannica11.org/article/22-0688-s2/putting_the_shot etwas seltsam aus.
Man könnte auch überlegen, es in die heute geläufigere Schreibweise lb zu normalisieren.
Es wirkt klein, aber dieses Projekt ist voll von genau solchen Dingen.
Die Welt ist klein. Ich bereite gerade Scans der 9. Ausgabe der EB auf und stelle sie in eine MediaWiki-Seite ein; mit Illustrationen und Tafeln bin ich bisher erst bei etwa einem Drittel.
Ich habe verschiedene OCR-Werkzeuge ausprobiert, und bislang war paddleOCR am beeindruckendsten. Es hat Textspalten getrennt, Illustrationen beschriftet und sogar Randtext ziemlich gut erkannt.
Natürlich ist es nicht perfekt, deshalb korrigiere ich einige Tabellen von Hand, und ich plane auch, die Quellseiten mit hochzuladen, damit man zwischen Originalscan und elektronischem Text hin- und herwechseln kann.
In dieser Form mit Hyperlinks und Index online gestellt, wären auch Dinge wie geografische Atlanten, medizinische Atlanten oder Baedeker-Reiseführer interessante Kandidaten.
Mir fallen sofort Alfred Newtons umfangreiche Vogel-Artikel oder einige von Macaulays klassischen Essays ein.
Manche Stellen haben beim heutigen Lesen einen ziemlich unterhaltsam-merkwürdigen Reiz. Im Eintrag zu stars https://britannica11.org/article/25-0806-star/star#section-10 steht zum Beispiel, dass der Himmelshintergrund blendend hell sein müsste, wenn Sterne im Weltraum unendlich gleichmäßig verteilt wären und es keine Lichtabsorption gäbe.
Das Ergebnis war https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1, und es fühlt sich wirklich nach einer anderen Epoche an.
Stattdessen hielt man irgendeine Umordnung in der Atomstruktur der Elemente für am plausibelsten und erklärte, dass Energie freiwerde, wenn ein Nebel zur Sonne kondensiere und sich Materie dabei zu den bekannten Elementen entwickle.
Angesichts des damaligen Wissensstands war das erstaunlich nah dran.