1 Punkte von GN⁺ 7 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Digitale Ausgabe der 11. Auflage der Encyclopædia Britannica von 1910–1911 mit Volltextsuche, Querverweisen und Anmerkungen
  • Obere Navigation mit den Bereichen Articles, Contributors, Topics und Ancillary
  • Im Titel ausdrücklich als Encyclopædia Britannica und Eleventh Edition · 1910–1911 gekennzeichnet
  • In der Einführungszeile direkt als Fully searchable, cross-referenced, and annotated bezeichnet
  • Keine zusätzlichen Fließtext-Erklärungen, Beispiele oder detaillierten Funktionsbeschreibungen angegeben

Überblick

  • Digitale Ausgabe der 11. Auflage der Encyclopædia Britannica von 1910–1911 mit Volltextsuche, Querverweisen und Anmerkungen
  • Obere Navigation mit den Bereichen Articles, Contributors, Topics und Ancillary
  • Im Titel als Encyclopædia Britannica und Eleventh Edition · 1910–1911 gekennzeichnet
  • Die Einführungszeile lautet direkt Fully searchable, cross-referenced, and annotated
  • Zusätzliche Fließtext-Erklärungen, Beispiele oder detaillierte Funktionsbeschreibungen werden nicht bereitgestellt

Verfügbare Informationen

  • Als Kerneigenschaften der digitalen Ausgabe sind Suchbarkeit, Querverweise und Anmerkungen direkt erkennbar
  • Es gibt keine ausführliche Beschreibung des Artikelinhalts oder detaillierte Einführungen zu einzelnen Einträgen
  • Metadaten zu Autorenschaft, Veröffentlichung oder Referenzen sind von dieser Zusammenfassung ausgenommen

1 Kommentare

 
GN⁺ 7 일 전
Hacker-News-Kommentare
  • Ich habe die Encyclopædia Britannica von 1911 als saubere, strukturiert durchsuchbare Website neu aufgebaut. Sie ist unter https://britannica11.org/ zu sehen.
    Ich habe etwa 37.000 Artikel anhand der ursprünglichen Bände rekonstruiert und Funktionen wie klickbare Abschnitts-Inhaltsverzeichnisse, Querverweis-Links, Autorensuche, Anzeige von Originalband und -seite, Verlinkung zu den Originalscans jeder Seite, ergänzende Materialien, Themenindex und Volltextsuche mit Metadaten eingebaut.
    Die Hauptarbeit lag in der Rekonstruktions-Pipeline für Titelstruktur, über mehrere Seiten laufende Artikel, Tabellen, Formeln, Mehrsprachigkeit, Fußnoten und Tafeln.
    Das Ziel war, das Gefühl des Originals zu bewahren und es zugleich in eine Form zu bringen, die wirklich benutzbar ist.
    Besonders interessiert mich Feedback zur Suchqualität, zur Navigation zwischen Abschnitten und Querverweisen sowie zu Stellen, an denen die Struktur unnatürlich wirkt.
    Fragen zur Pipeline oder zum Datenmodell sind ebenfalls willkommen.

    • Ich denke, als Ergänzungsmaterial würde sich The Reader's Guide to the Encyclopaedia Britannica gut eignen. Der Public-Domain-Text ist unter https://www.gutenberg.org/ebooks/74039 verfügbar, Scans gibt es unter https://archive.org/details/readersguidetoen00londuoft.
    • Wirklich sehr gut gemacht. Als Feature-Vorschlag fände ich es gut, wenn die Pipeline auch EPUB-Erzeugung unterstützen würde. Dann könnte man auch offline suchen und lesen, falls die Website einmal verschwindet, und dank EPUB-Kompression wäre die Dateigröße der gesamten Enzyklopädie vielleicht gar nicht so groß wie erwartet.
    • Im Inhaltsverzeichnis scheint es ein Escaping-Problem zu geben. Im Artikel zu United States wirkt zum Beispiel die Schreibweise von Roosevelt's kaputt. https://britannica11.org/article/27-0635-united-states-the/united_states__the
    • Es war gut genug, dass ich mich tatsächlich längere Zeit durch einige Themen geklickt habe.
      Als ich aber einmal in einem Artikel war und dann zu einem anderen Thema wechseln wollte, funktionierte das Suchfeld oben, "Search titles and full text...", nicht.
      Außerdem war mir beim ersten Besuch nicht ganz klar, wo ich anfangen soll, und ich habe nicht sofort verstanden, dass man auf "Articles" oder "Topics" klicken muss, um die Erkundung zu beginnen. Ich hatte wohl erwartet, dass das Hauptbild selbst als Einstieg dient.
    • Ich fände Wikipedia-artige interne Links noch besser, die erwähnte Themen innerhalb eines Artikels direkt mit anderen Artikeln verbinden.
  • Ich finde dieses Projekt wirklich großartig. Ich überlege selbst schon lange, etwas Ähnliches in kleinerem Maßstab zu machen.
    Die Britannica von 1911 ist aus mehreren Gründen besonders berühmt, aber der bekannteste dürfte sein, dass sie die letzte Enzyklopädie vor dem Ersten Weltkrieg ist.
    Deshalb spürt man darin noch den Optimismus der 1. und 2. industriellen Revolution und der Progressive Era, ohne schon von dem Schock des „Krieges, der alle Kriege beenden sollte“ geprägt zu sein.
    Ich habe auf https://britannica11.org testweise zufällig nach Portuguese East Africa gesucht, es sofort gefunden und gut dargestellt bekommen; das Ergebnis war https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa.
    Als höflicher Wunsch: Eine Parallelansicht von Text und Originalseitenbild wäre großartig.
    Dann könnte man die OCR-Treue direkt prüfen und zugleich den schönen Druck sehen, ohne für jede Seite ein neues Fenster öffnen zu müssen.
    Ich persönlich würde die Website gern als Einstiegspunkt nutzen, dann vor allem die Bilder lesen und nur zum Prüfen oder Kopieren zum Text wechseln.
    Mir war zwar klar, dass es die Originalbilder gibt, aber sie waren nicht sehr auffällig; ich habe die Seitenleiste erst beim dritten Besuch gefunden. Ein Mittelweg wie optionale Thumbnails könnte auch gut funktionieren.
    Vor allem ist die Seite schnell.

  • Bei Artikeln wie „Adolescence“ stößt man auf Vorstellungen, die heute ziemlich schockierend wirken.
    Zum Beispiel steht dort sinngemäß, dass man Mädchen in der Pubertät Bewegung und intellektuelle Bildung zumutenmäßig reduzieren und ihnen Ruhe verordnen solle.

    • Stimmt. Das ist einer der Gründe, warum ich die Ausgabe von 1911 so interessant finde. Die Autoren konnten ihre eigenen Meinungen direkter ausdrücken, und diese Meinungen spiegeln ganz natürlich die Konventionen ihrer Zeit wider.
    • Ich denke, solche Inhalte wirken auch deshalb schockierend, weil sie ausdrücklich niedergeschrieben sind.
      In der Praxis leben viele Menschen ohnehin ähnlich, und auch die Frauenbewegung hat sich, nachdem sie zeitweise stark das Gegenteil forciert hat, später teils in Richtung der Wahlfreiheit entwickelt, nicht in den Arbeitsmarkt gehen zu müssen.
      Die Vorliebe für das sogenannte „soft life“ ist zeitübergreifend, und ich vermute, dass auch Männer sich deutlich häufiger für Rollen mit geringerer intellektueller Belastung und schrittweiserem Verlauf entscheiden würden, wenn ihnen eine kulturell weithin offene Option bestünde, von jemand anderem wirtschaftlich getragen zu werden.
      Dann könnten sich manche Ungleichgewichte in der Repräsentation anderer Bereiche teilweise auch nicht durch erzwungene stärkere Beteiligung von Frauen, sondern durch freiwilligen Rückzug von Männern ausgleichen.
    • Inzwischen hat man das Gefühl, dass man fast jeden Public-Domain-Text in ein modernes LLM wie Kimi oder GLM geben und ziemlich gute Zusammenfassungen in heutiger Sprache bekommen kann.
      Überraschend nützlich ist auch, dass LLMs die typischen ziegelsteinartigen Absätze historischer Texte mit reichlich Formatierung auflockern.
      Und wenn man noch einmal einen Prompt wie „Wie würde dieser Text heute aufgenommen werden?“ hinterherschickt, weisen sie recht ausführlich auf Stellen hin, die nach heutigen Maßstäben problematisch oder schwer akzeptabel wären.
  • Mich hat interessiert, wie die Informationen intern strukturiert sind. Ich habe kürzlich gelernt, dass in den Digital Humanities für solche Arbeiten oft XML-TEI und ähnliche semantische Auszeichnungen verwendet werden.
    Ich habe BaseX und XQuery gelernt, indem ich mir eine in XML-TEI kodierte Latin-English-Lewis-&-Short-Ausgabe angesehen habe, und fand es unterhaltsam, Fragen zu stellen wie „Welcher klassische Autor verwendet ein Wort, das im gesamten Korpus nur einmal vorkommt?“ oder „Welches ist das längste Hapax-Wort?“.
    Es war auch großartig, dass die Tufts University solche Materialien öffentlich zugänglich gemacht hat.
    Die Britannica von 1911 in BaseX zu laden und mit XQuery darin herumzustochern, wäre sicher sehr unterhaltsam.

    • Die interne Struktur basiert nicht auf XML-TEI, sondern auf relationalen Daten und einer Pipeline. Artikelgrenzen, Abschnitte, Autoren, Querverweise und Informationen zur ursprünglichen Seitenherkunft wurden als strukturierte Datensätze rekonstruiert.
      Der Text selbst ist zwar Public Domain, aber ich habe bisher noch keinen strukturierten Massenexport veröffentlicht.
      Allerdings wurde auch in diesem Thread vielfach nach Datensatz-Zugang gefragt, daher prüfe ich das ernsthaft; wenn ich etwas veröffentliche, möchte ich lieber eine Form mit erhaltener Struktur anbieten als nur einen Klartext-Dump.
  • Im Vergleich zu modernen Texten fand ich den deutlich anderen Stil und Aufbau interessant.
    Im Eintrag zu Copenhagen https://britannica11.org/article/07-0111-copenhagen/copenhagen werden Geografie und Sehenswürdigkeiten zum Beispiel präzise beschrieben, gleichzeitig streuen die Autoren aber ganz ungeniert wertende Adjektive und persönliche Meinungen zu Dingen ein, die sie interessant oder seltsam finden.
    Außerdem hatte der Abschnitt unten zur Battle of Copenhagen das Gefühl, als wechsle plötzlich sogar das Genre: von geografischer Beschreibung zu einer szenischen Darstellung der Seeschlacht.

    • Ja, genau. Das ist einer meiner liebsten Aspekte dieser Ausgabe. Die Artikel haben einen persönlicheren und weniger vereinheitlichten Ton.
      Geografie, Geschichte und manchmal ziemlich starke Meinungen stehen dort nebeneinander, und gerade dadurch liest es sich für mich besser.
      Etwas dazu habe ich auch in meinem Einführungstext unter https://britannica11.org/about.html festgehalten.
    • Als ich den Victor-Hugo-Eintrag sah, sprang mir sofort ein Satz ins Auge, bei dem klar war, dass der Autor ein Fan war.
      Die Stelle, an der Les Misérables als „the greatest epic and dramatic novel ever created or conceived“ gepriesen wird, ist ein gutes Beispiel dafür.
  • Ich habe lange darüber nachgedacht, ob man an vergleichsweise neue Enzyklopädien wie Encarta oder Britannica von 2021 herankommt.
    Vor den LLMs, aber nach Corona, klingt das wie eine merkwürdige Grenzzone, in der man auf eine der letzten Informationsquellen mit weniger AI-Verunreinigung hoffen könnte.
    Eines meiner liebsten Dinge in der Kindheit war eine CD-ROM-Enzyklopädie, und in Zeiten, als das Internet noch nicht überall war, war es wunderbar, an verregneten Nachmittagen Lieblingsartikel zu öffnen, zu lesen und dabei etwas zu lernen.

  • Wer die Encyclopedia Britannica von 1911 mag, wird vermutlich auch https://OldEncyc.com interessant finden.
    Dort kann man in 22 alten Enzyklopädie-Ausgaben von 1728 bis 1926 nach Band und Buchstabenbereich stöbern. Es ist nicht so suchorientiert wie die Website des OP, aber die Materialbreite ist groß.

    • Diese Seite kannte ich noch nicht, aber sie wirkt wie eine wirklich gute Sammlung. Besonders gefällt mir, dass sie so viele verschiedene Ausgaben abdeckt.
  • Ein sehr kleiner Bugreport: Die derzeit gewählte Schriftart unterstützt das Zeichen ℔ nicht, deshalb sehen Artikel wie https://britannica11.org/article/22-0688-s2/putting_the_shot etwas seltsam aus.
    Man könnte auch überlegen, es in die heute geläufigere Schreibweise lb zu normalisieren.

    • Guter Hinweis. Das ist ein Problem der Glyphenabdeckung, daher denke ich entweder über eine Fallback-Schrift für fehlende Zeichen oder über eine Normalisierung in solchen Fällen nach.
      Es wirkt klein, aber dieses Projekt ist voll von genau solchen Dingen.
  • Die Welt ist klein. Ich bereite gerade Scans der 9. Ausgabe der EB auf und stelle sie in eine MediaWiki-Seite ein; mit Illustrationen und Tafeln bin ich bisher erst bei etwa einem Drittel.
    Ich habe verschiedene OCR-Werkzeuge ausprobiert, und bislang war paddleOCR am beeindruckendsten. Es hat Textspalten getrennt, Illustrationen beschriftet und sogar Randtext ziemlich gut erkannt.
    Natürlich ist es nicht perfekt, deshalb korrigiere ich einige Tabellen von Hand, und ich plane auch, die Quellseiten mit hochzuladen, damit man zwischen Originalscan und elektronischem Text hin- und herwechseln kann.

    • Zur Einordnung: Die 9. Ausgabe von 1875 war wegen ihrer vielen bedeutenden Mitwirkenden als scholar's edition bekannt und wirkt wie eine faszinierende Momentaufnahme des späten 19. Jahrhunderts.
      In dieser Form mit Hyperlinks und Index online gestellt, wären auch Dinge wie geografische Atlanten, medizinische Atlanten oder Baedeker-Reiseführer interessante Kandidaten.
    • Klingt spannend. Die 9. Ausgabe ist an sich schon hervorragend, und viel von ihrem Inhalt lebt in der 11. Ausgabe weiter.
      Mir fallen sofort Alfred Newtons umfangreiche Vogel-Artikel oder einige von Macaulays klassischen Essays ein.
  • Manche Stellen haben beim heutigen Lesen einen ziemlich unterhaltsam-merkwürdigen Reiz. Im Eintrag zu stars https://britannica11.org/article/25-0806-star/star#section-10 steht zum Beispiel, dass der Himmelshintergrund blendend hell sein müsste, wenn Sterne im Weltraum unendlich gleichmäßig verteilt wären und es keine Lichtabsorption gäbe.

    • Ich habe nach „computer“ gesucht und keinen Computer im modernen Sinn gefunden; stattdessen kam nur Chauncey Wright heraus, der beim American Ephemeris and Nautical Almanac unter der Berufsbezeichnung computer gearbeitet hatte.
      Das Ergebnis war https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1, und es fühlt sich wirklich nach einer anderen Epoche an.
    • Der Eintrag zur Sun war auch ziemlich interessant. Kernfusion kannte man noch nicht, aber die meisten Theorien wie chemische Verbrennung oder gravitative Kontraktion darüber, wie die Sonne so viel Energie erzeugt, wurden bereits verworfen.
      Stattdessen hielt man irgendeine Umordnung in der Atomstruktur der Elemente für am plausibelsten und erklärte, dass Energie freiwerde, wenn ein Nebel zur Sonne kondensiere und sich Materie dabei zu den bekannten Elementen entwickle.
      Angesichts des damaligen Wissensstands war das erstaunlich nah dran.
    • Diese Stelle lässt sich gut im Zusammenhang mit Olbers' paradox lesen.