1 Punkte von GN⁺ 2025-05-19 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Open-Source-Projekt, das die Sprachstruktur des Voynich-Manuskripts mit modernen NLP-Verfahren wie SBERT analysiert
  • Der Fokus liegt auf Suffixentfernung und Clustering, um zu prüfen, ob echte sprachähnliche Strukturen statt bloßer Scheinmuster vorliegen
  • Durch vielfältige Strukturanalysen wie Funktions- und Inhaltswortrollen sowie Übergangsmatrizen wurden bedeutungsvolle Muster beobachtet
  • Anders als traditionelle statistische oder spekulationsgetriebene Ansätze versucht es, strukturelle Sprachmerkmale mit Methoden der Computerlinguistik zu analysieren
  • Das Projekt konzentriert sich ausschließlich auf strukturelle Modellierung ohne Bedeutungsübersetzungsversuche und ermöglicht weitere Forschung und Vergleichsexperimente

📜 Einführung in das Projekt zur Strukturanalyse des Voynich-Manuskripts

🔍 Überblick

  • Dieses Projekt begann als persönliches Experiment, die Struktur des Voynich-Manuskripts mit modernen Werkzeugen der natürlichen Sprachverarbeitung (NLP) zu analysieren
  • Es wendet echte Sprachmodellierungsmethoden an, darunter Clustering, Wortartinferenz, Markov-Übergänge und Extraktion sektionsspezifischer Muster
  • Ohne Bedeutungsdeutung, Übersetzungsversuche oder überzogene Musterspekulationen wird ausschließlich überprüft, ob eine sprachähnlich funktionierende Struktur vorhanden ist
  • Alle Schritte sind offengelegt, darunter Suffixentfernung, SBERT-Embeddings und die Erzeugung von Lexikonhypothesen

🧠 Bedeutung

  • Das Voynich-Manuskript ist ein weiterhin unentziffertes mysteriöses Dokument, für das es keine sprachwissenschaftliche oder kryptografische Lösung gibt
  • Bisherige Analysen spalten sich meist in statistische Entropietests und unwissenschaftliche Spekulationen
  • Dieses Projekt untersucht auf Grundlage der Computerlinguistik neutral, ob strukturelle Muster vorhanden sind, die echten Sprachen ähneln

📁 Projektstruktur

  • /data/
    • Enthält Daten wie die vollständige Transkription des Manuskripts, Arten von Stammwörtern, Cluster-IDs, Listen entfernter Suffixe und Cluster-Sequenzen pro Zeile
  • /scripts/
    • Enthält zentrale Analyseskripte für SBERT-basiertes Wortclustering, Wortartvorhersage, Aufbau von Markov-Übergangsmatrizen und Erzeugung von Lexikonkandidaten
  • /results/
    • Enthält Analyseergebnisse wie Cluster-Visualisierungen, Heatmaps von Übergangsmatrizen und Zusammenfassungen nach Clustern

✅ Wichtige Beiträge

  • Clustering von Stammwörtern nach Entfernung von Suffixen mit multilingualem SBERT
  • Unterscheidung zwischen funktionswortähnlichen Clustern und inhaltswortähnlichen Clustern
  • Modellierung von Cluster-Übergangsstrukturen nach dem Markov-Ansatz
  • Analyse der syntaktischen Struktur nach Abschnitten (z. B. Botanical, Biological usw.)
  • Erstellung einer datenbasierten Tabelle mit Lexikonhypothesen

🔧 Vorverarbeitungsentscheidungen

  • Vor dem Clustering wurden wiederkehrende Suffixe (z. B. aiin, dy, chy) entfernt
  • Dadurch werden Stammformen der Wörter extrahiert, wodurch Clusterkonzentration und Strukturmuster klarer werden
    • Suffixe könnten phonologische Füllungen, grammatische Morpheme, Auswendiglern-Hilfen, Wiederholungen oder bedeutungsloses Rauschen sein
  • Diese Entscheidung hat jedoch Grenzen, darunter Verlust morphologischer Information, Verdeckung bedeutungsvoller Flexionsinformation und Verzerrungen bei Funktionswörtern
  • Vergleichsexperimente ohne Suffixentfernung sind ebenfalls wertvoll — jede Person kann abgeleitete Experimente durchführen

📈 Zentrale Analyseergebnisse

  • Cluster 8: sehr häufig, geringe Vielfalt und oft am Zeilenanfang — ein Kandidat für ein Funktionswort-Cluster
  • Cluster 3: hohe Vielfalt und freie Positionierung — ein Kandidat für ein Stamm-Inhaltswort-Cluster
  • Übergangsmatrix: starke interne Struktur, weit entfernt von Zufälligkeit
  • Cluster- und Wortartmuster: unterscheiden sich je nach Manuskriptabschnitt (z. B. Biological, Botanical usw.)

🧬 Hypothese

  • Das Manuskript ist eine strukturierte künstliche / mnemotechnische Sprache, die Silbenwiederholung und positionsabhängige Wiederholung nutzt
  • Es zeigt klar sprachliche Strukturen wie Syntax, Trennung von Funktions- und Inhaltswörtern sowie abschnittsabhängige Sprachübergänge

📊 Beispielvisualisierungen

  • Figure 1: SBERT-Cluster-Embeddings (PCA-Reduktion)
  • Figure 2: Heatmap der Übergangsmatrix

📌 Einschränkungen

  • Das Cluster-Wort-Mapping ist indirekt, daher gibt es Überschneidungen bei Frequenzschätzungen
  • Die Kriterien für die Suffixentfernung sind heuristisch, wodurch auch tatsächlich bedeutungsvolle Endungen verloren gehen können
  • Es wird keine Bedeutungsdeutung versucht; der Fokus liegt ausschließlich auf der Strukturanalyse

✍️ Anmerkung des Autors

  • Das Projekt wurde mit dem Ziel begonnen, AI, NLP und Strukturanalyse zu lernen
  • Nicht die Entzifferung des Manuskripts selbst ist das Ziel, sondern ein fortschrittlicherer Ansatz zum Verständnis seiner Struktur mit modernen Werkzeugen
  • Willkommen sind besonders Menschen, die sich weniger von einer Entzifferung im Stil des Rosetta Stone leiten lassen, sondern an der Idee interessiert sind, dass schon das Modellieren selbst Bedeutung hat

🤝 Hinweise zur Mitwirkung

  • Dieses Projekt begrüßt Zusammenarbeit und Erweiterungen durch Linguisten, Kryptografen, Forscher zu künstlichen Sprachen und die Community der Computerlinguistik

1 Kommentare

 
GN⁺ 2025-05-19
Hacker-News-Kommentar
  • Mir ist aufgefallen, dass du innerhalb der PCA-Projektion nach Clustern suchst — um tiefere Strukturen zu finden, würde ich neuere Dimensionalitätsreduktions-Algorithmen wie PaCMAP oder LocalMAP empfehlen. Ich arbeite gerade an einem Projekt, bei dem ich Daten aus dem Meinungsumfrage-Tool Pol.is nehme und sie mit solchen Algorithmen statt mit PCA neu projiziere. Es ist beeindruckend, welche Einsichten diese neuen Algorithmen liefern, die man früher nicht gesehen hat. Ich habe die Gruppen auch farblich markiert und visualisiert, also schau es dir am besten auf dem Desktop an. Falls du dich fragst, was Pol.is ist, kann ich auch einen entsprechenden Artikel empfehlen

    • Danke, dass du mich auf PaCMAP und LocalMAP gebracht hast — solche Dimensionalitätsreduktions-Ansätze, die die Struktur gut erhalten, scheinen für diese Daten besser geeignet zu sein als PCA. Du hast mein Interesse geweckt, daher werde ich mir das genauer ansehen
    • Ich habe die Erfahrung gemacht, dass UMAP bei der Reduktion von Embeddings deutlich bessere Ergebnisse liefert als PCA oder t-SNE
  • Das hier verwendete Text-Embedding-Modell ist paraphrase-multilingual-MiniLM-L12-v2, also ein Modell, das ungefähr vier Jahre alt ist. In der NLP-Welt ist das inzwischen sehr alt. Durch die jüngsten Fortschritte bei LLMs haben sich Informationsgehalt und Trennschärfe von Embedding-Modellen im Embedding-Raum dramatisch verbessert. Selbst aktuelle Embedding-Modelle, die gar nicht speziell auf Mehrsprachigkeit ausgelegt sind, zeigen bei dieser Art von Daten hervorragende Leistung. Daher könnten sie auch bei einer relativ wenig bekannten Sprache wie dem Voynich-Manuskript besser abschneiden. Ich denke sogar, dass traditionelle NLP-Techniken wie Suffixentfernung oder POS-Tagging eher dazu führen könnten, nötigen Kontext zu verlieren und damit die Embedding-Qualität zu verschlechtern

    • Ich habe paraphrase-multilingual-MiniLM-L12-v2 hauptsächlich wegen Geschwindigkeit und Kompatibilität gewählt, aber ich stimme zu, dass es nach heutigem Maßstab definitiv ein älteres Modell ist. Mit neueren Modellen wie all-mpnet-base-v2 oder text-embedding-ada-002 und Full-Context-Embeddings unter Beibehaltung der Suffixe ließen sich wahrscheinlich noch interessantere Ergebnisse erzielen. Dank deines Hinweises ziehe ich das für die nächste Iteration nun ernsthaft in Betracht
  • Ich kenne mich mit NLP nicht gut aus. Ich frage mich, ob es sinnvoll wäre, den Prozess zu überprüfen, indem man Vergleichsgruppen kontrolliert. Zum Beispiel könnte man Menschen Sätze schreiben lassen, die wie Sprache aussehen, aber tatsächlich keine Sprache sind, und dann dieselbe Prozedur anwenden — Suffixe entfernen, Clustering versuchen usw. — um zu sehen, ob ähnliche Ergebnisse herauskommen

    • Genau das. Ich frage mich, warum man nicht einfach 100 Leute das Voynich-Manuskript hätte schreiben lassen und dann auf diesen Daten trainiert hätte
  • Ich denke, eine Analyse mit UMAP oder t-SNE wäre sinnvoll, auch wenn PCA bereits eine saubere Trennung gezeigt hat. Es scheint mir auch eine gute Methode zu sein, die Cluster gegeneinander zu referenzieren und abzubilden, um zu sehen, dass in der Analyse keine Varianz mehr übrig ist

    • Guter Punkt — PCA zeigte anfangs eine unerwartet saubere Trennung, deshalb bin ich zunächst dabei geblieben. Aber wie du sagst, könnten UMAP oder t-SNE aus einer nichtlinearen Perspektive subtilere Muster oder Probleme sichtbar machen. Ich habe auch keine Ähnlichkeitsmatrix zwischen den Clustern erstellt, aber nach deinem Vorschlag wirkt das wie der natürliche nächste Schritt, um zu prüfen, wie substanziell das Signal tatsächlich ist. Das sollte ich in einer Folgearbeit unbedingt ausprobieren. Danke für den Denkanstoß
    • Falls du ein Beispiel dafür hast, wie dieses Referenz-Mapping durchgeführt wird, würde mich das interessieren. Ich würde so etwas gern auf Embeddings aus anderen Modalitäten anwenden, habe aber wenig Erfahrung im NLP-Bereich
    • Wenn PCA bereits eine gute Trennung liefert, vermeide ich normalerweise UMAP, weil sich die Distanzen zwischen einzelnen Punkten dann leichter interpretieren lassen. t-SNE vermeide ich eigentlich immer, weil ich die Distanzinterpretation dort fast für bedeutungslos halte. Das ist aber nur meine persönliche Vorliebe
  • Ich halte diese Hypothese für die interessanteste: Ein Autor scheint mit der Annahme, dass Voynichisch eine germanische Sprache sei, erhebliche Fortschritte erzielt zu haben. Ich habe auch Behauptungen gesehen, dass es sich um eine uralische oder finno-ugrische Sprache handeln könnte. Ich finde deine Methodik sehr gut und frage mich, ob sie noch bessere Ergebnisse liefern würde, wenn man sie gezielt auf bestimmte Sprachfamilien anpasst

    • Ich habe auch schon Belege dafür gesehen, dass Edward Kelly zur richtigen Zeit am richtigen Ort war und das Cardan grille kannte. Deshalb halte ich ihn für einen wahrscheinlichen Urheber, und das Buch selbst war dann wohl eher als Schwindel oder Scherz gedacht
    • In diesem Thread werden verschiedene „Entschlüsselungs“-Behauptungen diskutiert. Die Bernholz-Seite ist in Ordnung, aber die Arbeit von Child hilft bei einer tatsächlichen Entzifferung nicht wirklich weiter
  • Ich dachte immer, das sei altes Türkisch

    • Eine englische Übersetzung des Manuskripts kann man hier sehen
  • Vielleicht habe ich es im README übersehen, aber mich würde interessieren, wie die anfängliche Kodierung der „Wörter“ vorgenommen wurde. Zum Beispiel: Wie mappt man ein Wort wie „okeeodair“ zurück auf die ursprünglichen Symbole?

    • Genau, Wörter wie „okeeodair“ stammen direkt aus der EVA-Transkriptionsdatei. Das Ergebnis ist, dass die ursprünglichen Voynich-Symbole nach dem EVA-System (European Voynich Alphabet) in ASCII abgebildet wurden. In diesem Projekt arbeite ich also nicht direkt mit den Symbolen selbst, sondern unmittelbar mit den Wörtern der EVA-Transkription. Wenn im Datensatz „okeeodair“ steht, bedeutet das, dass sich jemand mit Fachkenntnis darauf geeinigt hat, diese Symbolkombination so zu benennen. Informationen zur Transkription findest du auf dieser Website
  • Ich stelle mir vor, dass, falls es einfach nur bedeutungslose Kritzeleien und nicht einmal ein Geheimtext sind, sich aufgrund der Natur eines Manuskripts Stil, Handschrift, verwendete Wörter und sogar die Buchstaben selbst von der ersten bis zur letzten Seite entwickeln müssten. Natürlich könnte die Seitenreihenfolge verändert worden sein, aber man sollte doch irgendeinen Unterschied sehen. Es sei denn, der Autor hat dutzende Bände im gleichen Stil geschrieben und alle sind verschwunden. Das ist keine neue Idee, aber ich frage mich, ob es dazu Analysen dieser Muster gibt, denn über Konsistenz zwischen den Seiten habe ich noch nie etwas gehört

    • Zur Konsistenz zwischen den Seiten gibt es viel Forschung. Unter Experten gibt es die Behauptung, dass es zwei (oder fünf) Schreiber gab. Es gibt auch eine Diskussion über ein Experiment auf Grundlage der Behauptungen von Lisa Fagin Davis, die hilfreich sein könnte
  • Ich frage mich, wie viele Ressourcen ein „Brute-Force“-Ansatz zur Entzifferung benötigen würde. Zum Beispiel, wenn man einem klaren Verfahren folgt und Wörter bekannter Sprachen eins zu eins zuordnet und dabei den Score verbessert

    • Ich möchte darauf hinweisen, dass dieser Ansatz voraussetzt, dass jedes Wort eine 1:1-Zuordnung hat, während Sprache in Wirklichkeit nicht unbedingt so funktioniert. Zum Beispiel sind Komposita auf diese Weise schwer abzubilden. Dazu kommen grundlegendere Unterschiede in Bedeutungsstrukturen durch kulturelle Unterschiede
    • Interessante Frage — ich hatte tatsächlich schon einmal einen ähnlichen Gedanken. Ich bin kein Kryptografie-Spezialist, daher weiß ich nicht genau, wie realistisch ein wirklich groß angelegtes „Brute Forcing“ wäre. Aber der Ansatz, jedes Voynich-„Wort“ auf ein echtes Wort einer natürlichen Sprache abzubilden und die Konsistenz zu optimieren, passt durchaus zu mehreren experimentellen Ansätzen und Richtungen. Die Schwierigkeit besteht darin, dass der Wortschatz selbst riesig ist und unklar bleibt, ob eine Voynich-„Wort“-Einheit überhaupt 1:1 auf ein echtes Wort gemappt werden kann. Es ist mehrdeutig, ob ein Voynich-„Wort“ tatsächlich ein einzelnes Lexem, ein Fragment oder eine Kombination aus Wortstamm und Affix ist. Deshalb halte ich eine einfache Zuordnung für ziemlich schwierig. Trotzdem ist die Idee, statt einzelner Tokens mit Cluster-IDs zu arbeiten und die Ergebnisse mit einem Sprachmodell zu bewerten, ziemlich gut. Das wäre wahrscheinlich einen Versuch mit Optimierungs- oder evolutionären Verfahren wert. Man könnte dadurch Hinweise darauf bekommen, wie sehr die Struktur „sprachähnlich“ ist. Danke für die gute Idee. Ich hoffe, dass jemand aus dem Fachgebiet diesen Kommentar sieht und es ausprobiert
  • Ich frage mich, ob bei einer Analyse eines ähnlich großen Textes in einer bekannten Sprache ähnliche Muster auftreten würden. Anders gesagt: Könnte es helfen, diese Analysetechnik auf verschiedene Arten von Texten anzuwenden, um besser zu verstehen, was dieses Schriftsystem bedeutet?