- Ein Open-Source-Projekt, das die Sprachstruktur des Voynich-Manuskripts mit modernen NLP-Verfahren wie SBERT analysiert
- Der Fokus liegt auf Suffixentfernung und Clustering, um zu prüfen, ob echte sprachähnliche Strukturen statt bloßer Scheinmuster vorliegen
- Durch vielfältige Strukturanalysen wie Funktions- und Inhaltswortrollen sowie Übergangsmatrizen wurden bedeutungsvolle Muster beobachtet
- Anders als traditionelle statistische oder spekulationsgetriebene Ansätze versucht es, strukturelle Sprachmerkmale mit Methoden der Computerlinguistik zu analysieren
- Das Projekt konzentriert sich ausschließlich auf strukturelle Modellierung ohne Bedeutungsübersetzungsversuche und ermöglicht weitere Forschung und Vergleichsexperimente
📜 Einführung in das Projekt zur Strukturanalyse des Voynich-Manuskripts
🔍 Überblick
- Dieses Projekt begann als persönliches Experiment, die Struktur des Voynich-Manuskripts mit modernen Werkzeugen der natürlichen Sprachverarbeitung (NLP) zu analysieren
- Es wendet echte Sprachmodellierungsmethoden an, darunter Clustering, Wortartinferenz, Markov-Übergänge und Extraktion sektionsspezifischer Muster
- Ohne Bedeutungsdeutung, Übersetzungsversuche oder überzogene Musterspekulationen wird ausschließlich überprüft, ob eine sprachähnlich funktionierende Struktur vorhanden ist
- Alle Schritte sind offengelegt, darunter Suffixentfernung, SBERT-Embeddings und die Erzeugung von Lexikonhypothesen
🧠 Bedeutung
- Das Voynich-Manuskript ist ein weiterhin unentziffertes mysteriöses Dokument, für das es keine sprachwissenschaftliche oder kryptografische Lösung gibt
- Bisherige Analysen spalten sich meist in statistische Entropietests und unwissenschaftliche Spekulationen
- Dieses Projekt untersucht auf Grundlage der Computerlinguistik neutral, ob strukturelle Muster vorhanden sind, die echten Sprachen ähneln
📁 Projektstruktur
- /data/
- Enthält Daten wie die vollständige Transkription des Manuskripts, Arten von Stammwörtern, Cluster-IDs, Listen entfernter Suffixe und Cluster-Sequenzen pro Zeile
- /scripts/
- Enthält zentrale Analyseskripte für SBERT-basiertes Wortclustering, Wortartvorhersage, Aufbau von Markov-Übergangsmatrizen und Erzeugung von Lexikonkandidaten
- /results/
- Enthält Analyseergebnisse wie Cluster-Visualisierungen, Heatmaps von Übergangsmatrizen und Zusammenfassungen nach Clustern
✅ Wichtige Beiträge
- Clustering von Stammwörtern nach Entfernung von Suffixen mit multilingualem SBERT
- Unterscheidung zwischen funktionswortähnlichen Clustern und inhaltswortähnlichen Clustern
- Modellierung von Cluster-Übergangsstrukturen nach dem Markov-Ansatz
- Analyse der syntaktischen Struktur nach Abschnitten (z. B. Botanical, Biological usw.)
- Erstellung einer datenbasierten Tabelle mit Lexikonhypothesen
🔧 Vorverarbeitungsentscheidungen
- Vor dem Clustering wurden wiederkehrende Suffixe (z. B. aiin, dy, chy) entfernt
- Dadurch werden Stammformen der Wörter extrahiert, wodurch Clusterkonzentration und Strukturmuster klarer werden
- Suffixe könnten phonologische Füllungen, grammatische Morpheme, Auswendiglern-Hilfen, Wiederholungen oder bedeutungsloses Rauschen sein
- Diese Entscheidung hat jedoch Grenzen, darunter Verlust morphologischer Information, Verdeckung bedeutungsvoller Flexionsinformation und Verzerrungen bei Funktionswörtern
- Vergleichsexperimente ohne Suffixentfernung sind ebenfalls wertvoll — jede Person kann abgeleitete Experimente durchführen
📈 Zentrale Analyseergebnisse
- Cluster 8: sehr häufig, geringe Vielfalt und oft am Zeilenanfang — ein Kandidat für ein Funktionswort-Cluster
- Cluster 3: hohe Vielfalt und freie Positionierung — ein Kandidat für ein Stamm-Inhaltswort-Cluster
- Übergangsmatrix: starke interne Struktur, weit entfernt von Zufälligkeit
- Cluster- und Wortartmuster: unterscheiden sich je nach Manuskriptabschnitt (z. B. Biological, Botanical usw.)
🧬 Hypothese
- Das Manuskript ist eine strukturierte künstliche / mnemotechnische Sprache, die Silbenwiederholung und positionsabhängige Wiederholung nutzt
- Es zeigt klar sprachliche Strukturen wie Syntax, Trennung von Funktions- und Inhaltswörtern sowie abschnittsabhängige Sprachübergänge
📊 Beispielvisualisierungen
- Figure 1: SBERT-Cluster-Embeddings (PCA-Reduktion)
- Figure 2: Heatmap der Übergangsmatrix
📌 Einschränkungen
- Das Cluster-Wort-Mapping ist indirekt, daher gibt es Überschneidungen bei Frequenzschätzungen
- Die Kriterien für die Suffixentfernung sind heuristisch, wodurch auch tatsächlich bedeutungsvolle Endungen verloren gehen können
- Es wird keine Bedeutungsdeutung versucht; der Fokus liegt ausschließlich auf der Strukturanalyse
✍️ Anmerkung des Autors
- Das Projekt wurde mit dem Ziel begonnen, AI, NLP und Strukturanalyse zu lernen
- Nicht die Entzifferung des Manuskripts selbst ist das Ziel, sondern ein fortschrittlicherer Ansatz zum Verständnis seiner Struktur mit modernen Werkzeugen
- Willkommen sind besonders Menschen, die sich weniger von einer Entzifferung im Stil des Rosetta Stone leiten lassen, sondern an der Idee interessiert sind, dass schon das Modellieren selbst Bedeutung hat
🤝 Hinweise zur Mitwirkung
- Dieses Projekt begrüßt Zusammenarbeit und Erweiterungen durch Linguisten, Kryptografen, Forscher zu künstlichen Sprachen und die Community der Computerlinguistik
1 Kommentare
Hacker-News-Kommentar
Mir ist aufgefallen, dass du innerhalb der PCA-Projektion nach Clustern suchst — um tiefere Strukturen zu finden, würde ich neuere Dimensionalitätsreduktions-Algorithmen wie PaCMAP oder LocalMAP empfehlen. Ich arbeite gerade an einem Projekt, bei dem ich Daten aus dem Meinungsumfrage-Tool Pol.is nehme und sie mit solchen Algorithmen statt mit PCA neu projiziere. Es ist beeindruckend, welche Einsichten diese neuen Algorithmen liefern, die man früher nicht gesehen hat. Ich habe die Gruppen auch farblich markiert und visualisiert, also schau es dir am besten auf dem Desktop an. Falls du dich fragst, was Pol.is ist, kann ich auch einen entsprechenden Artikel empfehlen
Das hier verwendete Text-Embedding-Modell ist
paraphrase-multilingual-MiniLM-L12-v2, also ein Modell, das ungefähr vier Jahre alt ist. In der NLP-Welt ist das inzwischen sehr alt. Durch die jüngsten Fortschritte bei LLMs haben sich Informationsgehalt und Trennschärfe von Embedding-Modellen im Embedding-Raum dramatisch verbessert. Selbst aktuelle Embedding-Modelle, die gar nicht speziell auf Mehrsprachigkeit ausgelegt sind, zeigen bei dieser Art von Daten hervorragende Leistung. Daher könnten sie auch bei einer relativ wenig bekannten Sprache wie dem Voynich-Manuskript besser abschneiden. Ich denke sogar, dass traditionelle NLP-Techniken wie Suffixentfernung oder POS-Tagging eher dazu führen könnten, nötigen Kontext zu verlieren und damit die Embedding-Qualität zu verschlechternparaphrase-multilingual-MiniLM-L12-v2hauptsächlich wegen Geschwindigkeit und Kompatibilität gewählt, aber ich stimme zu, dass es nach heutigem Maßstab definitiv ein älteres Modell ist. Mit neueren Modellen wieall-mpnet-base-v2odertext-embedding-ada-002und Full-Context-Embeddings unter Beibehaltung der Suffixe ließen sich wahrscheinlich noch interessantere Ergebnisse erzielen. Dank deines Hinweises ziehe ich das für die nächste Iteration nun ernsthaft in BetrachtIch kenne mich mit NLP nicht gut aus. Ich frage mich, ob es sinnvoll wäre, den Prozess zu überprüfen, indem man Vergleichsgruppen kontrolliert. Zum Beispiel könnte man Menschen Sätze schreiben lassen, die wie Sprache aussehen, aber tatsächlich keine Sprache sind, und dann dieselbe Prozedur anwenden — Suffixe entfernen, Clustering versuchen usw. — um zu sehen, ob ähnliche Ergebnisse herauskommen
Ich denke, eine Analyse mit UMAP oder t-SNE wäre sinnvoll, auch wenn PCA bereits eine saubere Trennung gezeigt hat. Es scheint mir auch eine gute Methode zu sein, die Cluster gegeneinander zu referenzieren und abzubilden, um zu sehen, dass in der Analyse keine Varianz mehr übrig ist
Ich halte diese Hypothese für die interessanteste: Ein Autor scheint mit der Annahme, dass Voynichisch eine germanische Sprache sei, erhebliche Fortschritte erzielt zu haben. Ich habe auch Behauptungen gesehen, dass es sich um eine uralische oder finno-ugrische Sprache handeln könnte. Ich finde deine Methodik sehr gut und frage mich, ob sie noch bessere Ergebnisse liefern würde, wenn man sie gezielt auf bestimmte Sprachfamilien anpasst
Ich dachte immer, das sei altes Türkisch
Vielleicht habe ich es im README übersehen, aber mich würde interessieren, wie die anfängliche Kodierung der „Wörter“ vorgenommen wurde. Zum Beispiel: Wie mappt man ein Wort wie „okeeodair“ zurück auf die ursprünglichen Symbole?
Ich stelle mir vor, dass, falls es einfach nur bedeutungslose Kritzeleien und nicht einmal ein Geheimtext sind, sich aufgrund der Natur eines Manuskripts Stil, Handschrift, verwendete Wörter und sogar die Buchstaben selbst von der ersten bis zur letzten Seite entwickeln müssten. Natürlich könnte die Seitenreihenfolge verändert worden sein, aber man sollte doch irgendeinen Unterschied sehen. Es sei denn, der Autor hat dutzende Bände im gleichen Stil geschrieben und alle sind verschwunden. Das ist keine neue Idee, aber ich frage mich, ob es dazu Analysen dieser Muster gibt, denn über Konsistenz zwischen den Seiten habe ich noch nie etwas gehört
Ich frage mich, wie viele Ressourcen ein „Brute-Force“-Ansatz zur Entzifferung benötigen würde. Zum Beispiel, wenn man einem klaren Verfahren folgt und Wörter bekannter Sprachen eins zu eins zuordnet und dabei den Score verbessert
Ich frage mich, ob bei einer Analyse eines ähnlich großen Textes in einer bekannten Sprache ähnliche Muster auftreten würden. Anders gesagt: Könnte es helfen, diese Analysetechnik auf verschiedene Arten von Texten anzuwenden, um besser zu verstehen, was dieses Schriftsystem bedeutet?