1 Punkte von flamehaven01 2025-10-17 | Noch keine Kommentare. | Auf WhatsApp teilen

TL;DR

ProofBench ist ein Next-Generation-hybrider AI-Benchmark und ein Beweisverifikationssystem, das symbolische Mathematik (SymPy/Pyodide) mit semantischer AI-Analyse (Konsens mehrerer LLMs) kombiniert.

Es bewertet gleichzeitig die logische Struktur und die semantische Gültigkeit von Beweisen, erkennt dadurch Argumentationen, die nur „oberflächlich korrekt“ wirken, und quantifiziert dies mit dem Logic Integrity Index (LII).


🎯 Warum wurde es entwickelt?

Traditionelle Beweisverifikatoren sind

  • aufgrund ihrer formallogischen Grundlage entweder zu streng und unpraktisch, oder
  • bleiben auf der Ebene der Syntax stehen und erkennen semantische Fehler nicht, oder
  • verursachen hohe Rechenkosten, sodass Echtzeit-Feedback schwierig ist.

ProofBench ist ein hybrides AI-Benchmark-Framework, das mit einem „70 % symbolisch + 30 % semantisch“-Ansatz die Strenge symbolischer Verifikation mit dem flexiblen Verständnisvermögen von AI verbindet.


📊 Diese Fragen prüft ProofBench

  • „Kann AI logische Konsistenz verstehen?“
  • „Werden Fehlermuster sichtbar, wenn man Beweisstrukturen graphbasiert visualisiert?“
  • „Wie zuverlässig ist semantikbasierte Bewertung?“
  • „Ist ein kombinierter symbolisch-semantischer Benchmark für Bildung, Forschung und AI-Evaluierung nützlich?“

🧩 Kennzahlen des hybriden AI-Benchmarks

  • LII (Logic Integrity Index): zentrale Kennzahl für logische Integrität
  • Coherence Variance: Übereinstimmung zwischen mehreren Modellen
  • Symbolic Pass Rate: Anteil mathematischer Konsistenz
  • Semantic Stability: Rate stabiler Kontextkonsistenz

Diese Werte können künftig zu einem gemeinsamen Standard für die Bewertung von „Logikfähigkeit, Konsistenz und semantischer Interpretationsfähigkeit“ von AI-Modellen weiterentwickelt werden.


🔍 Architekturüberblick

  • Symbolic Layer — deterministische Verifikation im Browser durch Ausführung von SymPy über Pyodide
  • Semantic Layer — Bewertung von Antworten mehrerer LLMs auf Konsensbasis
  • Hybrid Orchestrator — 70/30-Standardgewichtung (anpassbar), Berechnung des Endscores
  • LII Engine — Berechnung des Logik-Integritätsindex + Konfidenzintervall
  • Justification Analyzer — Abhängigkeitsgraph + Zykluserkennung
  • Feedback Generator — erzeugt schrittweise Bewertungsberichte in natürlicher Sprache

⚙️ Kernfunktionen (v3.7.2)

  • Hybride Verifikations-Engine: Ausführung von SymPy mit Pyodide im Browser + semantische Analyse auf Basis des Konsenses mehrerer LLMs
  • LII (Logic Integrity Index): Quantifizierung logischer Konsistenz mit einem Score von 0–100 und einem 95%-Konfidenzintervall
  • Justification Graph: Visualisierung von Abhängigkeitsbeziehungen zwischen Beweisschritten und automatische Erkennung zirkulärer Argumentation
  • Consensus Manager: Berechnet die Übereinstimmung zwischen mehreren Modellen und erzeugt einen kohärenzbasierten Durchschnittsscore
  • Natural Feedback Generator: Gibt zu jedem Schritt Fehler und Begründungen in natürlicher Sprache zurück
  • UI / Dashboard: Visualisierung von Ergebnissen pro Beweisschritt, Graph-Ansicht, Bericht und LII-Score
  • Docker-Ein-Klick-Start: Sofort nutzbar mit einer einzigen docker run-Zeile
docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest  
# → http://localhost:3000  
  

🧱 Einschränkungen

  • Die semantische Ebene ist anfällig für komplexe sprachliche Fallstricke (die symbolische Ebene federt dies ab)
  • LII ist kein formales Beweiszertifikat, sondern ein Qualitätsindikator
  • Auf leistungsschwachen Geräten entsteht ein Initialisierungsaufwand beim Start von Pyodide

⚡ Gewünschtes Feedback

  • Ist die Standardgewichtung 70/30 sinnvoll? (ob adaptive weight nötig ist)
  • Sind LII + Konfidenzintervall als Benchmark für Bildung und Forschung aussagekräftig?
  • Ist die Erkennung zirkulärer Argumentation in echten Mathematik-/Logikaufgaben nützlich?
  • Ideen zur Verbesserung von Browser-(Pyodide-)Performance-Engpässen?
  • Beispiele für Beweise, die „richtig aussehen, aber falsch sind“, sind willkommen 🧩

🗺️ Roadmap

  • Adaptive Gewichtung nach Abschnitt
  • Unterstützung für verschiedene Beweisformate (Lean, Coq, Markdown-Formeln usw.)
  • Ausbau von Exportvorlagen für Berichte auf Basis von LII + Graphen
  • Aufbau eines Red-Team-Benchmarks (Veröffentlichung einer Sammlung „plausibel, aber falsch“ wirkender Beweise)

🔗 Links


✍️ Entwicklerkommentar

ProofBench ist ein Werkzeug, das testen soll, ob AI nicht nur „Antworten“, sondern auch „Begründetheit“ verstehen kann, und vereint logische Struktur, semantische Konsistenz und Erklärbarkeit in einem einzigen Benchmark.

Es ist nicht nur ein einfacher Verifikator — sondern soll zu einer neuen Experimentierplattform zur Messung der Denkfähigkeit von AI werden.

Noch keine Kommentare.

Noch keine Kommentare.