Stanford-Law-Studie zeigt: KI schneidet besser ab als Jura-Professoren
(law.stanford.edu)- In einer Studie der Stanford Law School bevorzugten Jura-Professoren überwältigend KI-generierte Antworten gegenüber Antworten ihrer Fachkollegen auf Fragen von Studierenden, was darauf hindeutet, dass dies die Art der juristischen Ausbildung beeinflussen könnte
- In einer Blindbewertung mit 16 Jura-Professoren von US-Law-Schools wurden rund 3.000 anonyme Vergleiche durchgeführt, und KI erzielte in direkten Vergleichen mit Professorenantworten eine Gewinnrate von 75 %
- Die Teilnehmenden erstellten 40 Fragen, wie sie Studierende nach einer Vertragsrechtsvorlesung oder in der Sprechstunde stellen könnten, beantworteten sie selbst und bewerteten anschließend ohne Kenntnis der Quelle Antworten von KI und Fachkollegen
- Professoren stuften 3,5 % der KI-Antworten als pädagogisch schädlich ein, gegenüber 12 % der Antworten von Fachkollegen; das KI-System erreichte damit ein Leistungsniveau ähnlich dem besten menschlichen Lehrenden der Studie
- Die Ergebnisse sprechen zwar nicht für eine uneingeschränkte Einführung von KI-Tutoren, liefern aber eine Grundlage, um auch in urteilsintensiven Bereichen wie der Rechtswissenschaft über verantwortungsvolle Formen des Einsatzes zu diskutieren
Studiendesign und zentrale Ergebnisse
- Die von Stanford-Law-School-Professor Julian Nyarko geleitete Studie „Law Professors Prefer AI Over Peer Answers“ prüfte, ob große Sprachmodelle als effektive Tutoren im Vertragsrechtsunterricht eingesetzt werden können
- An der Studie nahmen 16 Jura-Professoren von US-Law-Schools teil. Die Teilnehmenden formulierten 40 typische Fragen zum Vertragsrecht, die Studierende nach dem Unterricht oder in der Sprechstunde stellen könnten, und beantworteten sie selbst
- Die Professoren bewerteten Antworten, ohne zu wissen, ob sie von einer KI oder von anderen teilnehmenden Professoren stammten; in rund 3.000 anonymen Vergleichen erzielten die KI-Antworten eine direkte Gewinnrate von 75 %
- Das Forschungsteam passte Länge und Struktur der KI-Antworten an menschliche Antworten an, nutzte mehrere Bewertungsmethoden und ließ die Professoren zudem einschätzen, ob Antworten Studierende in die Irre führen oder verwirren könnten
- Das KI-System erreichte ein Leistungsniveau ähnlich dem besten menschlichen Lehrenden der Studie, und der Anteil der als pädagogisch schädlich markierten Antworten lag bei 3,5 % bei KI-Antworten und 12 % bei Antworten von Fachkollegen
Bedeutung und Grenzen für die juristische Ausbildung
- In der Rechtswissenschaft gibt es oft keine eindeutig richtige Antwort, und auch widersprüchliche Argumente können überzeugend sein. Daher sind Urteilsvermögen, differenziertes Schlussfolgern und der Umgang mit Mehrdeutigkeit besonders wichtig
- Das Forschungsteam untersuchte auch kommerzielle Tutor-Systeme und verschiedene KI-Modelle, darunter Googles NotebookLM; dabei zeigten sich Leistungsunterschiede zwischen den Modellen
- Selbst wenn Kontextbeschränkungen die KI-Antworten beeinflussten, bevorzugten die Professoren diese häufig gegenüber von Menschen verfassten Alternativen
- Law-Schools müssen bei der Integration von KI-Tools in die juristische Ausbildung strenge akademische Standards wahren und zugleich Risiken wie Halluzinationen, Überabhängigkeit und eine Schwächung des kritischen Denkens berücksichtigen
- Die Studie bewertete die Qualität der von KI-Tools erzeugten Antworten, doch welche Implementierungsform das Lernen von Studierenden am effektivsten verbessert, ist weiterhin offen. Die Diskussion sollte sich daher von der Frage, ob KI genaue und hochwertige Antworten geben kann, hin dazu verlagern, wie sie so verantwortungsvoll eingesetzt wird, dass sie Studierenden tatsächlich hilft
1 Kommentare
Hacker-News-Kommentare
Diese Studie wirkt ziemlich fragwürdig. Ich müsste tiefer graben, aber bei jedem, der das liest, sollten definitiv ziemlich laut Alarmglocken läuten
Abbildung 2 (Seite 6) sieht problematisch aus. Es gibt nur 16 Professoren, aber jeweils 3.000 Vergleiche, und die Ergebnisse schwanken auch stark von Professor zu Professor. Die Streuung ist sehr groß, was wie ein Signal dafür wirkt, dass der Studie eine sinnvolle statistische Teststärke fehlt
Außerdem tauchen in den Hauptergebnissen nur Google-Modelle auf, was ebenfalls nach einem klaren Bias aussieht. Andere Modelle erscheinen an anderer Stelle, also stellt sich die Frage, warum sie in den Kernergebnissen fehlen
Ich bin kein Rechtsexperte, kenne mich aber ziemlich gut mit Statistik aus, und ich kann mit Überzeugung sagen, dass dieses Paper verdächtig riecht. Ich kann nicht sicher behaupten, dass es Unsinn ist, aber überall gibt es Warnsignale
Dort steht, dass die Professoren als Gutachter 2.918 verblindete Forced-Choice-Vergleiche durchgeführt haben, wobei der Median pro Gutachter bei 200 lag und sie jeweils zwischen einer anonymisierten Antwort eines Dozenten und einer LLM-Antwort auswählen sollten, welche sie einem Studenten geben würden
Ich habe sogar ein Paper gesehen, das Interviews und Protokolle in ChatGPT eingegeben und die Ergebnisse dann als „Methodologie“ bezeichnet hat. Es wurde peer-reviewt und veröffentlicht
Vielleicht lässt sich das ähnlich erklären wie bei Hollywood-Filmen. Wenn ein Film so gemacht wird, dass er die größtmögliche Zahl von Menschen zufriedenstellt, ist es wahrscheinlicher, dass Leute ihn gegenüber anderen Filmen wählen
Ein menschlicher Jura-Professor bringt seine Persönlichkeit, Überzeugungen und Meinungen in seinen Text ein, während ein LLM darauf trainiert ist, das breiteste Publikum zufriedenzustellen. Das bedeutet aber nicht, dass die Antwort besser ist. Captain America ist ja auch nicht zwangsläufig ein besserer Film als American Beauty
Als Softwareentwickler hat man ein gewisses Gespür dafür, welche Aufgaben man einem Agenten gefahrlos überlassen kann.
Aber wenn man einer KI die Erstellung von Entwürfen für juristische Dokumente überträgt, ist dieses Gespür dafür, was schiefgehen könnte, nicht in ähnlicher Weise kalibriert. So etwas wie das Aufsetzen eines Testaments wirkt oberflächlich harmlos, aber eigentlich weiß ich es nicht. Das Rechtssystem ist berüchtigt für seine vielen Fallstricke.
Sie fügen leicht plausibel klingende Zitate aus anderen Fällen ein, die das gewünschte Argument scheinbar perfekt belegen, und erfinden sogar echt wirkende Fallnamen wie United States v. Shenzhou Electronics Inc. Mehrfach habe ich geprüft und keine falschen Zitate gefunden, nur um mich sicher zu fühlen, und dann enthielt der nächste Schriftsatz plötzlich drei davon.
Trotzdem sind Anwälte, die LLMs nicht für Recherchen nutzen, im Rückstand. Sie sind unglaublich gut darin, Nischenfälle zu finden, auf die man allein niemals gestoßen wäre. Früher lief vieles über exakte Suchwortübereinstimmungen, was für juristische Recherche oft von Natur aus wenig nützlich war. Man braucht etwas, das auch mit vageren Kriterien suchen kann, und darin ist KI sehr gut. Die Ergebnisse müssen aber unbedingt überprüft werden. Die LLMs von Lexis Nexis oder Westlaw sind wahrscheinlich besser als allgemeine Modelle.
LLMs sind hervorragende juristische Hilfskräfte. Wer juristisch arbeitet, sollte sie schon allein zum Brainstorming nutzen. Sie eignen sich auch gut als Advocatus Diaboli aus der Gegenseite. Ein Freund von mir lässt sie immer die Rolle des gegnerischen Anwalts spielen und prüft so alle zu erwartenden Gegenargumente.
Genau wie in der Softwareentwicklung gilt: Wenn das erzeugte Ergebnis wichtig ist, muss man die Ausgabe überprüfen.
Es ist wie der Unterschied zwischen meinen Suchanfragen als Systemadministrator und denen von Jane aus der Buchhaltung. Nichttechnische Endnutzer verschlimmern Probleme eher oder installieren mit deutlich höherer Wahrscheinlichkeit etwas Verdächtiges aus mit Werbung überladenen Suchergebnissen. Bei mir oder einem Helpdesk-Mitarbeiter ist das viel unwahrscheinlicher.
Ich würde es nicht vertrauen, mit KI wichtige juristische Dokumente ohne anwaltliche Beratung zu erstellen. Genauso wenig möchte ich darauf angewiesen sein, dass mein Anwalt meinen Code mit KI schreibt.
Juristische Dokumente haben keine automatisierten Tests, keine statischen Typen, keine Testumgebung, kein Logging/Observability-Instrumentation und kein Sandboxing.
Auch die Zeitverzögerung zwischen Erstellung und „Deployment“ macht die Debugging-Schleife deutlich weniger effektiv und teurer. Code kann man in Sekunden in Produktion bringen, Fehler in den Logs sehen und sofort debuggen. Fehler in Verträgen oder Gerichtseinreichungen werden dagegen oft erst nach Tagen, nicht selten erst nach Jahren entdeckt, und dann lassen sie sich häufig nicht mehr korrigieren. Dadurch sind Fehler sowohl schwerer zu finden als auch schwerer zu beheben.
Die Folgen von Fehlern sind meist auch viel gravierender. Oft lassen sie sich nicht mehr rückgängig machen, und juristische Fehler können Leben, Freiheit oder erhebliches Vermögen von Menschen gefährden. Natürlich können Bugs in sicherheitskritischen Systemen genauso schlimm oder schlimmer sein als juristische Fehler, also ist das keine absolute Trennlinie. Trotzdem ist im Allgemeinen die meiste Software weniger riskant als die meisten juristischen Dokumente.
Umgekehrt scheinen LLMs bei grundlegender Stilistik und Struktur juristischer Dokumente besser zu sein als bei Code. Dazu gehören Dinge wie das Einhalten des IRAC-Schemas, das Anfügen von Zitaten an Rechtsaussagen und das Schreiben verständlicher Sätze. Halluzinationen bleiben natürlich weiterhin ein Problem. Im Code entspräche das Best Practices wie gute Kommentare, Kohäsion, konsistente Nutzung von Design Patterns, Testabdeckung, klare Variablennamen und DRY.
Dass sie bei solchen qualitativen Maßstäben besser sind, könnte daran liegen, dass selbst sehr lange juristische Dokumente strukturell meist einfacher sind und weniger Textzeilen haben als große, komplexe Codebasen. Oder daran, dass LLMs stärker auf natürlichsprachlichen Text als auf Code trainiert wurden. Es könnte auch daran liegen, dass natürliche Sprache toleranter ist als Code. Kleine Unterschiede in Formulierung oder Grammatik beeinflussen die Auslegung eines Dokuments oft nicht wesentlich, während ein einzelner falscher Buchstabe im Code enorme Auswirkungen haben kann.
Selbst wenn diese spezifische Studie schlecht sein sollte, ist das insgesamt nicht besonders überraschend
In der juristischen Arbeit gibt es Bereiche, in denen große Mengen an Text analysiert, Schlussfolgerungen daraus gezogen und darauf basierend weitere Texte verfasst werden. Das ist buchstäblich das Kerngeschäft von LLMs
Die Anwälte dieser Art sollten ganz vorne in der Arbeitslosenschlange stehen. Nicht Programmierer, nicht einmal ansatzweise vergleichbar
Man kann Logik ausführen und mit den Ausgaben Schleifen bilden. Es ist leichter, nützliches Reinforcement Learning aufzusetzen, und auch leichter, synthetische Trainingsdaten zu erzeugen. Tool-Nutzung und parallele Agenten lassen sich ebenfalls ganz natürlich unterstützen. Auch die API-Integration ist einfacher als bei den wenigen APIs, die Gerichtssysteme bereitstellen
In der Programmierung werden Abstraktionen auf Funktions- und Modulebene explizit kodiert, daher ist es leichter, daraus Wissensgraphen zu bilden, darüber zu schlussfolgern und darauf aufzubauen als aus bloßen Textfragmenten
AI ist wie ein Schorf auf einer Wunde. Sie stopft vorübergehend Lücken und stürzt sich darauf, Leerstellen zu füllen, wird aber wahrscheinlich nicht die endgültige Lösung sein
Die Modelle haben gezeigt, dass es sowohl in Software als auch im Recht einen riesigen ungedeckten Bedarf an Literalität gab. Jetzt ist die Wahl, ob wir die strukturellen Ursachen dieses ungedeckten Bedarfs angehen oder ob wir Schicht um Schicht AI-Schorf darüberlegen und ihn verbergen
Es ist viel stärker darauf fokussiert, vorhandene Texte zu analysieren und zusammenzufassen, und diese Texte selbst lassen sich auch leichter für das LLM-Training verwenden. Dinge wie Gesetze, Präzedenzfälle, juristische Fachzeitschriften und Lehrbücher
Deshalb ist es wahrscheinlich die am leichtesten zu „LLM-isierende“ Form juristischer Arbeit, aber zugleich womöglich auch die mit dem geringsten Wert. Juraprofessoren werden schließlich nicht so bezahlt wie BigLaw-Anwälte. Dieser Ansatz wird sich nicht unverändert skalieren lassen. Das heißt nicht, dass AI nicht in BigLaw eindringen kann, aber das wäre eine andere Herausforderung
Ich verstehe, warum die Diskussion unter diesem Artikel in diese Richtung läuft, aber die Studie selbst konzentriert sich auf die Möglichkeit, dass LLMs als Tutor für Jurastudierende funktionieren. Es ist interessant, das auf die Frage auszuweiten, ob LLMs Anwälte ersetzen werden, aber darum ging es in der Studie selbst nicht
Wenn der Rahmen lautet, LLMs als juristische Tutoren zu nutzen und die Kosten juristischer Ausbildung zu senken, dann wirkt das wie ein gesellschaftlich positives Ergebnis. Mehr noch: Wenn moderne LLM-Systeme Zugriff auf juristische Referenzmaterialien haben, erscheint es auch intuitiv plausibel, dass sie Fragen von Studierenden umfassend beantworten und Hinweise oder direkte Verweise auf Lehrmaterialien oder Primärquellen geben können. Die Studienergebnisse scheinen in diese Richtung zu weisen
Die Autoren betonen ausdrücklich und bewusst, dass viele juristische Fragen keine isolierte berechenbare Antwort haben, sondern Kontextualisierung erfordern. Die Ergebnisse legen nahe, dass LLM-basierte Systeme mit der „stochastischen Erzeugung optimal passender Algorithmen“ moderner Sprachmodelle die Fragen der Studierenden angemessen kontextualisieren, die in den Fragen angelegten Abwägungen oder Komplexitäten erklären und entscheidend diese Komplexität den Studierenden so vermitteln können, dass sie dem professionellen Standard juristischer Lehrender entsprechen
Realistisch betrachtet hoffe ich, dass dieses Ergebnis HN-Lesern etwas mehr Vertrauen gibt, dass sie bei juristischen Fragen an ein LLM Antworten erwarten können, die die Komplexität des jeweils relevanten Rechts erklären. Das sind gute Nachrichten und, sofern die Zeit es erlaubt, wahrscheinlich das Minimum an Vorarbeit, das wir vor einer echten anwaltlichen Beratung leisten sollten
Umgekehrt denke ich nicht, dass diese Studie ein Signal dafür gibt, dass LLMs bereits bereit sind, tatsächlich direkte Rechtsberatung zu leisten. Das ist ähnlich dazu, dass ein juristisches Lehrbuch keine Rechtsberatung ersetzt, oder genauer gesagt dazu, dass es nicht dasselbe Ergebnis garantiert, nur weil ich zufällig einen Rechtsfall gefunden habe, der meiner Situation grob ähnelt
Figure I.1 sagt eine Menge aus. Die Länge der Antwort erweist sich als der stärkste Prädiktor für die Gewinnrate. Das liegt wahrscheinlich an einem methodischen Mangel der Studie
Die Professoren wurden angewiesen, knapp zu antworten. So etwas wie: „Bitte verfassen Sie es kurz. Es wird erwartet, dass die Ausarbeitung jeder Antwort nicht mehr als 3 Minuten dauert“, und das hat sie vermutlich in Richtung kurzer Antworten verzerrt. Es kann gut sein, dass die Professoren in einer Situation, in der sie ohnehin knapp schreiben sollten, nicht viel Mühe in ihre schriftlichen Antworten investiert haben. Das ist nicht die Schlagzeile, die die Autoren daraus machen möchten
Es überrascht mich, dass Stanford Law einem derart überzogenen Titel der Pressemitteilung zugestimmt hat. Wäre nicht eher so etwas passend wie: „Bei allgemeinen Fragen zum Vertragsrecht im ersten Studienjahr bevorzugten Juraprofessoren AI-generierte Antworten gegenüber von Professoren verfassten Antworten“
Meine beste Vermutung ist, dass Gemini auf dem Lehrbuch trainiert wurde, das durch die Fragen getestet werden sollte, und daher bei der expliziten Erinnerung an diese Fragen oder verwandte Fragen stärker war
Nach dem, was in der Methodik des Papers steht, handelt es sich um einen ziemlich eng begrenzten Einführungskurs
Korrektur: Ich habe gerade erfahren, dass Google ein bedeutender Geldgeber von HAI ist. Dann wurde diese Studie also zumindest teilweise von Google finanziert. Wahrscheinlich ist das auch der Grund, warum die Autoren nicht erklären konnten, dass keine Interessenkonflikte vorliegen
Der juristische Bereich passt seinem Wesen nach ideal zu AI-Sprachmodellen. Im Kern basiert dort alles auf miteinander verknüpften Texten
Ich könnte mir vorstellen, dass hier eine noch größere Entlassungswelle kommt als in der IT. Allerdings wird vermutlich auch stärkeres Lobbying einsetzen, und man wird versuchen, den Wert der eigenen Arbeit massiv aufzublähen und Eindringlinge von außen fernzuhalten
Aber diese Welle hat bereits begonnen und wird riesig sein. Unternehmenskunden verlangen den Einsatz von AI. Sie wollen nicht dafür zahlen, dass ein Associate stundenlang einen Entwurf schreibt und ein Partner ihn danach prüft. Sie wollen, dass ein Top-Partner AI nutzt und nur noch Korrekturen vornimmt
Was LLMs nicht können, ist zu erklären, warum sie unter Kreuzverhör etwas so gesagt haben. Sie halluzinieren lediglich die bestmögliche Erklärung dafür, warum jemand das von ihnen Gesagte wohl gesagt haben könnte, und können ebenso plausibel darlegen, warum jemand etwas anderes gesagt haben könnte
Die Frage „Warum wurde dies gesagt und nicht jenes?“ zwingt sie nicht dazu, die Grundlage der Aussage offenzulegen, sondern nur dazu, eine neue, komplexere Aussage zu erzeugen
Es gibt jedoch LLM-Kontextkonstruktionsverfahren, die das Endergebnis in einer Datenstruktur fixieren. Diese Datenstruktur bewahrt die Struktur der Argumente, die die im fertigen Text enthaltenen Schlussfolgerungen stützen. Die Organisation von Logik in Sprache ist ein reichhaltiges Feld mit vielen Mustern; mein Favorit ist dabei der sogenannte Claim Dependency Graph, der Beziehungen zwischen atomaren Behauptungen als Graphkanten modelliert.
Auf solchen Strukturen lassen sich viele Operationen ausführen, und „rekonstruiere, wie du zu dieser Schlussfolgerung gelangt bist“ gehört eindeutig dazu
Selbst bei stärker durchdachten Gedanken erinnern wir uns mit etwas Glück noch an eine „Spur des Schlussfolgerns“, aber weiter reicht unsere Selbstbeobachtung nicht. Wenn wir keine Neurowissenschaftler sind, wissen wir nicht einmal, wie viele Neuronen wir haben, geschweige denn, wie sie Gedanken hervorbringen.
Motiviertes Schlussfolgern erschwert die Selbstbeobachtung zusätzlich, und wenn dann noch Unehrlichkeit und Kommunikationsfehler hinzukommen, können wir selbst die verbleibende begrenzte Information einander nicht zuverlässig vermitteln.
Die Forschung zur Interpretierbarkeit von Modellen hat große Fortschritte gemacht. Zugespitzt könnte man bereits argumentieren, dass wir KI-Entscheidungen besser erklären können als die Entscheidungsfindung des menschlichen Gehirns
Wenn man LLMs auffordert, Quellen als Anmerkungen anzugeben, kann das — ähnlich wie beim Menschen — das Pattern Matching zur nahen Nachbildung von Logik erheblich verbessern.
Ich verstehe, was mit der Frage „Warum wurde dies gesagt und nicht jenes?“ gemeint ist. Ich habe nur auch andere Arten gesehen, so zu fragen, dass LLMs nicht in die entgegengesetzte Richtung überreagieren