1 Punkte von GN⁺ 2 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • In einer Studie der Stanford Law School bevorzugten Jura-Professoren überwältigend KI-generierte Antworten gegenüber Antworten ihrer Fachkollegen auf Fragen von Studierenden, was darauf hindeutet, dass dies die Art der juristischen Ausbildung beeinflussen könnte
  • In einer Blindbewertung mit 16 Jura-Professoren von US-Law-Schools wurden rund 3.000 anonyme Vergleiche durchgeführt, und KI erzielte in direkten Vergleichen mit Professorenantworten eine Gewinnrate von 75 %
  • Die Teilnehmenden erstellten 40 Fragen, wie sie Studierende nach einer Vertragsrechtsvorlesung oder in der Sprechstunde stellen könnten, beantworteten sie selbst und bewerteten anschließend ohne Kenntnis der Quelle Antworten von KI und Fachkollegen
  • Professoren stuften 3,5 % der KI-Antworten als pädagogisch schädlich ein, gegenüber 12 % der Antworten von Fachkollegen; das KI-System erreichte damit ein Leistungsniveau ähnlich dem besten menschlichen Lehrenden der Studie
  • Die Ergebnisse sprechen zwar nicht für eine uneingeschränkte Einführung von KI-Tutoren, liefern aber eine Grundlage, um auch in urteilsintensiven Bereichen wie der Rechtswissenschaft über verantwortungsvolle Formen des Einsatzes zu diskutieren

Studiendesign und zentrale Ergebnisse

  • Die von Stanford-Law-School-Professor Julian Nyarko geleitete Studie „Law Professors Prefer AI Over Peer Answers“ prüfte, ob große Sprachmodelle als effektive Tutoren im Vertragsrechtsunterricht eingesetzt werden können
  • An der Studie nahmen 16 Jura-Professoren von US-Law-Schools teil. Die Teilnehmenden formulierten 40 typische Fragen zum Vertragsrecht, die Studierende nach dem Unterricht oder in der Sprechstunde stellen könnten, und beantworteten sie selbst
  • Die Professoren bewerteten Antworten, ohne zu wissen, ob sie von einer KI oder von anderen teilnehmenden Professoren stammten; in rund 3.000 anonymen Vergleichen erzielten die KI-Antworten eine direkte Gewinnrate von 75 %
  • Das Forschungsteam passte Länge und Struktur der KI-Antworten an menschliche Antworten an, nutzte mehrere Bewertungsmethoden und ließ die Professoren zudem einschätzen, ob Antworten Studierende in die Irre führen oder verwirren könnten
  • Das KI-System erreichte ein Leistungsniveau ähnlich dem besten menschlichen Lehrenden der Studie, und der Anteil der als pädagogisch schädlich markierten Antworten lag bei 3,5 % bei KI-Antworten und 12 % bei Antworten von Fachkollegen

Bedeutung und Grenzen für die juristische Ausbildung

  • In der Rechtswissenschaft gibt es oft keine eindeutig richtige Antwort, und auch widersprüchliche Argumente können überzeugend sein. Daher sind Urteilsvermögen, differenziertes Schlussfolgern und der Umgang mit Mehrdeutigkeit besonders wichtig
  • Das Forschungsteam untersuchte auch kommerzielle Tutor-Systeme und verschiedene KI-Modelle, darunter Googles NotebookLM; dabei zeigten sich Leistungsunterschiede zwischen den Modellen
  • Selbst wenn Kontextbeschränkungen die KI-Antworten beeinflussten, bevorzugten die Professoren diese häufig gegenüber von Menschen verfassten Alternativen
  • Law-Schools müssen bei der Integration von KI-Tools in die juristische Ausbildung strenge akademische Standards wahren und zugleich Risiken wie Halluzinationen, Überabhängigkeit und eine Schwächung des kritischen Denkens berücksichtigen
  • Die Studie bewertete die Qualität der von KI-Tools erzeugten Antworten, doch welche Implementierungsform das Lernen von Studierenden am effektivsten verbessert, ist weiterhin offen. Die Diskussion sollte sich daher von der Frage, ob KI genaue und hochwertige Antworten geben kann, hin dazu verlagern, wie sie so verantwortungsvoll eingesetzt wird, dass sie Studierenden tatsächlich hilft

1 Kommentare

 
GN⁺ 2 시간 전
Hacker-News-Kommentare
  • Diese Studie wirkt ziemlich fragwürdig. Ich müsste tiefer graben, aber bei jedem, der das liest, sollten definitiv ziemlich laut Alarmglocken läuten
    Abbildung 2 (Seite 6) sieht problematisch aus. Es gibt nur 16 Professoren, aber jeweils 3.000 Vergleiche, und die Ergebnisse schwanken auch stark von Professor zu Professor. Die Streuung ist sehr groß, was wie ein Signal dafür wirkt, dass der Studie eine sinnvolle statistische Teststärke fehlt
    Außerdem tauchen in den Hauptergebnissen nur Google-Modelle auf, was ebenfalls nach einem klaren Bias aussieht. Andere Modelle erscheinen an anderer Stelle, also stellt sich die Frage, warum sie in den Kernergebnissen fehlen
    Ich bin kein Rechtsexperte, kenne mich aber ziemlich gut mit Statistik aus, und ich kann mit Überzeugung sagen, dass dieses Paper verdächtig riecht. Ich kann nicht sicher behaupten, dass es Unsinn ist, aber überall gibt es Warnsignale

    • Stimmt schon, aber vor zwei Jahren hieß es noch, KI sei „ein beeindruckendes Werkzeug, werde Wissensarbeiter aber nicht ersetzen“, und jetzt sind wir bei „es könnte methodische Mängel in einer Studie geben, die zeigt, dass sie Spitzen-Wissensarbeiter geschlagen hat“. In zwei Jahren ist es wohl vorbei
    • Noch grundlegender wirkt der gesamte Aufbau der Studie sinnlos. Man hat sie als Frage-Antwort-Format aufgebaut und dann Menschen die Antworten bewerten lassen, aber genau das ist buchstäblich die Aufgabe, für die LLMs trainiert werden. Es geht letztlich darum, Menschen dazu zu bringen, den Knopf „diese Antwort ist besser“ zu drücken
    • Unabhängig davon, dass das ganze Paper etwas vage sein könnte, ist interessant, dass bei Instructor 3 und 8 die Schädlichkeitsrate deutlich niedriger ist als bei den LLMs, die Präferenzwerte aber dennoch nicht am höchsten sind. Schädlichkeit bewegt sich entgegengesetzt zur Präferenz, aber nicht perfekt. Selbst bei der Auswahl durch Experten scheint ein gewisses Maß an Charisma Einfluss zu haben
    • Die Zahl von 3.000 scheint von hier zu kommen und wird im Paper erklärt
      Dort steht, dass die Professoren als Gutachter 2.918 verblindete Forced-Choice-Vergleiche durchgeführt haben, wobei der Median pro Gutachter bei 200 lag und sie jeweils zwischen einer anonymisierten Antwort eines Dozenten und einer LLM-Antwort auswählen sollten, welche sie einem Studenten geben würden
    • Wenn man sich Papers heutzutage ansieht, wird es immer häufiger zu „wir haben acht Leute interviewt und ziehen auf Basis von Expertenmeinungen Schlussfolgerungen“. Gerade im Bereich KI und Cybersicherheit ist das besonders verbreitet
      Ich habe sogar ein Paper gesehen, das Interviews und Protokolle in ChatGPT eingegeben und die Ergebnisse dann als „Methodologie“ bezeichnet hat. Es wurde peer-reviewt und veröffentlicht
  • Vielleicht lässt sich das ähnlich erklären wie bei Hollywood-Filmen. Wenn ein Film so gemacht wird, dass er die größtmögliche Zahl von Menschen zufriedenstellt, ist es wahrscheinlicher, dass Leute ihn gegenüber anderen Filmen wählen
    Ein menschlicher Jura-Professor bringt seine Persönlichkeit, Überzeugungen und Meinungen in seinen Text ein, während ein LLM darauf trainiert ist, das breiteste Publikum zufriedenzustellen. Das bedeutet aber nicht, dass die Antwort besser ist. Captain America ist ja auch nicht zwangsläufig ein besserer Film als American Beauty

  • Als Softwareentwickler hat man ein gewisses Gespür dafür, welche Aufgaben man einem Agenten gefahrlos überlassen kann.
    Aber wenn man einer KI die Erstellung von Entwürfen für juristische Dokumente überträgt, ist dieses Gespür dafür, was schiefgehen könnte, nicht in ähnlicher Weise kalibriert. So etwas wie das Aufsetzen eines Testaments wirkt oberflächlich harmlos, aber eigentlich weiß ich es nicht. Das Rechtssystem ist berüchtigt für seine vielen Fallstricke.

    • Ich habe allgemeine LLM-KI, also etwa gewöhnliches Claude oder GPT, oft für Entwürfe juristischer Dokumente verwendet. Die größte Falle sind halluzinierte Rechtsprechungszitate.
      Sie fügen leicht plausibel klingende Zitate aus anderen Fällen ein, die das gewünschte Argument scheinbar perfekt belegen, und erfinden sogar echt wirkende Fallnamen wie United States v. Shenzhou Electronics Inc. Mehrfach habe ich geprüft und keine falschen Zitate gefunden, nur um mich sicher zu fühlen, und dann enthielt der nächste Schriftsatz plötzlich drei davon.
      Trotzdem sind Anwälte, die LLMs nicht für Recherchen nutzen, im Rückstand. Sie sind unglaublich gut darin, Nischenfälle zu finden, auf die man allein niemals gestoßen wäre. Früher lief vieles über exakte Suchwortübereinstimmungen, was für juristische Recherche oft von Natur aus wenig nützlich war. Man braucht etwas, das auch mit vageren Kriterien suchen kann, und darin ist KI sehr gut. Die Ergebnisse müssen aber unbedingt überprüft werden. Die LLMs von Lexis Nexis oder Westlaw sind wahrscheinlich besser als allgemeine Modelle.
      LLMs sind hervorragende juristische Hilfskräfte. Wer juristisch arbeitet, sollte sie schon allein zum Brainstorming nutzen. Sie eignen sich auch gut als Advocatus Diaboli aus der Gegenseite. Ein Freund von mir lässt sie immer die Rolle des gegnerischen Anwalts spielen und prüft so alle zu erwartenden Gegenargumente.
      Genau wie in der Softwareentwicklung gilt: Wenn das erzeugte Ergebnis wichtig ist, muss man die Ausgabe überprüfen.
    • Das dürfte für die meisten qualifizierten Berufe gelten. KI wird am besten von Menschen genutzt, die die jeweilige Fähigkeit oder den Beruf bereits gut beherrschen.
      Es ist wie der Unterschied zwischen meinen Suchanfragen als Systemadministrator und denen von Jane aus der Buchhaltung. Nichttechnische Endnutzer verschlimmern Probleme eher oder installieren mit deutlich höherer Wahrscheinlichkeit etwas Verdächtiges aus mit Werbung überladenen Suchergebnissen. Bei mir oder einem Helpdesk-Mitarbeiter ist das viel unwahrscheinlicher.
      Ich würde es nicht vertrauen, mit KI wichtige juristische Dokumente ohne anwaltliche Beratung zu erstellen. Genauso wenig möchte ich darauf angewiesen sein, dass mein Anwalt meinen Code mit KI schreibt.
    • Als Anwalt und Softwareentwickler ist mein bisheriger Eindruck, dass die Fehlerrate von LLMs bei Code und bei Entwürfen juristischer Dokumente ziemlich ähnlich ist. Im juristischen Kontext ist das aber problematischer, weil juristischen Dokumenten viele strukturelle Sicherheitsmechanismen fehlen, die es bei Code gibt.
      Juristische Dokumente haben keine automatisierten Tests, keine statischen Typen, keine Testumgebung, kein Logging/Observability-Instrumentation und kein Sandboxing.
      Auch die Zeitverzögerung zwischen Erstellung und „Deployment“ macht die Debugging-Schleife deutlich weniger effektiv und teurer. Code kann man in Sekunden in Produktion bringen, Fehler in den Logs sehen und sofort debuggen. Fehler in Verträgen oder Gerichtseinreichungen werden dagegen oft erst nach Tagen, nicht selten erst nach Jahren entdeckt, und dann lassen sie sich häufig nicht mehr korrigieren. Dadurch sind Fehler sowohl schwerer zu finden als auch schwerer zu beheben.
      Die Folgen von Fehlern sind meist auch viel gravierender. Oft lassen sie sich nicht mehr rückgängig machen, und juristische Fehler können Leben, Freiheit oder erhebliches Vermögen von Menschen gefährden. Natürlich können Bugs in sicherheitskritischen Systemen genauso schlimm oder schlimmer sein als juristische Fehler, also ist das keine absolute Trennlinie. Trotzdem ist im Allgemeinen die meiste Software weniger riskant als die meisten juristischen Dokumente.
      Umgekehrt scheinen LLMs bei grundlegender Stilistik und Struktur juristischer Dokumente besser zu sein als bei Code. Dazu gehören Dinge wie das Einhalten des IRAC-Schemas, das Anfügen von Zitaten an Rechtsaussagen und das Schreiben verständlicher Sätze. Halluzinationen bleiben natürlich weiterhin ein Problem. Im Code entspräche das Best Practices wie gute Kommentare, Kohäsion, konsistente Nutzung von Design Patterns, Testabdeckung, klare Variablennamen und DRY.
      Dass sie bei solchen qualitativen Maßstäben besser sind, könnte daran liegen, dass selbst sehr lange juristische Dokumente strukturell meist einfacher sind und weniger Textzeilen haben als große, komplexe Codebasen. Oder daran, dass LLMs stärker auf natürlichsprachlichen Text als auf Code trainiert wurden. Es könnte auch daran liegen, dass natürliche Sprache toleranter ist als Code. Kleine Unterschiede in Formulierung oder Grammatik beeinflussen die Auslegung eines Dokuments oft nicht wesentlich, während ein einzelner falscher Buchstabe im Code enorme Auswirkungen haben kann.
    • Dass das Aufsetzen eines Testaments harmlos sei, stimmt überhaupt nicht. Für einen Nachlassverwalter, der ein kaputtes KI-Testament abwickeln muss, ganz sicher nicht. Ich habe im Frühjahr den Nachlass meines Vaters geregelt, und selbst ein sehr einfacher Nachlass war ein frustrierender und verwirrender Prozess.
    • Ich halte das Aufsetzen eines Testaments nicht für harmlos. Wenn es fehlerhaft erstellt wird, bürdet es den nächsten Angehörigen massive Probleme auf und kann zu einem Nachlassverfahren führen, das sich über Monate oder Jahre zieht.
  • Selbst wenn diese spezifische Studie schlecht sein sollte, ist das insgesamt nicht besonders überraschend
    In der juristischen Arbeit gibt es Bereiche, in denen große Mengen an Text analysiert, Schlussfolgerungen daraus gezogen und darauf basierend weitere Texte verfasst werden. Das ist buchstäblich das Kerngeschäft von LLMs
    Die Anwälte dieser Art sollten ganz vorne in der Arbeitslosenschlange stehen. Nicht Programmierer, nicht einmal ansatzweise vergleichbar

    • Nur weil etwas theoretisch zum Kerngeschäft von LLMs gehört, heißt das nicht, dass LLMs diese Arbeit auch leisten können. Frühere Überzeugungen beiseite: Das muss weiterhin bewiesen werden. Das Recht ist ein lebensrelevantes System und muss auf höchstem Niveau geprüft werden
    • Dass es zum Kerngeschäft von LLMs gehört, stimmt. Aber im Hinblick auf den Einsatz von LLMs hat Programmierung gegenüber dem Recht viele Vorteile
      Man kann Logik ausführen und mit den Ausgaben Schleifen bilden. Es ist leichter, nützliches Reinforcement Learning aufzusetzen, und auch leichter, synthetische Trainingsdaten zu erzeugen. Tool-Nutzung und parallele Agenten lassen sich ebenfalls ganz natürlich unterstützen. Auch die API-Integration ist einfacher als bei den wenigen APIs, die Gerichtssysteme bereitstellen
      In der Programmierung werden Abstraktionen auf Funktions- und Modulebene explizit kodiert, daher ist es leichter, daraus Wissensgraphen zu bilden, darüber zu schlussfolgern und darauf aufzubauen als aus bloßen Textfragmenten
    • Dasselbe Problem von AI sieht man sowohl in der Programmierung als auch im Recht
      AI ist wie ein Schorf auf einer Wunde. Sie stopft vorübergehend Lücken und stürzt sich darauf, Leerstellen zu füllen, wird aber wahrscheinlich nicht die endgültige Lösung sein
      Die Modelle haben gezeigt, dass es sowohl in Software als auch im Recht einen riesigen ungedeckten Bedarf an Literalität gab. Jetzt ist die Wahl, ob wir die strukturellen Ursachen dieses ungedeckten Bedarfs angehen oder ob wir Schicht um Schicht AI-Schorf darüberlegen und ihn verbergen
    • Gegenstand dieser Studie sind Leute aus der Wissenschaft. Ich will sie oder ihre Arbeit nicht herabsetzen, aber das ist sehr anders als Transaktions- oder Prozessarbeit in BigLaw
      Es ist viel stärker darauf fokussiert, vorhandene Texte zu analysieren und zusammenzufassen, und diese Texte selbst lassen sich auch leichter für das LLM-Training verwenden. Dinge wie Gesetze, Präzedenzfälle, juristische Fachzeitschriften und Lehrbücher
      Deshalb ist es wahrscheinlich die am leichtesten zu „LLM-isierende“ Form juristischer Arbeit, aber zugleich womöglich auch die mit dem geringsten Wert. Juraprofessoren werden schließlich nicht so bezahlt wie BigLaw-Anwälte. Dieser Ansatz wird sich nicht unverändert skalieren lassen. Das heißt nicht, dass AI nicht in BigLaw eindringen kann, aber das wäre eine andere Herausforderung
  • Ich verstehe, warum die Diskussion unter diesem Artikel in diese Richtung läuft, aber die Studie selbst konzentriert sich auf die Möglichkeit, dass LLMs als Tutor für Jurastudierende funktionieren. Es ist interessant, das auf die Frage auszuweiten, ob LLMs Anwälte ersetzen werden, aber darum ging es in der Studie selbst nicht
    Wenn der Rahmen lautet, LLMs als juristische Tutoren zu nutzen und die Kosten juristischer Ausbildung zu senken, dann wirkt das wie ein gesellschaftlich positives Ergebnis. Mehr noch: Wenn moderne LLM-Systeme Zugriff auf juristische Referenzmaterialien haben, erscheint es auch intuitiv plausibel, dass sie Fragen von Studierenden umfassend beantworten und Hinweise oder direkte Verweise auf Lehrmaterialien oder Primärquellen geben können. Die Studienergebnisse scheinen in diese Richtung zu weisen
    Die Autoren betonen ausdrücklich und bewusst, dass viele juristische Fragen keine isolierte berechenbare Antwort haben, sondern Kontextualisierung erfordern. Die Ergebnisse legen nahe, dass LLM-basierte Systeme mit der „stochastischen Erzeugung optimal passender Algorithmen“ moderner Sprachmodelle die Fragen der Studierenden angemessen kontextualisieren, die in den Fragen angelegten Abwägungen oder Komplexitäten erklären und entscheidend diese Komplexität den Studierenden so vermitteln können, dass sie dem professionellen Standard juristischer Lehrender entsprechen
    Realistisch betrachtet hoffe ich, dass dieses Ergebnis HN-Lesern etwas mehr Vertrauen gibt, dass sie bei juristischen Fragen an ein LLM Antworten erwarten können, die die Komplexität des jeweils relevanten Rechts erklären. Das sind gute Nachrichten und, sofern die Zeit es erlaubt, wahrscheinlich das Minimum an Vorarbeit, das wir vor einer echten anwaltlichen Beratung leisten sollten
    Umgekehrt denke ich nicht, dass diese Studie ein Signal dafür gibt, dass LLMs bereits bereit sind, tatsächlich direkte Rechtsberatung zu leisten. Das ist ähnlich dazu, dass ein juristisches Lehrbuch keine Rechtsberatung ersetzt, oder genauer gesagt dazu, dass es nicht dasselbe Ergebnis garantiert, nur weil ich zufällig einen Rechtsfall gefunden habe, der meiner Situation grob ähnelt

    • Es scheint zu zeigen, dass LLMs klug genug sind, um im Kontext juristischer Ausbildung eingesetzt zu werden
  • Figure I.1 sagt eine Menge aus. Die Länge der Antwort erweist sich als der stärkste Prädiktor für die Gewinnrate. Das liegt wahrscheinlich an einem methodischen Mangel der Studie
    Die Professoren wurden angewiesen, knapp zu antworten. So etwas wie: „Bitte verfassen Sie es kurz. Es wird erwartet, dass die Ausarbeitung jeder Antwort nicht mehr als 3 Minuten dauert“, und das hat sie vermutlich in Richtung kurzer Antworten verzerrt. Es kann gut sein, dass die Professoren in einer Situation, in der sie ohnehin knapp schreiben sollten, nicht viel Mühe in ihre schriftlichen Antworten investiert haben. Das ist nicht die Schlagzeile, die die Autoren daraus machen möchten

  • Es überrascht mich, dass Stanford Law einem derart überzogenen Titel der Pressemitteilung zugestimmt hat. Wäre nicht eher so etwas passend wie: „Bei allgemeinen Fragen zum Vertragsrecht im ersten Studienjahr bevorzugten Juraprofessoren AI-generierte Antworten gegenüber von Professoren verfassten Antworten“

    • Der geänderte Titel ist korrekt. Es wirkt seltsam, wenn Wissenschaftler mit überzogenen Behauptungen den Unternehmenswert hochzutreiben scheinen, als wären sie CEOs eines Spitzenforschungsinstituts
  • Meine beste Vermutung ist, dass Gemini auf dem Lehrbuch trainiert wurde, das durch die Fragen getestet werden sollte, und daher bei der expliziten Erinnerung an diese Fragen oder verwandte Fragen stärker war
    Nach dem, was in der Methodik des Papers steht, handelt es sich um einen ziemlich eng begrenzten Einführungskurs

    • Hinzu kommt, dass diese Studie am Stanford-HAI-Institut durchgeführt wurde, deutlich voreingenommen wirkt und dem Paper auf merkwürdige Weise eine Interessenkonflikt-Erklärung fehlt
      Korrektur: Ich habe gerade erfahren, dass Google ein bedeutender Geldgeber von HAI ist. Dann wurde diese Studie also zumindest teilweise von Google finanziert. Wahrscheinlich ist das auch der Grund, warum die Autoren nicht erklären konnten, dass keine Interessenkonflikte vorliegen
  • Der juristische Bereich passt seinem Wesen nach ideal zu AI-Sprachmodellen. Im Kern basiert dort alles auf miteinander verknüpften Texten
    Ich könnte mir vorstellen, dass hier eine noch größere Entlassungswelle kommt als in der IT. Allerdings wird vermutlich auch stärkeres Lobbying einsetzen, und man wird versuchen, den Wert der eigenen Arbeit massiv aufzublähen und Eindringlinge von außen fernzuhalten

    • Als Anwalt halte ich dieses Bauchgefühl zu LLMs für richtig. Recht ist das Sprachspiel, das LLMs gut beherrschen
      Aber diese Welle hat bereits begonnen und wird riesig sein. Unternehmenskunden verlangen den Einsatz von AI. Sie wollen nicht dafür zahlen, dass ein Associate stundenlang einen Entwurf schreibt und ein Partner ihn danach prüft. Sie wollen, dass ein Top-Partner AI nutzt und nur noch Korrekturen vornimmt
  • Was LLMs nicht können, ist zu erklären, warum sie unter Kreuzverhör etwas so gesagt haben. Sie halluzinieren lediglich die bestmögliche Erklärung dafür, warum jemand das von ihnen Gesagte wohl gesagt haben könnte, und können ebenso plausibel darlegen, warum jemand etwas anderes gesagt haben könnte
    Die Frage „Warum wurde dies gesagt und nicht jenes?“ zwingt sie nicht dazu, die Grundlage der Aussage offenzulegen, sondern nur dazu, eine neue, komplexere Aussage zu erzeugen

    • In einfachen Fällen stimmt das.
      Es gibt jedoch LLM-Kontextkonstruktionsverfahren, die das Endergebnis in einer Datenstruktur fixieren. Diese Datenstruktur bewahrt die Struktur der Argumente, die die im fertigen Text enthaltenen Schlussfolgerungen stützen. Die Organisation von Logik in Sprache ist ein reichhaltiges Feld mit vielen Mustern; mein Favorit ist dabei der sogenannte Claim Dependency Graph, der Beziehungen zwischen atomaren Behauptungen als Graphkanten modelliert.
      Auf solchen Strukturen lassen sich viele Operationen ausführen, und „rekonstruiere, wie du zu dieser Schlussfolgerung gelangt bist“ gehört eindeutig dazu
    • Menschen haben einen tatsächlichen Antrieb, dem Rahmen geäußerter Gedanken Form zu geben. LLMs erzeugen dagegen als Reaktion auf den Verlauf der Fragen neu generierte Gedanken
    • Wahrscheinlich gilt Ähnliches auch für Menschen. In Gesprächen antworten wir oft instinktiv und konstruieren erst auf Nachfrage nachträgliche Rationalisierungen.
      Selbst bei stärker durchdachten Gedanken erinnern wir uns mit etwas Glück noch an eine „Spur des Schlussfolgerns“, aber weiter reicht unsere Selbstbeobachtung nicht. Wenn wir keine Neurowissenschaftler sind, wissen wir nicht einmal, wie viele Neuronen wir haben, geschweige denn, wie sie Gedanken hervorbringen.
      Motiviertes Schlussfolgern erschwert die Selbstbeobachtung zusätzlich, und wenn dann noch Unehrlichkeit und Kommunikationsfehler hinzukommen, können wir selbst die verbleibende begrenzte Information einander nicht zuverlässig vermitteln.
      Die Forschung zur Interpretierbarkeit von Modellen hat große Fortschritte gemacht. Zugespitzt könnte man bereits argumentieren, dass wir KI-Entscheidungen besser erklären können als die Entscheidungsfindung des menschlichen Gehirns
    • LLMs halluzinieren, weil Menschen halluzinieren.
      Wenn man LLMs auffordert, Quellen als Anmerkungen anzugeben, kann das — ähnlich wie beim Menschen — das Pattern Matching zur nahen Nachbildung von Logik erheblich verbessern.
      Ich verstehe, was mit der Frage „Warum wurde dies gesagt und nicht jenes?“ gemeint ist. Ich habe nur auch andere Arten gesehen, so zu fragen, dass LLMs nicht in die entgegengesetzte Richtung überreagieren