Sind KI-Detektoren wirksam? Studierende sehen sich ungerechtfertigten Betrugsvorwürfen ausgesetzt

(bloomberg.com)

1 Punkte von GN⁺ 2024-10-21 | 1 Kommentare | Auf WhatsApp teilen

Da KI-Erkennungstools bei der Bewertung von Aufgaben eingesetzt werden, kann die Einstufung eines studentischen Textes als KI-generiert unmittelbare Folgen für die Note und die Bewertung als Täuschungsversuch haben
Moira Olmsted sagt, dass eine von ihr 2023 in einem Online-Kurs der Central Methodist University eingereichte Aufgabe als möglicherweise KI-generiert eingestuft wurde und sie deshalb 0 Punkte erhielt
Der Dozent verwies Berichten zufolge auf das Ergebnis eines Erkennungstools und antwortete, dass Olmsteds Text zuvor bereits mindestens einmal markiert worden sei
Olmsted hatte parallel zu einer Vollzeitstelle und Kinderbetreuung begonnen, Geld für ein ortsunabhängiges, selbstgesteuertes Programm zu sparen, um eine Lehramtsausbildung zu beginnen
Wenn rund zwei Drittel der Lehrkräfte regelmäßig Tools zur Erkennung KI-generierter Inhalte nutzen, kann selbst eine kleine Fehlerquote für viele Studierende große Folgen haben

Fall eines Studierenden, der wegen eines KI-Erkennungstools 0 Punkte bekam

Moira Olmsted hatte zu Beginn der Pandemie ihr Studium unterbrochen, eine Familie gegründet und wollte anschließend an die Hochschule zurückkehren
Während sie in Vollzeit arbeitete und sich um kleine Kinder kümmerte, sparte sie mehrere Monate lang die Kosten für ein selbstgesteuertes Programm, das Fernunterricht ermöglichte
2023, im siebten Monat mit ihrem zweiten Kind schwanger, schrieb sie sich in einen Online-Kurs der Central Methodist University ein und begann ihr Studium, um Lehrerin zu werden

Die Einstufung nach der Abgabe

Einige Wochen nach Beginn des Herbstsemesters reichte Olmsted in einem Pflichtkurs eine Schreibaufgabe ein
Die Aufgabe war eine von drei wöchentlichen Lesezusammenfassungen
Die anschließende Bewertung lautete 0 Punkte
Als Olmsted den Dozenten fragte, antwortete dieser Berichten zufolge, dass ein KI-Erkennungstool den Text als möglicherweise von künstlicher Intelligenz erstellt eingestuft habe
Der Dozent soll außerdem gesagt haben, dass Olmsteds Text zuvor bereits mindestens einmal markiert worden sei

Weit verbreitete Erkennungstools und die Last von Fehlern

Rund zwei Drittel der Lehrkräfte geben an, regelmäßig Tools zur Erkennung KI-generierter Inhalte zu verwenden
Je größer der Einsatzumfang wird, desto schneller kann sich selbst eine sehr kleine Fehlerquote summieren
Wenn Erkennungsergebnisse zu Notenabzügen und Betrugsvorwürfen führen, stellt eine falsche Einstufung für einzelne Studierende eine große Belastung dar

1 Kommentare

GN⁺ 2024-10-21

Hacker-News-Kommentare

Ich habe 30 Jahre lang Mathematik in der Hochschulbildung unterrichtet und gehe bald in Rente; bei benoteten Aufgaben, die nicht im beaufsichtigten Klassenraum stattfinden, gibt es enorm viel Betrug
Mit Dingen wie Browser-Lockdown lässt sich das nicht verhindern. Die einzige Lösung wäre, beaufsichtigte Präsenzprüfungen vorzuschreiben und während der Prüfung keinerlei Technik zuzulassen, aber dann würde sich niemand mehr für den Kurs einschreiben. Mir fällt nur ein, dass die Higher Learning Commission das für alle Kurse verpflichtend machen müsste
Das größere Problem ist, dass Studierende nicht daran gewöhnt sind, die Arbeit zu tun, die nötig ist, um zu lernen, sondern nur die Arbeit, die nötig ist, um zu bestehen. Und das wird immer mehr zu Betrug. Es gibt sogar Analysis-Studierende, die nicht mit Brüchen umgehen können. Wenn man ein System schaffen würde, das Betrug wirklich verhindert, käme ans Licht, dass ein sehr hoher Anteil der heutigen College-Studierenden nicht auf echte Hochschulbildung vorbereitet ist. Auch K-12 muss sich ändern
- Ich denke, wir haben die Kosten des Scheiterns viel zu hoch gemacht und Betrug viel zu einfach
  Aus Sicht der Studierenden schauen die nächsten Institutionen meist in dieser Reihenfolge auf Noten, Hochschule, Studienfach. Wenn die Kosten dafür, kein A zu bekommen, darin bestehen, von künftigen Chancen ausgeschlossen zu werden, dann wählen Studierende leichtere Kurse oder betrügen, um diesen Ausschluss zu verweigern
  Ich habe Physik studiert, die schweren Kurse belegt, die ich belegen wollte, nicht betrogen und mit einem Schnitt von 2,7 abgeschlossen; solche Entscheidungen haben reale Folgen. Die Lösung ist meiner Meinung nach, die Abhängigkeit von Bewertungsformen zu verringern, die leicht zu betrügen sind oder die in der realen Welt ohnehin am Computer erledigt würden
- In Deutschland laufen alle Prüfungen so. Hausaufgaben sind nur Voraussetzung für die Prüfungszulassung, oder es gibt ein paar Bonuspunkte für Aufgaben/Projekte, und die Note wird durch die Prüfung bestimmt
  Pflichtfächer sind für den Abschluss nötig; wenn also Lineare Algebra im Curriculum steht, kann man sich nicht einfach „nicht einschreiben“. Wenn man dreimal durchfällt, wird man exmatrikuliert
  Das liegt daran, dass deutsche und die meisten europäischen Universitäten steuerfinanziert sind. In den USA ist es aus Sicht der Universitäten profitabler, zahlende Studierende möglichst lange zu halten, daher werden sie den gerade beschriebenen Weg weitergehen. Es ist eine Dienstleistung, mit einer Kundenstruktur, in der Abschlüsse gekauft werden
- Absolut richtig, und das ist nicht auf die USA beschränkt
  Ich hatte an der Uni einen Kurs in Computergrafik, in dem bei den Problem Sets dank Bonusaufgaben buchstäblich alle über 100 % hatten, während der Median in der Zwischenprüfung unter 50 % lag. Ich erinnere mich, dass der Professor in einer Prüfungsvorbereitung Fragen entgegennahm und ein Student ganz ernsthaft darum bat, noch einmal das gesamte Konzept von Matrizen zu erklären
  Wohlgemerkt, das war ein 400er-Kurs und an einer der besten Universitäten Kanadas. Das ist über 20 Jahre her, also ist es inzwischen vermutlich irgendwie noch schlimmer geworden
- Ich erinnere mich, dass ein Professor in einer Uni-Matheveranstaltung einen ungewöhnlichen Umgang mit Betrug hatte. Er erlaubte Bücher, Notizen und „jede Rechnerfunktion“, die ein TI-84 hatte
  Die Logik war: Die Studierenden werden solche Tricks ohnehin zu nutzen versuchen, also erlauben wir es und gestalten die Prüfung so, dass sie gegen diesen Vorteil immun ist. Vor jeder Prüfung sagte er, man dürfe die Hilfsmittel benutzen, aber „lernt trotzdem, Bücher, Notizen und Taschenrechner werden euch nicht retten“
  Langfristig wird Bildung wohl eher in die Richtung gehen, Curricula so zu verändern, dass AI-Tools keinen großen Vorteil bieten, statt die Nutzung von AI-Tools zu verhindern
- An „die Dinge tun, die nötig sind, um zu bestehen“ sind auch Bewerbungsgespräche nicht unbeteiligt
  Ich habe als Interviewer in der Softwareentwicklung Hunderte technische Interviews geführt und helfe auch heute noch als unabhängiger Interviewer bei Einstellungen; es gibt extrem viel Betrug. Bei normalen Firmen sind es meiner Meinung nach mindestens 30 %, bei FAANG über 50 %
  Sehr viele Leute teilen technische Aufgaben in privaten Gruppen und Foren und bekommen während des Interviews in irgendeiner Form Hilfe. Immer wieder sieht man, wie absichtlich kompliziert gemachte Probleme in wenigen Minuten auf die bestmögliche Weise gelöst werden
Es ist inzwischen nicht mehr effektiv, allein anhand von schriftlichen Essays zu bewerten, wie tief ein Student ein Thema verstanden hat
AI wird bleiben, und wir brauchen neue Methoden, um die Leistung von Studierenden zu bewerten. Ich erinnere mich noch daran, dass uns in der Schule gesagt wurde, wir dürften in Prüfungen keine Taschenrechner benutzen. Die Lehrkräfte sagten: „Man kann sich nicht darauf verlassen, dass man immer genau dann einen Taschenrechner zur Hand hat, wenn man ihn braucht“, aber heute ist die Ironie, dass wir rund um die Uhr einen „Taschenrechner“ in der Hosentasche haben
Wir müssen akzeptieren, dass sich die Welt verändert hat. Ich hoffe nur, dass wir gemeinsam entscheiden können, wie die Gesellschaft darauf reagiert, statt dazu gezwungen zu werden
- Die Bewertung anhand schriftlicher Essays ist weder heute noch früher eine effektive Bewertungsmethode gewesen. Es war eine Sparmaßnahme, weil Institutionen sich unmöglich leisten konnten, jedem Studierenden in jeder Lehrveranstaltung 30 Minuten Einzelgespräch zur Bewertung zuzuweisen
  Daran sollte man denken, wann immer man Studienkredite betrachtet. Nicht einmal mit diesem Geld konnte man sich pro Kurs 30 Minuten individuelle Bewertung mit einer Lehrkraft leisten; stattdessen ließ man Studierende viel mehr Zeit in Schreibaufgaben stecken und schob die Benotung auf Hilfskräfte zum Mindestlohn ab
- Tiefes Verständnis allein über schriftliche Essays zu messen, war schon immer ineffektiv und ist durch AI nur noch ineffizienter geworden
  Das Paradebeispiel sind College-Bewerbungsessays. Manche Studierende haben Eltern, die ihnen Erfahrungen verschaffen können, die in Essays gut aussehen, und können außerdem Tutoren bezahlen, die das Schreiben des Essays „unterstützen“. Etwa Bildungsreisen nach Afrika, Unterricht in zwei Instrumenten oder 1:1-Golfcoaching
  AI hat lediglich den Teil mit den Tutoren für eine breitere Schicht zugänglich und bezahlbar gemacht. Es ist naiv zu glauben, dass es schon vor AI nicht bereits einen Graumarkt für Essay-Coaching und einen dunkleren Markt für Ghostwriting-Dienste gab. In vielen Fällen funktionieren diese Märkte immer noch besser als AI
- Dass die Gesellschaft gemeinsam entscheidet, wie sie auf Veränderungen reagiert, passiert in der Praxis fast nie; stattdessen wird das Ergebnis durch irgendeine Form von Kampf bestimmt
  Meist ist es ein friedlicher Kampf vor Gerichten, in Parlamenten und auf Märkten, aber ein Kampf bleibt es trotzdem
  Studierende werden jetzt gerade bewertet; wenn also neue Bewertungsmethoden nötig sind, brauchen wir jetzt Antworten. Man könnte zu den alten mündlichen Prüfungen zurückkehren, im Promotionsbereich werden sie noch eingesetzt. Aber das ist überhaupt nicht skalierbar. Vielleicht müssten wir Hochschulbildung aggressiv entsprechend der begrenzten Zeit zuteilen, die für Mensch-zu-Mensch-Bewertungen verfügbar ist
  Ich persönlich halte das alles für unvorhersehbar und instabil. Wenn die AI-Befürworter recht haben — was ich nicht glaube —, werden die meisten Büro- und Wissenschaftsbereiche verschwinden, für die Studierende heute ausgebildet und bewertet werden
- Die Regel, in Prüfungen keine Taschenrechner zuzulassen, war meiner Meinung nach nur schlecht begründet; die Regel selbst war gut
  Die Behauptung, man werde keinen Taschenrechner auftreiben können, war schon damals unsinnig, aber die Beobachtung stimmte, dass Abhängigkeit vom Taschenrechner das eigentlich beabsichtigte mentale Training wegnimmt. Es war nur schwer, Zwölfjährigen zu erklären, dass Mathematik tatsächlich schön ist und dass ihre systematischen Prinzipien die Art, wie man die Welt sieht, grundlegend verändern können
  Beim Essay ist es ähnlich. Ich mochte Essayschreiben nicht und habe mir auf verschiedene Weise eingeredet, dass ich später ohnehin nie Essays schreiben würde, aber im Nachhinein sehe ich: Was Essays erzwungen haben, war strukturiertes Denken. Der Essay war kein Werkzeug zur Bewertung einer Fachkompetenz, sondern ein Werkzeug zum Lernen, und der Akt des Schreibens selbst war Teil des Lernens
  Genau das übersehen Aussagen wie „Kinder müssen nicht im Kopf rechnen können“. Rechnen zu können war nur ein Teil; mindestens ebenso wichtig war es zu lernen, dass man diese Rechenmethoden überhaupt lernen kann
- In Frankreich schrieb man Essays im Unterricht, ohne Handy und ohne Bücher, nur mit Papier und Stift und dem eigenen Kopf. Das ist auch heute noch zu 100 % möglich
Der ärgerliche Teil ist, dass Studierende offenbar kein Recht darauf haben, zu erfahren, warum AI ihre Aufgaben markiert hat
Für jedes Verfahren, in dem ein Computer über Menschen urteilt, sollte es die Regel geben, dass der Algorithmus genau erklären können muss, warum er diese Person markiert hat
Das würde aktuelle AI-basierte Lösungen praktisch erledigen. Denn es gibt keine Möglichkeit zu erklären oder zu verstehen, warum eine Arbeit als Plagiat eingestuft wurde oder nicht — und das ist auch gut so
- Einen Schritt weitergehend finde ich, dass AI in überhaupt keinem Kontext Menschen bewerten sollte. Es ist bewiesen, dass das nicht funktioniert, und es wird auch künftig nicht funktionieren
  Wer mehr dazu wissen will: Ich empfehle das aktuelle Buch von Arvind Narayanan und Sayash Kapoor, AI Snake Oil. Es ist kritisch, aber ausgewogen, und hilft dabei, den AI-Hype klarer zu sehen
  https://press.princeton.edu/books/hardcover/9780691249131/ai...
- „Ihre Arbeit wurde als Plagiat markiert, deshalb gibt es 0 Punkte.“ „Ich habe sie zu 100 % selbst geschrieben. Was genau soll plagiiert sein?“ „Das wird nicht angezeigt, aber 0 Punkte gibt es trotzdem.“
  In welcher Welt ist so etwas fair? Nicht einmal Gerichte funktionieren nach einer solchen Logik
- Das ähnelt dem Problem, dass automatische Betrugserkennungssysteme bei großen Unternehmen wie Google Konten sperren, ohne Gründe zu nennen
  Für solche Fälle sollte es meiner Meinung nach ein Gesetz geben, das eine klare Erklärung verlangt
- Für Kinder und Jugendliche heute muss das wirklich demotivierend sein. Wenn sie AI benutzen, gilt das als Betrug und als moralisch falsch. Wenn sie keine AI benutzen, werden sie am Ende trotzdem beschuldigt, sie benutzt zu haben, oder sie fallen hinter diejenigen zurück, die sie verwenden
  Schon in der Highschool war es schwer genug, herauszufinden, wer man selbst eigentlich ist; damals war Kafka nur Pflichtlektüre
- Diese Forderung ist ein großer Bestandteil der GDPR
Ich bin Berater in einem großen Universitätsklinikum und Niederländer. Vor einigen Jahren bekam ich zu meiner Doktorarbeit den Kommentar, ich hätte sie „von einem Muttersprachler gegenlesen lassen sollen“.
Deshalb lasse ich heute mein Englisch mit ChatGPT prüfen. Ich schreibe selbst, was ich sagen möchte, und bitte dann darum, es „knapper, geschäftsmäßiger und nicht zu amerikanisch“ zu formulieren. Der Standardton ist nämlich übertrieben enthusiastisch, wie ein amerikanischer Kellner.
In 9 von 10 Fällen drückt es das, was ich sagen will, besser aus als ich selbst, mit weniger Worten und in besserem Englisch. Ich würde nicht sagen, dass ich dadurch weniger Zeit für Berichte brauche, aber das Ergebnis ist deutlich besser, als ich es allein hinbekommen hätte.
Ein AI-Detektor mag anschlagen, aber das ist ungefähr so nützlich wie ein Rechtschreibprüfungs-Detektor. Es ist ein großes Sprachmodell, kein großes Faktenmodell. Wenn ich Lehrer wäre, sollte man dann nicht eher Unsinn erkennen können?
Wenn ich einen Schülerbericht sähe, würde ich wohl so Rückmeldung geben: Bitte lasst die Sprache mit ChatGPT prüfen, aber überprüft die Fakten bitte auf andere Weise.
- Als ich in der 11. Klasse war, unterrichtete meine Lehrerin für Advanced English auch AP English, und alle Elftklässler mussten eine Abschlussarbeit schreiben. Sie ließ die Zwölftklässler aus dem AP-Kurs unsere Entwürfe durchsehen und kommentieren.
  Das war für beide Kurse fast kostenloser Unterricht und wirklich hilfreich. Im Jahr darauf habe ich dann dasselbe gemacht. Ich erinnere mich auch daran, dass Computer damals noch relativ selten waren und Tippen eine eigene Fähigkeit war, sodass die meisten Entwürfe handschriftlich waren.
  Es heißt schon lange, wenn man ein Thema wirklich lernen will, soll man es unterrichten. Dieses Hin und Her funktioniert gut, und der Rest der Gesellschaft läuft im Großen und Ganzen auch so. Die Nutzung von AI ist wohl ziemlich ähnlich, aber ich halte einen anderen Menschen für besser. AI hält dich nicht auf dem Flur an und sagt: „Hey, im Mittelteil deiner Arbeit habe ich völlig den Faden verloren, was soll das eigentlich?“ — und manchmal ist genau so ein Hinweis wirklich hilfreich.
- LLMs sind nicht nur für Nicht-Muttersprachler sehr nützlich, sondern auch für englische Muttersprachler, um den Gedankengang und die Struktur eines Textes zu verbessern.
  Einen Text mit klarer Sprache und gut aufgebauter Argumentation zugänglicher zu machen, ist ein wertvoller Dienst am Leser, und ich sehe Menschen positiv, die dafür LLMs nutzen. Ich mache das auch.
- Vom Design her ist es kein großes Faktenmodell, aber im Trainingskorpus stecken zwangsläufig viele „Fakten“. Genauer gesagt sind es Behauptungen, die die Autoren der Ausgangstexte aufgestellt haben.
  Ein Modell, das Sachtexte zu einem bestimmten Thema ausgeben soll, begegnet tatsächlich häufiger Mustern von Behauptungen, die zufällig wahr waren oder zumindest dieselbe Form wie wahre Behauptungen haben und keine klaren Warnsignale tragen.
  Natürlich gerät es manchmal aus der Spur und produziert Halluzinationen. Für Schüler, die die Ausgabe dann nicht überprüfen, ist das Pech. Und wenn ein Motiv fürs Schummeln darin besteht, dass man den Stoff nicht gut genug kennt, um ihn korrekt zu überprüfen, dann dürfte es von solchen Schülern ziemlich viele geben.
Die Schule meines Kindes hat einen neuen Waffendetektor installiert, durch den man beim Betreten gehen muss, und er soll auf „AI“ basieren. Die Schule vertraut dieser AI ziemlich stark.
Allerdings identifiziert die AI die von der Schule ausgegebenen Lenovo-Laptops als Waffen. Deshalb wurden alle Kinder markiert. Statt die Nutzung dieses dummen Werkzeugs einzustellen, lässt man die Kinder nun ihre Laptops herausnehmen, bevor sie durch den Scanner gehen.
Es scheint so zu sein, dass Leute, die nicht klug genug sind, ein „AI“-Produkt kaufen und glauben, es werde die gewünschte Aufgabe erfüllen, obwohl es in Wirklichkeit nicht funktioniert.
- Wenn man das liest, klingt es, als lebte man in einem dystopischen Albtraum.
- Gerade in solchen Bereichen braucht es AI-Regulierung. Die Genauigkeit sollte in einem standardisierten Format offengelegt werden, ähnlich wie Nährwertangaben.
  Wer mit öffentlichen Mitteln solche Systeme kauft, sollte verpflichtet werden, auf Basis der beworbenen Präzision und Recall-Rate einen guten Plan für den Umgang mit zu erwartenden False Positives und False Negatives festzulegen.
- Dann könnte ein Schüler wohl auch einen Laptop aushöhlen und darin eine Waffe versteckt mit hineinnehmen.
- War es Evolv? https://www.theverge.com/2024/4/2/24119275/evolv-technologie...
- Manchmal werden nicht optimale Werkzeuge zur Vermeidung von Klagen eingesetzt.
Es ist ziemlich verrückt, dass Erwachsene innerhalb von ein bis zwei Jahren angefangen haben, einfach irgendeinem Algorithmus zu glauben. Sie wissen nicht, wie er funktioniert, können es nicht erklären, es ist ihnen egal, und sie nehmen einfach an, dass es funktioniert. Es ist also Magie. Wenn es sagt, es sei Betrug, dann ist es Betrug, und man kann nichts dagegen tun.
Ich möchte betonen, dass es hier nicht nur darum geht, an Magie zu glauben, sondern darum, dass Menschen heute völlig absurde Dinge mit erstaunlicher Gelassenheit tun und dafür nicht zur Verantwortung gezogen werden. Früher wurde ich in der Schule einmal des „Betrugs“ verdächtigt, weil mir die Hausaufgabe in einem Fach zum ersten Mal gefiel und ich sie deshalb ernsthaft gemacht hatte. Es war beleidigend, gesagt zu bekommen, dass ich das unmöglich selbst gemacht haben könne, aber ich bekam trotzdem meine Note. Wenn ich es nicht beweisen könne, sei es letztlich egal, was der Lehrer denke; ich solle einfach unterschreiben und verschwinden — und das war dann die letzte Hausaufgabe in diesem Fach.
Wenn das in diesem Artikel stimmt, müssen Lehrer heute dagegen gar nichts mehr beweisen. Dass die Münze auf Kopf gefallen ist, gilt schon als ausreichender Beweis. Alle scheinen es hinzunehmen nach dem Motto: „Tja, die Schule hat eben so ein System.“ Das ist verrückt.
- Jemand hatte dazu eine gute Beobachtung über neuronale Netze und generierte Ausgaben. Das sind Programme, die auf Computern laufen.
  Seit über 30 Jahren bringen wir Menschen bei, dass Computer präzise, korrekte und reproduzierbare Ausgaben liefern. Aber Firmen für neuronale Netze bauen Zufallssymbolgeneratoren und verschleiern aktiv, dass in diese Programme Zufälligkeit einprogrammiert ist.
  Vor Kurzem gab es in den USA wieder einen Gerichtsfall mit generiertem Text, und diesmal schien keine böse Absicht dahinterzustecken. Der Kern war, dass der Kläger ein neuronales Netz um historische Finanzberechnungen zu Immobilienwerten gebeten und dem Ergebnis sofort geglaubt hatte — eben weil „es ein Computer ist“. Computer haben immer recht, und neuronale Netze laufen auf Computern, also haben auch sie immer recht. Bald wird sich diese Denkweise in jedem Haushalt der Welt verbreiten. Dann werden wir uns vielleicht nach der Unredlichkeit und Propaganda der Medien zurücksehnen. Früher konnte man zumindest noch einigermaßen erkennen, ob eine Quelle absichtlich log.
- Das ist nicht überraschend. Was du gerade beschrieben hast, ist die Herangehensweise von mehr als 95 % der Bevölkerung an Technik insgesamt.
  Nur selten empfinden Menschen Unbehagen über diese Unwissenheit, und fast niemand hat den Wunsch, auch nur die Grundlagen zu lernen. Manche müssten es eigentlich unbedingt wissen, und für mich ist das nur sehr schwer nachvollziehbar.
- Menschen vertrauen dem System, weil andere Menschen dem System vertrauen.
  Ob dieses System nun eine Hexenjagd-Inquisition ist, eine Maschine oder der sowjetische Gulag, spielt keine Rolle. Das System hat Schuld festgestellt, und das System kann nicht irren.
  Kafka würde sich im Grab umdrehen.
- Das ist kein Bug, sondern ein Feature.
  Auf diese Weise kann man die Gesellschaft von jeder Position aus nach Belieben formen. Wenn der Bruder eines Schülers Ärger gemacht hat, kann man sagen: „Dann scheint diese Familie eben so zu sein, also machen wir ihnen das Leben schwer.“ Wenn einem die Ethnie, das Geschlecht oder die sexuelle Orientierung eines Schülers nicht gefällt, liefert „chatGPT“ ein leichtes Mittel, den Schulalltag dieser Person schwerer zu machen.
- Die AI-Unternehmen hätten Pädagogen vor dem Chaos warnen und sie anleiten müssen.
Die Tochter reichte an einer Online-Schule einen Aufsatz ein und wurde beschuldigt, dass es sich um einen von KI geschriebenen Text handle, weil die Schulsoftware das so behauptete. Die Mutter hatte ihrer Tochter beim Schreiben zugesehen.
Ich dachte, es sei allgemein bekannt, dass man nicht feststellen kann, ob ein Text von KI erzeugt wurde, aber offenbar sind entweder die Softwareanbieter ahnungslos oder sie lügen, und die Schulverwaltung glaubt ihnen.
- Kleiner Hinweis: Ahnungslos sind sie nicht.
- Ich vermute, dass es deswegen bald zu Rechtsstreitigkeiten kommen wird. Wie schon jemand sagte, müsste man nur KI-Erkennungssoftware auf Aufsätze aus der Zeit vor ChatGPT anwenden und sich die Genauigkeit ansehen.
  Außerdem gibt es das Problem, dass Aufsätze von Schülern im Autismus-Spektrum überproportional häufig markiert werden, sodass das womöglich eine Art Verstoß gegen Bürgerrechte sein könnte.
- Ich halte es fast für Allgemeinwissen, dass die Erkennung von KI-generiertem Text unmöglich ist. Aber der Traum der Pädagogen von einem KI-Detektor ist so stark, dass sie immer weiter glauben wollen: „Diese Firma hat das Problem gelöst.“
  Sie machen selbst einen simplen Test, und wenn es größtenteils zu funktionieren scheint, schließen sie daraus, dass die Behauptungen der Firma stimmen. Das Problem ist, dass diese Tests alle in die Richtung gehen, von KI geschriebene Arbeiten als von Menschen geschrieben durchzuwinken, nicht umgekehrt.
  Solche Tools haben eine von null verschiedene Falsch-Positiv-Rate, daher wird es zwangsläufig arme Schüler geben, die wochenlang an einer 20-seitigen Abschlussarbeit saßen und dann wegen KI-Nutzung erwischt werden. Für dieses Kind gibt es weder Abhilfe noch Berufung. Die Schule hat viel Geld für den KI-Detektor ausgegeben und wird deshalb glauben, dass er recht hat.
- Ich frage mich, wie wenig gesunder Menschenverstand noch übrig bleibt, wenn ein oder zwei Generationen vergangen sind, seit die Leute entschieden haben, dass allgemeine Denkfähigkeit nicht mehr nötig ist.
  So wie man schon entschieden hat, dass man sich dank Taschenrechnern nicht mehr um Rechenfertigkeiten kümmern müsse.
- Letztlich wird irgendeine tief im Stack sitzende Komponente oder ein Anbieter die Antwort liefern, und die Organisation wird in schwierigen Entscheidungen bequem und mit ausreichender Deckung einfach auf das „System“ zeigen.
  In den USA passiert so etwas ständig. Rückmeldungen aus Adressvalidierungssystemen werden übernommen, ohne dass der Kontoinhaber zustimmt, und Adressen werden einfach geändert. Wenn man dann beim Kundendienst anruft, heißt es: „Das System hat gesagt, die Adresse stimmt nicht.“ Als ob das System besser wüsste als ich, wo ich seit fünf Jahren wohne, oder besser als die DMV oder meine Eigentumsurkunde. Wenn die Fehlerquote nur niedrig genug ist, akzeptieren die Leute in den USA das einfach.
  Und dann wird es noch schlimmer. Vielleicht ist die Fehlerquote insgesamt gar nicht niedrig, sondern nur in bestimmten Untergruppen hoch. Dann sieht man, welchen Rang man in der Gesellschaft hat. Man kann ja mal Leute mit brauner Haut fragen, wie angenehm Fliegen in den Jahren 2003 bis 2006 war. In New York kann es schon reichen, wenn Kombinationen aus Name und Postleitzahl falsch zugeordnet werden, damit man nicht einmal mehr ein auf öffentlichem Grund betriebenes Citibike mieten kann.
  Hier wird es wohl ähnlich laufen. Wenn nicht etwas wie eine große Klage der ACLU das ans Licht bringt, wird der Schaden wahrscheinlich weitergehen, bis das Problem irgendwann behoben wird. Vermutlich werden subtile Merkmale des Sprachstils, wahrscheinlich unbeabsichtigt, als Auslöser verwendet werden. Menschen aus der nicht betroffenen „Ingroup“ werden behaupten, das System sei fair, während andere sich gegen eine Black Box verteidigen und die Beweislast tragen müssen.
Einer der Lehrer des Kindes schickte den Schülern eine Warnung, dass alle Aufsätze mit KI-Erkennungssoftware geprüft würden und welche Strafen bei einem Treffer drohten.
Ein Mitschüler ließ die Warnung dieses Lehrers durch eine KI-Prüfung laufen, und sie wurde positiv als KI-generiert eingestuft.
- Der Standardton von ChatGPT und der Standardton schulischer bzw. akademischer Texte sind nicht völlig identisch, aber in dem riesigen Vektorraum solcher Dinge liegen sie sehr nahe beieinander.
  LLMs werden bereits enorme Mengen genau dieser Art von Text gefressen haben. Ob in der Highschool oder an der Universität: Es wäre nicht überraschend, wenn standardisierte Berichte, die exakt die Anforderungen erfüllen und im Allgemeinen gute Noten bekommen sollen, mit hoher Wahrscheinlichkeit als GPT-artig erzeugt eingestuft werden.
  LLMs haben wahrscheinlich auch viele Lehrpläne und grundlegende Lehrerdokumente gelernt, und kurze Mitteilungen zwischen Lehrern und Eltern oder Lehrern und Schülern verlassen ebenfalls nicht so leicht denselben Bereich sprachlicher Schablonen, in dem auch LLMs schreiben.
- Der wichtigste Teil fehlt. Was ist danach passiert? Hat die Vernunft gesiegt?
  Ich frage deshalb, weil dieses Problem mit „KI“-Texterzeugung kein technisches Problem ist, sondern zu 101 % ein menschliches Problem.
- Hoffentlich ist diese historische Aufregung nur von kurzer Dauer, und man passt sich an, indem man sich von benoteten Hausaufgaben als Form der Bewertung entfernt.
  Eine Falsch-Positiv-Rate von 4 % ist absurd hoch, wenn das Durchfallen oder ein Schulverweis bedeuten kann. Umso mehr, weil ernsthafte Betrüger das mit Vorab-Prompts wie „Schreib im Stil von soundso“ in zwei Minuten umgehen können.
- Ich finde, diese Tatsache an sich ist nicht weiter relevant.
  Es ist ähnlich wie bei: „Der Lehrer warnte, dass er alle Aufsätze mit anderen Schüleraufsätzen vergleicht, um Übereinstimmungen festzustellen, und bei einem Treffer bestraft. Ein Schüler googelte dann und stellte fest, dass die Aufsatzfrage als Beispiel in irgendeinem Buch vorkam.“
  Das eine ist vollkommen legitim, das andere nicht. Natürlich gibt es Grauzonen. Man kann auch sagen, dass die Nutzung von ChatGPT für bestimmte Zwecke kein Abschreiben ist, sondern dass Kinder den Umgang mit einem Werkzeug lernen. Aber wenn man 95 % des Aufsatzes von dort erledigen lässt, ist es Abschreiben.
Wer mit studentischen Arbeiten zu tun hat oder Bewerbungen liest, kann AI-generierte Texte inzwischen sehr schnell erkennen.
Es wirkt, als würde der Text immer dasselbe generische Framework verwenden und nur einzelne Wörter austauschen. Dazu kommt ein Phänomen, das ich „Wort der Woche“ nenne: Manche AI-Engines fixieren sich auf ein bestimmtes englisches Wort, meist ein eher ungewöhnliches, und verwenden es bei jeder Gelegenheit. Da merkt man schnell, dass das Sprichwort stimmt, wonach es sich nur um Autovervollständigung auf Steroiden handelt.
Einen Computer aber so zu programmieren, dass er das erkennt, ist nicht einfach. In einem früheren Job hatte ich mit Plagiatserkennern zu tun und habe schnell gemerkt, wie mies diese Werkzeuge sind. Und wie leicht sie sich austricksen lassen, aber das ist wieder ein anderes Thema. Auch Lehrkräfte merkten bald, dass die Tools Murks sind, deshalb wurden Vorwürfe gegen Studierende wegen Plagiats oft stillschweigend zurückgezogen, wenn die Betroffenen widersprachen.
- Im Ingenieurstudium hatte ich einen Pflichtkurs in technischer Kommunikation. Der Professor verstand, dass jemand, der sich für Ingenieurwesen entscheidet, nicht zwangsläufig die Feinheiten großer Literatur schätzt, deshalb waren die Aufgaben sehr mechanisch.
  Es war so etwas wie: „Schreiben Sie über ein technisches Thema, welches ist egal, 1500 Wörter, hier ist das Bewertungsraster.“ Im Raster standen Punkte wie „verwendet einen Satz, der das Thema des Absatzes einführt“, wodurch am Ende extrem formelhafte Prosa entstand.
  Ob das einen zu einem großartigen Kommunikator macht, weiß ich nicht, aber um Leute mit sehr schwachen Kommunikationsfähigkeiten auf ein grundlegendes Mindestniveau zu bringen, funktionierte es meiner Meinung nach sehr gut. Auch bei einigen anderen Schreibaufgaben war das effektiv, unter anderem weil überarbeitete Doktoranden als Korrektoren formelhafte Texte oft lieber mochten.
  Ein hinreichend disziplinierter Student kann dadurch leicht wie ChatGPT wirken, und die Kosten einer Falschbeschuldigung sind sehr hoch.
- Ich frage mich, wann der Zeitpunkt kommt, an dem ein Student Lehrpersonal wegen Verleumdung verklagt, weil er fälschlich der AI-gestützten Plagiierung beschuldigt wurde.
- Heißt das nicht einfach, dass man Leute leicht erwischt, die sich kaum Mühe geben, nicht aufzufallen?
  Ich könnte auch mein eigenes Textkorpus in ChatGPT einspeisen und es anweisen, in meinem Stil zu schreiben.
- Bei Menschen ist es genauso. Viele haben Lieblingsformulierungen oder Wörter, die sie auffällig viel häufiger als andere verwenden.
- Mein Ehepartner ist kein englischer Muttersprachler. Er spricht fließend, findet es seit dem Aufkommen von ChatGPT aber sehr nützlich, Absätze hineinzukopieren und eine bessere Version zurückzubekommen. So muss er mich nicht mehr wie früher bitten, etwas für ihn umzuschreiben.
  Wenn er mir allerdings manchmal einen Satz schickt, kann ich mit 100-prozentiger Trefferquote sagen, ob vorher AI darübergelaufen ist. Wenn man sich an diese Art von Satzstruktur gewöhnt hat, ist es sehr leicht zu erkennen. Wenn man in einer Position mit Autorität ist, etwa als Lehrer, ist der schwierigste Teil vermutlich, es zu beweisen.
Ich finde die meisten Kommentare hier schwer nachvollziehbar.
In der Oberstufe konnten wir im Unterricht keine Handys benutzen, also konnten wir damit auch nicht schummeln. Das galt für Arbeitsblätter und Kurztests genauso wie für Multiple-Choice-, mündliche und Essay-Prüfungen.
Die übergeordneten Threads tun aber so, als müsse das gesamte Schulsystem neu entworfen werden, und viele wollen sich auf mündliche Prüfungen und beaufsichtigte Tests stützen. Ich verstehe nicht, was das konkret besser lösen soll als eine einfache OMR-Prüfung im Klassenraum, bei der der Lehrer nur darauf achtet, dass die Schüler keine Handys benutzen.
- Eine Prüfung, bei der der Lehrer darauf achtet, dass keine Handys benutzt werden, ist genau das, was eine beaufsichtigte Prüfung ist.
- Gab es in der Oberstufe überhaupt keine Hausaufgaben mit summativer Bewertungsfunktion?
  An vielen Orten, besonders in den USA, gibt es kaum beaufsichtigte Prüfungen, und ein ziemlich großer Teil der Gesamtnote setzt sich aus Kursarbeiten zusammen. Dazu kommt die unumkehrbare Digitalisierung der Bildung, und so ist die heutige Lage entstanden.
  Auf Universitätsebene gibt es außerdem Projekte wie Seminararbeiten oder Abschlussberichte, die zu lange dauern, um im Klassenraum erledigt zu werden. Solche Projekte waren schon immer anfälliger für Ghostwriting als für klassisches Plagiat, und man wäre überrascht, wie verbreitet das tatsächlich ist, selbst an Eliteuniversitäten. LLMs haben die Hürde nur gesenkt und es dadurch häufiger gemacht.
  Das ist ein echtes Problem, und die Leute schummeln auf weit raffiniertere Weise, als man zunächst denkt.
- Früher hat man auch Notizen in grafikfähige Taschenrechner eingegeben oder etwas im Ärmel versteckt.
  Handys sind nicht das einzige Mittel zum Schummeln und möglicherweise sogar schwerer heimlich zu benutzen als manche älteren Methoden.
- Ich habe Hunderte Studierende dabei beobachtet, wie sie im Unterricht erfolgreich mit ihren Handys geschummelt haben.

Sind KI-Detektoren wirksam? Studierende sehen sich ungerechtfertigten Betrugsvorwürfen ausgesetzt

Fall eines Studierenden, der wegen eines KI-Erkennungstools 0 Punkte bekam

Die Einstufung nach der Abgabe

Weit verbreitete Erkennungstools und die Last von Fehlern

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare