ChatGPT in der juristischen Klausur

1.04.2024 in Jura & Lehre

Eine neue Ära der Prüfungsgestaltung?

In der jüngsten Ausgabe der Zeitschrift für Didaktik der Rechtswissenschaft (ZDRW 4/2023, DOI: 10.5771/2196-7261-2023-4-473) präsentiert Dr. Adrian Hemler, LL.M. (Cambridge), Habilitand an der Universität Konstanz, in einem sogenannten Werkstattbericht seine Überlegungen zur Gestaltung von Prüfungen im Kontext des Einsatzes von Large Language Models (LLMs) wie ChatGPT.

Die Diskussion über den Einsatz von ChatGPT und ähnlichen Large Language Models (LLMs) in Prüfungen hat im vergangenen Jahr erheblich an Fahrt aufgenommen. Von Schulprüfungen bis hin zu Berufsexamen haben diese KI-Modelle mittlerweile bewiesen, dass sie eine breite Palette von Prüfungen erfolgreich bestehen können. Doch wie sieht es mit ihrer Integration in juristische Prüfungen aus? Hemlers Experiment an der Universität Konstanz untersuchte genau das und eröffnete interessante Einblicke in die Zukunft der Prüfungsgestaltung.

Die Herausforderungen der juristischen Ausbildung

Die juristische Ausbildung habe oft den Ruf, so Hemler, praxisfern zu sein, da sie sich hauptsächlich auf traditionelle Klausurformate konzentriere. Die Realität von Rechtsanwälten und Juristen erfordere jedoch mehr als nur das Beherrschen der Kunstform der Klausur. Angesichts der wachsenden Bedeutung von LLMs in der juristischen Praxis stelle sich die Frage, wie diese neuen Technologien in die Ausbildung integriert werden können, ohne die Fähigkeit zur individuellen Leistungsbewertung zu beeinträchtigen.

Das Experiment: ChatGPT in der Open-Book-Klausur

An der Universität Konstanz hat Hemler im Sommersemester 2023 ein Experiment durchgeführt, bei dem die Studierenden in einer Open-Book-Abschlussklausur im Fach Methodenlehre die Nutzung von LLMs explizit als Hilfsmittel erlaubt wurde. Der Fokus lag auf der kritischen Analyse von Urteilsauszügen in Form von Essays zu spezifischen juristischen Problemen.

Vorbereitung und Durchführung

In der Vorlesung wurden neben den Anforderungen an einen juristischen Essay auch die Funktionsweise und der Einsatz von LLMs ausführlich behandelt. Dabei wurde eine weitere Einsatzmöglichkeit von ChatGPT & Co. deutlich: Die Studierenden wurden ermutigt, automatisch generierte Texte kritisch zu evaluieren, besonders im Hinblick auf LLMs. Dies sei wichtig, so Hemler, da die Texte oft eine Illusion argumentativer Tiefe erzeugen, obwohl sie Qualitätsdefizite aufweisen. Dies zeige, dass trotz LLMs ein Grundverständnis fachwissenschaftlicher Bildung unerlässlich bleibe; ihr Einsatz verlagere sich lediglich von der reinen Textproduktion hin zur Bewertung und Korrektur automatisch generierter Textteile.

Der Klausurtyp wurde auch anhand einer Probeklausur in der Vorlesung ausführlich geübt. Dabei wurde ein Vergleich zwischen einer Musterlösung und einem Lösungsvorschlag von ChatGPT durchgeführt, um den Fokus auf eine kreative und kritische Analyse des Urteilsauszugs zu betonen.

Die Klausur wurde dann als unbeaufsichtigte Take-Home-Klausur über die E-Learning-Plattform ILIAS gestellt. Um das Risiko unredlicher Absprachen während der Klausurbearbeitung zu minimieren, erhielten die Teilnehmenden jeweils eine zufällige Aufgabe aus einem Pool von fünf Urteilsauszügen. Die Bearbeitungszeit betrug 90 Minuten, exklusive eines großzügigen Puffers für den Download der Aufgabenstellung und den Upload der Klausurbearbeitung in Microsoft Word.

Die Korrektur erfolgte ebenfalls rein digital mithilfe von Kommentaren im Bearbeitungsskript und einer Korrekturvorlage, die verschiedene formale und inhaltliche Dimensionen des Essays vorgab.

Die Klausur war für Konstanzer Verhältnisse mit 52 Teilnehmenden recht beliebt und wies eine Durchfallquote von 11,54 % sowie eine Durchschnittsnote von 8,05 auf. Die Notenverteilung folgte weitgehend bekannten Mustern.

Evaluationsergebnis: Vorteile und Herausforderungen

24 der insgesamt 52 klausurteilnehmenden Studierenden (Rücklaufquote von 46 %) bewerteten das neue Prüfungsformat positiv, da es weniger Stress verursacht habe und praxisnäher gewesen sei. Auch der Lernerfolg wurde als vergleichbar mit herkömmlichen Klausuren eingeschätzt. Allerdings habe sich herausgestellt, dass automatisch generierte Texte oft oberflächlich und ungenau gewesen seien, was die Rolle von LLMs als Hilfsmittel zur Ideengenerierung betone, aber auch die Bedeutung einer kritischen Textbewertung unterstreiche.

Hinsichtlich der Frage, ob eine generelle Zulässigkeit von LLMs in Klausuren befürwortet werden sollte, ergab sich ein differenziertes Bild. Es wurde oft betont, dass der Einsatz von LLMs stärker in die Vorlesung integriert und generell mehr Übung stattfinden müsse. Es war den Teilnehmenden auch wichtig, dass eine Leistungsdifferenzierung weiterhin möglich bleibt und Klausuren nicht hauptsächlich durch den Einsatz von LLMs bestanden werden können. Einige schlugen vor, LLMs nur bei bestimmten Aufgabenstellungen zuzulassen.

Korrekturerfahrungen

Die Erfahrungen bei der Korrektur der Klausuren zeigen, so Hemler, dass es in der Regel schwierig war zu erkennen, ob die Studierenden LLMs verwendet haben oder nicht. Nur in einigen wenigen Fällen hätten sichtbare Stilbrüche und Fehler darauf schließen lassen, dass automatisch generierte Passagen möglicherweise unbearbeitet übernommen wurden. Trotzdem habe das Spektrum typischer Fehler größtenteils dem, was auch bei traditionellen Closed-Book-Klausuren zu erwarten wäre, entsprochen. Interessanterweise hätten jedoch einige Bearbeitungen orthographische Fehler aufgewiesen, die bei automatisch generierten Texten normalerweise nicht vorkommen würden. Dies lege nahe, dass eine gesunde Skepsis gegenüber der Richtigkeit automatisch generierter Textteile vorherrsche und LLMs hauptsächlich zur Ideengenerierung und Einarbeitung genutzt wurden. Bei weniger erfahrenen Jurastudierenden hätte die Überprüfung automatisch generierter Textteile jedoch noch zu viel Zeit in Anspruch genommen, um in einer zeitlich begrenzten Klausursituation das Gros der Schreibarbeit zu ersetzen. Aufseiten der Korrekturassistenten habe es es teilweise „Umstellungsschmerzen“ gegeben, die durch das neue Klausur- und Korrekturformat bedingt gewesen seien. Insbesondere der Verzicht auf eine detaillierte Lösungsskizze und die Korrektur anhand einer Matrix mit verschiedenen Leistungsdimensionen wurde als herausfordernd, aber machbar, empfunden. Es wurde auch befürchtet, dass die zufällige Zuweisung von Aufgaben zu Unterschieden im Niveau der Aufgabenstellungen führen könne, jedoch hätten diese Unterschiede im Rahmen des Korrekturermessens ausgeglichen werden können.

Schlussfolgerungen und Ausblick

Die Integration von LLMs in die juristische Ausbildung biete nach der abschließenden Beurteilung Hemlers Chancen zur Verbesserung der Praxisnähe und zur Anpassung an moderne Arbeitsweisen. Allerdings erfordere dies eine sorgfältige Abwägung, um die individuelle Leistungsdifferenzierung zu erhalten und sicherzustellen, dass der Prüfungssinn nicht verloren gehe. Die rasche Entwicklung von LLMs und die damit verbundenen Herausforderungen machten eine kontinuierliche Überprüfung und Anpassung der Prüfungsformate erforderlich, um mit den Veränderungen Schritt zu halten und eine faire Bewertung zu gewährleisten.

by Andreas Dormann