ChatGPT – dein Freund und Helfer in der Prüfung

Die Bachelor-Studierenden im Kurs „Aerospace Materials Sciences and Processes“ an der TU München haben erstmalig eine digitale Prüfung absolviert, bei der das KI-Tool ChatGPT nicht nur geduldet, sondern explizit erlaubt war. Auf Basis des existierenden Erkenntnisstands zum Chatbot hat das Prüfungsteam ProLehre gemeinsam mit dem Lehrstuhl für Carbon Composites die freiwillige und nicht benotete Pilotprüfung konzipiert und durchgeführt, um erste Erfahrungen im Rahmen einer größeren Klausur sammeln zu können. Die Pilotprüfung wurde im Anschluss mit einem Fragebogen evaluiert.

17. Oktober 2024

Eine digitale Hörsaalprüfung an der TU München – bald auch mit ChatGPT? | Foto: TU München

Sprachmodelle wie deren bekanntester Vertreter „ChatGPT“ haben bereits eine jahrzehntelange Geschichte. Die Anfänge der „Large Language Models“ (LLM) reichen zurück bis in die 1940er-Jahre. Bereits damals entwickelten Wissenschaftler die ersten neuronalen Netze als ein digitales Abbild der biologischen Nervenzellstrukturen. Die Entwicklungen verliefen zu der Zeit weitgehend ohne allgemeines Interesse in der Gesellschaft oder der akademischen Welt zu erregen. Eine erste praktische Anwendung derartiger Sprachmodelle wurde von Joseph Weizenbaum im Jahr 1966 in der Form eines Chatbots – einer Anwendung zum sprachlichen Austausch mithilfe von eingegebenen Sätzen – entwickelt. Sein Chatbot „ELIZA“ imitierte einen Psychologen und konnte bereits einfache natürlich-sprachige Kommunikation bewältigen.

Der große Durchbruch in der Öffentlichkeit gelang im Jahr 2022 durch das deutlich weiter entwickelte und komplexere Sprachmodell „ChatGPT“ der Firma OpenAI. Dieses mit etwa 175 Milliarden Parametern und circa 300 Milliarden Textelementen ausgestattete Modell konnte nun eine flüssige Unterhaltung führen und vielerlei praktische Anfragen sowie unterschiedlichste Aufgabenstellungen erledigen – und ebnete KI fast über Nacht den Weg in nahezu alle Bereiche des öffentlichen Wirkens wie auch in die gesamte Bildungslandschaft. Weitere große Sprachmodelle (zum Beispiel 2018 BERT, 2022 LaMDA von Google oder 2023 Llama von Meta) wurden entwickelt und mit immer komplexeren Datenbeständen trainiert.

Einsatz großer Sprachmodelle im Bildungsbereich

Große Sprachmodelle können mittlerweile in vielen beruflichen wie auch privaten Aktivitäten sowie insbesondere im Bildungsbereich eine Vielzahl an Unterstützung bereitstellen: Für Lehrende erstellt ChatGPT auf Wunsch geeignete Unterrichtsskizzen, Übungsaufgaben oder auch Fallbeispiele für den Unterricht. Das Modell kann Prüfungen konzipieren, Erläuterungen alters- und bedarfsgerecht verfassen oder sogar einen einfachen Programmiercode schreiben und verbessern. Lernende kann das Sprachmodell dabei unterstützen, Texte zusammenzufassen oder schwierige Textpassagen einfacher zu formulieren. Es kann beim Verstehen von vorhandenen Aufgabenstellungen helfen, Übersetzungen erstellen oder zu einem konkreten Unterrichtsstoff passende Fragen formulieren.

„Bei der Arbeit mit Sprachmodellen, insbesondere bei Faktenwissen, ist Vorsicht geboten.“

Trotz der häufig überzeugend wirkenden Antworten und Texte ist bei der praktischen Arbeit mit großen Sprachmodellen, insbesondere bei Faktenwissen, Vorsicht geboten.

Die Modelle liefern zwar gut formulierte und häufig sehr verständliche und passende Rückmeldungen, diese sind jedoch nicht auf Denkprozesse zurückzuführen, sondern stellen das Ergebnis einer hochkomplexen, wahrscheinlichkeitsbasierten Zusammenstellung von vorher verarbeiteten Trainingsdaten dar. Somit ist es durchaus möglich, dass zwar sinnvolle, aber dennoch falsche Informationen als Antwort auf eine eingegebene Frage ausgegeben werden.

ChatGPT in Prüfungen

Ein viel diskutiertes Thema der vergangenen Monate ist das Spannungsfeld „ChatGPT in Prüfungen“. Daraus ergeben sich verschiedene Optionen der praktischen Herangehensweise:

Ausweichen: Da verschiedene traditionelle Prüfungsformen wie mündliche Prüfungen oder Prüfungen mit Papier und Stift für den ChatGPTEinsatz kaum oder überhaupt nicht geeignet sind, kehren einige Dozierende zurück zu klassischen Papierprüfungen, weg von digitalen Prüfungsformen, um die Möglichkeit der KI-Nutzung auf diese Weise zu umgehen.
Verbieten: Prinzipiell ist es aus Sicht verschiedener rechtlicher Einschätzungen zulässig, die ChatGPT-Nutzung durch eine entsprechende Erklärung für eine Prüfung zu verbieten. Unklar ist jedoch, wie insbesondere bei unbeaufsichtigten Onlineprüfungen ein zweifelsfreier Nachweis erbracht werden kann.
Dulden oder ignorieren: Diese Herangehensweise wird häufig in der Praxis genutzt. Fraglich ist hierbei jedoch, wie im Täuschungsfall vorzugehen ist, wenn für die Prüfung keine Rechtssicherheit (wie ein Verbot) geschaffen wurde.
Erlauben: Vielfach diskutiert wird die Vorstellung, ChatGPT innerhalb der Prüfung zu erlauben bzw. sogar aktiv einzubringen. Hierbei sind allerdings verschiedene Rahmenbedingungen zu beachten, wie das Sicherstellen einer eigenständigen Prüfungsleistung sowie die Gleichstellung der Studierenden bzgl. des eingesetzten Sprachmodells.

Insbesondere für den letztgenannten Fall gibt es jedoch kaum praktische Erfahrungen und Erkenntnisse, wie Studierende konkret mit ChatGPT arbeiten oder welche Voraussetzungen für eine sinnvolle und erfolgreiche ChatGPT-Prüfung notwendig sind.

Konzept und Inhalt der ChatGPT-Pilotprüfung

Die aktuellen Entwicklungen in Bezug auf den unterstützenden Einsatz von KI in summativen Prüfungen führten beim Prüfungsteam von ProLehre an der TU München zu dem Entschluss, auf der Basis des existierenden Erkenntnisstands eine „Pilot-ChatGPT-Prüfung“ zu konzipieren, durchzuführen und zu evaluieren. Ziel dieser freiwilligen und nicht benoteten Pilotprüfung war es, erste Erfahrungen mit einer größeren Klausur zu sammeln, in der ChatGPT explizit eingebunden und teilweise zum Bearbeiten der Aufgabenstellungen erforderlich ist. Die Pilotprüfung wurde im Anschluss mit einem speziellen Fragebogen evaluiert, um nicht nur die Prüfungsergebnisse der Studierenden, sondern auch deren individuelle Erfahrungen bei der Nutzung von ChatGPT im Prüfungskontext aufgreifen zu können.

Den inhaltlichen Rahmen für die Prüfung lieferte das englischsprachige Bachelorseminar „Aerospace Materials Sciences and Processes“ des Lehrstuhls für Carbon Composites. Die Prüfung selbst beinhaltete mehrere fachspezifische Fragen zum bisherigen Unterrichtsstoff der Studierenden, jedoch wurden zwei unterschiedliche Fragenausprägungen gewählt: Ein Teil der Fragen konnte (beim Beherrschen des Lernstoffs) gut ohne ChatGPT beantwortet werden, für mehrere andere Fragen war ChatGPT hilfreich oder sogar erforderlich.

„Die Pilotprüfung wurde im Anschluss mit einem Fragebogen evaluiert.“

Im Moodle-Prüfungskurs war eine ChatGPT-Eingabemöglichkeit während der gesamten Prüfung für alle Teilnehmenden verfügbar und jederzeit nutzbar

Die Prüflinge konnten somit vollkommen eigenständig entscheiden, ob und wann sie das Sprachmodell als Unterstützung heranziehen wollten.

Abbildung 1: Vertrautheit mit KI-Tools (n=99)

Abbildung 2: Vorbereitung auf eine ChatGPT-Prüfung (n=99)

Abbildung 3: Beantwortung der Prüfungsfragen mit ChatGPT

Abbildung 4: Vorbereitung einer ChatGPT-Prüfung auf die spätere Berufstätigkeit

Was ist bei der Pilotprüfung herausgekommen?

Die teilnehmenden Studierenden bearbeiteten die Aufgaben der Prüfung sehr konzentriert und ein großer Teil (99 von 116) beantwortete auch den begleitenden Fragebogen. Dabei ergab sich eine Vielzahl neuer Erkenntnisse zur Nutzung von KI-Tools und im Speziellen zum Einsatz von ChatGPT in der Prüfung.

Die Ergebnisse fielen – verglichen mit einer typischen Abschlussklausur – von der Punkteverteilung ähnlich aus, jedoch war die Prüfung aufgrund des Pilotcharakters deutlich kürzer und daher nicht vollkommen vergleichbar.

Vertrautheit mit KI-Tools

Die Befragten sind in Bezug auf KI-Tools, besonders mit Übersetzern und textbasierten Sprachmodellen, vertraut. Die geringsten Erfahrungen haben die Teilnehmenden mit KI-Bildgeneratoren wie DALL-E oder Stable Diffusion (Abbildung 1).

Vorbereitung auf eine ChatGPT-Prüfung

Um gut vorbereitet zu sein, wünscht sich der Großteil der Befragten insbesondere eine Demo-Prüfung mit ähnlichen Prüfungsfragen wie sie in der Prüfung selbst gestellt werden (Abbildung 2). Anscheinend immer noch notwendig sind zusätzliche Informationen zu den KI-Tools sowie eine Einführung ins „Prompten“, das heißt das Verfassen möglichst passender Textanfragen. Weniger als die Hälfte der Teilnehmenden möchten im Kurs explizit in die verwendeten Tools eingeführt werden. Eine derartige Einführung würde sicherlich einige Zeit in Anspruch nehmen, die möglicherweise beim Erlernen der eigentlichen Seminarinhalte dann fehlt.

Nutzung von ChatGPT für Prüfungsfragen

Obwohl ChatGPT nicht für jede der Prüfungsfragen erforderlich war, wurde das Tool bei allen Fragen (zumindest von einem Teil der Studierenden) genutzt. Jedoch erfolgte der Einsatz von ChatGPT hier in unterschiedlicher Intensität: Während beispielsweise bei Frage 1 (ChatGPT nicht erforderlich) nur 32 Teilnehmende ChatGPT für die Lösung in Anspruch nahmen, nutzten bei den Fragen 2 und 5 (ChatGPT hilfreich bzw. erforderlich) mehr als die Hälfte ChatGPT als Unterstützung (Abbildung 3). Dies zeigt, dass die Prüflinge tendenziell auch diejenigen Fragen bevorzugt mit dem Sprachmodell bearbeiten, die sie selbst nicht ohne Hilfe beantworten können.

Nutzen einer ChatGPT-Prüfung für die spätere Berufstätigkeit

Innerhalb der durchgeführten Befragung ist u. a. eine Frage relativ spannend: Wie sehen die Teilnehmenden den Nutzen derartiger Prüfungen für die spätere Berufstätigkeit? (Abbildung 4, S. 49)

Hier zeigt sich, dass ein großer Teil der Prüflinge (67 %) damit (sehr) übereinstimmt, dass eine ChatGPT-Prüfung näher auf die spätere Berufstätigkeit vorbereitet als eine entsprechende „klassische“ Hochschulprüfung. Nur zehn Prozent der Befragten sind hierbei anderer Ansicht. Es wird klar ersichtlich, dass es weitere Erfahrungen – sowohl vonseiten der Dozierenden als auch vonseiten der Studierenden – mit derartigen Prüfungen bedarf, um eine möglichst sinnvolle Einschätzung der neuen Prüfungsform zu erhalten.

WIE SEHEN DOZIERENDE UND MITARBEITENDE DEN EINSATZ VON CHATGPT IN HOCHSCHULPRÜFUNGEN?

Hier gibt es sehr unterschiedliche Sichtweisen: Während einige wenige Dozierende sich den Einsatz von ChatGPT in Prüfungen vorstellen können oder sogar schon konkrete Umsetzungspläne haben, stehen andere den Entwicklungen im Bereich der KI in Prüfungen eher zurückhaltend bis ablehnend gegenüber.

Dr.-Ing. Daniel Renjewski

„Im kommenden Sommersemester halte ich eine Lehrveranstaltung ‚Angewandte Biorobotik‘, in der ich erstmals ChatGPT aktiv einsetzen möchte. Die Bewertungen finden in Form einer Portfolioprüfung mit mehreren Teilnoten statt und ChatGPT kann hierbei jederzeit von den Studierenden genutzt werden. Auch das Potenzial, die Bewertung der Abgaben durch ChatGPT zu unterstützen, möchte ich testen. Wir werden die Studierenden mehrfach während des Semesters befragen und ich bin schon sehr gespannt, welche Erfahrungen alle Beteiligten mit diesem neuen Konzept machen werden!

Carina Schauer

„Sprachmodelle wie ChatGPT werden in der Arbeitswelt und im akademischen Bereich eine immer größere Rolle einnehmen. Es ist daher wichtig, Studierende auf ihre zukünftigen Anforderungen vorzubereiten, um gezielt und effektiv Aufgabenstellungen mit KI-Unterstützung zu lösen. Studierende haben in der Umfrage im Rahmen der ChatGPT-Pilotprüfung angegeben, dass sie sich darauf nicht hinlänglich vorbereitet fühlen. Daher sollte vorrangig in praxisnahen Übungseinheiten der Umgang mit KI-Tools vermittelt und im nächsten Schritt in Prüfungen mit KI-Einsatz unter Beweis gestellt werden.“

Apl. Prof. Dr. Felix Ehrlenspiel

„Ich verfolge die KI-Entwicklungen interessiert, bisher hat sich dies aber noch nicht auf meine Prüfungen ausgewirkt. Derzeit ist mir wichtig, dass wir digitale Prüfungen auch in größeren Kohorten reibungslos z.B. im Hörsaal abwickeln können. Der ChatGPT-Einsatz ist hierbei nicht zugelassen und wir müssten den entsprechenden Prüfungsversuch beenden, falls ein Prüfling offensichtlich unerlaubte KI-Tools in der Prüfung einsetzt.“

Fazit

Die rasanten Entwicklungen von Sprachmodellen und deren Einsatz im Bildungsbereich haben bereits in den vergangenen Monaten deutliche Spuren hinterlassen. Viele Einsatzfelder werden diskutiert, einige davon auch bereits aktiv in den Studienalltag einbezogen. Prüfungen kommt hierbei eine Sonderrolle zu, denn Neuerungen und Experimente sind in diesem Themenfeld nicht immer einfach umzusetzen. Dies gilt auch für Prüfungen mit der aktiven Einbindung von ChatGPT oder anderen Sprachmodellen.

Für derartige Prüfungen werden in jedem Fall einige Lerneffekte bei allen Beteiligten erforderlich sein: Prüfungsverantwortliche müssen die passenden Rahmenbedingungen schaffen und Aufgabenstellungen konzipieren, bei denen – trotz KI-Einsatz – eine sinnvolle Bewertungsgrundlage für die Prüflinge und deren Kenntnisstand gegeben ist. Studierenden werden – ähnlich wie beim ersten Einsatz eines Taschenrechners – zunächst Erfahrungen zur sinnvollen und effektiven Nutzung sammeln müssen. Denn viele Aufgabenstellungen lassen sich letztlich am schnellsten und effizientesten mit einem gut gelernten und schnell abrufbaren Wissensschatz als Basis lösen.

Ohne sinnvolle Nutzungsstrategie wird die zunächst als Heilsbringer wahrgenommene KI in der Prüfung schnell zur Überforderung. Derartige Tendenzen ließen sich auch in der Pilot-ChatGPT-Prüfung an der TU München ganz klar wahrnehmen. Mehrere der Prüfungsaufgaben, die bereits in „echten“ Prüfungen eingesetzt wurden, lieferten dort tendenziell bessere Punktzahlen als mit ChatGPT-Nutzung. Der intensive KI-Einsatz kostet in der Prüfung möglicherweise einfach zu viel Zeit. Denn die notwendigen Schritte wie „Aufgabenstellung in die KI-Maske reinkopieren“, „KI-Ausgabe abwarten“, „Ausgabe bewerten“, „Passendes in die Prüfung übernehmen“ etc. sind häufig weniger effizient als Gelerntes aus dem Kopf abzurufen.

Dennoch zeigt sich aus der Befragung der Prüflinge klar der wahrgenommene Mehrwert derartiger Prüfungen für die zukünftige Arbeit und das Berufsleben. Es ist mit hoher Wahrscheinlichkeit anzunehmen, dass KI-Tools in ein immer breiteres Spektrum der Arbeitswelt integriert werden. Die effektive Arbeit mit KI zur Lösung von Aufgabenstellungen – auch unter Zeitdruck – wird möglicherweise eine immer wichtigere Kompetenz darstellen.

Die Bandbreite von Meinungen zum KI-Einsatz aufseiten der Studierenden und auch der Dozierenden ist nach wie vor groß und es wird ersichtlich, dass ChatGPT-Prüfungen noch lange nicht im Hochschulalltag angekommen sind. Die Prüfung an der TU München kann jedoch ein erster Schritt auf „Neuland“ sein, um mehr Erkenntnisse zum KI-Einsatz in dem sensiblen und zugleich für den Studienabschluss hochrelevanten Thema Prüfungen zu sammeln und die bisherigen Ideen weiterzuentwickeln. In einigen Monaten, nach weiteren Erfahrungen und Evaluationen wird sich zeigen, inwieweit Prüfungen mit aktiver Einbindung von Sprachmodellen und anderen KI-Tools im Prüfungsgeschehen eine höhere Akzeptanz erfahren werden oder ob traditionelle Prüfungsformen weiterhin die Norm sind.

Bei Fragen zum Einsatz von ChatGPT in digitalen Prüfungen erreichen Sie das Team der zentralen wissenschaftlichen Einrichtung ProLehre | Medien und Didaktik der TU München unter

info@prolehre.tum.de

Ausgewählte Literatur zum Thema

Baume, Matthias; Dörfler, Eva; Etchegaray Bello, Margarita; Schauer, Carina (2024): Summative Exams with the Use of ChatGPT. Vision or realistic Alternative to traditional Exams? In: Louis Gómez Chova, Chelo González Martínez und Joanna Lees (Hg.): INTED 2024. Conference proceedings: 18th annual International Technology, Education and Development Conference: 4-6 March 2024, Valencia (Spain). Valencia: IATED Academy (INTED proceedings (Internet)), S. 3980–3990. Online verfügbar unter https://library.iated.org/publications/INTED2024, (zuletzt geprüft am 12.04.2024).
Fleck, Tilmann (2023): Prüfungsrechtliche Fragen zu ChatGPT. Handreichung der Stabsstelle IT-Recht der bayerischen Universitäten. Hg. v. Stabsstelle IT-Recht der bayerischen staatlichen Universitäten und Hochschulen. Online verfügbar unter www.rz.uni-wuerzburg.de/fileadmin/42010000/it-recht/ChatGPT_ Pru__fungsrecht_v2.pdf, (zuletzt geprüft am 21.12.2023)
Fleischmann, Andreas (2023): ChatGPT in der Hochschullehre. Wie künstliche Intelligenz uns unterstützen und herausfordern wird. Hg. v. Neues Handbuch Hochschullehre. Online verfügbar unter www.nhhl-bibliothek.de/de/handbuch/gliederung/#/Beitragsdetailansicht/243/3700/ChatGPT-in-der-Hochschullehre—Wie-kuenstliche-Intelligenz-uns-unterstuetzen-und-herausfordern-wird, (zuletzt geprüft am 21.12.2023).
Heckmann, Dirk (2023): Examen mit oder trotz ChatGPT? Ideen für einen rechtssicheren Prüfungskulturwandel. Multimedia Kontor Hamburg. Online, 14.03.2023. Online verfügbar unter www.mmkh.de/fileadmin/veranstaltungen/netzwerk_landesinitiativen/KI-Generatoren/2023-03-14_KI-Generatoren_Heckmann.pdf, (zuletzt geprüft am 25.01.2024).
Weizenbaum, Joseph (1966): ELIZA – a computer program for the study of natural language communication between man and machine. In: Commun. ACM 9 (1), S. 36–45. DOI: 10.1145/365153.365168.