Assess-ment

MUED-Workshop 16.11.2024

Kassel

Formatives
Assessment
und generative KI

Danke!

Viele Anregungen konnte ich aus der Fortbildung
Digitale mit KI unterstütze Assessments mitnehmen (2024) die von Volker Rohr (Universität Zürich) moderiert wurde.

Index

Einstieg
Knick-Quatsch-
Prompten

Haltungen zum
KI-Einsatz

Timeline
Assessment

KI-Perspektiven

Literatur

Stationen zum Ausprobieren

1. Ich möchte ...
2. Das Ziel ist ...
3. Ein Bsp. könnte ... sein

4. Schreibe als ... (Format)

5. Beachte dabei ...

Einstieg in den Workshop
Knick-Quatsch-Prompten

Person 1 schreibt zu 1,
knickt Papier um, weiter
gehts mit Person 2 ...

Wenn ich an meinen MU und KI-Nutzung denke, hoffe ich ... oder befürchte ich ...?

Die folgende Darstellung fußt auf einem Beitrag von Leon Furze:
FURZE, L. (2024). PRACTICAL AI STRATEGIES: Engaging with generative ai in education. AMBA PR. oder auch hier.

Chancen

Risiken

Zurufabfrage

Ich plädiere für einen Lehrplan, der technische Fertigkeiten mit kritischem Denken und zwischenmenschlichen Fähigkeiten in Einklang bringt und der Lernende auf die Komplexität eines technologieorientierten Arbeitsmarkts vorbereitet."

übersetzt mit deepl aus: Journal of Applied Learning & Teaching 7(1).

Kompetenter Umgang mit KI

ganzheitliches (kompetenzorientiertes) Lernen, kann nicht nur durch Wissensüberprüfungen gemessen werden.
Ziel: Lernen und ganzheitliche Entwicklung fördern

Ganzheitlich Messen

DigiComp-Edu mit KI

Beispiel:

Implementierung von KI-gestützten Benotungstools

Verwendung von KI-basierten Tools für die Bewertung objektiver Beurteilungen wie Quiz und Tests, um die Effizienz zu steigern und die Arbeitsbelastung zu verringern.
Evaluierung der Genauigkeit und Zuverlässigkeit automatischer Benotungssysteme und deren Anpassung nach Bedarf.

DigComp-Framework
mit KI-Erweiterung

Link

Today, for citizens to engage confidently, critically and safely with new and emerging technologies, including systems driven by artificial intelligence (AI), they need to acquire a basic understanding of such tools and technologies (DEAP2). Greater awareness will also lead to improved sensibility towards potential issues related to data protection and privacy, ethics, children’s rights and bias – including accessibility, gender bias and disabilities. The DigComp 2.2 update addresses the topic of citizens interacting with AI systems rather than focusing on the knowledge about Artificial Intelligence per se.

Unterschied formatives und summatives Feedback

KI und Assessments

Assessment KI-Einsatz zugelassen
Assessment KI-Einsatz teilweise zugelassen (hilfsmittelfreier Anteil)
Assessment ohne KI-Nutzung (in der Regel nur bei Präsenz-Assessments möglich).

Bild erzeugt mit Bing Copilot

Momentan zeigen sich drei Typen von Assessments-Strategien

Rigeroses Verbot von KI
Konzeption von Assessments, in denen die KI-Nutzung nichts oder nur wenig bringt.
Auseinandersetzung mit sicherer und effektiver KI-Nutzung (auch Prüfungsgegenstand)

Überlegungen von Joyner (2024)

〞

Ich vertrete den Standpunkt, dass es diese Werkzeuge gibt und dass Lernende sie nutzen werden. Wir können entweder dafür kämpfen, dass die Schüler:innen auf den Einsatz von KI verzichten, oder wir können ihnen beibringen, wie man sie [möglichst] sicher und effektiv einsetzt.

- D. Joyner (2024)

übersetzt mit Deepl

Was beachte ich bei der Nutzung von KI für Assessments?

Abbildung aus Ethical guidelines on the use of artificial intelligence (AI) and data in teaching and learning for educators

Manche Lehrer:innen haben anfangs Chatgpt ausprobiert oder sich sagen lassen, dass die KI in vielen Fächern versagt.

Zu beobachten ist, dass sich die Ergebnisse bezogen auf unseren bisherigen Status Quo von Prüfungen sich rasant verbessern und/oder dass sie mit weiteren Tools kombiniert werden.
s. Beispiel unten

Ignoranz

Beispiele zu Meldungen zur KI-Performance & mehr

Link	Teaser
BAR-Examen (Rechtsprüfung in Amerika)	In dem Test mit MC-Fragen und Essay-Fragen performt GPT 4 signifikant besser als der Durchschnitt der Studierenden
Bewerber wegen vermuteter KI-Nutzung abgelehnt	Die Technische Universität (TU) München hatte einen Bewerber für einen Masterstudiengang im August 2023 vom Auswahlverfahren ausgeschlossen, da man der Meinung war, sein eingereichter Essay stamme nicht aus seiner, sondern aus der Feder des KI-Programms ChatGPT
ChatGPT besteht das bayrische Abitur mit einer 2	Das Sprachmodell ChatGPT macht enorme Fortschritte. Nachdem die Version 3.5 Anfang des Jahres noch am bayerischen Abitur gescheitert war, erreichte der Nachfolger 4 kaum ein halbes Jahr später eine glatte Zwei.
Matur-Bestnote dank KI: Die Lehrerinnen und Lehrer müssen sich etwas einfallen lassen	Ein Deutsch-Maturand liest seine Bücher nicht. Lieber arbeitet er mit Chat-GPT – und erzielt so die Bestnote. Das darf nicht zum Normalfall werden. Es braucht neue Prüfungsformate.

Beispiele

Selbsteinschätzungen
Tests
Dialogische Interviews
Probehandeln

Beispiele

Selbstüberprüfung
Peer-Feedback
Feedback (auch KI)
Simulationen

Vor bzw. zu Beginn eines längerfristigen Unterrichtszu-sammenhangs

Lernvoraussetzungen diagnostizieren
Vorhaben geeignet?

Am Ende/danach:
summatives
Assessment

Wie wurden die Ziele erreicht

Beispiele

Lernjournal
Handlungs-produkt plus
Lernreflexionen
kompetenz-orientierte
Prüfung

Formen kompetenzorientierter Überprüfungen

Formatives Assessment während des Lernprozesses

Lernen sichtbar machen
Wie läufts?

Digitale und analoge Umsetzung möglich

Impuls 1 - Kommunikation mit GPTs

Prompting Frameworks

Artikel aus NZZ für KI-EInsteigende

Prompt-Framwork für Lehrende

1.

Impuls 2 - (Selbst-) Überprüfungsfragen generieren

z. B. Multiple und Single Choice Questions aufbereitet für Forms oder H5P

2.

Impuls 5 - materialfrei
KI-Feedback generieren/
Kompetenzraster
selbst ausprobieren 🏗️

Impuls 4 - materialfrei
Lernhilfen mit Custom GPTs
Selbst ausprobieren 🏗️

Impuls 3 - Situationen oder Simulationen gestalten

Scenario-Judgement-Tests (SJTs),
Lernsituationen

3.

Stationen zum
Erkunden, Experimentieren,
Reflektieren

Station 1: PROMPTEN mit System

Task, Role (Rolle), Audience (Zielgruppe oder Kontext), Create, Intent (Intention)

TRACI

"Persona, Task, Context, Format, Example"

PTCFE

Impuls: Probiert mehrere Prompts für euren aktuellen Unterricht, um Informationen zum Lernstand (bzw. erreichte Kompetenz) zu gewinnen:

1. Dokumentiert ob ihr etwas Hilfreiches erhalten habt

2. Bessert eure Prompts noch einmal nach. Lassen sich die Ergebnisse noch verbessern.

3. Holt euch von der KI Feedback zu eurem Prompt.
Was konntet ihr aus der Antwort für euch noch mitnehmen?

4. Wie bewertet ihr insgesamt die gefundenen Ergebnisse?

5. Für welche eurer Aufgaben rund um die Bereitstellung von Assessments, haltet ihr eine KI-Assistenz für sinnvoll.
Hier findet ihr noch eine kleine Promptanleitung.

Vorschläge für Frameworks

Task, Role (Rolle), Audience (Zielgruppe oder Kontext), Create, Intent (Intention)

TRACI

"Persona, Task, Context, Format, Example"

PTCFE

Tipps für die Kommunikation mit Chatbots

Kontext ist der Schlüssel

Bei der Kommunikation mit ChatGpt und anderen GPT-Modellen wird immer die gesamte Kommunikation eines Chatverlaufs mitgesendet. Hieraus gehen zwei wichtige Anhaltsspunkte hervor: Erstens muss man nicht alles auf einmal mitteilen, sondern kann Kontext nach und nach spezifizieren und zweitens ist es die Mitgabe von Kontext, die die Antwort adaptiver werden lässt, als eine normale Internetsuche.

Kontext-Marker

Dieser Tipp stammt aus einem sehr lesenswerten aktuellen Artikel des Entwickler Magazin Spezials, Volumen 40, S. 36. von dem Autor Ralf D. Müller. Bei längeren Chat-Verläufen beginnt CHat-GPT anfängliche Kontextinformationen zu vergessen oder zu vernachlässigen. Da das Kurzzeitgedächtnis des Chat-Bots sehr begrenzt ist. Daher kann man am Anfang ein Zeichen vereinbaren, dass der Chatbot immer zu Beginn seiner Antwort schreibt. Besonders empfehlenswert ist hier das >-Zeichen, da dieses für eine Randlinie am Anfang führt, die auffällig ist. Wenn im Laufe des Chat-Verlaufs diese Markierung fehlt, weiß man, dass das Kurzzeitgedächtnis erschöpft ist.

Beispiele für Frameworknutzung

Task, Role (Rolle), Audience (Zielgruppe oder Kontext), Create, Intent (Intention)

TRACI

"Persona, Task, Context, Format, Example"

PTCFE

Es folgen sämtliche Anweisungen zur Definition der Datenbank

Zum Schluss noch einige Details zum Vorwissen. (Logischerweise hätte dies mit zum Kontext gehört.

...

Beispiel: Vorschläge für Lernstationen

Beispiel: Single-Choice-Test als Vorlage für Upload in FORMS (nur Auszüge)

zurück

Impuls 2: Überprüfungsfragen

Impulse zur Auseinandersetzung mit dieser Station

Sind Multiple Choice-Fragen im kompetenzorientierten Unterricht sinnvoll? Wenn ja, wann und wozu? Diskutiert gemeinsam darüber. (Gerne auch mit der KI)
Erstellt MC-Aufgaben für euren aktuellen Unterricht mit Hilfe von KI (Gerne auch Konkretisierungen nutzen oder didaktische Impulse setzen, produktives Üben, Darstellungswechsel, ...)
Integriert auch Anweisungen, die die direkte Nutzung für eine z. B: MS-Formsabfrage (s. Chatverlauf) oder einen H5P-Einsatz (s. Chatverlauf) ermöglichen.
Prüft alle Qualitätskriterien sorgfältig und probiert es mit anderen gemeinsam aus.

Tipps und Tricks

Insbesondere Microsoft Forms ist etwas trickig in der Umsetzung insbesondere bezogen auf mathematische Formeln und strikte Befolgung des Formats.
- Dollarzeichen: Jede LaTeX-Formel wird mit $ eingeleitet und abgeschlossen.
- Einfache Formeln: Funktionieren ohne Probleme (z. B. $x^2$, $a^2 + b^2$).
- Komplexere Formeln: Sollten in LaTeX-Syntax eingegeben werden (z. B. Brüche: $\frac{a}{b}$, Wurzeln: $\sqrt{a+b}$).
Zum Verständnis des Vorgehens beim Import verweisen wir auch auf das folgende Tutorial
- AIKEN-Format prüfen
- Als formatiert wie in Originalquelle in Word kopieren
- Worddatei in MS-Forms importieren

Qualitätsüberprüfung

Strategien zur Konstruktion

Ca. 50% aller MC-Tests weisen grammatikalische Fehler, doppelte Verneinungen etc. auf
Häufig finden sich Konstruktionsfehler im Test. Daher ist der wichtigste Tipp: Sehr sorgfältig prüfen
Vereinfachung der Sprache: Reduzierung der sprachlichen Komplexität, um Missverständnisse zu vermeiden (keine Verneinungen, keine Verschachtelten Sätze, ...)
Effektive Distraktoren sind entscheidend, um zuverlässig Leistung (und nicht Raten können) zu bewerten oder um den Lernstand reflektieren zu können (Self-Assessment)
Validität der Fragen, damit sie messen, was sie messen sollen.
Berücksichtigen von verschiedenen Schülerhintergründen zur Gestaltung zugänglicher und unvoreingenommener Fragen. (Beispiel: in einer Studie war der Begriff Raute nicht in allen Bundesländern bekannt.

Diese Strategien sind meine Learnings aus dem Video der Folgefolie. Dies ist vielleicht noch mal etwas für eine tiefere Auseinandersetzung im Nachgang

Station 2: MCQ und SCQ

Theorie und praktische Umsetzung mit H5P

Das Video ist zwar sehr lang,
enthält aber viele Einsichten zur Konstruktion von Multiple Choice Aufgaben.

zurück

In der beruflichen Bildung und dort auch im Mathematikunterricht stellt sich die Frage, wie kompetenzorientierte Prüfen gelingen kann. Es geht nicht nur darum, Wissen und Verfahren zu reproduzieren, sondern darum, dieses Wissen in komplexen und realitätsnahen Situationen anwenden zu können. Eine Methode, auch geeignet für E-Assessments, ist der Einsatz von Situational Judgment Tests (SJT).

Situationen oder SJT erstellen

In dieser Station könnt ihr Lernsituationen (oder Aufgaben mit relevantem Anwendungskontext) erstellen, eine ähnlich komplexe Tätigkeit wie Unterricht planen. D. h. auch hier sind Prompting-Strategien hilfreich, die nicht nur die KI-Möglichkeiten nutzen, sondern kollaborativ in der Mensch-Maschinen-Interaktion zu besseren Ergebnissen führen kann.

- Tutorial zu Prompting-Strategien

Impuls 3 - Situationen/SJT

SJT präsentieren realitätsnahe Szenarien.
Lernende müssen entscheiden, wie sie reagieren würden.
Bewertet werden Problemlösen, Entscheidungsfindung und kritisches Denken.

Was charakterisiert ein SJT?

Informiere dich zu SJTs und stelle Nutzen und Risiken gegenüber.
Entwerfe mit Hilfe von KI ein SJT für eine deiner Lerngruppen. Reflektiere die Güte der Ergebnisse und die Effektivität der KI-Unterstützung.
(mein erster schneller Versuch )
Diskutiert, was hier gute Prompting-Strategien sein könnten.

Impuls

zurück

Literaturverzeichnis

Henning, G. W., Robbins, R., & Andes, S. (2020, February). Using CAS as a framework to assess holistic learning (Occasional Paper No. 43). Urbana, IL: University of Illinois and Indiana University, National Institute for Learning Outcomes Assessment (NILOA).
Joyner, D. A. (2024). A Teacher’s Guide to Conversational AI: Enhancing Assessment, Instruction, and Curriculum with Chatbots (1. Aufl.). Routledge. https://doi.org/10.4324/9781032686783
Artificial intelligence and graduate employability: What should we teach Generation AI? (2024). Journal of Applied Learning & Teaching, 7(1). https://doi.org/10.37074/jalt.2024.7.1.42

Literaturverzeichnis

European Commission, Directorate-General for Education, Youth, Sport and Culture, (2022). Ethical guidelines on the use of artificial intelligence (AI) and data in teaching and learning for educators, Publications Office of the European Union. https://data.europa.eu/doi/10.2766/153756
Vuorikari, R., Kluzer, S., & Punie, Y. (2022). DigComp 2.2, The Digital Competence framework for citizens: With new examples of knowledge, skills and attitudes. Publications Office of the European Union.

Ideensammlung

Link zu einem Youtube Video
H5P-Aktivitäten mit KI in toteach erstellen

Fobizz-Tools nutzen z.B. um Kahoot-Quizzes zu erstellen
Tipp gestern von einem TN im Workshop von Christian

Padlet hilft auch kollaborative Phasen, Ideensammlungen vorzustrukturieren.
Beispiel

Assess-ment

MUED-Workshop 16.11.2024

Formatives Assessment und generative KI

Danke!

Viele Anregungen konnte ich aus der Fortbildung Digitale mit KI unterstütze Assessments mitnehmen (2024) die von Volker Rohr (Universität Zürich) moderiert wurde.

Index

Einstieg Knick-Quatsch- Prompten

Haltungen zum KI-Einsatz

Timeline Assessment

KI-Perspektiven

Literatur

Stationen zum Ausprobieren

Einstieg in den Workshop Knick-Quatsch-Prompten

Wenn ich an meinen MU und KI-Nutzung denke, hoffe ich ... oder befürchte ich ...?

Chancen

Risiken

Kompetenter Umgang mit KI

Ganzheitlich Messen

DigiComp-Edu mit KI

DigComp-Framework mit KI-Erweiterung

KI und Assessments

Überlegungen von Joyner (2024)

〞

Ignoranz

Beispiele zu Meldungen zur KI-Performance & mehr

Impuls 1 - Kommunikation mit GPTs

1.

Impuls 2 - (Selbst-) Überprüfungsfragen generieren

2.

Impuls 3 - Situationen oder Simulationen gestalten

3.

Station 1: PROMPTEN mit System

TRACI

PTCFE

Vorschläge für Frameworks

TRACI

PTCFE

Tipps für die Kommunikation mit Chatbots

Kontext ist der Schlüssel

Kontext-Marker

Beispiele für Frameworknutzung

TRACI

PTCFE

Impuls 2: Überprüfungsfragen

Tipps und Tricks

Qualitätsüberprüfung

Strategien zur Konstruktion

Station 2: MCQ und SCQ

Theorie und praktische Umsetzung mit H5P

Situationen oder SJT erstellen

Impuls 3 - Situationen/SJT

Was charakterisiert ein SJT?

Impuls

Literaturverzeichnis

Literaturverzeichnis

Ideensammlung

Formatives
Assessment
und generative KI

Viele Anregungen konnte ich aus der Fortbildung
Digitale mit KI unterstütze Assessments mitnehmen (2024) die von Volker Rohr (Universität Zürich) moderiert wurde.

Einstieg
Knick-Quatsch-
Prompten

Haltungen zum
KI-Einsatz

Timeline
Assessment

Einstieg in den Workshop
Knick-Quatsch-Prompten

DigComp-Framework
mit KI-Erweiterung