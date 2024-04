Zuletzt aktualisiert am 14. April 2024 von Michael Becker

Die Bildungslandschaft in Texas erfährt eine signifikante Veränderung, da die Texas Education Agency (TEA) eine neue Methode zur Bewertung von Schülerantworten bei den STAAR-Prüfungen (State of Texas Assessments of Academic Readiness) einführt. Dieses neue System, das auf künstlicher Intelligenz und maschinellem Lernen basiert, soll die Effizienz steigern und Kosten senken. Doch während die finanziellen und operativen Vorteile offensichtlich sind, gibt es auch Bedenken hinsichtlich der Fairness und Genauigkeit dieser Technologie.

Die Rolle der KI in der Bildungsbewertung

Das automatisierte Bewertungssystem, das die TEA einführt, nutzt die Technologie der natürlichen Sprachverarbeitung, eine Form der künstlichen Intelligenz, die auch in modernen Chatbots wie GPT-4 verwendet wird. Ziel ist es, offene Antwortformate in den STAAR-Tests zu bewerten, die Lesen, Schreiben, Naturwissenschaften und Sozialkunde abdecken. Die Umstellung folgt auf eine Neugestaltung der Tests im Jahr 2023, bei der die Anzahl der offenen Antwortmöglichkeiten deutlich erhöht wurde.

Vorteile und Effizienz

Der Hauptvorteil dieses Systems liegt in den erheblichen Kosteneinsparungen: Die TEA schätzt, dass durch die Verwendung des automatisierten Systems jährlich etwa 15 bis 20 Millionen US-Dollar eingespart werden können, die bisher für die Beauftragung menschlicher Bewerter durch Drittanbieter ausgegeben wurden. Im Jahr 2023 wurden etwa 6.000 temporäre Bewerter eingestellt, während für dieses Jahr weniger als 2.000 benötigt werden.

Entwicklung und Implementierung des Systems

Für die Entwicklung des Bewertungssystems sammelte die TEA 3.000 Schülerantworten, die in zwei Runden von Menschen bewertet wurden. Diese Daten dienten dazu, das System so zu programmieren, dass es dieselben Bewertungen vergibt, die auch ein Mensch vergeben hätte. Im Frühjahr, wenn die Schüler ihre Tests ablegen, wird der Computer zunächst alle konstruierten Antworten bewerten. Anschließend wird ein Viertel der Antworten erneut von Menschen bewertet.

Qualitätssicherung und menschliche Aufsicht

Um die Qualität der automatisierten Bewertungen zu sichern, werden Antworten, bei denen der Computer eine “geringe Vertrauenswürdigkeit” in die Bewertung hat, automatisch zur menschlichen Bewertung weitergeleitet. Dies geschieht auch bei Antworten, die der Computer aufgrund ungewöhnlicher Sprache oder Slang nicht erkennen kann. Darüber hinaus werden täglich zufällig ausgewählte Antworten von Menschen überprüft, um die Arbeit des Computers zu verifizieren.

Bedenken und Herausforderungen

Trotz der offensichtlichen Vorteile gibt es Bedenken hinsichtlich der Fähigkeit des Computers, die Nuancen menschlicher Sprache und Kreativität zu erfassen. Pädagogen und Eltern sind besorgt, dass die Automatisierung zu einer weniger fairen Bewertung führen könnte, besonders bei kreativen oder unkonventionellen Antworten. Darüber hinaus hat der Distrikt Lewisville ISD nach der Einführung des Systems eine “drastische Zunahme” von Nullpunkten bei konstruierten Antworten festgestellt, was Fragen zur Genauigkeit des Systems aufwirft.

Die rechtlichen Rahmenbedingungen

Die Ergebnisse der STAAR-Tests sind ein wesentlicher Bestandteil des Bewertungssystems der TEA, um Schulbezirke und einzelne Schulen auf einer Skala von A bis F zu bewerten. Bei schlechter Leistung auf diesen Tests kann der Bildungskommissar von Texas eingreifen, was den hohen Einsatz dieser Bewertungen unterstreicht.

Anpassung der Bildungseinrichtungen

Trotz der Herausforderungen sind viele Distrikte darauf bedacht, sich anzupassen und die neuen Werkzeuge zur automatisierten Bewertung in ihre Vorbereitungen für die STAAR-Tests zu integrieren. Diese Anpassung ist entscheidend, um sicherzustellen, dass die Schüler mit den neuen Systemen vertraut sind und erfolgreich abschneiden können.