Mastodon Nachhilfe | Blog | Nachhilfe online + Nachhilfe zu Hause : Nachhilfe-Vermittlung

Nachhilfe Nachhilfe

Blog [ Nachhilfe ]

Zum Thema Nachhilfe & Nachhilfe-Vermittlung

Von Jesuiten zu KI: Die Geschichte der Schulnoten — und warum sie bis heute umstritten sind

Seit fast 500 Jahren bewerten Schulnoten die Leistung von Schülern. Doch woher kommen sie eigentlich? Warum hat Deutschland ein 6-Noten-System, Österreich nur 5 und die Schweiz eine umgekehrte Skala? Ein Blick auf Ursprünge, Reformen, Kritik und die Zukunft der Benotung.

Wenn dieselbe Arbeit zwei verschiedene Noten bekommt


Stellen Sie sich vor: Ein Deutschaufsatz wird 92 Lehrerinnen und Lehrern vorgelegt. Das Ergebnis? Die Noten reichen von „sehr gut" bis „mangelhaft" — für denselben Text. Was wie ein schlechter Scherz klingt, ist ein wissenschaftlich dokumentiertes Phänomen, das seit Jahrzehnten unter dem Begriff Notenlotterie diskutiert wird. Schon 1971 zeigten Ingenkamp und Lissmann in ihrer bahnbrechenden Studie, dass Schulnoten alles andere als objektiv sind.

Doch warum halten wir trotzdem an ihnen fest? Woher kommt dieses System überhaupt? Und hat es noch eine Zukunft in einer Welt, in der Künstliche Intelligenz ganze Prüfungen auswerten kann?

Dieser Artikel zeichnet die überraschend bewegte Geschichte der Schulnoten nach — von den Jesuitenschulen der Renaissance über das preußische Bildungsideal bis hin zur NS-Standardisierung, deren Ergebnis wir bis heute nutzen. Wir vergleichen die Notensysteme in Deutschland, Österreich und der Schweiz, schauen uns an, was die Forschung zur Fairness von Noten sagt, und werfen einen Blick auf die mögliche Zukunft der Leistungsbewertung.

---

Die Anfänge: Jesuitenschulen und das erste Notensystem (16. Jahrhundert)


Die Geschichte der Schulnoten beginnt nicht etwa in einem Ministerium, sondern in einem Ordenshaus. Als Ignatius von Loyola 1534 die Gesellschaft Jesu — besser bekannt als der Jesuitenorden — gründete, hatte er eine klare Vorstellung von Bildung: systematisch, messbar, vergleichbar. Die Jesuiten errichteten innerhalb weniger Jahrzehnte ein Netzwerk von über 700 Schulen in ganz Europa, und mit ihm kam ein revolutionäres Konzept: die formale Leistungsbewertung.

Die Ratio Studiorum von 1599


Das Herzstück des jesuitischen Bildungssystems war die Ratio atque Institutio Studiorum Societatis Iesu (wörtlich: „Plan und Einrichtung der Studien der Gesellschaft Jesu"), die 1599 in ihrer endgültigen Fassung veröffentlicht wurde. Dieses Regelwerk beschrieb nicht nur den Lehrplan, sondern auch ein fünfstufiges Bewertungssystem, das erstmals in der Geschichte der Pädagogik Schülerleistungen numerisch klassifizierte.

Die fünf Stufen lauteten:

1. Optimus (Ausgezeichnet)
2. Bonus (Gut)
3. Mediocris (Mittelmäßig)
4. Dubius (Zweifelhaft)
5. Reiciendus (Zurückzuweisen)

Was heute selbstverständlich klingt, war damals ein Paradigmenwechsel. In der gesamten Antike — ob in Griechenland oder Rom — gab es keine vergleichbaren Zensuren. Lehrer beurteilten mündlich und individuell, aber eine standardisierte Skala existierte nicht. Cicero wurde nie mit einer Zahl bewertet. Platon vergab keine Einser.

Warum Noten? Das Prinzip der Aemulatio


Die Jesuiten führten Noten nicht ein, weil sie Schüler abstrafen wollten, sondern weil sie an die Kraft des Wettbewerbs glaubten. Das Prinzip der Aemulatio — des edlen Wettstreits — durchzog ihr gesamtes Erziehungskonzept. Schüler wurden in rivalisierende Gruppen eingeteilt (oft nach dem Vorbild der Römer und Karthager), und regelmäßige Prüfungen dienten dazu, den Fortschritt messbar zu machen.

Entscheidend war: Nur wer die Prüfungen bestand, durfte in die nächste Klasse vorrücken. Die Noten waren also nicht bloß eine Rückmeldung — sie waren ein Gatekeeper. Dieses Prinzip der Versetzung, das heute in fast allen Schulsystemen weltweit gilt, wurde hier erstmals formalisiert.

Die Ausbreitung über Europa


Die jesuitischen Schulen waren die „Eliteschulen" ihrer Zeit. Descartes, Voltaire, Molière — sie alle besuchten Jesuitenkollegien. Mit den Schulen verbreitete sich auch das Bewertungssystem. Als im 18. Jahrhundert die ersten staatlichen Schulen gegründet wurden, übernahmen viele von ihnen das jesuitische Modell als Vorlage.

Die Noten verließen das Kloster und wurden zum Werkzeug des Staates.

---

Preußen und die Standardisierung (19. Jahrhundert)


Wenn die Jesuiten die Schulnote erfanden, dann machten die Preußen sie zur Institution. Im 19. Jahrhundert wurde Preußen zum Vorreiter eines staatlich kontrollierten Bildungssystems, das auf Effizienz, Messbarkeit und Vergleichbarkeit ausgerichtet war. Und Noten waren das perfekte Werkzeug DaFür.

Das Abitur und der Beginn der Standardisierung


1788 führte Preußen als einer der ersten Staaten überhaupt das Abitur (lat. abiturus = „einer, der weggehen wird") als verbindliche Hochschulzugangsprüfung ein. Damit wurde die Frage unausweichlich: Nach welchen Kriterien werden Prüfungsleistungen bewertet?

Zunächst verwendete Preußen ein dreistufiges System: „gut", „mittelmäßig" und „schlecht". Diese Grobheit genügte für eine Übergangszeit, führte aber schnell zu Problemen. Die meisten Schüler landeten im „mittelmäßig"-Bereich, und die Differenzierung war zu gering, um sinnvolle Auswahlentscheidungen zu treffen.

Die Erweiterung auf fünf Stufen


Um 1850 erweiterte Preußen das System auf fünf Noten: Sehr gut, Gut, Genügend, Mangelhaft und Ungenügend. Dieses Fünfersystem verbreitete sich rasch in den anderen deutschen Staaten, was weniger an pädagogischer Überzeugung lag als an der politischen Dominanz Preußens.

Was Preußen in der Bildung einführte, übernahmen Baden, Bayern und Sachsen oft bereitwillig — oder wurden durch den Druck der Vereinheitlichung dazu bewogen. Das preußische Modell wurde zum de-facto-Standard für das gesamte Deutschsprachige Europa.

Die Kulturhoheit der Länder — und ihre Grenzen


Trotz der Vereinheitlichungstendenzen blieb die Bildung in den deutschen Ländern formal eine Angelegenheit der Landesregierungen — ein Prinzip, das als Kulturhoheit der Länder bekannt ist und bis heute in Artikel 30 und 70 des Grundgesetzes verankert ist. Das bedeutete: Jedes Land konnte theoretisch sein eigenes Notensystem verwenden.

In der Praxis tat das kaum jemand. Der preußische Standard von fünf Notenstufen dominierte bis weit ins 20. Jahrhundert — bis ein einschneidendes Ereignis das System grundlegend veränderte.

---

1938: Die Geburt des Sechser-Systems


Es ist eine der weniger bekannten Erbschaften des Nationalsozialismus: Das Notensystem, das heute in deutschen Schulen verwendet wird — die Skala von 1 (sehr gut) bis 6 (ungenügend) — wurde 1938 durch Reichserziehungsminister Bernhard Rust eingeführt. Es ist seit nunmehr 88 Jahren im Wesentlichen unverändert.

Die wissenschaftliche Begründung


Die Einführung der sechsten Note hatte einen überraschend rationalen Hintergrund. Bildungsforscher hatten festgestellt, dass Lehrkräfte in einem Fünfersystem dazu neigten, sich auf die mittlere Note (3 = „befriedigend") zu konzentrieren. Der psychologische Effekt: Bei einer ungeraden Notenskala gibt es eine eindeutige Mitte, und diese Mitte wird zum „sicheren Hafen" für unsichere Bewertende.

Die Lösung: Eine gerade Anzahl von Notenstufen. Ohne eine eindeutige Mitte werden Lehrkräfte gezwungen, sich für eine Tendenz zu entscheiden — entweder leicht über oder leicht unter dem Durchschnitt. Die sechste Note („ungenügend") wurde am unteren Ende hinzugefügt, was die Skala auf 1 bis 6 erweiterte.

Gleichschaltung und Vereinheitlichung


Natürlich diente die Reform auch der nationalsozialistischen Gleichschaltung. Das Bildungswesen sollte reichsweit standardisiert werden — nicht nur inhaltlich (Ideologie im Lehrplan), sondern auch formal (einheitliche Noten, einheitliche Zeugnisformulare, einheitliche Versetzungsregeln).

Die Reichsnotenskala lautete:

| Note | Bezeichnung | Bedeutung |
|------|-------------|-----------|
| 1 | Sehr gut | Die Leistungen entsprechen den Anforderungen in besonderem Maße |
| 2 | Gut | Die Leistungen entsprechen den Anforderungen voll |
| 3 | Befriedigend | Die Leistungen entsprechen den Anforderungen im Allgemeinen |
| 4 | Ausreichend | Die Leistungen weisen Mängel auf, genügen aber im Ganzen den Anforderungen |
| 5 | Mangelhaft | Die Leistungen entsprechen den Anforderungen nicht, lassen aber Grundkenntnisse erkennen |
| 6 | Ungenügend | Die Leistungen entsprechen den Anforderungen nicht, selbst Grundkenntnisse fehlen |

88 Jahre ohne Reform


Das Bemerkenswerte: Nach dem Krieg wurde vieles aus der NS-Zeit verworfen — die Ideologie, die Lehrpläne, die Organisationsstrukturen. Aber die Notenskala blieb. Die westdeutschen Bundesländer übernahmen das 1-6-System in den 1950er Jahren nahezu unverändert, und auch die DDR verwendete eine ähnliche Skala (mit dem Zusatz von Dezimalstellen).

Warum wurde nicht zum Fünfersystem zurückgekehrt? Die pragmatische Antwort: Das Sechsersystem hatte sich bewährt. Lehrkräfte, Eltern und Schüler hatten sich daran gewöhnt. Eine Umstellung hätte enormen Verwaltungsaufwand bedeutet — und die pädagogische Begründung (gerade Anzahl = weniger „Mitte-Tendenz") war durchaus plausibel.

So kommt es, dass deutsche Schüler im Jahr 2026 nach einer Skala bewertet werden, die Bernhard Rust 1938 einführte. Es gibt wohl wenige Institutionen, die so lange so wenig verändert wurden.

---

Deutschland, Österreich, Schweiz: Drei Länder, drei Systeme


Wer denkt, der deutschsprachige Raum habe ein einheitliches Notensystem, irrt gewaltig. Deutschland, Österreich und die Schweiz verwenden drei verschiedene Skalen, die sich in Umfang, Richtung und Interpretation grundlegend unterscheiden.

| Merkmal | Deutschland | Österreich | Schweiz |
|---------|-------------|------------|---------|
| Skala | 1-6 | 1-5 | 6-1 |
| Beste Note | 1 (Sehr gut) | 1 (Sehr gut) | 6 (Ausgezeichnet) |
| Schlechteste Note | 6 (Ungenügend) | 5 (Nicht genügend) | 1 (Unbrauchbar) |
| Genügend ab | 4 (Ausreichend) | 4 (Genügend) | 4 (Genügend) |
| Anzahl Stufen | 6 | 5 | 6 |
| Halbe Noten | Selten, nicht offiziell | Nein | Ja, üblich (z. B. 4,5) |
| Eingeführt | 1938 (NS-Standardisierung) | Behielt 5er-System (Post-1945) | Eigene Entwicklung, kantonal |
| Plus/Minus | Regional unterschiedlich | Nein | Nein (halbe Noten stattdessen) |

Österreich: Das bewusste Festhalten am Fünfersystem


Österreich verwendete vor 1938 — wie der Rest des deutschsprachigen Raums — ein Fünfersystem. Während der deutschen Besatzung (1938-1945) wurde auch in Österreich die sechsstufige Skala eingeführt. Nach der Befreiung 1945 kehrte Österreich jedoch bewusst zum Fünfersystem zurück — nicht zuletzt als Akt der kulturellen Selbstbehauptung gegenüber dem deutschen Einfluss.

Die fünf Noten Österreichs — Sehr gut (1), Gut (2), Befriedigend (3), Genügend (4), Nicht genügend (5) — ähneln dem deutschen System, aber mit einem wesentlichen Unterschied: Es gibt keine „6". Die schlechteste Note ist „Nicht genügend", was semantisch weniger vernichtend klingt als das deutsche „Ungenügend".

Die Schweiz: Wenn 6 die beste Note ist


Am verwirrendsten für Außenstehende ist das Schweizer System, das die Skala umkehrt: 6 ist die Bestnote, 1 die schlechteste. Zusätzlich sind halbe Noten (4,5 oder 5,5) offiziell und üblich.

Die Schweizer Skala hat sich unabhängig entwickelt und spiegelt die föderale Struktur des Landes wider. Da Bildung in der Schweiz Sache der 26 Kantone ist, gab es historisch eine große Vielfalt. Die 6er-Skala setzte sich als Kompromiss durch und wird heute landesweit verwendet, auch wenn einzelne Kantone (z. B. Waadt) zeitweise Abweichungen hatten.

Ein Blick über die Grenzen


International ist die Vielfalt noch größer:

- USA: Buchstabennoten A-F (wobei E übersprungen wird), oft ergänzt durch GPA (Grade Point Average) auf einer 4.0-Skala.
- Frankreich: 0-20 Punkte, wobei eine 20 praktisch unerreichbar ist. Eine 10 gilt als bestanden.
- England/Wales: 9-1 (seit 2017, vorher A*-G). Die 9 ist die Bestnote.
- Skandinavien: Dänemark verwendet eine 7-stufige Skala (12, 10, 7, 4, 02, 00, -3). Schweden hat A-F. Finnland tendiert zu formativen Bewertungen ohne Noten in den ersten Schuljahren.
- Japan: 1-5 (ähnlich dem alten preußischen System), aber mit starkem Einfluss standardisierter Tests.

---

Die „Notenlotterie": Wie subjektiv sind Schulnoten wirklich?


Die Frage nach der Objektivität von Schulnoten ist keine theoretische Spielerei — sie hat reale Konsequenzen für Millionen von Schülern. Noten bestimmen Versetzungen, Schulempfehlungen, Studienplatzvergabe und Bewerbungschancen. Umso erschreckender sind die Ergebnisse der Forschung.

Die klassischen Studien: Ingenkamp und die Lehrerversuche


Bereits in den 1960er und 1970er Jahren führte der Bildungsforscher Karlheinz Ingenkamp Experimente durch, die das Vertrauen in die Objektivität von Noten erschütterten. In einem berühmten Versuch wurde derselbe Deutschaufsatz an 92 Lehrkräfte verteilt. Das Ergebnis:

- Nur 40 Prozent gaben dieselbe Note
- Die Bewertungen reichten über drei bis vier Notenstufen
- In Mathematik war die Übereinstimmung etwas höher, aber auch hier gab es Abweichungen von bis zu zwei Noten

Ingenkamp prägte den Begriff „Notenlotterie" — und seine Befunde wurden seitdem in zahlreichen Studien bestätigt.

Die IQB-Studie 2024: Noten und Kompetenz passen kaum zusammen


Eine besonders aufschlussreiche Studie wurde 2024 vom Institut zur Qualitätsentwicklung im Bildungswesen (IQB) gemeinsam mit der Universität Tübingen veröffentlicht. Die Forscher verglichen die Schulnoten von über 30.000 Schülerinnen und Schülern mit deren Ergebnissen in standardisierten Kompetenztests.

Das Ergebnis war ernüchternd: Die Korrelation zwischen Note und tatsächlicher Kompetenz war deutlich geringer als erwartet. Konkret bedeutete das: Ein Schüler mit der Note 2 in Mathematik in einer Schule hätte an einer anderen Schule möglicherweise eine 3 oder sogar 4 bekommen — obwohl seine tatsächlichen mathematischen Fähigkeiten identisch waren.

Die Studie identifizierte mehrere systematische Verzerrungen:

Geschlechterbias


Mädchen erhalten in MINT-Fächern (Mathematik, Informatik, Naturwissenschaften, Technik) im Durchschnitt 0,3 bis 0,8 Notenpunkte schlechtere Bewertungen als Jungen mit vergleichbaren Leistungen in standardisierten Tests. Umgekehrt werden Jungen in sprachlichen Fächern tendenziell schlechter bewertet. Dieses Muster — bekannt als gender bias in grading — ist international dokumentiert und betrifft nicht nur Deutschland.

Sozioökonomischer Hintergrund


Kinder aus einkommensschwachen Familien oder Familien mit Migrationshintergrund erhalten laut mehreren Studien (u. a. Maaz et al., 2011; Stubbe et al., 2016) für gleiche Leistungen schlechtere Noten — ein Effekt, der auf unbewusste Erwartungen der Lehrkräfte zurückgeführt wird. Forscher sprechen von einem Erwartungs-Leistungs-Kreislauf: Wer als „schwach" eingeschätzt wird, wird auch strenger bewertet.

Die Schätzungen variieren, aber mehrere Untersuchungen kommen zu dem Ergebnis, dass bis zu 30 Prozent der Schüler aus benachteiligten Verhältnissen eine schlechtere Note erhalten, als ihre tatsächliche Leistung rechtfertigen würde.

Der Halo-Effekt und äußere Merkmale


Studien haben gezeigt, dass sogar das äußere Erscheinungsbild von Schülerinnen und Schülern die Benotung beeinflusst. Eine viel diskutierte Untersuchung von Dunkake et al. (2012) ergab, dass übergewichtige Schüler tendenziell schlechtere Noten erhalten — ein Effekt, der als Ausprägung des Halo-Effekts interpretiert wird: Ein einzelnes Merkmal (hier das Gewicht) beeinflusst die Gesamtwahrnehmung der Person.

Auch die Handschrift spielt eine Rolle: Lehrkräfte bewerten identische Inhalte besser, wenn sie in einer sauberen, leserlichen Handschrift verfasst sind. Und der Reihenfolge-Effekt (auch Kontrast-Effekt genannt) führt dazu, dass eine durchschnittliche Arbeit nach mehreren schlechten Arbeiten besser bewertet wird als nach mehreren guten.

Lehrerlaune und der Anchoring-Effekt


Der sogenannte Anchoring-Effekt (Verankerungseffekt) beeinflusst die Notengebung messbar: Lehrkräfte, die wissen, welche Note ein Schüler im letzten Zeugnis hatte, tendieren dazu, nahe an dieser Note zu bleiben — selbst wenn die aktuelle Leistung deutlich abweicht. Die Vergangenheit „verankert" die Bewertung der Gegenwart.

Auch die Stimmung der Lehrkraft spielt eine dokumentierte Rolle. Eine Studie von Krolak-Schwerdt et al. (2018) zeigte, dass Lehrkräfte, die unmittelbar vor der Korrektur negative Nachrichten erhalten hatten, strenger bewerteten als eine Kontrollgruppe.

All diese Effekte zusammengenommen bedeuten: Schulnoten sind kein objektives Maß für Leistung. Sie sind eine Mischung aus tatsächlicher Kompetenz, institutionellem Kontext, sozialen Faktoren und menschlicher Psychologie.

---

Alternativen zur klassischen Benotung


Angesichts der dokumentierten Schwächen des Notensystems überrascht es nicht, dass seit Jahrzehnten Alternativen diskutiert — und teilweise auch praktiziert — werden.

Verbalbeurteilungen


In vielen deutschen Grundschulen erhalten Kinder in den ersten beiden Klassenstufen keine Ziffernoten, sondern Verbalbeurteilungen: ausführliche schriftliche Beschreibungen der Leistung, der Stärken und der Entwicklungsbereiche. Das Ziel ist eine differenziertere Rückmeldung, die das Kind ermutigt statt entmutigt.

Vorteile: Mehr Differenzierung, weniger Vergleichsdruck, individuelle Förderhinweise.
Nachteile: Zeitaufwändig (eine Beurteilung kann 30-60 Minuten dauern), schwer vergleichbar, Formulierungen werden oft als „Code" gelesen („bemüht sich" = schlecht).

Portfolio-Bewertung


Bei der Portfolio-Methode sammeln Schüler über einen Zeitraum Arbeitsproben, Projekte und Reflexionen in einer Mappe. Die Lehrkraft bewertet nicht eine Einzelleistung, sondern den Entwicklungsverlauf.

Vorteile: Zeigt Fortschritt statt Momentaufnahmen, fördert Selbstreflexion.
Nachteile: Standardisierung schwierig, hoher Dokumentationsaufwand.

Pass/Fail (Bestanden/Nicht bestanden)


Einige Bildungssysteme — insbesondere in Skandinavien und an US-Hochschulen — verwenden in bestimmten Phasen ein reines Pass/Fail-System ohne Abstufungen. Die Idee: Wer die Mindestanforderungen erfüllt, hat bestanden. Eine weitere Differenzierung ist unnötig.

Vorteile: Weniger Leistungsdruck, Fokus auf Lernprozess statt Ergebnis.
Nachteile: Weniger Anreiz für Spitzenleistungen, Hochschulen und Arbeitgeber bevorzugen differenziertere Angaben.

Kompetenzbasierte Bewertung


Die kompetenzbasierte Bewertung (Competency-Based Assessment) definiert konkrete Fähigkeiten, die ein Schüler beherrschen soll, und bewertet den Grad der Beherrschung. Statt „Note 2 in Mathe" heißt es dann: „Beherrscht Bruchrechnung sicher, benötigt Unterstützung bei Gleichungen mit Variablen."

Vorteile: Konkret, handlungsorientiert, individuell.
Nachteile: Komplex in der Umsetzung, erfordert klare Kompetenzraster.

Waldorf- und Montessori-Ansätze


In Waldorfschulen erhalten Schüler bis zur 8. Klasse keine Noten, sondern ausführliche Textzeugnisse. Montessori-Schulen arbeiten ebenfalls ohne Noten und setzen auf Beobachtung und individuelle Entwicklungsberichte. Beide Konzepte betonen die intrinsische Motivation — Lernen um des Lernens willen, nicht für eine Ziffer.

Hamburg 2024: Ein Bundesland wagt den Schritt


Einen bemerkenswerten Vorstoß unternahm Hamburg im Schuljahr 2024/25: Als erstes großes Bundesland erlaubte die Hansestadt Schulen, bis zur 9. Klasse auf Noten zu verzichten und stattdessen kompetenzbasierte Rückmeldungen zu verwenden. Das Experiment wird von der Universität Hamburg wissenschaftlich begleitet.

Ob das Modell Schule macht (im wahrsten Sinne des Wortes), wird sich zeigen. Die Reaktionen waren gespalten: Reformbefürworter feierten den Schritt, Kritiker warnten vor einem „Verlust der Vergleichbarkeit" und einem „Weichspülen von Leistung".

---

Die Zukunft: KI-gestützte Bewertung?


Kann Künstliche Intelligenz die Probleme der Notengebung lösen? Die Frage wird spätestens seit der Verbreitung großer Sprachmodelle wie GPT-4 und Claude intensiv diskutiert — und in der Praxis bereits erprobt.

Der Status quo: KI in der Bewertung


Laut einer Umfrage des Stifterverbands und der Heinz Nixdorf Stiftung pilotierten 2025 bereits 68 Prozent der deutschen Hochschulen KI-gestützte Bewertungssysteme in mindestens einem Fachbereich. In der schulischen Praxis ist der Einsatz noch geringer, aber wachsend.

Typische Anwendungsfelder:

- Automatisierte Bewertung von Multiple-Choice-Tests (seit Jahrzehnten etabliert)
- KI-gestütztes Feedback zu Textaufsätzen (Grammatik, Struktur, Argumentation)
- Sprachprüfungen (Aussprache, Wortschatz, Flüssigkeit)
- Mathematische Lösungswege (nicht nur das Ergebnis, sondern der Denkprozess)
- Plagiatserkennung (erweitert um KI-generierte Texte)

Vorteile der KI-Bewertung


Konsistenz: Eine KI bewertet den 200. Aufsatz genauso wie den ersten — ohne Müdigkeit, ohne Stimmungsschwankungen, ohne Anchoring-Effekt. In Studien der Stanford University (2024) zeigte ein KI-basiertes Bewertungssystem eine Interrater-Reliabilität von 0,94 — deutlich höher als der typische Wert von 0,60-0,75 bei menschlichen Bewertenden.

Zeitersparnis: Lehrkräfte in Deutschland verbringen durchschnittlich 23 Prozent ihrer Arbeitszeit mit Korrekturen und Bewertungen (Studie der Robert Bosch Stiftung, 2022). KI-gestützte Systeme könnten diesen Aufwand drastisch reduzieren und Zeit für das freigeben, was wirklich zählt: Unterricht und individuelle Förderung.

Skalierbarkeit: Während ein Lehrer 30 Arbeiten am Abend korrigiert, kann ein KI-System Tausende in Minuten verarbeiten — mit identischen Kriterien.

Grenzen und Risiken


Bias in den Trainingsdaten: KI-Systeme lernen aus menschlichen Bewertungen — und wenn diese voreingenommen sind, übernimmt die KI die Voreingenommenheit. Eine Studie der University of Michigan (2023) zeigte, dass ein KI-Bewertungssystem, das auf historischen Lehrerbewertungen trainiert wurde, denselben Geschlechter- und Herkunftsbias reproduzierte.

Kreativität als blinder Fleck: KI-Systeme tun sich schwer mit unkonventionellen, kreativen oder absichtlich regelbrechenden Antworten. Ein provokanter Gedanke, eine überraschende Metapher, eine bewusst fragmentarische Erzählung — all das kann von einer KI als „fehlerhaft" eingestuft werden, obwohl es in Wirklichkeit herausragend ist.

Das Black-Box-Problem: Viele KI-Systeme können nicht transparent erklären, warum sie eine bestimmte Note vergeben haben. Für Schüler und Eltern, die eine Bewertung anfechten möchten, ist das ein fundamentales Problem.

Emotionale Intelligenz: Noten sind nicht nur Leistungsmessung — sie sind auch Kommunikation. Eine erfahrene Lehrkraft weiß, wann eine ermuntigende 3 mehr bewirkt als eine strenge 2. Dieses pädagogische Gespür fehlt der KI (noch).

Der Konsens: Hybrid, nicht Ersetzung


Die sich abzeichnende Lösung ist ein hybrides Modell: KI als Erstbewertung und Unterstützung, Mensch als Kontrollinstanz und pädagogische Entscheidung.

Konkret könnte das so aussehen:

1. KI bewertet Aufsatz/Test nach definierten Kriterien und vergibt vorläufige Note
2. Lehrkraft überprüft die Bewertung, ergänzt pädagogische Einschätzung
3. Abweichungen werden markiert — z. B. wenn KI und Lehrkraft mehr als eine Note auseinander liegen
4. Feedbackschleifen verbessern das System kontinuierlich

Dieses Modell könnte das Beste aus beiden Welten vereinen: die Konsistenz der Maschine und das Einfühlungsvermögen des Menschen.

---

Fazit: Die Note ist menschlich — mit allen Stärken und Schwächen


Die Geschichte der Schulnoten ist eine Geschichte von Ordnungsversuchen. Von den Jesuiten über Preußen bis zum Nationalsozialismus war das Ziel stets dasselbe: Leistung messbar, vergleichbar und verwaltbar zu machen. Und in gewisser Hinsicht hat das funktioniert — die Schulnote ist eines der langlebigsten und weitverbreitetsten Bewertungsinstrumente der Menschheitsgeschichte.

Doch die Forschung zeigt unmissverständlich: Noten sind keine objektive Messung. Sie sind geprägt von Erwartungen, Vorurteilen, Kontexten und Zufällen. Dieselbe Leistung kann an verschiedenen Schulen, bei verschiedenen Lehrkräften, an verschiedenen Tagen zu verschiedenen Ergebnissen führen.

Das bedeutet nicht, dass Noten abgeschafft werden sollten — zumindest nicht sofort und nicht ersatzlos. Aber es bedeutet, dass wir sie mit einer gesunden Skepsis betrachten sollten. Eine einzelne Note sagt weniger über einen Schüler aus, als wir instinktiv glauben.

Und genau hier setzt der Gedanke der Schulnoten-Zweitmeinung (SNZ) an: In einem System, dessen Subjektivität wissenschaftlich dokumentiert ist, ist eine qualifizierte zweite Perspektive auf eine fragwürdige Note kein Luxus — sondern eine logische Antwort auf eine systemische Unsicherheit. Wenn sogar 92 ausgebildete Lehrkräfte denselben Aufsatz unterschiedlich bewerten, dann ist es nicht nur legitim, sondern geradezu geboten, bei einer überraschenden oder folgenreichen Note eine fundierte Einschätzung einzuholen.

Mehr erfahren: Schulnoten-Zweitmeinung auf nachhilfe-vermittlung.com

---

Quellen und weiterführende Literatur


- Ingenkamp, K. & Lissmann, U. (2008). Lehrbuch der Pädagogischen Diagnostik. Beltz.
- IQB / Universität Tübingen (2024). Zusammenhang zwischen Schulnoten und standardisierten Kompetenzmessungen. IQB-Bericht.
- Maaz, K., Baumert, J. & Trautwein, U. (2011). Genese sozialer Ungleichheit im institutionellen Kontext der Schule. In: Zeitschrift für Erziehungswissenschaft, Sonderheft 14.
- Stubbe, T. C. et al. (2016). Soziale Disparitäten der Schülerleistungen. IGLU 2016.
- Dunkake, I. et al. (2012). Schönheit und Schulerfolg. In: Kölner Zeitschrift für Soziologie, 64(3).
- Krolak-Schwerdt, S. et al. (2018). Teachers' Judgments and Students' Characteristics. In: Social Psychology of Education.
- Robert Bosch Stiftung (2022). Deutsches Schulbarometer. Ergebnisse der Lehrkräftebefragung.
- Stanford University (2024). AI-Assisted Grading: Reliability and Fairness. Technical Report.
- Stifterverband / Heinz Nixdorf Stiftung (2025). Hochschul-Bildungs-Report 2025. KI in der Lehre.
- Codreanu, E. & Neuhaus, B. (2023). Geschlechtsspezifische Bewertungsunterschiede in MINT-Fächern. LMU München.
- Oelkers, J. & Reusser, K. (2008). Qualität entwickeln — Standards sichern — mit Differenz umgehen. BMBF-Expertise.
- Weinert, F. E. (Hrsg.) (2014). Leistungsmessungen in Schulen. Beltz.
- Ratio atque Institutio Studiorum Societatis Iesu (1599). Jesuitische Studienordnung, editiert von Lukács, L. (1986).

03/21/26 21:48