5.3 Historische Entwicklung der Programmbewertung

Lassen Sie uns nun einen genaueren Blick auf die Geschichte der Entwicklung der Evaluation im schulischen Kontext werfen.

Der Versuch, sich ein Bild von der Entwicklung des Bewertungsbereichs zu machen, ist wirklich eine komplexe Aufgabe, denn die Bewertung war schon immer etwas, das die Menschen seit Tausenden von Jahren auf informelle Weise genutzt haben. Die Evaluierung ist eine alte Praxis, aber gleichzeitig eine sehr junge Disziplin, sie ist etwas, das schon lange üblich ist.

In den letzten Jahren ist der Bereich der Bewertung gereift.

Wir können die Entwicklung des gesamten Bereichs anhand von sieben verschiedenen Entwicklungsstufen beschreiben, die als Perioden der Programmbewertung bezeichnet werden. Erstens die Zeit vor 1900, die die Autoren als Zeitalter der Reformen bezeichnen; zweitens die Zeit von 1900 bis 1930, die sie als Zeitalter der Effizienz bezeichnen; drittens die Zeit von 1930 bis 1945, die als Tylerianisches Zeitalter bezeichnet wird; viertens die Zeit von 1946 bis etwa 1957, die als Zeitalter der Unschuld bezeichnet wird; fünftens die Zeit von 1958 bis 1972, das Zeitalter der Entwicklung; sechstens die Zeit von 1973 bis 1983, das Zeitalter der Professionalisierung; und siebtens die Zeit von 1983 bis 2000, das Zeitalter der Expansion und Integration.

Zeitraum 1: Das Zeitalter der Reformen (1792-1900er Jahre)

Die erste dokumentierte formale Anwendung der Bewertung fand 1792 statt, als William Farish die quantitative Note zur Beurteilung der Leistungen von Studenten einsetzte (Hoskins, 1968). Die quantitative Note ermöglichte eine objektive Einstufung der Prüflinge sowie die Bildung von Durchschnittswerten und die Aggregation der Noten. Darüber hinaus war die quantitative Markierung in Bezug auf die Entstehung der Programmevaluation als Disziplin aus zwei Gründen historisch relevant:

(a) es war der erste Schritt in der Entwicklung der Psychometrie; und (b) Die Fragen waren so konzipiert, dass sie die sachliche Fachkompetenz in den Themenbereichen messen sollten, die nach und nach die Fragen zur Bewertung des rhetorischen Stils ersetzten (Madaus & O’Dyer, 1999).

Lassen Sie uns einige Beispiele aus verschiedenen Ländern anführen:

In dieser Zeit wurde in Großbritannien das Bildungswesen durch Evaluierung reformiert. Die Powis-Kommission empfahl zum Beispiel, dass die Leistungen der Schüler in den Bereichen Lesen, Rechtschreibung, Schreiben und Rechnen für die Gehälter der Lehrer maßgeblich sein sollten. Es war nicht unüblich, die Leistungen der Schüler jährlich zu bewerten (Madaus & Kellaghan, 1982).

In den Vereinigten Staaten hingegen fand die früheste Methode der formalen Bewertung im Jahr 1815 statt, als die Armee ein System von Richtlinien für die „Einheitlichkeit der Herstellerverordnungen“ entwickelte (Smith, 1987, S.42). Diese Richtlinien legten standardisierte Produktionsprozesse fest, die die Konformität von Materialien, Produktionstechniken, Inspektionen und Produktspezifikationen für alle Lieferanten von Waffen für das Militär förderten. Die erste formale Bildungsbewertung in den Vereinigten Staaten fand 1845 in Boston, Massachusetts, statt. Gedruckte Tests in verschiedenen Fächern wurden verwendet, um die Leistungen der Schüler im Bostoner Bildungssystem zu bewerten. Horace Mann, Sekretär des State Board of Education, wollte eine umfassende Bewertung der Schülerleistungen, um die Qualität eines großen Schulsystems zu beurteilen. Laut Stufflebeam, Madaus & Kellaghan (2000) war dieses Ereignis ein wichtiger Moment in der Geschichte der Evaluierung, da es eine lange Tradition der Verwendung von Schülertestergebnissen als Hauptquelle für die Bewertung der Effektivität von Schulen oder Unterrichtsprogrammen einleitete. Von 1887 bis 1898 führte ein Bildungsreformer namens Joseph Rice eine ähnliche Untersuchung durch, indem er eine vergleichende Studie zum Rechtschreibunterricht in einer Reihe von Schulbezirken durchführte. Er war besorgt über die Methoden des Rechtschreibunterrichts, da die amerikanischen Schüler keine Rechtschreibung lernten. Rice konnte feststellen, dass es keinen Zusammenhang zwischen der für die Rechtschreibung aufgewendeten Zeit und der Kompetenz gibt. Er berichtete 1897 in The Forum über seine Ergebnisse in einem Artikel mit dem Titel „The Futility of the Spelling Grind“ (Colwell, 1998). Die Bewertung von Rice gilt als die erste formale Bewertung eines Bildungsprogramms in Amerika (Stufflbeam et al., 2000).

Zeitabschnitt 2: Das Zeitalter der Effizienz und der Tests (1900-1930)

Fredrick W. Taylors Arbeit über wissenschaftliches Management wurde einflussreich für Verwaltungsangestellte im Bildungswesen (Biddle & Ellena, 1964). Taylors wissenschaftliches Management basierte auf Beobachtung, Messung, Analyse und vor allem auf Effizienz (Russell & Taylor, 1998). Objektive Tests waren entscheidend für die Qualität des Unterrichts. Die Tests wurden von Abteilungen entwickelt, die die Effizienz des Bildungsbezirks verbessern sollten. Nach Ballou (1916) wurden die für die öffentlichen Schulen in Boston entwickelten Tests als objektiv referenziert beschrieben. Die Tests wurden verwendet, um Rückschlüsse auf die Effektivität des Distrikts zu ziehen. In dieser Zeit betrachteten Pädagogen Messung und Bewertung als Synonyme, wobei letztere als Zusammenfassung von Schülerleistungen in Tests und als Zuteilung von Noten verstanden wurde (Worthen, Sanders, & Fitzpatrick, 1997).

Zeitabschnitt 3: Das Tylerianische Zeitalter (1930-1945)

Ralph Tyler, der als Vater der Bildungsevaluation gilt, leistete erhebliche Beiträge zur Evaluation. Tyler leitete, wie Sie sich vielleicht erinnern, eine achtjährige Studie (1932-1940), in der die Ergebnisse von Programmen in 15 progressiven High Schools und 15 traditionellen High Schools bewertet wurden. Tyler fand heraus, dass Unterrichtsziele klarer formuliert werden können, indem man sie in Form von Verhaltensweisen formuliert, und dass diese Ziele als Grundlage für die Bewertung der Wirksamkeit des Unterrichts dienen können (Tyler, 1975).

Tyler schrieb: „Jedes Ziel muss in Begriffen definiert werden, die die Art des Verhaltens verdeutlichen, zu dessen Entwicklung der Kurs beitragen soll“ (zitiert in Walbesser & Eisenberg, 1972). Stufflebeam et al. (2000) kamen zu dem Schluss, dass die Tylersche Evaluierung interne Vergleiche der Ergebnisse mit den Zielen beinhaltet. Sie muss keine kostspieligen und störenden Vergleiche zwischen Versuchs- und Kontrollgruppen vorsehen, wie sie in den von Rice verwendeten Vergleichsstudien verwendet wurden.

Laut Worthen et al. (1997) bildete Tylers Arbeit die Grundlage für kriterienbezogene Tests.

Zeitabschnitt 4: Das Zeitalter der Unschuld (1946-1957)

Ab Mitte der 1940er Jahre ließen die Amerikaner den Krieg (Zweiter Weltkrieg) und die große Depression geistig hinter sich. Nach Madaus & Stufflebeam (1984) erlebte die Gesellschaft eine Zeit großen Wachstums; es gab eine Aufwertung und Ausweitung von Bildungsangeboten, Personal und Einrichtungen. Aufgrund dieses nationalen Optimismus wurde der Rechenschaftspflicht über die für die Bildung ausgegebenen staatlichen Mittel wenig Beachtung geschenkt; daher auch die Bezeichnung dieses Bewertungszeitraums: Das Zeitalter der Unschuld. In den frühen 1950er Jahren, während des Zeitalters der Unschuld, wurde Tylers Ansicht über die Bewertung schnell übernommen. Bloom, Engelhart, Furst, Hill und Krathwohl (1956) brachten das objektivierte Testen voran, als sie die Taxonomy of Educational Objectives veröffentlichten. Die Autoren wiesen darauf hin, dass es innerhalb des kognitiven Bereichs verschiedene Arten von Lernergebnissen gibt. Die Ziele konnten nach der Art des darin beschriebenen Verhaltens des Lernenden klassifiziert werden, und es gab eine hierarchische Beziehung zwischen den verschiedenen Arten von Ergebnissen. Außerdem wiesen sie darauf hin, dass die Tests so konzipiert sein sollten, dass sie jede Art von Ergebnis messen (Reiser, 2001).

Zeitabschnitt 5: Das Zeitalter der Entwicklung (1958-1972)

Im Jahr 1957 löste der erfolgreiche Start des russischen Sputnik I eine nationale Krise aus. Infolgedessen wurden Gesetze verabschiedet, um den Unterricht in Bereichen zu verbessern, die als entscheidend für die nationale Verteidigung und Sicherheit angesehen wurden. Im Jahr 1958 erließ der Kongress den National Defense Education Act (NDEA), der Millionen von Dollar in neue Lehrplanentwicklungsprojekte steckte und neue Bildungsprogramme in Mathematik, Naturwissenschaften und Fremdsprachen vorsah (Stufflebeam, Madaus, & Kellaghan, 2000). Es wurden Evaluierungen finanziert, um den Erfolg der neuen Lehrpläne zu messen. In den frühen 1960er Jahren war ein weiterer wichtiger Faktor in der Entwicklung der Bewertung das Aufkommen der kriterienbezogenen Tests. Bis zu diesem Zeitpunkt waren die meisten Tests, die so genannten normreferenzierten Tests, so konzipiert, dass sie zwischen den Leistungen von Schülern unterscheiden konnten. Im Gegensatz dazu sollte ein kriterienbezogener Test die individuelle Leistung in Bezug auf festgelegte Kriterien messen. Sie erkennt, wie gut eine Person ein bestimmtes Verhalten oder eine Reihe von Verhaltensweisen ausführen kann, unabhängig davon, wie gut andere sie ausführen (Reiser, 2001). Die Verabschiedung des Elementary and Secondary Education Act (ESEA) von 1965 gilt als Geburtsstunde der modernen Programmevaluierung und enthielt Anforderungen an die Evaluierung. Laut Ferguson (2004) sollte der ESEA die akademischen Ressourcen für Kinder mit geringem Einkommen, die in den ersten Klassenstufen zusätzliche Unterstützung benötigen, ergänzen. Die Pädagogen wurden aufgefordert, ihre Bemühungen zu bewerten. Senator Robert Kennedy förderte das Gesetz, weil er sicherstellen wollte, dass die Bundesgelder nicht dazu dienten, die erschöpften Praktiken der Schulen zu unterstützen, sondern vielmehr benachteiligten Schülern auf neue Weise zu helfen (Weiss, 1998).

Zeitabschnitt 6: Das Zeitalter der Professionalisierung (1973-1983)

In den 1970er Jahren entwickelte sich die Bewertung zu einem Beruf. Eine Reihe von Zeitschriften wie Educational Evaluation and Policy Analysis, Studies in Educational Evaluation, CEDR Quarterly, Evaluation Review, New Directions for Program Evaluation, Evaluation and Program Planning und Evaluation News wurden veröffentlicht (Stufflebeam et al., 2000). Außerdem begannen die Universitäten, die Bedeutung der Evaluierung zu erkennen und boten Kurse zur Evaluierungsmethodik an. Darunter waren die University of Illinois, die Stanford University, das Boston College, die UCLA, die University of Minnesota und die Western Michigan University (Stufflebeam et al., 2000).

Zeitabschnitt 7: Das Zeitalter der Expansion und Integration (1983-Gegenwart)

In den frühen 1980er Jahren hatte die Bewertung unter der Reagan-Regierung zu kämpfen. Die Mittel für die Evaluierung wurden gekürzt und der Schwerpunkt lag auf Kostensenkungen. Laut Weiss (1998) wurden die Mittel für neue soziale Initiativen drastisch gekürzt. Anfang der 1990er Jahre hatte sich die Bewertung mit der Wirtschaft erholt. Das Feld erweiterte sich und wurde stärker integriert. Es wurden Berufsverbände und Bewertungsstandards entwickelt. Darüber hinaus hat das Joint Committee on Standards for Educational Evaluation Kriterien für die Personalbeurteilung entwickelt. Evaluierungsansätze für das 21. Jahrhundert Seit den 1930er Jahren sind viele Evaluierungsansätze entstanden, die von Checklisten mit Vorschlägen bis hin zu umfassenden Rezepten reichen. Worthen et al. (1997) haben die verschiedenen Bewertungsansätze in die folgenden fünf Kategorien eingeteilt: (a) zielorientiert, (b) managementorientiert, (c) verbraucherorientiert, (d) fachlich orientiert, (e) gegnerorientiert, und (f) teilnehmerorientierte Bewertungsansätze.