• Ei tuloksia

5. Forschungsdesign: Forschungsfragen, Material, Methoden

5.2 Material

5.2.3 Deutsches Lehrerteam

5.2.3 Deutsches Lehrerteam

Die Bewertungen eines deutschen Lehrerteams bilden das dritte Teilkorpus: die verbalen und numerischen Fragebogenantworten, Befragungen vor (u. a. Hintergrund-informationen) und nach den Bewertungssitzungen sowie die Videoaufzeichnungen und Transkriptionen der Bewertungsgespräche. Alle diese Daten sind im Jahre 2014 in Deutschland gesammelt worden. (Siehe Tabelle 5.2.1 oben.)

Das Korpus des deutschen Lehrerteams enthält hauptsächlich qualitative, aber auch einige numerische Daten. Die Datenerhebungsmethode beim deutschen Team kann als eine Befragung bezeichnet werden, da das Bewertungsformular des deutschen Teams mehr und ausführlichere offene Fragen enthält als das des finnischen Teams.

118

Befragungen sind als Datenerhebungsmethode auch in anderen Untersuchungen über die Vorstellungen der Lehrer benutzt worden (z. B. Jaakkola 1997 über die Rolle des Grammatikunterrichts im Fremdsprachenunterricht). Eine Befragung repräsentiert

„eine Art gefilterte Wirklichkeit“ (Albert/Koster 2002, 24), da es bei den Antworten um die Erlebnisse und Meinungen der befragten Person geht, die unter anderem durch die Datenerhebungssituation und die versprachlichten Antworten gefiltert worden sind. Oft versuchen die Befragten, bei ihren Antworten irgendwelchen Verhaltens-normen zu folgen, was einen Einfluss auf die Antworten hat (Albert/Koster 2002, 8).

Die Analyse der Antworten kann als qualitative Forschung gelten, denn die qualitative Forschung behandelt hauptsächlich „Meinungen, Gefühle oder Intuitionen“ von Menschen (ebd., 3). In der Datenerhebung wurden sowohl schriftliche als auch mündliche Befragung benutzt. Der schriftliche Teil waren die Fragebogen, die vor, nach und während der Bewertungen ausgefüllt wurden, und beim mündlichen Teil handelt es sich um Gruppendiskussionen (vgl. auch „Experteninterviews“, siehe dazu Albert/Koster 2002, 31–32). Diese Gruppendiskussionen waren nicht im Voraus strukturiert, und die Forscherin hat sie nur beobachtet und auf Video aufgenommen.

Es handelt sich hauptsächlich um offene Befragungen, d. h. die Teammitglieder konnten ihre Antworten weitgehend frei formulieren und hatten nur in einigen Fragen vorgegebene Antwortkategorien (siehe Albert/Koster 2002, 30 und 34). Dieses Verfahren wurde gewählt, da es die Absicht mit den Forschungsfragen ist, Kommentare und Meinungen von deutschsprachigen Deutschlehrkräften darüber zu bekommen, was unter Verständlichkeit eigentlich verstanden wird, welche Faktoren Einfluss auf die Verständlichkeit haben und was für eine Rolle die grammatische Korrektheit dabei spielt. Da die Begriffe „Verständlichkeit“ und „grammatische Korrektheit“ sehr weit verstanden werden können, ist es sinnvoller, offene Fragen zu benutzen: Die Forscherin kann nicht alle Faktoren im Voraus wissen (vgl.

Albert/Koster 2002, 30). Es ist mühsamer, wörtliche Antworten auszuwerten, aber trotzdem kann man mit Hilfe von offenen Fragen wichtige Informationen erhalten, die ansonsten nicht feststellbar würden (Vehkalahti 2014, 25).

Darüber hinaus spielen die videodokumentierten Testleistungen der Schüler bei der Datenerhebung eine wichtige Rolle, da der Fragebogen immer gleich nach dem Ansehen der Leistung eines Schülerpaars ausgefüllt und das Bewertungsgespräch aufgenommen wurde. Bei den geschlossenen Fragen im Bewertungsfragebogen des deutschen Teams handelt es sich um Kompetenzniveaubewertungen und Likert-Skalen.110 Die numerischen Kompetenzniveaubewertungen des deutschen Lehrerteams werden in der vorliegenden Studie außer Acht gelassen, da die Kompetenzniveaubewertungen des finnischen Teams die Grundlage für die Einstufung der Schülerperformanzen auf verschiedene Kompetenzniveaus bildet (siehe Kap. 5.3.2).111 Eine Likert-Skala wurde für die numerischen

110 Beide Skalen sind als Ordinalskalen zu bezeichnen, aber die Likert-Skala wird trotzdem oft als Intervallskala behandelt, damit verschiedene statistische Verfahren möglich sind (siehe z. B.

Albert/Koster 2002, 75; Vehkalahti 2014, 35).

111 Ich habe diese Entscheidung getroffen, da die finnischen Lehrer eine heterogenere Gruppe für eine zuverlässige Festlegung einer Niveaustufe für jeden Schüler bilden. Trotz der Schulung des Lehrerteams in Deutschland kann es sein, dass die finnischen Lehrer die Skala des finnischen Lehrplans besser kennen. Das Kompetenzniveaumaterial bietet jedoch Möglichkeiten für weitere Forschung an. Ein interessantes Thema wäre es, die Kompetenzniveaubewertungen des finnischen Teams mit den

119

bewertungen benutzt, und diese Bewertungen werden auch in der vorliegenden Untersuchung analysiert, um die Schüler herauszufinden, die schwer verständlich waren (siehe weiter unten).

In Methodenbüchern wird immer wieder betont, dass die sorgfältige Planung des Fragebogens äußerst wichtig sei. Für das Gelingen der ganzen Untersuchung ist es unentbehrlich, dass inhaltlich richtige Fragen auf eine für die Datenauswertung passende Weise gestellt werden (z. B. Albert/Koster 2002, 36–39; Vehkalahti 2014, 20). Die Gefahr von Artefakten, d. h. „dass die Befragung selbst die Ergebnisse der Befragung beeinflusst“ (Albert/Koster 2002, 37), soll nicht unbeachtet bleiben. Diese Effekte können vermieden werden, indem man die Befragung sorgfältig plant und auch dokumentiert, damit andere Wissenschaftler die Möglichkeit haben, den Einfluss des Fragebogens selbst zu beurteilen (ebd.). Diese Faktoren wurden in der vorliegenden Untersuchung folgendermaßen berücksichtigt: Die ersten Versionen der Fragebogen wurden in der Entwicklungsphase mit den Betreuerinnen des Dissertationsvorhabens durchgegangen, und ihre Kommentare wurden in den nächsten Versionen berücksichtigt. Vor den eigentlichen Bewertungssitzungen wurden die Fragebogen noch in Deutschland von einem dreiköpfigen Pilotteam in der Praxis getestet, wonach noch kleinere Verfeinerungen vorgenommen wurden. Die fertigen Fragebogen sind im Anhang 6 zu sehen.

Die Bewertungssitzungen fanden im März–April 2014 in Deutschland statt. Im Februar 2014 wurden Lehrer für das Team durch Maillisten, Anzeigen auf Schwarzen Brettern und durch persönliche Kontakte gesucht. Die Voraussetzungen für die Mitglieder des Teams waren:

1. Sie sollten deutsche Muttersprachler sein.

2. Sie sollten keinen Kontakt zur finnischen oder zur schwedischen Sprache haben.

3. Sie sollten eine linguistische Ausbildung haben (Sie sollten wegen der Vergleichbarkeit mit dem finnischen Team mindestens den Mastergrad absolviert haben und schon einige Jahre Berufserfahrung haben; z. B. DaF-Lehrer, Lehrer anderer Fremdsprachen oder des Deutschen als Muttersprache, Forscher etc. Am wichtigsten ist jedoch, dass sie sich mit den grammatischen Begriffen und einigermaßen auch mit den Niveaustufen des GER auskennen. Deswegen können auch z. B. Master-Studierende in Betracht kommen, die mit ihrem Studium fast fertig sind.

4. Sie sollten bereit sein, bei allen 10 Sitzungen mitzumachen.

Die Anforderungen waren relevant, da es gerade um die Verständlichkeit der Leistungen aus der Sicht eines deutschen Muttersprachlers geht, dem die Kenntnis des Finnischen oder Schwedischen beim Verständnis der Stellen, in denen Interferenz (z. B. Akzent, Strukturen, Wortschatz) oder Code-Switching aus einer von diesen zwei Sprachen vorkommt, nicht helfen kann. Die dritte Anforderung war deswegen wichtig, weil das deutsche Lehrerteam dem finnischen Team ähneln sollte. Die Kenntnisse der linguistischen Begriffe und des GER waren besonders wichtig, damit die Mitglieder des Teams die Fragen auf dem Bewertungsformular haben beantworten können.

Die Mitglieder des deutschen Lehrerteams sind alle als DaF-Lehrer in Deutschland tätig. Aus diesem Grund sprechen alle Mitglieder mindestens einmal pro Woche oder gar täglich mit Ausländern Deutsch. Außerdem sind einige Mitglieder zusätzlich in

Bewertungen des deutschen Teams zu vergleichen. Im Rahmen der vorliegenden Untersuchung ist dieses jedoch nicht möglich.

120

anderen Aufgaben tätig (als DaF-Fortbilder, Doktorand oder Student). Alle haben zwei bis vier Jahre Unterrichtserfahrung (vgl. das finnische Team, bei dem die meisten zehn bis zwanzig Jahre Erfahrung hatten). Alle unterrichten an einer Universität oder in der Erwachsenenbildung, aber drei Lehrer haben auch auf der Primar- oder Sekundarstufe unterrichtet. Die Mitglieder sprechen Deutsch als Muttersprache, aber alle verfügen über Sprachkenntnisse auch in anderen Sprachen: Ein oder mehrere Mitglieder können Englisch, Französisch, Hebräisch, Indonesisch, Latein, Niederländisch, Russisch, Spanisch, Türkisch oder Ungarisch. Außerdem haben sich alle mindestens ein Jahr im Ausland aufgehalten. Alle Teammitglieder haben sich unter anderem durch ihre täglichen Unterrichtsaufgaben mit der Kompetenzniveaubewertung vertraut gemacht.

Wie es bei einer qualitativen Studie oft der Fall ist, hat die Forscherin viel Zeit mit dem Lehrerteam verbracht und Untersuchungsmaterial in verschiedenen Formen gesammelt (vgl. Ellis/Barkhuizen 2005, 265). Während fünf Wochen arbeitete das Lehrerteam intensiv an den Bewertungen. Die Verfasserin dieser Arbeit war in allen Sitzungen anwesend. Pro Woche gab es zwei Sitzungen von jeweils drei Stunden Dauer.

Insgesamt fanden zehn Sitzungen statt, von denen die erste Sitzung der Schulung bzw. dem Training, dem gegenseitigen Kennenlernen, dem Ausfüllen der wichtigen Formulare (u. a. Einwilligungserklärung, Schweigepflicht, Hintergrundangaben) und der Organisation der weiteren Sitzungen gewidmet war. Zur Schulung des Teams gehörten die Vorstellung des HY-Talk-Projektes und seiner Nachfolgeprojekte sowie des Dissertationsvorhabens. Dem Team wurden auch die Ziele und die Haupt-forschungsfragen vorgestellt. Es war also von Anfang an klar, dass die Untersuchung sich mit der grammatischen Korrektheit als einem Faktor der Verständlichkeit beschäftigt.112 Deswegen wurden die Leistungen aus der Sicht der Verständlichkeit, aber mit einem besonderen Blickwinkel auf die Grammatik beurteilt. Als Nächstes wurden zentrale Begriffe (Verständlichkeit, grammatische Korrektheit, Fehler) gemeinsam besprochen. Danach machten sich die Jurymitglieder zuerst mit der Skala der grammatischen Korrektheit der finnischen Lehrpläne (LOPS 2003, POPS 2004) vertraut und dann noch mit der gesamten Skala, die neben der Korrektheit auch die übrigen Aspekte (d. h. die Erledigung der Aufgabe, die Flüssigkeit, die Aussprache und das Wortschatzspektrum) mit einschließt. Zum Schluss der ersten Sitzung wurde das Bewertungsformular gemeinsam durchgegangen, und seine Verwendung wurde mit Hilfe einer Übungsvideoaufnahme getestet (d. h. mit einer Testleistung eines Schülerpaars aus dem älteren HY-Talk-Material, das nicht zu den eigentlichen Probanden der Untersuchung gehörte).

Der Verlauf einer normalen Bewertungssitzung war folgender: Am Anfang der Sitzung wurde fast jedes Mal kurz auf die allgemeinen Richtlinien der Bewertung hingewiesen, und die Lehrer hatten die Möglichkeit zu fragen, wenn etwas unklar geblieben war. Die Richtlinien, die betont wurden, waren:

– Es gelingt einem nicht, während des Anschauens der Videoaufzeichnung alles Mögliche zu notieren.

Deswegen sollten die Teammitglieder nur das, was ihnen bei der Leistung eines Probanden am meisten auffällt, notieren. Also das Wichtigste betonen!

112 Dass die Verbstellung und die Verbalflexion einen besonderen Stellenwert in der Analyse der Schülerperformanzen haben, wurde jedoch nicht hervorgehoben.

121

– Die Unterscheidung zwischen den Faktoren oder den Fehlern, die die Verständlichkeit beeinträchtigen, und denen, die nur irritierend sind, ist klar zu halten.

– Bei den Kompetenzniveaubewertungen sind jedes Mal die Beschreibungen in der Skala des finnischen Lehrplans zu lesen und erst dann das Kompetenzniveau zu bestimmen.

Während des Anschauens der Videoaufzeichnungen machten sich die Lehrer auf einem separaten Blatt Notizen. Sie bewerteten die Leistungen beider Probanden gleichzeitig. Nach dem Anschauen beantworteten die Lehrer die Fragen auf dem Bewertungsformular. Dabei hatten sie die Möglichkeit, die Transkriptionen der Schülerperformanzen als Hilfsmittel zu benutzen. Daraus ergeben sich als Untersuchungsmaterial insgesamt über 300 ausgefüllte Bewertungsformulare: Für jeden der insgesamt 59 Schüler haben fünf oder sechs Lehrer ein Formular ausgefüllt.

Wenn alle mit den schriftlichen Bewertungen fertig waren, wurde ein gemeinsames Bewertungsgespräch geführt. Die Bewertungsgespräche wurden immer gleich nach dem Anschauen der Leistung eines Schülerpaars und nach dem Ausfüllen des schriftlichen Bewertungsfragebogens auf Video aufgezeichnet. Auf diese Weise hatten die Lehrer noch konkrete Beispiele von einzelnen Schülern im Kopf und vor ihren Augen. Ich habe vor dem Einschalten der Videokamera jedes Mal das Team noch daran erinnert, dass das Gespräch zusammenfassend sein sollte und ungefähr fünf Minuten dauern dürfte. Außerdem habe ich darauf hingewiesen, dass die Lehrer nur die wichtigsten Beobachtungen darüber hervorheben sollten, welche Faktoren gerade bei diesem Schüler die Verständlichkeit am meisten beeinflusst haben oder irritierend waren. Darüber hinaus sollten die Raters im Gespräch ihre Kompetenzniveau-bewertungen besprechen und miteinander vergleichen. Dieser letzte Punkt hat in der vorliegenden Analyse keine Rolle gespielt, aber er bietet weitere Untersuchungs-möglichkeiten (u. a. zur Frage: Warum haben die Lehrer eine bestimmte Kompetenz-niveaustufe bei einem Schüler gewählt?).

Im Gespräch hatten die Bewertenden die Möglichkeit, Meinungen auszutauschen, das Wichtigste hervorzuheben und ihre Bewertungen miteinander zu vergleichen.

Jedes Mitglied sollte jedoch seine Bewertungen schon vor dem Gespräch aufschreiben, aber nach dem Gespräch war es noch erlaubt, z. B. die Kompetenzniveaubewertung zu ändern, falls im Gespräch solche Faktoren zur Sprache gekommen sind, die einem beim Bewerten nicht aufgefallen waren und wegen deren die Bewertung noch in irgendeine Richtung geändert werden musste. Die Dauer eines Gesprächs betrug normalerweise 5–10 Minuten, einige Gespräche waren sogar ein wenig länger, andere ein wenig kürzer (min. 2 Minuten 49 Sekunden; max. 13 Minuten 6 Sekunden).

Insgesamt beträgt die Dauer aller videodokumentierten Bewertungssgespräche 229 Minuten (d. h. 3 Stunden 49 Minuten). In jeder Sitzung wurden die Leistungen von drei bis vier Schülerpaaren bewertet. Die videodokumentierten Bewertungsgespräche sind mit Hilfe des vereinfachten GAT-Systems (siehe Anhang 4) von einer studentischen Hilfskraft in Deutschland transkribiert und von der Verfasserin der vorliegenden Arbeit überprüft worden.

Um den Umfang einer Doktorarbeit nicht zu sprengen, wurde das Material der Inhaltsanalyse begrenzt. Für die Inhaltsanalyse wurden die Bewertungsgespräche über diejenigen Schüler gewählt, die vom deutschen Lehrerteam bei ihren numerischen Bewertungen über die Verständlichkeit als schwerverständlich bewertet worden waren. Diese Entscheidung wurde deswegen getroffen, weil in diesen Leistungen

122

höchstwahrscheinlich mehr Faktoren vorkommen, die als verständniserschwerend oder irritierend empfunden werden, als bei den Schülern, die das Team gut verstanden hat, und da diese Bewertungsgespräche sozusagen das fruchtbarste Material für meine Forschungsfragen bilden.

Die Leistung jedes Schülers wurde vom deutschen Team mit der folgenden Skala beurteilt:

1 = Die Person ist sehr gut zu verstehen.

2 = Die Person ist zu verstehen, ich musste mich beim Hören aber etwas anstrengen.

3 = Die Person ist stellenweise schwer zu verstehen, ich musste mich beim Hören teilweise anstrengen.

4 = Die Person ist schwer zu verstehen, ich musste mich beim Hören sehr anstrengen.

5 = Die Person ist nicht zu verstehen.

(Nach Heine (2015, 103) und persönliche Kommunikation mit Heine)

Von den Bewertungen von sechs bzw. sieben Teammitgliedern auf einer Likert-Skala von 1–5 wurde der Medianwert113 für jeden Schüler berechnet. Nach dem Medianwert wurden die Kommentare des Lehrerteams über die Leistungen derjenigen Schüler, die den Medianwert 4 (d. h. die Person ist schwer zu verstehen) bekommen hatten, für die nähere Analyse gewählt. Auf diese Weise wurden 12 Schüler114 in die Analyse miteinbezogen (siehe auch Anhang 10). Insgesamt betrug die Dauer der Bewertungsgespräche, die in der vorliegenden Studie analysiert werden, 68 Minuten.

Anhand der Kommentare des deutschen Teams wurde geklärt, welche Faktoren die Verständlichkeit der Leistungen am meisten beeinträchtigen oder irritierend sind. Das Hauptgewicht wurde auf die videodokumentierten Bewertungsgespräche und ihre Transkriptionen gelegt. Die schriftlichen Fragebogenantworten über die Leistungen der einzelnen Schüler wurden nur zusätzlich konsultiert. Darüber hinaus spielten die Befragungen vor und nach den Bewertungssitzungen eine wichtige Rolle bei den Forschungsfragen über die Definitionen der Verständlichkeit und der Grundstrukturen.

Aus diesen Befragungen wurden die Antworten auf die entsprechenden Fragen analysiert.