Diese Website verwendet Cookies, damit wir dir die bestmögliche Benutzererfahrung bieten können. Cookie-Informationen werden in deinem Browser gespeichert und führen Funktionen aus, wie das Wiedererkennen von dir, wenn du auf unsere Website zurückkehrst, und hilft unserem Team zu verstehen, welche Abschnitte der Website für dich am interessantesten und nützlichsten sind.
Design of Experiment
- 20. Juli 2018
- Posted by: Mika
Ein gut durchdachtes Studiendesign ist eine grundlegende Voraussetzung für valide empirische Schlüsse und sollte jeder Untersuchung vorangehen. Diese ist schließlich mit einigem Aufwand verbunden und nichts ist ärgerlicher, als wenn nach der Erhebung auffällt, dass Fehler im Design mögliche Störgrößen darstellen, etwas fehlt oder die Manipulation nicht richtig funktioniert hat.
Wenn diese Probleme erst im Nachhinein auffallen, sind die mühsam erhobenen Daten möglicherweise wertlos oder büßen zumindest an Aussagekraft ein. Zu der Planung einer Untersuchung gehört die Abschätzung des benötigten Stichprobenumfangs und die Identifizierung aller relevanten Faktoren oder Komponenten einer Intervention.
Bei der Planung des Design of Experiment sollen alle Faktoren berücksichtigt und möglichst kontrolliert werden, die neben den unabhängigen Variablen den Outcome, also die abhängige Variable, beeinflussen. Statistische Versuchsplanung bezieht sich meistens auf die Planung von Experimenten, aber auch für die Durchführung korrelativer Studien können einige der Versuchsplanungseffekte relevant sein.
Ein guter Versuchsplan ist gleichzeitig sparsam, ermöglicht die gefundenen Effekte möglichst eindeutig auf bestimmte Faktoren zurückzuführen und berücksichtigt, inwiefern das Versuchsdesign an sich Einflüsse auf die abhängige Variable hat.
Mit letzterem sind vor allem Effekte der Reihenfolge und Messwiederholungseffekte gemeint. Wenn eine Gruppe Probanden z. B. erst Aufgabe A und dann Aufgabe B und eine andere Gruppe die Aufgaben in umgekehrter Reihenfolge bearbeitet, kann es verschiedene Auswirkungen dieser Reihenfolge geben: Möglicherweise ermüden die Probanden mit der Zeit und bearbeiten die zweite Aufgabe schlechter, oder die erste Aufgabe wirkt wie ein Eisbrecher und erhöht die Konzentration und Aufmerksamkeit für die zweite Aufgabe. Wenn die Aufgaben einander ähnlich sind, kann es Übungseffekte geben. Die Ausbalancierung der Reihenfolge kann z. B. Mit Solomonplänen oder Lateinischen Quadraten vorgenommen werden.
Unifaktorielle Versuchsplanung
Im einfachsten Fall beinhaltet die Untersuchung nur einen Faktor. Sobald weitere Faktoren aufgenommen werden, erhöht sich die Komplexität der Versuchsplanung und der anschließenden statistischen Analyse, da es nicht nur Haupteffekte geben kann, sondern auch Interaktionseffekte.
Haupteffekte sind globale Einflüsse eines Faktors, also z.B. derart, dass es für Faktorstufe 1 insgesamt höhere Ausprägungen auf der abhängigen Variable gibt als für Faktorstufe 2. Liegt ein Interaktionseffekt vor, hängt der Einfluss des einen Faktors auf einen anderen Faktor von der Ausprägung des dritten Faktors ab. Neben zweifach-Interaktionen kann es auch Interaktionen höherer Ordnung geben, die meistens äußerst schwierig zu interpretieren sind und selten in Ergebnisberichten erwähnt werden.
Die wichtigste Unterscheidung bei unifaktoriellen Designs ist zwischen within-designs und between-desings. Ersteres untersucht intraindividuelle Veränderungen mit mehreren Messungen und letzteres verwendet verschiedene Gruppen für die verschiedenen Manipulationen. Möchtest Du z.\, B. untersuchen, ob Menschen unter diesen oder jenen Spielregeln risikobereiter spielen, kannst Du den gleichen Personen die verschiedenen Spielvarianten vorlegen. Dann handelt es sich um ein within-design.
Ein solches Design hat den Vorteil, dass es durch die Messwiederholung eine hohe Teststärke hat. Allerdings kann es sein, dass es zu langwierig ist, dieselben Personen mehrmals spielen oder dass es Übungseffekte oder ähnliches gibt. In diesem Fall mag es die bessere Entscheidung sein, verschiedenen Gruppen von Probanden die verschiedenen Versionen des Spiels vorzusetzen.
Für die Untersuchung der gleichen Hypothese sind also verschiedene Designs denkbar.
Gibt es die begründete Vermutung, dass mehrfache Testungen sich gegenseitig beeinflussen, kannst Du Solomon-Untersuchungspläne verwenden. Dazu teilst du die Probanden zunächst wie üblich in eine Interventions- und eine Kontrollgruppe ein und dann diese Gruppen jeweils wieder in eine Gruppe mit und eine ohne Pretest. Zum Beispiel möchtest Du untersuchen, ob eine bestimmtes Mathematiktraining die Probanden dazu befähigt, Denksportaufgaben besser zu bearbeiten.
Da es sein kann, dass das Training einen unterschiedlichen Effekt hat, je nachdem ob die Probanden die Denksportaufgaben bereits in einem Pretest bearbeitet haben oder nicht, kannst Du diese Vermutung entkräften oder unterstützen, indem ein Teil der Personen keinen Pretest durchführt. Ihre Ergebnisse nach dem Treatment kannst Du vergleichen mit den Leistungen derjenigen, die die Aufgaben bereits aus der Voruntersuchung kannten.
Das Schema für eine Untersuchung mit einem Solomon-Untersuchungsplan könnte dann wie unten dargestellt aussehen.
In den ersten beiden Gruppen führst Du einen Pretest durch. Dieser stellt sicher, dass sich die Probanden in den unterschiedlichen Bedingungen nicht schon vor dem Mathematiktraining hinsichtlich ihrer Fähigkeit, Denksportaufgaben zu lösen, unterscheiden.
In der dritten und vierten Gruppe hingegen verzichtest du auf den Pretest, da es sein kann, dass schon allein das vorherige Testen dazu führt, dass Probanden im Post-Test besser abschneiden. Wenn der Pretest einen Haupteffekt hat, also alle Probanden im Post-Test bessere Leistungen erzielen, wenn sie vorher am Pre-Test teilgenommen haben, als wenn dies nicht taten, ist es meist nicht so problematisch. Wenn es aber einen Interaktionseffekt vom Pretest gibt, kann dieser durchaus problematisch für die Interpretation der Ergebnisse sein und dann sollte dieser mit einem Solomon-Untersuchungsplan kontrolliert werden.
Wie kann man sich so einen Interaktionseffekt vorstellen: Bleiben wir bei dem Beispiel, dass Du in Bedingung 1 ein Mathematiktraining mit den Probanden durchführst und in der Kontrollbedingung 2 die Probanden keinerlei Training absolvieren. Wenn die Probanden die Aufgabenart schon aus dem Pre-Test können und wissen, wie in etwa der Post-Test gestaltet sein wird, können sie dieses Wissen nutzen, um sich mithilfe des Trainings gezielt auf den entsprechenden Aufgabentyp vorzubereiten. Sie schneiden also mit dem Pretest im Posttest deutlich besser ab ohne die Voruntersuchung.
Die Probanden in der Kontrollbedingung nehmen zwar auch am Pretest teil, aber sie trainieren zwischendurch nicht ihre Fähigkeiten und lernen auch keine Lösungsstrategien für solche Aufgaben. Das heißt, die Kontrollprobanden mit Pretest sind nicht oder nur ein wenig besser im Post-Test als diejenigen Kontrollprobanden ohne Pretest. Es liegt also insgesamt eine Interaktion zwischen Pretest, Experimentalbedingung und Leistung im abschließenden Test vor.
Mehrfaktorielle Versuchsplanung
Gibt es in der Untersuchung mehrere unabhängige Variablen, deren Einfluss auf die abhängige Variable untersucht werden soll, können gefundene Varianzunterschiede nicht eindeutig auf den Effekt bestimmter Faktoren zurückgeführt werden. Interaktionen zwischen den Faktoren sind konfundiert mit den Haupteffekten oder Interaktionen verschiedenen Grades sind untereinander vermengt.
Um dieses Problem in den Griff zu bekommen, erstellt man vor der Untersuchung Versuchspläne, die systematisch einige der Faktoren variieren und andere konstant halten, um die ursächlichen Faktoren identifizieren zu können.
Vollfaktorpläne sind Versuchspläne, in denen für jede mögliche Kombination von Faktorstufen zwischen allen Faktoren eine eigene Untersuchung durchgeführt wird. Bei mehreren Faktoren selbst mit nur jeweils zwei Faktorstufen erhöht sich die Anzahl der benötigten Versuchsdurchführungen exponentiell. Es ist also praktisch unmöglich, für jede denkbare Kombination an Faktorausprägungen eine eigene Versuchsreihe durchzuführen.
Mit Screening-Verfahren wird versucht, die Effizienz der Versuchspläne zu steigern, indem nur einige der möglichen Kombinationen untersucht werden, aber der Informationsverlust möglichst gering bleibt. Andere Namen für Screening-Pläne sind auch teilfaktorielle Pläne oder fractional factorial designs.
Angenommen, Dein Untersuchungsdesign beinhaltet vier Faktoren mit jeweils 2 Faktorstufen. Um jede Ausprägungskombination zu untersuchen, bräuchtest du $2^4 = 16$ Versuchsdurchläufe. Screening-Pläne, die man mithilfe verschiedener Software, z. B. Paketen für R oder Minitab erstellen kann, helfen dabei, mit weniger Durchläufen immer noch die Haupteffekte von einigen der denkbaren Interaktionseffekten trennen zu können.
Ein vollfaktorieller Plan mit drei Faktoren á 2 Faktorstufen sieht so aus wie in dem unten stehenden Schema: jede mögliche Kombination von Faktorausprägungen wird eigens mit einer Stichprobe untersucht. In dem Beispiel handelt es sich wieder um ein Lerntraining, das aus verschiedenen Komponenten besteht. Einem soft-skill-Training, in dem entweder Übungen zur Steigerung und Aufrechterhaltung der Motivation gemacht werden oder Lernstrategien vermittet werden. Das zweite Modul besteht aus einem Fertigkeitstraining, in dem auf verschiedene Weise neues inhaltliches Wissen vermittelt wird. Für die Bearbeitung des Lernstoffes und von Übungsaufgaben gibt es als dritte Komponente eine Beratung, die entweder individuell und persönlich oder online durchgeführt wird.
Es bedarf in dem Fall also 8 verschiedener Untersuchungen für die Umsetzung dieses Versuchsplans. Mit diesem umfangreichen Plan können alle denkbaren Effekte der einzelnen Komponenten statistisch berechnet werden: Haupteffekte, also ob z. B. Eine Form des Trainings generell hilfreicher ist als andere sowie alle verschiedenen Interaktionseffekte zwischen zwei Faktoren. Das können Befunde sein wie „für Training A eignet sich besonders die Motivationsschulung, Training B wirkt besser zusammen mit der Schulung zu Lernstrategien. Insgesamt gibt es drei mögliche Haupteffekte und drei mögliche Zweifach-Interaktionen.
Natürlich ist ein solches Versuchsdesign in der Praxis oftmals viel zu kompliziert. Außerdem sind Untersuchungen oft noch wesentlich komplexer als die dargestellte: Trainings können mehr Komponenten haben, oder der Effekt von verschiedenen Lehrpersonen soll untersucht werden. Dann können Vollfaktorpläne leicht ausufern zu etlichen Kombinationen, die theoretisch untersucht werden können. Deswegen beschränkt man sich oft nur auf einige ausgewählte Kombinationen, mit denen besonders interessierende Effekte herauskristallisiert werden können. Je mehr Kombinationen in einem Teilfaktorplan umgesetzt sind, desto genauer können die verschiedenen Effekte berechnet und voneinander abgegrenzt werden. Es muss also eine Abwägung zwischen Aufwand und Aussagekraft stattfinden.
Die Genauigkeit von Screeningplänen wird mit einer sogenannten Auflösungszahl (Resolution) quantifiziert. Diese Skala ist international gebräuchlich und reicht von III bis V+, wobei höhere Zahlen eine höhere Auflösung, also bessere Trennung zwischen Interaktions- und Haupteffekten indizieren.
Die Balancierung der Reihenfolge nimmt man häufig mit dem Lateinischen Quadrat vor. Das Prinzip funktioniert genauso wie das der Teilfaktorpläne: Statt jede denkbare Reihenfolge der Versuchsabläufe umzusetzen, werden einige ausgewählt. Es gibt insgesamt so viele Sequenzgruppen wie experimentelle Bedingungen und jede Bedingung taucht einmal an jedem Platz der Sequenz auf.
Hier wieder ein Beispiel für die Umsetzung verschiedener Versuchsabfolgen mit dem Lateinischen Quadrat, wenn der Versuch aus vier Aufgaben besteht. Wie man in der schematischen Darstellung gut erkennen kann, befindet sich jede Aufgabe mal an jeder Stelle, aber nicht alle denkbaren Reihenfolgen sind realisiert.
Das kann man zum Beispiel umsetzen, in dem die Reihenfolge der Bedingungen nicht permutiert wird, aber für jede Sequenzgruppe eine andere Startbedingung ausgewählt wird.
Anstatt die Abfolge der Untersuchungen systematisch mit dem lateinischen Quadrat zu variieren, kannst du alternativ die Reihenfolge der Bedingungen auch randomisieren. Dann ist es schwieriger, statistisch die Effekte der Anordnung zu analysieren, aber Du kannst davon ausgehen, dass Unterschiede im Ablauf sich gegenseitig aufheben und nivellieren.
Response-Surface-Plan
Response-Surface-Methoden sind eine Sammlung verschiedener datengetriebener Strategien um empirisch die Modellbildung voranzubringen. Modelle über das Zusammenwirken verschiedenerer Variablen kann man theoriegeleitet aufstellen oder empirisch generieren. Um letzteres möglichst effizient zu gestalten, kann man Response-Surface-Pläne einsetzen.
Diese dienen dazu, die Variablen zu identifizieren, die am stärksten auf die abhängige Variable einwirken, also eine möglichst große Response auslösen. Die Response-Surface-Methode kann nicht nur herauskristallisieren, welche der Variablen eine Response verursachen, sondern auch, wie dieser Zusammenhang geartet ist (meistens werden nur lineare und quadratische Zusammenhänge in Betracht gezogen) und ob es Interaktionen zwischen den Variablen gibt.