WWW.DISSERTATION.XLIBX.INFO
FREE ELECTRONIC LIBRARY - Dissertations, online materials
 
<< HOME
CONTACTS



Pages:   || 2 | 3 | 4 | 5 |   ...   | 18 |

«UNIDIMENSIONAL INTERPRETATION OF MULTIDIMENSIONAL TESTS Dissertation zur Erlangung des Doktorgrades der Philosophischen Fakultät der ...»

-- [ Page 1 ] --

UNIDIMENSIONAL INTERPRETATION OF

MULTIDIMENSIONAL TESTS

Dissertation zur Erlangung des Doktorgrades

der Philosophischen Fakultät

der Christian-Albrechts-Universität

zu Kiel

vorgelegt von Steffen Brandt

Kiel

September 2015

Erstgutachter: Prof. Dr. Gabriel Nagy

Zweitgutachter: Prof. Dr. Andreas Frey (Universität Jena)

Tag der mündlichen Prüfung: 2. Februar 2016

Durch den zweiten Prodekan, Prof. Dr. John Peterson, zum Druck genehmigt: 3. Februar 2016 ZUSAMMENFASSUNG 3 Zusammenfassung Traditionell wurden Fragebogendaten und Daten aus Leistungstests1 mit Hilfe der klassischen Testtheorie (KTT) ausgewertet, etwa durch Bildung von Summen- und Mittelwerten. Die Verwendung der KTT hat jedoch entscheidende Nachteile zur Folge: (a) Die KTT umfasst keine Theorie zur Berechnung von Aufgabenschwierigkeiten, wodurch die Untersuchung von Testeigenschaften deutlich eingeschränkt ist sowie auch keine Verknüpfung von Tests über Aufgabenteilmengen möglich ist; und (b) die KTT beinhaltet sehr starke Annahmen hinsichtlich der Eigenschaften eines Tests (siehe, z.B., Moosbrugger & Kelava, 2007; Rost, 1996).

Die großen internationalen Leistungsstudien wenden aus den genannten Gründen daher nicht die KTT an, sondern Auswertungsverfahren basierend auf der probabilistischen Testtheorie, üblicherweise bezeichnet als Item Response Theorie (IRT). Auch im Rahmen der IRT geht man von verschiedenen statistischen Annahmen aus. Eine sehr wichtige und grundsätzliche Annahme ist dabei die zur Dimensionalität eines Tests. Es gilt, dass ein Test eindimensional sein muss, um eindimensional ausgewertet werden zu können. Diese Feststellung mag selbstverständlich erscheinen, in der Realität führen jedoch praktische Zwänge häufig dazu, dass diesem Grundsatz widersprochen wird. Im Programme for International Student Assessment (PISA), zum Beispiel, wird für Mathematik einerseits ein eindimensionaler Leistungswert berechnet, andererseits werden jedoch auch Leistungswerte in den Subskalen, oder Subdimensionen, Quantität, Raum und Form, Veränderung und Beziehungen und Unsicherheit und Daten berichtet. Das heißt, einerseits wird angenommen, dass Mathematik ein eindimensionales Konstrukt ist, andererseits jedoch, dass es ein mehrdimensionales Konstrukt ist. Dieser Widerspruch findet sich in gleicher Weise bei der Auswertung des Lese- und des Naturwissenschaftstest in PISA (OECD, 2012b) und auch in den anderen großen, internationalen Vergleichsstudien, wie der Trends in International Mathematics and Science Study (TIMSS) und der Progress in International Reading Literacy Study (PIRLS), sind die Auswertungen diesbezüglich widersprüchlich (Martin & Mullis, 2012). Es darf angenommen werden, dass praktische Zwänge, das heißt unter anderem Vorgaben der Auftraggeber, die Ursache für diesen Widerspruch in der Auswertung der Studien sind. Auffallend ist aber, dass in keinem der genannten Fälle das Problem diskutiert wird.

–  –  –

Einen anderen Ansatz zur Auswertung verfolgt die in den USA bekannteste Schulleistungsstudie, das National Assessment of Educational Progress (NAEP). In NAEP wird zum Beispiel Lesen, wie in den zuvor genannten Studien auch, als mehrdimensionales Konstrukt angenommen, zusammengesetzt aus den Subdimensionen Lesen als Literarische Erfahrung („Reading for Literary Experience“), Lesen zum Informationsgewinn („Reading to Gain Information“) und Lesen zur Bewältigung von Aufgaben („Reading to Perform a Task“) (Donahue & Schoeps, 2001). Die Leistungswerte für diese drei Subdimensionen von Lesen werden mit Hilfe eines mehrdimensionalen IRT-Modells berechnet. Der Gesamtwert für Lesen wird jedoch nicht mit Hilfe eines eindimensionalen IRT-Modells berechnet, sondern durch einen gewichteten Mittelwert auf Basis der mehrdimensionalen Leistungswerte (Allen, Carlson, & Donoghue, 2001).

Alle erwähnten Studien haben gemeinsam, dass sie in den letzten Jahrzehnten regelmäßig durchgeführt wurden und von starkem politischen und öffentlichen Interesse begleitet werden. Die Studien erfahren daher auch im wissenschaftlichen Bereich große Aufmerksamkeit und stehen unter besonderem Druck ihre Auswertungen gemäß dem aktuellen Stand der Forschung durchzuführen. Hinsichtlich der Berechnung eindimensionaler Leistungswerte für als mehrdimensional angenommene Daten verfolgen die Studien jedoch trotzdem wie beschrieben zwei unterschiedliche Ansätze. Dies kann schon als erstes Indiz dafür angesehen werden, dass sowohl der in PISA, TIMSS und PIRLS verfolgte Ansatz als auch der in NAEP verfolgte Ansatz Vor- und Nachteile mit sich bringt. Ziel des folgenden Abschnitts ist es daher zunächst, die Vor- und Nachteile der beiden bisherigen Ansätze anhand verschiedener Gesichtspunkte zu verdeutlichen (siehe auch Tabelle 1), bevor im Anschluss daran ein IRT-Modell vorgeschlagen wird, das als eine Art Kombination der beiden Ansätze betrachtet werden kann: das Generalisierte Subdimensionsmodell (GSM). Im GSM wird die Schätzung des mehrdimensionalen IRT-Modells dabei so restringiert, dass zusätzlich zur Schätzung der mehrdimensionalen Leistungswerte auch ein eindimensionaler Leistungswert geschätzt wird, der dem eines gewichteten Mittelwerts über die Subdimensionen entspricht. Nach der Darstellung verschiedener Anwendungen wird eine Einordnung des Modells in Bezug zu anderen bereits bestehenden Modellen gegeben und abschließend ein Ausblick auf die zukünftige Anwendung gegeben.





ZUSAMMENFASSUNG 5 Tabelle 1 Vor- und Nachteile eines als Mittelwert berechneten Gesamtwerts und einer eindimensionalen IRT-Auswertung für mehrdimensionale Daten

–  –  –

Lokale Abhängigkeit Eine grundlegende Annahme von IRT-Modellen ist die der lokalen stochastischen Unabhängigkeit. Diese beschreibt die Annahme, dass die Antworten eines Tests unter Berücksichtigung der Leistungswerte in der zu messenden Dimension vollständig unabhängig voneinander sind. Eine Verletzung dieser Annahme bezeichnet man als lokale Abhängigkeit bzw. im Englischen als „Local Item Dependence“ (LID). LID kann verschiedene Ursachen haben. Der wohl am meisten betrachtete Fall ist der von LID aufgrund von ZUSAMMENFASSUNG 6 Aufgabengruppen, auch „Testlets“ genannt. Aufgaben in solchen Testlets beziehen sich auf einen gemeinsamen Stimulus, der als Kontext der Aufgaben genutzt wird. Der Vorteil der Verwendung von Testlets liegt in einer effektiveren Nutzung der Testzeit. Dadurch, dass die Personen sich nicht für jede Aufgabe in einen neuen Stimulus einlesen müssen, können sie in der gleichen Zeit mehr Aufgaben bearbeiten. Nachteil ist jedoch, dass, wenn eine Person eine Aufgabe zu einem Stimulus korrekt beantworten kann, es sehr häufig so ist, dass ihre Wahrscheinlichkeit eine Aufgabe zum gleichen Stimulus zu lösen etwas höher ist, als die zu einem anderen Stimulus, bei der sie eine Aufgabe zuvor nicht lösen konnte. Das heißt, die Aufgaben zeigen LID. In der gleichen Weise kann man im Fall von Subdimensionen argumentieren. Nimmt man an, dass eine zu messende Dimension aus unterschiedlichen Subdimension zusammengesetzt ist, so bedeutet dies, dass Aufgaben, die zur gleichen Subdimension gehören, stärker miteinander verbunden sind als solche, die unterschiedlichen Dimensionen angehören. Die Auswirkungen von LID auf IRT-Auswertungen wurden von zahlreichen Autoren untersucht. Dabei wurde einheitlich festgestellt, das eine Vernachlässigung von LID zu einer verzerrten Schätzung der Schwierigkeitsparameter führt, einer Überschätzung der Diskrimination der Aufgaben, einer Verzerrung der geschätzten Varianzen und einer Überschätzung der Reliabilität (siehe, z.B., Monseur, Baye, Lafontaine, & Quittre, 2011; Tuerlinckx & De Boeck, 2001; Wainer, Bradlow, & Wang, 2007; Wang & Wilson, 2005; Yen, 1984).

Die betrachteten großen Leistungsstudien gehen sehr unterschiedlich mit möglichen lokalen Abhängigkeiten um. Während in PISA in allen untersuchten Bereichen Testlets eingesetzt werden, wird in NAEP, TIMSS und PIRLS für den Mathematiktest, zum Beispiel, auf Testlets verzichtet und jede Aufgabe besitzt einen eigenen Stimulus. In NAEP werden die Tests zudem generell durch zur Verfügung stehende Indizes auf LID hin überprüft und entsprechend der Ergebnisse werden eigentlich getrennte Aufgaben gegebenenfalls zu einer Aufgabe zusammengefasst, um LID zu vermeiden1 (Allen & Carlson, 1987, S. 236–237). Für TIMSS, PIRLS und PISA werden dagegen in keiner der technischen Berichte Ergebnisse zur Untersuchung von LID erwähnt. Es ist jedoch aus anderen Veröffentlichungen bekannt, dass zum Beispiel die in PISA verwendeten Testlets LID zur Folge haben (Brandt, 2006; Monseur u. a., 2011).

Hinsichtlich von LID durch Subdimensionen wird in NAEP ebenfalls ein anderer Ansatz als in den übrigen Studien verfolgt. In NAEP werden die Subdimension zunächst mit Hilfe

–  –  –

eines mehrdimensionalen IRT-Modells ausgewertet und die Ergebnisse dann über einen gewichteten Mittelwert zu einem Gesamtwert zusammengefasst (Allen u. a., 2001, S. 155).

Auf diese Weise werden negative Auswirkungen durch LID (der Subdimensionen) auf die IRT-Auswertung verhindert. In TIMSS, PIRLS und PISA hingegen werden die Subdimensionen zusammengenommen und durch ein eindimensionales IRT-Modell ausgewertet, um einen Gesamtwert zu berechnen. Mögliche Effekte durch LID werden nicht betrachtet.

Gewichtung der Subdimensionen In NAEP legen Experten der jeweiligen Fachgebiete fest, welche Subdimension mit welchem Gewicht zu berücksichtigen ist (siehe etwa Donahue & Schoeps, 2001) und die Subdimensionen werden dann, wie oben erwähnt, durch einen gewichteten Mittelwert zusammengefasst. Die Gewichtung der Subdimensionen im finalen Leistungswert ist damit eindeutig.

In TIMSS, PIRLS und PISA ist diese Gewichtung nicht so eindeutig und variiert von Test zu Test. Auch hier legen Experten der jeweiligen Fachgebiete eine Gewichtung für die Subdimensionen fest, die tatsächlichen Gewichtungen weichen jedoch von diesen ab, da die Leistungswerte durch eindimensionale IRT-Auswertungen berechnet werden und sich die Gewichtung der Subdimensionen dabei nach der Anzahl der Punkte richtet, die maximal in einer Subdimension erreicht werden kann1. Beispielhaft seien hier die Gewichtungen des PISA Mathematiktests von 2003 und 20122 betrachtet: Die Tests umfassen jeweils vier Subdimensionen, die gemäß Experten-Vorgabe mit jeweils 25% gewichtet sein sollten (OECD, 2012a, 2004). Tatsächlich jedoch variieren die Gewichtungen für die vier Subdimensionen in 2003 zwischen 22,8% und 30,4% und in 2012 zwischen 23,9% und 26,1%. Für den in 2012 zusätzlich neu eingeführten computerbasierten Test variieren sie zwischen 18,8% und 31,3% (OECD, 2005, 2012b). Grund für die Variation der Gewichtungen liegt in der Schwierigkeit, die maximale Punktzahl je Subdimension zum Zeitpunkt der Testerstellung vorherzusagen, da diese erst nach Analyse der Antwortdaten final festgelegt wird. So wurde in der PISA 2012 Hauptstudie, zum Beispiel, eine Mathematikaufgabe nachträglich aus der Wertung genommen, da man Bedenken hinsichtlich der einheitlichen Kodierung in den verschiedenen Ländern hatte. Für sechs Länder wurde Dies gilt so genau genommen nur für das Rasch-Modell (Rasch, 1980), das in PISA verwendet wird. Für das 2-PL-Modell (Birnbaum, 1968), das in TIMSS und PIRLS verwendet wird, hängt die Gewichtung außerdem zusätzlich von der Diskrimination der Aufgaben je Subdimension ab.

In diesen beiden Tests war Mathematik der Schwerpunkt und umfasste die Schätzung von Leistungen in den Subdimensionen.

ZUSAMMENFASSUNG 8 zudem zusätzlich jeweils eine Aufgabe aus der Bewertung herausgenommen (für jedes der Länder eine andere), da die berechneten Aufgabenschwierigkeiten in diesen Ländern überproportional abwichen (OECD, 2012b, S. 231–232). Je nachdem aus welchen Subdimensionen die Aufgaben stammen, verändern sich dementsprechend die Gewichtungen und können sich, wie im zuletzt genannten Fall, dann sogar auch leicht von Land zu Land unterscheiden. Ein weiterer Grund für Gewichtungsverschiebungen kann auch darin liegen, dass Aufgabenbewertungen nachträglich angepasst werden, etwa indem Aufgaben, für die zunächst 3 Antwortkategorien vorgesehen waren (0, 1 und 2 Punkte), im Nachhinein nur mit Hilfe von 2 Antwortkategorien (0 und 1 Punkt) kodiert werden, da die beobachteten Antworten nicht die erwartete Streuung aufwiesen.

Hinsichtlich der Gewichtungen in TIMSS und PIRLS ist anzumerken, dass diese neben den erreichbaren Punktzahlen zusätzlich von der durchschnittlichen Diskrimination der Aufgaben je Subdimension abhängen, da diese Studien auf das 2-PL -Modell (Birnbaum,

1968) vertrauen, das neben der Aufgabenschwierigkeit zusätzlich auch die Aufgabendiskrimination in die Berechnung der Leistungswerte miteingehen lässt (siehe auch Fußnote 1 oben).

Reliabilität In NAEP werden die Subdimensionen stets separat betrachtet, was insbesondere auch den Feldtest zur Erprobung der Aufgaben einschließt. Die Aufgabenauswahl, die zu einem Großteil nach statistischen Kriterien vorgenommen wird, zielt dadurch auf eine Maximierung der Reliabilität zur Messung der Subdimensionen ab. Ein möglicher Nachteil dieses Ansatzes besteht dabei darin, dass die Reliabilität für den berechneten Mittelwert so geringer ist, denn die Aufgaben wurden nicht speziell ausgewählt, um das übergeordnete eindimensionale Konstrukt zu messen. Größter Nachteil ist jedoch, dass der gewählte Ansatz derzeit keine reliable Berechnung individueller Leistungswerte zulässt. Die in NAEP durchgeführte Berechung der Gesamtwerte basiert auf der sogenannten Plausible-Values-Technik, die eine schätzfehlerbefreite Berechnung von Leistungswerten auf Gruppenebene erlaubt, die Berechnung von reliablen individuellen Leistungswerten mit Hilfe von Schätzern wie WLE, MLE, oder EAP ist jedoch nicht möglich (für weitere Informationen zu diesen Schätzern siehe, z.B., Rost, 1996). Darüber hinaus eignet sich der Ansatz nicht, wenn die Auswertung mit Hilfe des Rasch-Modells erfolgen soll. Im Rahmen der Auswertung mit dem RaschModell ist es nicht möglich, die Varianzen der einzelnen Subdimensionen in der Schätzung auf die gleiche Größe zu restringieren, wodurch die Standardisierung der Leistungswerte ZUSAMMENFASSUNG 9 nachträglich mit Hilfe der Punktschätzer der Varianzen durchgeführt werden muss und der Schätzfehler der Varianz damit in jeden einzelnen Leistungswert miteingeht.



Pages:   || 2 | 3 | 4 | 5 |   ...   | 18 |


Similar works:

«ADOLESCENT MALE DANCERS’ EMBODIED REALITIES by Zihao Li A thesis submitted in conformity with the requirements For the degree of Doctor of Philosophy Department of Curriculum, Teaching and Learning Ontario Institute for Studies in Education of the University of Toronto © Copyright by Zihao Li, 2010 ADOLESCENT MALE DANCERS’ EMBODIED REALITIES Doctor of Philosophy, 2010 Zihao Li Department of Curriculum, Teaching and Learning University of Toronto Abstract This dissertation looks at...»

«FACTORS INFLUENCING RESIDENTS'ATTITUDE TOWARDS TOURISM DEVELOPMENT ON THE REMOTE ISLAND OF SOCOTRA, YEMEN HUSSEIN ABDULQADER AL-GAHURI DOCTOR OF PHILOSOPHY LINIVERSITI UTARA MALAYSIA JULY 2014 FACTORS INFLUENCING RESIDENTS'ATTITUDE TOWARDS TOURISM DEVELOPMENT ON THE REMOTE ISLAND OF SOCOTRA, YEMEN BY HUSSEIN ABDULQADER AL-GAHURI Thesis Submitted to Ghazali Shafie Graduate School of Govrnment, Universiti Utara Malaysia, in Fl~lfillment the Requirement for the Degree of Doctor of Philosophy of...»

«MICHAEL P. MALLOY, Ph.D. Distinguished Professor and Scholar University of the Pacific McGeorge School of Law RÉSUMÉ Education THE GRAD UATE SCHO OL, GEORGETOW N UNIVERSITY Ph.D. (August 1983) Dissertation: Civil Authority in Medieval Philosophy: Selected Commentaries of Aquinas and Bon aventure. Honors: Pass with Distinction, Philosophical Anthropology Comprehensive Examination FED ER AL FIN AN CIA L INSTIT UT ION S EX AM INA TIO N C OU NC IL Basic International Banking (August 1981)...»

«Journal of Applied Philosophy,Vol. 28, No. 1, 2011 doi: 10.1111/j.1468-5930.2010.00500.x Militant Modern Atheismj app_500 1.13 PHILIP KITCHER Abstract Militant modern atheism, whose most eloquent champion is Richard Dawkins, provides an effective and necessary critique of fundamentalist forms of religion and their role in political life, both within states and across national boundaries. Because it is also presented as a more general attack on religion (tout court), it has provoked a severe...»

«The Collaborative Divide: Crafting Architectural Identity, Authority, and Authorship in the Twentieth Century by Steven I. Doctors A dissertation submitted in partial satisfaction of the requirements for the degree of Doctor of Philosophy in Architecture in the Graduate Division of the University of California, Berkeley Committee in charge: Professor C. Greig Crysler, chair Professor Nezar AlSayyad Professor Mia Fuller Fall 2010 The Collaborative Divide: Crafting Architectural Identity,...»

«ESCHERICHIA COLI ENHANCED HYDROGEN PRODUCTION, GENOME-WIDE SCREENING FOR EXTRACELLULAR DNA, AND INFLUENCE OF GGDEF PROTEINS ON EARLY BIOFILM FORMATION A Dissertation by VIVIANA SANCHEZ TORRES Submitted to the Office of Graduate Studies of Texas A&M University in partial fulfillment of the requirements for the degree of DOCTOR OF PHILOSOPHY December 2010 Major Subject: Chemical Engineering ESCHERICHIA COLI ENHANCED HYDROGEN PRODUCTION, GENOME-WIDE SCREENING FOR EXTRACELLULAR DNA, AND INFLUENCE...»

«Designing Statistical Language Learners: Experiments on Noun Compounds Mark Lauer Department of Computing Macquarie University NSW 2109 Australia Submitted in Partial Ful llment of the Requirements of the Degree of Doctor of Philosophy December, 1995 Copyright c Mark Lauer, 1995 To Lesley Johnston, without whom nothing good can ever come. Abstract Statistical language learning research takes the view that many traditional natural language processing tasks can be solved by training probabilistic...»

«ENHANCED REMOVAL OF NATURAL ORGANIC MATTER DURING LIME-SODA SOFTENING DISSERTATION Presented in Partial Fulfillment of the Requirements for the Degree Doctor of Philosophy in the Graduate School of The Ohio State University By Mustafa M. Bob, B.S., M.S. ***** The Ohio State University 2003 Dissertation Committee: Approved by Professor Harold Walker, Adviser Professor Linda Weavers Professor Samuel Traina Adviser Professor Yu-Ping Chin Civil Engineering Graduate Program ABSTRACT The presence of...»

«SYNTHESIS AND MECHANICAL PROPERTIES OF BULK QUANTITIES OF ELECTRODEPOSITED NANOCRYSTALLINE MATERIALS by Iain Brooks A thesis submitted in conformity with the requirements for the degree of Doctor of Philosophy Department of Materials Science and Engineering University of Toronto © Copyright by Iain Brooks (2012) Synthesis and Mechanical Properties of Bulk Quantities of Electrodeposited Nanocrystalline Materials Iain Brooks Doctor of Philosophy, 2012 Department of Materials Science and...»

«University of California Los Angeles Inductive Learning of Phonotactic Patterns A dissertation submitted in partial satisfaction of the requirements for the degree Doctor of Philosophy in Linguistics by Jeffrey Nicholas Heinz 2007 c Copyright by Jeffrey Nicholas Heinz 2007 The dissertation of Jeffrey Nicholas Heinz is approved. Bruce Hayes D. Stott Parker Colin Wilson Kie Zuraw, Committee Co-chair Edward P. Stabler, Committee Co-chair University of California, Los Angeles 2007 ii To Mika iii...»

«John Howard Yoder on Christian Nonviolence and the Haustafeln by In-Yong Lee Graduate Program in Religion Duke University Date: _Approved: _ Stanley Hauerwas, Supervisor _ Amy Laura Hall _ Allen Verhey _ Susan Eastman _ Douglas Campbell Dissertation submitted in partial fulfillment of the requirements for the degree of Doctor of Philosophy in the Graduate Program in Religion in the Graduate School of Duke University ABSTRACT John Howard Yoder on Christian Nonviolence and the Haustafeln by...»

«GENETIC CHARACTERIZATION OF PLANT-PATHOGEN INTERACTIONS BETWEEN Xanthomonas campestris pv. vesicatoria AND TOMATO (Lycopersicon esculentum L.) By GUSTAVO ASTUA-MONGE A DISSERTATION PRESENTED TO THE GRADUATE SCHOOL OF THE UNIVERSITY OF FLORIDA IN PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE DEGREE OF DOCTOR OF PHILOSOPHY UNIVERSITY OF FLORIDA 1999 To my wonderful wife Juliana and my families in Costa Rica and Brazil ACKNOWLEDGMENTS I would like to express my sincere gratitude and appreciation...»





 
<<  HOME   |    CONTACTS
2016 www.dissertation.xlibx.info - Dissertations, online materials

Materials of this site are available for review, all rights belong to their respective owners.
If you do not agree with the fact that your material is placed on this site, please, email us, we will within 1-2 business days delete him.