Lizenz: Creative Commons Namensnennung 4.0 International (3MB) |
- URN zum Zitieren dieses Dokuments:
- urn:nbn:de:bvb:355-epub-545519
- DOI zum Zitieren dieses Dokuments:
- 10.5283/epub.54551
Dokumentenart: | Hochschulschrift der Universität Regensburg (Dissertation) |
---|---|
Open Access Art: | Primärpublikation |
Datum: | 2 August 2023 |
Begutachter (Erstgutachter): | Prof. Dr. Markus Gebhardt |
Tag der Prüfung: | 4 Juli 2023 |
Institutionen: | Humanwissenschaften > Institut für Bildungswissenschaft > Lehrstuhl für Lernbehindertenpädagogik einschließlich inklusiver Pädagogik - Prof. Dr. Markus Gebhardt |
Stichwörter / Keywords: | Computerized Adaptive Testing, Special Education, Sonderpädagogik, Diagnostik, Testtheorie, Assessment, Inklusive Pädagogik, Education, Inclusive |
Dewey-Dezimal-Klassifikation: | 300 Sozialwissenschaften > 370 Erziehung, Schul- und Bildungswesen |
Status: | Veröffentlicht |
Begutachtet: | Ja, diese Version wurde begutachtet |
An der Universität Regensburg entstanden: | Ja |
Dokumenten-ID: | 54551 |
Zusammenfassung (Englisch)
Assessing students with special educational needs (SEN) and slow learners is crucial in order to derive fitting support and instructions but can be challenging for both test administrators and examinees. Computerized adaptive testing (CAT) is an assessment technology with the chance to meet those challenges. CATs are particularly promising for students with SEN, as they have the potential to ...
Zusammenfassung (Englisch)
Assessing students with special educational needs (SEN) and slow learners is crucial in order to derive fitting support and instructions but can be challenging for both test administrators and examinees. Computerized adaptive testing (CAT) is an assessment technology with the chance
to meet those challenges. CATs are particularly promising for students with SEN, as they have the potential to more individualized and shorter measurements and better testing in low extreme areas compared to traditional procedures. CATs are digitally conducted tests whose difficulty
level adapts to the examinees. This is done with the help of underlying adaptive algorithms that re-estimate the examinee's ability after each answer and suggest the most suitable next item based on that. This technology allows tests to be shortened with minimal impact on measure�ment accuracy.
To investigate the benefits of CAT for student groups with heterogeneous abilities and particularly for students with SEN, three simulation studies are conducted in this work. All studies are based on a sample of 400 students with (22.5%) and without (78.5%) SEN. On the part of allstudents, 10.75% have intellectual disabilities, 7.75% have learning disabilities, and 3% have
speech impairments. The students have completed four subtests of a digital reading screeningwhich contain between 30 and 52 items. The results of the reading screening are used in the three studies to answer the respective research questions. Study 1 simulates a computerized adaptive reading screening for inclusive schools. Therefore, simulations of CATs based on the subtests and generated data are done. Three different accuracy stopping rules, the test length and test accuracy are compared and further analyzed. Study 2 links the subtests to one screening CAT by incorporating the results of the previous subtest as input for the following subtest. For this purpose, a fixed and a Bayesian-based starting rule are compared based on real and generated data. Study 3 investigates the performance of a CAT for students with and without SEN in detail. For this purpose, different performing student
groups are simulated separately under different conditions, and the performance of the CAT measurements as well as the students’ response patterns are compared and analyzed. The results indicate that students with SEN are measured more accurately and with a shorter test length, approximately 4 items fewer than students without SEN. This effect, demonstrating the greater effectiveness of adaptive testing for students with SEN compared to those without SEN, remains consistent across item pools of different sizes, difficulty distributions, and vari�ous starting rules. In the adaptive test, students with SEN make fewer overall incorrect responses, although there is a slight decrease in the proportion of correctly solved items and a slight increase in the proportion of incorrectly solved items.
In general, adaptive tests are 30% to 80% shorter than the initial non-adaptive tests. The degree of test reduction depends on the size of the initial item pool. Smaller item pools, with around 30 items, result in a relatively smaller reduction in test length compared to larger item pools with 50 or 100 items. However, when the accuracy of the adaptive test is used as the stopping
criterion, a shorter test length also leads to a decrease in test accuracy. Employing a higher standard error in the measurement accuracy of the adaptive test yields shorter tests with fewer items per test iteration, but it also results in slightly lower measurement accuracy. For small item pools, a standard error of 0.3 has minimal impact and rarely shortens the test. With a
standard error of 0.5, depending on the size of the item pool, most test iterations can be concluded with a significantly reduced test length due to the achieved accuracy. A larger and uniform distributed item pool (n = 100) leads to an additional average reduction of 6 items per subtest. Additionally, this item pool allows for a 30% increase in the number of test runs that can be stopped based on their accuracy. For students in extreme areas, even when individuals' abilities deviate several standard deviations from the mean, short measurements can be ensured instead of having to select and process all items from a smaller and more tightly distributed item pool until the test stops with slightly lower measurement accuracy. The usage of a Bayesian-based starting rule, which incorporates previous test results and student information as input for the subsequent measurement, as well as the use of an easier start item, is not efficient and does not enhance the measurement in comparison to a starting rule using a fixed item with medium difficulty.
To develop a digital and adaptive reading screening, the item pools of the non-adaptive reading subtests can be utilized for further adaptation in terms of their psychometric quality, item pool size, and difficulty distribution. As a starting point, I opted for an initial item with a difficulty level of -1 to facilitate an easier test initiation for students with SEN. Subsequently, an estimation and item selection process based on Bayes estimation and maximum Fisher information is employed. The adaptive screening concludes once a measurement accuracy is attained, with a standard error of 0.5.
This work demonstrates that CATs particularly benefit students with SEN and, therefore, are useful for this target group. The opportunities and limitations of developing and using CATs for inclusive school tests are discussed. Furthermore, implications are drawn for the further development of CATs and their potential combination with artificial intelligence and digital learning environments. Additionally, the implementation of the adaptive reading screening is considered.
Übersetzung der Zusammenfassung (Deutsch)
Die Diagnostik von Schüler:innen mit sonderpädagogischem Förderbedarf (SPF) ist ein wichtiger Faktor, um passende Unterstützung und Fördermaßnahmen ableiten zu können, kann aber sowohl für Testadministratoren als auch für die Schüler:innen herausfordernd sein. Computerbasierte adaptive Tests (CAT) sind eine Testtechnologie, die die Chance bietet diesen Herausforderungen zu begegnen. CATs sind ...
Übersetzung der Zusammenfassung (Deutsch)
Die Diagnostik von Schüler:innen mit sonderpädagogischem Förderbedarf (SPF) ist ein wichtiger Faktor, um passende Unterstützung und Fördermaßnahmen ableiten zu können, kann aber sowohl für Testadministratoren als auch für die Schüler:innen herausfordernd sein. Computerbasierte adaptive Tests (CAT) sind eine Testtechnologie, die die Chance bietet diesen Herausforderungen zu begegnen. CATs sind besonders vielversprechend für Schüler:innen mit SPF, da sie besonders Potenzial für individualisierte und kürzere Messungen haben und bessere Testungen in niedrig Extrembereichen im Vergleich zu traditionellen Verfahren ermöglichen. CATs sind digital durchgeführte Tests, bei denen sich der Schwierigkeitsgrad an die Schüler:innen anpasst. Dies geschieht mithilfe adaptiver Algorithmen, die nach jeder Antwort die Fähigkeit des Prüflings neu einschätzen und das am besten geeignete nächste Item vorschlagen. Diese Technologie ermöglicht es, Tests zu verkürzen mit minimaler Auswirkung auf die Messgenauigkeit. Um die Vorteile von CAT für Schülergruppen mit heterogenen Fähigkeiten und insbesondere für Schüler:innen mit SEN zu untersuchen, werden in dieser Arbeit drei Simulationstudien durchgeführt. Alle Studien basieren auf einer Stichprobe von 400 Schüler:innen mit (22,5%) und ohne (78,5%) SPF. Von allen Schüler:innen haben 10,75% eine geistige Behinderung, 7,75% eine Lernbehinderung und 3% eine Sprachbehinderung. Die Schüler:innen bearbeiteten vier Subtests eines digitalen Lesescreenings, die zwischen 30 und 52 Aufgaben enthalten. Die Ergebnisse des Lesescreenings werden in den drei Studien verwendet, um die jeweiligen Forschungsfragen zu beantworten. Studie 1 simuliert ein computerbasiertes adaptives Lesescreening für inklusive Schulen. Dazu werden Simulationen von CATs auf der Grundlage der Subtests und generierter Daten durchgeführt. Drei verschiedene Genauigkeitsstoppregeln, die Testlänge und die Testgenauigkeit werden verglichen und weiter analysiert. Studie 2 verknüpft die Subtests zu einem Screening-CAT, indem die Ergebnisse des vorherigen Subtests als Input für den folgenden Subtest verwendet werden. Dafür werden eine feste und eine bayesianische Startregel auf der Grundlage realer und generierter Daten verglichen. Studie 3 untersucht die Leistung eines CATs für Schüler:innen mit und ohne SPF im Detail. Dafür werden verschieden leistungsstarke Schülergruppen separat unter verschiedenen Bedingungen simuliert, und die Leistung der CAT-Messungen sowie die Antwortmuster der Schüler:innen werden verglichen und analysiert. Die Ergebnisse zeigen, dass Schüler:innen mit SPF genauer und mit einer kürzeren Testlänge gemessen werden, etwa mit vier Items weniger als Schüler:innen ohne SEN. Dieser Effekt, der die größere Effektivität des adaptiven Testens für Schüler:innen mit SPF im Vergleich zu denen ohne SPF zeigt, bleibt konsistent über verschiedene Itempools mit unterschiedlichen Größen, Schwierigkeitsverteilungen und verschiedenen Startregeln. Im adaptiven Test geben Schüler:innen mit SPF insgesamt weniger falsche Antworten, obwohl es einen leichten Rückgang im Anteil der korrekt gelösten Aufgaben und einen leichten Anstieg im Anteil der falsch gelösten Aufgaben gibt. Im Allgemeinen sind adaptive Tests 30% bis 80% kürzer als die ursprünglichen nicht-adaptiven Tests. Der Grad der Testverkürzung hängt von der Größe des ursprünglichen Itempools ab. Kleinere Itempools mit etwa 30 Elementen führen zu einer relativ geringeren Verkürzung der Testlänge im Vergleich zu größeren Itempools mit 50 oder 100 Elementen. Wenn jedoch die Genauigkeit des adaptiven Tests als Abbruchkriterium verwendet wird, führt eine kürzere Testlänge auch zu einer Abnahme der Testgenauigkeit. Die Verwendung einer höheren Standardfehlergrenze bei der Messgenauigkeit des adaptiven Tests führt zu kürzeren Tests mit weniger Items pro Testiteration, führt aber auch zu einer geringfügig geringeren Messgenauigkeit. Für kleine Itempools hat eine Standardfehlergrenze von 0,3 nur minimale Auswirkungen und verkürzt den Test selten. Mit einer Standardfehlergrenze von 0,5 können je nach Größe des Itempools die meisten Testiterationen mit einer deutlich reduzierten Testlänge aufgrund der erreichten Genauigkeit abgeschlossen werden. Ein größerer und gleichmäßig verteilter Itempool (n = 100) führt zu einer zusätzlichen durchschnittlichen Reduktion von 6 Items pro Teiltest. Zudem ermöglicht dieser Itempool eine 30-prozentige Erhöhung der Anzahl von Testläufen, die aufgrund ihrer Genauigkeit beendet werden können. Selbst für Schüler:innen in Extrembereichen, deren Fähigkeiten mehrere Standardabweichungen vom Durchschnitt abweichen, können kurze Messungen sichergestellt werden, anstatt alle Elemente aus einem kleineren und enger verteilten Aufgabenpool auswählen und bearbeiten zu müssen, bis der Test mit etwas geringerer Messgenauigkeit endet. Die Verwendung einer bayesianischen Startregel, die frühere Testergebnisse und Schülerinformationen als Eingabe für die nachfolgende Messung berücksichtigt, sowie die Verwendung eines einfacheren Startelements sind nicht effizient und verbessern die Messung im Vergleich zu einer Startregel mit einem festen Element mittlerer Schwierigkeit nicht. Um ein digitales und adaptives Lesescreening zu entwickeln, können die Itempools der nicht-adaptiven Leseteiltests in Bezug auf ihre psychometrische Qualität, Größe und Schwierigkeitsverteilung weiter angepasst werden. Als Ausgangspunkt wurde ein erstes Item mit einem Schwierigkeitsgrad von -1 gewählt, um den Testbeginn für Schüler:innen mit SPF zu erleichtern. Anschließend wird ein Schätzungs- und Itemauswahlprozess auf der Grundlage der Bayes-Schätzung und der Fisher-Information durchgeführt. Das adaptive Screening endet, sobald eine Messgenauigkeit mit einer Standardfehlergrenze von 0,5 erreicht ist. Diese Arbeit zeigt, dass CATs insbesondere Schüler:innen mit SEN zugutekommen und daher für diese Zielgruppe nützlich sind. Die Möglichkeiten und Grenzen der Entwicklung und Nutzung von CATs für inklusive Schultests werden diskutiert. Darüber hinaus werden Implikationen für die weitere Entwicklung von CATs und ihre mögliche Kombination mit künstlicher Intelligenz und digitalen Lernumgebungen gezogen. Die Implementierung des adaptiven Lesescreenings wird ebenfalls in Betracht gezogen.
Metadaten zuletzt geändert: 02 Aug 2023 13:05