Testkonstruktion auf Basis der Probabilistischen Testtheorie (Sitzung 1)

Marc Jekel

14/11/2014

Planung

Sitzung 1 (8 Zeitstunden, Freitag 14.11.2014 von 9:00 Uhr bis 17:00) wird vollständig mit Theorie gefüllt. Übungen in R sollen Inhalte vertiefen und das Verständnis erleichtern. Nach dieser Sitzung sollten Sie das Rasch Modell kennen und Modell- und Personenparameter schätzen können. (Theorieblock 1 bis 3, Praxisblock A)

Sitzung 2 (4 Zeitstunden, Donnerstag 27.11.2014 von 9:00 bis 13:00 Uhr) beginnt mit den Methoden zur Testung der Voraussetzungen des Rasch Modells. Es folgt eine ausführliche praktische Übung: Wir führen eine komplette Rasch-Analyse an einem Beispieldatensatz durch. Es folgen dann Überlegungen zur Projektarbeit, in der ein raschkonformer Leistungs/Intelligenztest erstellt werden soll. Am Ende der Sitzung sollten Sie das Wissen der vorherigen Sitzung um die Modelltestung erweitert und mit der Trockenübung noch einmal vertieft und ganzheitlich angewendet haben. Sie sollten jetzt prinzipiell fähig sein, einen raschkonformen Test zu konstruieren. Sie sind nun bereit, Items für unseren Leistungstest zu generieren. (Theorieblock 4; Praxisblock B bis C)

Sitzung 3 (4 Zeitstunden, Freitag 12.12.2014 von 9:00 bis 13:00 Uhr ) beginnt mit Erweiterungen zum Rasch Modell. Wir besprechen die erstellten Items für unseren Leistungstest. Nach der Sitzung sollten Sie über das Rasch Modell hinaus prominente Modelle der probabilistischen Testtheorie kennengelernt haben. Sie sollten weiterhin jetzt bereit sein, unseren Leistungstest zu erstellen und zu erheben. Die Sitzung ist eher locker geplant und kann als Puffer dienen. (Theorieblock 5, Praxisblock C)

Sitzung 4 (8 Zeitstunden, Freitag 16.01.2015 von 9:00 bis 17:00 Uhr) verwenden wir zur Analyse der Ergebnisse unseres Leistungstests. Es folgt eine Einführung in das adaptive Testen mit Überlegungen zu einer adaptiven Nutzung unseres Leistungstests. (Optional) Abgerundet wird die Sitzung mit einer (kurzen) Einführung in die Erstellung von dynamischen Reports zur Dokumentation von (wissenschaftlichen) Projekten mit Hilfe von R(-Studio). (Theorieblock 6, Praxis-Block C bis D)

Theorie Block 1

Überblick Rasch Modell

Theorie Block 2

Annahmen und Eigenschaften des Rasch Modells

Theorie Block 3

Parameterschätzung des Rasch Modells

Praxis-Block A

Praktische Übungen in R

Material

Benutzer: student; Passwort: rasch

Literatur

Webseiten

Rasch Funktion

Definition Psychologischer Test

Ein psychologischer Test besteht aus einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen, d.h. aus einer Menge von manifesten Variablen, und einer Vorschrift (Skala), die den Reaktionsmustern der manifesten Variablen Ausprägungen einer oder mehrer latenter Variablen zuordnet.

(Krauth, 1995, S. 18, zitiert nach Eid, 2014, S. 29)

Definition Psychologischer Test

Ein psychologischer Test besteht aus einer Menge von Reizen mit den zugehörigen zugelassenen Reaktionen, d.h. aus einer Menge von manifesten Variablen, und einer Vorschrift (Skala), die den Reaktionsmustern der manifesten Variablen Ausprägungen einer oder mehrer latenter Variablen zuordnet.

(Krauth, 1995, S. 18, zitiert nach Eid, 2014, S. 29)

Skala

Latente Variable

Datenmatrix (Manifeste Variable)

Grünes Item Schwarzes Item Rotes Item
Proband 1 0.00 0.0 0.00
Proband 2 1.00 0.0 0.00
Proband 3 1.00 1.0 0.00
Proband 4 1.00 1.0 1.00
Itemschwierigkeit [KTT] 0.75 0.5 0.25

Latente Variable

Manifeste Variable

Skalierung

Skalierung Naturwissenschaften

700

(Koller et al., 2012, S. 2)

Invariantes Messen|Engelhard (Kapitel 1, 2013)

Ziel ist es, Skalen zu entwickeln, die die Verortung von Personen und Items auf einer zugrundeliegenden (latenten) Variablen ermöglichen.

  1. Item-invariantes Messen von Personenparametern: Eine fähigere Person sollte immer eine höhere Wahrscheinlichkeit haben, ein Item zu lösen, als eine weniger fähige Person.
  2. Personen-invariantes Messen von Itemparametern: Jede Person sollte bei einem einfacheren Item eine höhere Wahrscheinlichkeit haben das Item zu lösen als bei einem schwierigeren Item.
  3. Items und Personen sollten auf einer gemeinsamen zugrundeliegenden latenten Variablen lokalisiert werden.

Guttman Skala|Beispiel für ein deterministisches Modell

Formel und Funktionsform

  1. \[p\]
  1. \[Odds = \frac{p}{1-p}\]

Formel und Funktionsform

Formel und Funktionsform

Formel und Funktionsform

Formel und Funktionsform

  1. \[log(Odds) = log\left(\frac{p}{1-p}\right) = \theta - \beta\]

Formel und Funktionsform|Beispiel

Bei \(\theta = 5 \text{ und } \beta = 3\) ergibt sich \(log(Odds) = \theta - \beta = 5 - 3 = 2\) und damit \(Odds = e^2 = 7.38\), was identisch zu \(p = \frac{Odds}{1 + Odds} = .88\) ist.

Formel und Funktionsform|Beispiel

Bei \(\theta = 5 \text{ und } \beta = 3\) ergibt sich \(log(Odds) = \theta - \beta = 5 - 3 = 2\) und damit \(Odds = e^2 = 7.38\), was identisch zu \(p = \frac{Odds}{1 + Odds} = .88\) ist.

Formel und Funktionsform|Beispiel

Bei \(\theta = 5 \text{ und } \beta = 3\) ergibt sich \(log(Odds) = \theta - \beta = 5 - 3 = 2\) und damit \(Odds = e^2 = 7.38\), was identisch zu \(p = \frac{Odds}{1 + Odds} = .88\) ist.

Formel und Funktionsform

  1. \[log(Odds) = log\left(\frac{p}{1-p}\right) = \theta - \beta\]
  1. \[Odds = \frac{p}{1-p} = e^{\theta - \beta}\]
  1. \[\frac{1-p}{p} = \frac{1}{e^{\theta - \beta}}\]
  1. \[\frac{1}{p} - 1 = \frac{1}{e^{\theta - \beta}}\]
  1. \[\frac{1}{p} = 1 + \frac{1}{e^{\theta - \beta}} = \frac{e^{\theta - \beta}}{e^{\theta - \beta}} + \frac{1}{e^{\theta - \beta}} = \frac{e^{\theta - \beta}}{e^{\theta - \beta}} + \frac{1}{e^{\theta - \beta}} =\frac{1+e^{\theta - \beta}}{e^{\theta - \beta}}\]
  1. \[p =\frac{e^{\theta - \beta}}{1+e^{\theta - \beta}}\]

Formel und Funktionsform

\[p(x_{ij} = 1|\theta_i,\beta_j) = \frac{e^{\theta_i-\beta_j}}{1 + e^{\theta_i-\beta_j}}\]

Formel und Funktionsform

\[p(x_{ij} = 0|\theta_i,\beta_j) = 1 - p(x_{ij} = 1|\theta_i,\beta_j) = 1 - \frac{e^{\theta_i-\beta_j}}{1 + e^{\theta_i-\beta_j}} = \frac{1 + e^{\theta_i-\beta_j}}{1 + e^{\theta_i-\beta_j}} - \frac{e^{\theta_i-\beta_j}}{1 + e^{\theta_i-\beta_j}} = \frac{1}{1 + e^{\theta_i-\beta_j}}\]

Logit-Skala

Warum Logit-Skala?|(Engelhard, 2013)

  1. Logits sind aprroximativ normalverteilt.

(Density) Logit-Verteilung & Standardnormalverteilung

\[p(x_{ij} = 1|\theta_i,\beta_j) = \frac{e^{1.7 \times (\theta_i-\beta_j)}}{1 + e^{1.7 \times (\theta_i-\beta_j)}}\]

val = rlogis(10000) # logistic distribution
plot(density(val/1.7),lwd=2, main = "")

val2= rnorm(10000) # standard normal distribution
points(density(val2),type = "l",col="red",lwd=2)

Warum Logit-Skala?|(Engelhard, 2013)

  1. Logits sind aprroximativ normalverteilt.
  1. Logits gehören zur Familie der exponentiellen Verteilungen, die viele gute statistische Eigenschaften besitzen (Barndord-Nielson, 1978).
  1. Die Log-Transformation ist eine von vielen Arten, um Proportionen in eine lineare Skala zu übersetzen.

Itemschwierigkeit \(\beta\)

\[p(x_{ij} = 1|\theta_i,\beta_j) = \frac{e^{\theta_i-\beta_j}}{1 + e^{\theta_i-\beta_j}}\]

Lösungswahrscheinlichkeiten

\[p(x_{ij} = 1|\theta_i,\beta_j) = \frac{e^{\theta_i-\beta_j}}{1 + e^{\theta_i-\beta_j}}\]

Übung

  1. Programmiere das Rasch Modell als Funktion in R nach.
  2. Wie hoch ist die Lösungswahrscheinlichkeit eines Items mit einer Itemschwierigkeit \(\beta = 2\) für Probanden mit Fähigkeiten \(\theta = (-4, 0, 2, 2.1, 4, 4.1)\)?

Funktionen in R

funktionsname = function(argument1, argument2, ...){funktionsinhalt}
## Definition Funktion

funcMean = function(input){ 
  
  output = mean(input)
  return(output)
                }

## Vektor x

x = c(1,2,3,4,5)

## Ausführung Funktion für Vektor x

funcMean(input = x)
## [1] 3

Wendepunkte und Itemschwierigkeit

\[p(x_{ij} = 1|\theta_i,\beta_j) = \frac{e^{\theta_i-\beta_j}}{1 + e^{\theta_i-\beta_j}}\]

Wendepunkte und Itemschwierigkeit

\[p(x_{ij} = 1|\theta_i,\beta_j) = \frac{e^{\theta_i-\beta_j}}{1 + e^{\theta_i-\beta_j}}\]

Iteminformation

\[Info_j(\theta) = \left(\frac{e^{\theta-\beta_j}}{1 + e^{\theta-\beta_j}}\right)' = \frac{e^{\theta - \beta_j}}{(1+e^{\theta - \beta_j})^2}= \frac{1}{(1+e^{\theta - \beta_j})} \times \frac{e^{\theta - \beta_j}}{(1+e^{\theta - \beta_j})}= (1-p(x = 1|\theta,\beta_j)) \times p(x = 1|\theta,\beta_j) \]

Testinformation

\[Info_{tot}(\theta)=\sum_{j=1}^J Info_j(\theta)\]

Standardabweichung des Schätzfehlers für Personenparameter

\[SE(\theta_i) = \frac{1}{\sqrt{\sum_{j=1}^J Info_j(\theta_i)}}\]

Die Standardabweichung des Schätzfehlers eines Personenparameters \(\theta_i\) lässt sich also durch Erhöhung der Itemzahl und durch Auswahl informativer Items verringern.

Standardabweichung des Schätzfehlers für Personenparameter

Konfidenzinterval für \(\theta\)

\[CI_{95}(\theta) = \theta \pm 1.96 \times SE(\theta)\]

Übung

  1. Welche Werte umfasst das 95% Konfidenzinterval für einen Proband \(i\) mit einem \(\theta_i = 2\) und einem Test mit 3 Items \(\beta_j = (-2,1,4)\).

  2. Ein neues Item wird hinzugefügt. Welche Eigenschaften sollte es haben, damit das Konfidenzinterval von Proband \(i\) optimal (d.h., maximal) minimiert wird? Wie stark wird es minimiert?

Eigenschaften Rasch Modell

Annahmen und Eigenschaften des Rasch Modells

  1. Lokale stochastische Unabhängigkeit
  2. Suffiziente Statistik
  3. Spezifische Objektivität
  4. Eindimensionalität
  5. Monoton steigende IRT Kurven

Stochastische Unabhängigkeit

Es gilt \(p(A \cap B) = p(A) \times p(B)\), wenn \(p(A|B) = p(A)\) und \(p(B|A) = p(B)\). (Unabhängigkeit der Eintretenswahrscheinlichkeit von Ereignissen)

Beispiel: Wahrscheinlichkeit zweimal eine 6 zu würfeln ist \(p(A \cap B) = p(A) \times p(B) = 1/6 \times 1/6 = 1/36\).

Die Wahrscheinlichkeit für einen Probanden \(i\) eine Aufgabe \(j=z\) zu lösen ist nicht abhängig davon, ob eine andere Aufgabe \(j \neq z\) gelöst wurde.

Frage: Stochastische Unabhängigkeit im Rasch Modell? Fähigere Personen sollten Items doch eher lösen als weniger fähige Personen?

(Lokale) Stochastische Unabhängigkeit im Raschmodell

Es handelt sich um Unabhängigkeit von konditionalen (!) Wahrscheinlichkeit: \(p(x_{j=z}|\theta_i) = p(x_{j=z}|x_{j \neq z},\theta_i)\).

Implikation: Eine hohe Korrelationen zwischen Items (bei gleichen \(\theta\)) kann also auf eine Verletzung der lokalen stochastischen Unabhängigkeit hindeuten.

Lokale Stochastische Unabhängigkeit im Raschmodell

Gesamt

B - B +
A - 110 195
A + 15 100

\(p(B = +| A = -) = \frac{195}{195 + 110} = .639\)

\(p(B = +| A = +) = \frac{100}{15 + 100} = .86\)

Lokale Stochastische Unabhängigkeit im Raschmodell

Gesamt

B - B +
A - 110 195
A + 15 100

Niedrige Fähigkeit \(\theta_1\)

B - B +
A - 100 100
A + 5 5

\(p(B = +| A = -) = \frac{100}{200} = .5 = p(B = +| A = +)\)

Hohe Fähigkeit \(\theta_2\)

B - B +
A - 10 95
A + 10 95

\(p(B = +| A = -) = \frac{95}{105} = .904 = p(B = +| A = +)\)

(Lokale) Stochastische Unabhängigkeit im Raschmodell|Gesamtwahrscheinlichkeit pro Proband

Warum ist das wichtig?

Berechnung der Gesamtwahrscheinlichkeit für einen Probanden \(i\) und alle Aufgaben \(j = 1 \ldots m\).

\[p(x_{i1},\ldots,x_{im}|\theta_i,\beta_1,\ldots,\beta_m) = \prod_{j=1}^m p(x_{ij}|\theta_i, \beta_j)\]

Implikation: Aufgaben dürfen nicht aufeinander aufbauen.

(Lokale) Stochastische Unabhängigkeit im Raschmodell|Gesamtwahrscheinlichkeit für alle Probanden

Berechnung der Gesamtwahrscheinlichkeit für alle Probanden \(i = 1 \ldots n\) und alle Aufgaben \(j = 1 \ldots m\).

\[p(x|\theta,\beta) = \prod_{i=1}^n \prod_{j=1}^m p(x_{ij}|\theta_i, \beta_j)\]

Implikation: Es muss gewährleistet sein, dass Probanden nicht voneinander abschreiben können.

Logarithmus

\[log(p(A) \times p(B)) = log(p(A)) + log(p(B))\]

Aus

\[p(U|\theta,\beta) = \prod_{i=1}^n \prod_{j=1}^m p(x_{ij}|\theta_i, \beta_j)\]

wird

\[log(p(U|\theta,\beta)) = \sum_{i=1}^n \sum_{j=1}^m log(p(x_{ij}|\theta_i, \beta_j))\]

Exkursion: Wahrscheinlichkeit, Likelihood und Maximum Likelihood

Wahrscheinlichkeit

Was ist die Wahrscheinlichkeit eine Münze 10mal zu werfen und die folgende Sequenz zu beobachten: Kopf, K, Zahl, K, K, K, K, Z, Z, Z.

\[p(K,K,Z,K,K,K,K,Z,Z,Z|.5) = .5^6 \times (1-.5)^4 = .5^{10}\]

Wahrscheinlichkeit

Was ist die Wahrscheinlichkeit eine Münze 10mal zu werfen und 6mal Kopf und 4mal Zahl zu erhalten.

Binomial Verteilung

\[p(freq(K)|\theta,N) = \binom{N}{freq(K)} \times \theta^{freq(K)}\times (1-\theta^{freq(Z)})\]

\[p(6|.5) = \binom{10}{6} \times .5^{6}\times (1-.5^{4}) = .20\]

Likelihood

Wie hoch ist die Wahrscheinlichkeit bei 6mal Kopf und 4mal Zahl für ein bestimmtes \(\theta\).

\[L(\theta|6K,4Z) = p(6K,4Z|\theta) = \binom{10}{6} \times \theta^6 \times (1-\theta^4)\]

Kopf  = 6

Lik = dbinom(Kopf,10,seq(0,1,.01))

plot(seq(0,1,.01),
Lik, type="l",xlab="theta",ylab="Likelihood",
main = paste("Likelihood Funktion für ",Kopf," von 10"),
lwd = 3)

Maximum-Likelihood

Welches \(\theta\) liefert die maximale Likelihood bei 6mal Kopf und 4mal Zahl.

\[L(\theta|6K,4Z) = p(6K,4Z|\theta) = \binom{10}{6} \times \theta^6 \times (1-\theta^4)\]

R-Demo: Likelihood und Maximum Likelihood generalisiert

Likelihood und Maximum Likelihood generalisiert über andere Pattern

Likelihood und Maximum Likelihood generalisiert über andere Verteilungen

Dichtefunktion Normalverteilung:

\[p(d|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \times e^{-(d-\mu)^2/(2\sigma^2)}\]

Freie Parameter: \(\mu\), \(\sigma\)

R-Demo: Likelihood und Maximum Likelihood generalisiert

Likelihood Rasch Modell mit bekannten Personenparametern

Alle Probanden, Ein Item:

Likelihood

Likelihood

Likelihood

Likelihood

Likelihood

Likelihood

Übung

Plotte die (a) Likelihood Kurve und (b) die Log-Likelihood Kurve für ein Item, bei dem Probanden mit Fähigkeiten \(\theta_i = (-2, 2, 1, 7)\) das folgende Antwortmuster zeigen \(x = (0, 0, 1, 1)\).

Maximum (Log-)Likelihood

(Log-)Likelihood|Alle Probanden, Alle Items

Übung

Wie hoch ist die log-Likelihood für vier Probanden mit \(\theta_i = (-2, 2, 5, 7)\) und drei Items \(\beta_j = (-3,-1,3)\) und Antwortpattern \(x_1 = (0,1,1,1)\), \(x_2 = (0,0,1,1)\) und \(x_3 = (0,0,0,1)\)

Likelihood

Vier Probanden mit Fähigkeiten \(\theta_i = (-2,2,5,7)\) und Antwortpattern \(x_1 = (0,1,1,1)\), \(x_2 = (0,0,1,1)\) und \(x_3 = (0,0,0,1)\).

Likelihood

Likelihood

Likelihood: Unabhängigkeit der Items