Test statystyczny w akcji - Pepsi czy Cola

Student Analityki Gospodarczej — pan Jan — zgłosił się, kiedy spytałem, czy ktoś umie po smaku odróżnać Pepsi od Coca Coli. Postanowiliśmy więc, że na wykładzie ze statystyki matematycznej przeprowadzimy test. Pani Eliana, studentka, która zgłosiła się do pomocy przy ekperymencie, rzucała za drzwiami monetą i w zależności od wyniku nalewała do kubeczka Pepsi lub Coli; pani Maria przynosiła kubeczek do sali wykładowej, nie znając jego zawartości; pan Jan próbował i zgadywał, jaki napój jest kubeczku. W 13 próbach pan Jan poprawnie odgadł 11 razy. Stwierdziliśmy, że test się udał — pan Jan wykazał, że potrafi odgadywać napój częściej wynikałoby z losowości.

Test udał się nadspodziewanie dobrze również ze względów dydaktycznych. Na tym przykładzie mogliśmy omówić typowe elementy testu statystycznego. Omówione są one pod memem przygotowanym na tę okazję przez panią Julię.

mem

Hipoteza zerowa. W tym przypadku hipotezą zerową było to, że pan Jan nie umie rozróżniać Coli od Pepsi, co oznacza, że proporcja w „populacji” (w tym przypadku w procesie generującym dane) wynosi 1/2 (co odpowiada pełnej losowości):

$$H_0: p = 0{,}5$$

Hipoteza alternatywna. Naturalna w tym przypadku była hipoteza prawostronna, zakładająca, że prawdopodobieństwo odgadnięcia w pojedynczej próbie jest większe niż 1/2:

$$H_A: p > 0{,}5$$

Statystyka testowa. Statystyką testową była tutaj po prostu liczba sukcesów (odgadnięć).

Obszar odrzucenia. Przed testem ustaliliśmy, że uznamy umiejętności pana Jana w tym względzie, jeżeli w 13 próbach odgadnie 10 lub więcej razy. Kierowaliśmy się tutaj poziomem istotności (zob. niżej).

Poziom istotności ($\alpha$). Poziom istotności to prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona prawdziwa (prawdopodobieństwo błędu pierwszego rodzaju). W naszym przypadku poziom istotności można wyznaczyć z rozkładu dwumianowego:

$$\begin{split} X\sim \text{Dwumianowy}(n=13, p=0{,}5) \\ \alpha = P(X \ge 10) = 0{,}0461\end{split} $$ Powyższy poziom istotności możemy obliczyć w R:

1-pbinom(9, 13, .5)
## [1] 0.04614258

Na zajęciach skorzystaliśmy z odpowiedniego szablonu w arkuszu kalkulacyjnym.

P-value. Pan Jan odgadł 11 razy. Prawdopodobieństwo testowe (p-value), czyli prawdopodobieństwo uzyskania takiego lub bardziej skrajnego wyniku, w sytuacji gdy hipoteza zerowa jest prawdziwa, można również wyznaczyć z tego samego rozkładu dwumianowego:

$$P(X \ge 11) = 0{,}0112$$
1-pbinom(10, 13, .5)
## [1] 0.01123047

Moc testu. Pan Jan poinformował, że na podstawie prób dokonanych w domu poprzedniego dnia można zakładać, iż jego skuteczność wynosi około 85%. Przy takim założeniu możemy wyznaczyć moc testu opisanego powyżej. Moc testu to $1 - \beta$, zaś $\beta$ (beta) to prawdopodobieństwo, że nie odrzucimy hipotezy zerowej, choć w rzeczywistości prawdopodobieństwo sukcesu (proporcja w procesie generującym dane) to 0,85:

$$\begin{split} Y\sim \text{Dwumianowy}(n=13, p=0{,}85) \\ 1 - \beta = 1 - P(X < 10) = P(X \ge 10) = 0,882\end{split} $$
1-pbinom(9, 13, .85)
## [1] 0.8819973

Moc testu przy powyższych założeniach wynosi 88,2%.

Jak to zrobić w R? Test, który przeprowadziliśmy, nie jest zwykle prezentowany w ramach kursu statystyki na naszym wydziale. Jest to test dokładny dwumianowy. W R można odpowiednie obliczenia przeprowadzić za pomocą procedury binom.test.

binom.test(x=11, n=13, alternative="greater")
## 
## 	Exact binomial test
## 
## data:  11 and 13
## number of successes = 11, number of trials = 13, p-value = 0.01123
## alternative hypothesis: true probability of success is greater than 0.5
## 95 percent confidence interval:
##  0.5899014 1.0000000
## sample estimates:
## probability of success 
##              0.8461538
Błażej Kochański
Błażej Kochański
ekspert ds. ryzyka bankowego, naukowiec, menedżer i konsultant