Skip to content

Statistika

octicon-noteNote

Diskrétní a spojité náhodné veličiny (NV), základní rozložení. Číselné charakteristiky NV. Centrální limitní věta. Bodové odhady, intervaly spolehlivosti, testování statistických hypotéz, hladina významnosti. Základní parametrické a neparametrické testy, ANOVA, testy nezávislosti NV. Lineární regrese, celkový F-test, dílčí t-testy.
MV013

Opakování

octicon-tipTip

Viz bakalářské otázky Kombinatorika a pravděpodobnost a Statistika.

  • Statistika
    Zabývá se sbíráním, organizací, analýzou, interpretací a prezentací dat. 1

    • Popisná / decriptive: shrnuje data, která máme,
    • Inferenční / inferential: předpokládá, že data která máme jsou jen součástí celku; pracuje s modely celé populace a hypotézami o ní.
  • Základní prostor Ω\Omega
    Konečná množina možných jevů. Např {1,2,3,4,5,6}\{1, 2, 3, 4, 5, 6\} pro možné hody šestistěnkou.

  • Možný výsledek (elementární náhodný jev) ωk\omega_k
    Prvek základního prostoru Ω\Omega.

  • Náhodný jev (event) AA
    Podmnožina AΩA \sube \Omega, která nás zajímá. Např. “Na šestistěnce padne sudé číslo.”

  • Náhodná veličina (NV) / random variable
    Něco, co se dá u každého možného výsledku změřit. Zobrazení z prostoru elementárních jevů do měřitelného prostoru EE (třeba R\mathbb{R}).

    X:ΩEX : \Omega \to \mathbb{E}

Diskrétní NV je náhodná veličina, která nabývá konečně nebo spočetně mnoha hodnot. E\mathbb{E} je konečná nebo spočetná, např. N\N.

Příklad: hodnota na šestistěnce.

Jinými slovy, NV X:ΩRX : \Omega \to \R je diskrétní, pokud se prvky Ω\Omega zobrazí do R\R jako izolované body {x1,x2,}\{x_1, x_2, \ldots\}.

  • Rozdělení pravděpodobnosti
    Funkce P(X):ERP(X) : \mathbb{E} \to \R, která každé hodnotě popsané veličinou XX přiřazuje pravděpodobnost jejího výskytu.

  • Každá xix_i má nenulovou pravděpodobnost:

    P(xi)>0P(x_i) > 0
  • Součet pravděpodobností všech možných hodnot xix_i je 11:

    xP(xi)=1\sum_{x} P(x_i) = 1

Spojitá NV je náhodná veličina, která nabývá až nespočetně nekonečně mnoha hodnot. Tedy E\mathbb{E} je nespočetná, např. R\R.

Příklad: doba čekání na šalinu, analogový signál, výška člověka (pokud máme fakt dobrej metr).

Jinými slovy, NV X:ΩRX : \Omega \to \R je spojitá, pokud se prvky Ω\Omega zobrazí do R\R jako interval [a,b]\lbrack a, b \rbrack.

  • Hustota pravděpodobnosti / probability density function (PDF)
    Funkce f(x):ERf(x) : \mathbb{E} \to \R, která každé hodnotě popsané veličinou XX přiřazuje pravděpodobnost jejího výskytu.

  • Každý bod tohoto intervalu má nulovou pravděpodobnost:

    f(x)=0f(x) = 0
  • Nicméně integrál pravděpodobnostní funkce f(x)f(x) je 11:

    f(x)dx=1\int_{-\infty}^{\infty} f(x) dx = 1
  • Pravděpodobnost, že NV nabývá hodnoty z intervalu [a,b]\lbrack a, b \rbrack je pak:

    P(aXb)=abf(x)dxP(a \leq X \leq b) = \int_{a}^{b} f(x) dx
  • Distribuční funkce / cumulative distribution function (CDF)

    Funkce F(X):ERF(X) : \mathbb{E} \to \R udává pravděpodobnost, že NV XX nabývá hodnoty menší než xx.

    F(x)=P(Xx)pro diskreˊtnıˊ NVF(x)=xf(x)dxpro spojiteˊ NV\begin{align*} F(x) &= P(X \leq x) & \text{pro diskrétní NV} \\ F(x) &= \int_{-\infty}^{x} f(x) dx & \text{pro spojité NV} \end{align*}

    Charakterizuje rozdělení, kterému náhodná veličina XX podléhá.

    Pro spojité NV je to plocha pod křivkou pravděpodobnostní funkce. A taky se dá použít k vyjádření pravdepodobnosti:

    P(aXb)=F(b)F(a)P(a \leq X \leq b) = F(b) - F(a)
NázevDefinicePopisPříklad
Bernoulliho / alternativníP(x)={1px1px=1P(x) = \begin{cases} 1 - p & x \ne 1 \\ p & x = 1 \\ \end{cases}Náhodný pokus, kde jsou jen dva možné výsledky.Hod mincí.
BinomickéP(x,n,p)=(nx)px(1p)nkP(x, n, p) = \binom{n}{x} p^x (1-p)^{n-k}Sekvence nn pokusů. Popisuje pravděpodobnost, že xx bude úspěšných.Hod mincí nn krát.
PoissonovoP(k,λ)=λkeλk!P(k, \lambda) = \frac{\lambda^k e^{-\lambda}}{k!}Pokud se něco děje průměrně λ\lambda-krát za jednotku času, jaká je pravděpodobnost, že se to stane kk-krát za stejnou jednotku času? Výskyt jednoho jevu nesmí ovlivnit pravděpodobnost následujícího výskytu a také se nemohou stát dva jevy najednou.Kolik lidí přijde do obchodu za hodinu. (Za předpokladu, že je pandemie a dovnitř může jen jeden člověk.)
GeometrickéP(k,p)={p(1p)kk=0,1,...0jinakP(k, p) = \begin{cases} p (1-p)^k & k = 0, 1, ... \\ 0 & \text{jinak} \\ \end{cases}Když tě zajímá, jaká je šance, že se něco pokazí kk krát, než to konečně uspěje.Kolikrát musíš hodit mincí, než padne poprvé hlava.
(Diskrétní) rovnoměrné / uniformníP(k,p)={1AxA0jinakP(k, p) = \begin{cases} \frac{1}{\vert A \vert} & x \in A \\ 0 & \text{jinak} \\ \end{cases}Když jsou všechny jevy x z dané množiny A stejně pravděpodobnéHod d20
NázevDefinicePopisPříklad
(Spojité) rovnoměrné / uniformníf(x)={1baaxb0x<ax>bf(x) = \begin{cases} \frac{1}{b-a} & a \le x \le b \\ 0 & x < a \lor x > b \\ \end{cases}Všechny jevy v daném intervalu (a,b)(a, b) (může být otevřený nebo uzavřený) jsou stejně pravděpodobné.Bod na kružnici.
Exponenciálníf(x,λ)={λeλxx00x<0f(x, \lambda) = \begin{cases} \lambda e^{-\lambda x} & x \ge 0 \\ 0 & x < 0 \\ \end{cases}Čas mezi jevy v Poissonově procesu.Jak dlouho budeš čekat na šalinu.
Normální / Gaussovof_N(x,μ,σ2)=1σ2πe(xμ)22σ2f\_\mathcal{N}(x, \mu, \sigma^2) = \frac{1}{\sigma \sqrt{2 \pi}} e^{ -\frac {\left(x - \mu \right)^2} {2\sigma^2} }Používá se jako default, když nevíš, jakou má proměnná distribuci, kvůli centrální limitní větě. (μ\mu je mean, σ2\sigma^2 je rozptyl).Výška lidí.
Standardní normálníf(x)=f_N(x,0,1)=12πex22f(x) = f\_\mathcal{N}(x, 0, 1) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}}Je fajn, protože má standardní odchylku rovnu jedné, takže člověku stačí si pamatovat, že: _ 68 % je v intervalu (1,1)(-1, 1), _ 95 % je v intervalu (2,2)(-2, 2), * 99,7 % je v intervalu (3,3)(-3, 3).Výška lidí (ale přeškálovaná).
Cauchyf(x)=1πσ[1+(xμσ)2]f(x) = \frac{1}{ \pi \sigma \left\lbrack 1 + \left( \frac{x - \mu}{\sigma} \right)^2 \right\rbrack }Poměr dvou spojitých náhodných proměnných s normálním rozdělením. Expected value ani rozptyl na ní nejsou definované.Poměr výšky k šířce obličeje.
Gammaf(x,α,β)={βαΓ(α)xα1eβxx>00jinakf(x, \alpha, \beta) = \begin{cases} \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\beta x} & x > 0 \\ 0 & \text{jinak} \\ \end{cases}Když máš sekvenci jevů, kde čekací doba na každý má exponenciální rozdělení s rate β\beta, pak čekací doba na nn-tý jev má Gamma rozdělení s α=n\alpha = n.Jak dlouho budeš čekat na nn-tou šalinu.
χ2\chi^2 (Chi-square)f(x,n)={xn21ex22n2Γ(k2)x>00jinakf(x, n) = \begin{cases} { \Large \frac{ x^{\frac{n}{2} - 1} e^{-\frac{x}{2}} }{ 2^\frac{n}{2} \Gamma\left( \frac{k}{2} \right) } } & x > 0 \\ 0 & \text{jinak} \\ \end{cases}Používá se při testování hypotéz. Nechť Z1,Z2,...,ZnZ_1, Z_2, ..., Z_n jsou nezávislé náhodné proměnné se standardním normálním rozdělením a X=i=1nZi2X = \sum_{i=1}^n Z_i^2, pak XXχ2\chi^2 rozdělení s nn stupni volnosti.Testování, jestli je mince férová.
Studentovo ttf(x,n)=Γ(n+12)nπΓ(n2)(1+x2n)n+12f(x, n) = \frac{ \Gamma (\frac{n+1}{2}) }{ \sqrt{n \pi} \Gamma(\frac{n}{2}) } \left( 1 + \frac{x^2}{n} \right)^{-\frac{n+1}{2}}Používá se na odhadování meanu normálně distribuované populace, jejíž rozptyl neznáš (což je skoro vždycky), ale máš z ní samply.Odhadování průměru výšky lidí

Stejně jako náhodné veličiny popisují jevy, číselné charakteristiky popisují chování náhodných veličin… pomocí čísel.

  • Střední hodnota / mean / expected value
    Průměr hodnot veličiny vážený jejich pravděpodobností. Značí se X\overline{X} nebo E(X)E(X).

    octicon-noteNote

    Taky někdy označovaný jako obecný moment prvního řádu / první obecný moment. 2

  • α\alpha-kvantil QαQ_\alpha
    Dělí statický soubor na stejně velké části.

  • Medián
    Prostřední prvek uspořádaného statistického souboru. Kvantil Q0.5Q_{0.5}.

    x~={xn+12pro licheˊ n12(xn2+xn2+1)pro sudeˊ n\tilde{x} = \begin{cases} x_{\frac{n+1}{2}} & \text{pro liché }n\\ \frac{1}{2} (x_\frac{n}{2} + x_{\frac{n}{2} + 1}) & \text{pro sudé }n \end{cases}
  • Percentil
    Výběrový kvantil (pp-tý kvantil, kde 0<p<10 < p < 1) QpQ_p.

  • Modus
    Hodnota s největší četností.

Jak moc se od sebe prvky liší (nezávisle na konstantním posunutí)?

  • Rozpyl / variance
    Vyjadřuje, jak moc se NV odchyluje od své střední hodnoty. Značí se σ2\sigma^2, var(X)\text{var}(X) nebo D(X)D(X).

    var(X)=E((xiE(X))2)\text{var}(X) = E\left((x_i - E(X))^2\right)

    octicon-noteNote

    Taky někdy označovaný jako centrální moment druhého řádu / druhý centrální moment. 2

  • Směrodatná odchylka / standard deviation
    Míra variability NV. Značí se σ\sigma nebo SD(X)\text{SD}(X). Je definovaná jako σ2\sqrt{\sigma^2}.

  • ovariance veličin XX a YY
    Měří určitou podobnost mezi XX a YY.

    cov(X,Y)=E((XE(X))(YE(Y)))\text{cov}(X, Y) = E((X - E(X)) \cdot (Y - E(Y)))

    Ze vzorce výše plyne

    cov(X,X)=var(X)cov(X,Y)=cov(Y,X)cov(X,Y)=E(XY)E(X)E(Y)\begin{aligned} \text{cov}(X, X) &= \text{var}(X) \\ \text{cov}(X, Y) &= \text{cov}(Y, X) \\ \text{cov}(X, Y) &= E(X \cdot Y) - E(X) \cdot E(Y) \end{aligned}
  • Korelace
    Míra podobnosti ρX,Y\rho_{X, Y} náhodných veličin XX a YY. Pokud X=XX = X, pak ρX,X=1\rho_{X, X} = 1. Pokud jsou XX a YY nezávislé, pak ρX,Y=0\rho_{X, Y} = 0.

    ρX,Y=cov(X,Y)var(X)var(Y)=E((XE(X))(YE(Y)))var(X)var(Y)\rho_{X, Y} = \frac{\text{cov}(X, Y)}{\sqrt{\text{var}(X)} \cdot \sqrt{\text{var}(Y)}} = \frac{E((X - E(X)) \cdot (Y - E(Y)))}{\sqrt{\text{var}(X)} \cdot \sqrt{\text{var}(Y)}}
  • Koeficient šikmosti / skewness
    Vztah polohy meanu vůči mediánu. Vyjadřuje symetrii dat.
  • Koeficient špičatosti / kurtosis
    Jak vysoký je peak? Jak moc je to rozpláclé.

Centrální limitní věta (CLV) / Central limit theorem (CLT)

Section titled “Centrální limitní věta (CLV) / Central limit theorem (CLT)”

S rostoucím počtem sample výsledků XiX_i se jejich distribuce blíží normálnímu rozdělení bez ohledu na jejich původní rozdělení.

Popisuje chování výběrového průměru pro velké soubory vzorků a umožňuje tak sestrojení intervalových odhadů.

  • Moivreova-Laplacova věta

    Mějme NV XX. Pokud je XX součtem nn vzájemně nezávislých NV X1,X2,...,XnX_1, X_2, ..., X_n s Bernoulliho rozdělením s parametrem π\pi, má XX binomické rozdělení s parametry nn a π\pi, pak s nn \to \infty:

    Xnπnπ(1π)N(0,1)\frac{X - n \pi}{\sqrt{n \pi (1 - \pi)}} \approx N(0, 1)
  • Lévyho-Lindenbergova věta

    octicon-tipTip

    Zobecnění Moivreovy-Laplacovy věty.

    Mějme NV XX. Pokud je XX součtem nn vzájemně nezávislých NV X1,X2,...,XnX_1, X_2, ..., X_n se shodným rozdělením libovolného typu, s konečnou střední hodnotou E(Xi)=μE(X_i) = \mu a konečným rozptylem D(Xi)=σ2D(X_i) = \sigma^2, pak pro normovanou NV UU asymptoticky s nn \to \infty platí:

    X=1ni=1nXiN(μ,σ2n)nXμσ2N(0,1)i=1nXinμnσ2N(0,1)\begin{aligned} \overline{X} = \frac{1}{n} \sum_{i=1}^n X_i &\approx N \left( \mu, \frac{\sigma^2}{n} \right) \\ \sqrt{n} \frac{\overline{X} - \mu}{\sqrt{\sigma^2}} &\approx N(0, 1) \\ \frac{\sum_{i=1}^n X_i - n \mu}{\sqrt{n \sigma^2}} &\approx N(0, 1) \end{aligned}

    Výpočet s CLV

    Nechť XX je náhodná proměnná popisují jak padá 6, když hodíme kostkou 100krát. Tedy:

    XBinomial(100,16)X \approx \text{Binomial} \left( 100, \frac{1}{6} \right)

    Podle CLV má XX asymptoticky XN(1006,50036)X \approx N(\frac{100}{6},\frac{500}{36}).

    Pak například pravděpodobnost, že šestka padne méně než 16krát je:

    P(X<16)P(X16)=0.429P(X<16)=P(X15)F(X15)=0.327\begin{aligned} P(X < 16) &\doteq P(X \leq 16) = 0.429 \\ P(X < 16) = P(X \leq 15) &\doteq F(X \leq 15) = 0.327 \\ \end{aligned}

    S continuity correction (opravou v důsledku změny z diskrétní na spojitou NV) je to:

    P(X<16)=P(X15.5)F(15.5)=0.377P(X < 16) = P(X \leq 15.5) \doteq F(15.5) = 0.377
  • Odhad parametru / parameter estimation
    Když se snažíš vymyslet, jaké asi hodnoty mají parametery té které distribuce mít, aby co nejlíp pasovala na tvoje samply.

    Cílem odhadu je určit parametry rozdělení NV XX na základě informace z výběrového souboru (realizaci NV, datasetu). Chceme hodnotu a přesnost odhadu.

  • Metoda odhadu / estimator
    Popisuje, jak odhad získat.

  • Nestranný odhad / unbiased estimator
    Metoda odhadu parametru θ\theta taková, že střední hodnota odhadu je rovna θ\theta. Nestrannost je celkem rozumné omezení, protože nechceme, aby byl odhad odchýlený.

  • Nejlepší nestranný odhad / best unbiased estimator
    Nestranný odhad, který má nejmenší rozptyl ze všech nestranných odhadů.

  • Konzistentní odhad / consistent estimator
    Metoda odhadu parametru θ\theta taková, že s počtem vzorků nn konverguje k θ\theta pro nn \to \infty. 3

  • (Výběrová) statistika / (sample) statistic
    Náhodná veličina dána funkcí, která bere výběrový soubor a vrací číslo. Máme například:

    • Výběrový průměr / sample mean,
    • Výběrový rozptyl / sample variance,
    • Výběrovou směrodatnou odchylku / sample standard deviation,
    • Výběrovou (empirickou) distribuční funkci / sample distribution function.

    Náhodná veličina TnT_n, která vznikne aplikací funkce TT na náhodný výběr o velikosti nn X=(X1,X2,,Xn)\mathbf{X} = (X_1, X_2, \ldots, X_n) se nazývá statistika.

    Tn=T(X1,X2,,Xn)T_n = T(X_1, X_2, \ldots, X_n)

    octicon-tipTip

    Estimator je funkce počítající statistiku použitá k odhadu parametru. 4

  • Bodový odhad / point estimate / pointwise estimate
    Odhad parametru daný jednou hodnotou, která hodnotu parametru aproximuje.

  • Intervalový odhad / interval estimate
    Odhad parametru daný pomocí intervalu hodnot, který hodnotu parametru s velkou pravděpodobností obsahuje. Délka intervalu vypovídá o přesnosti odhadu.

  • Interval spolehlivosti / confidence interval
    Interval spolehlivosti parametru θ\theta s hladinou spolehlivosti 1α1 - \alpha, kde α[0,1]\alpha \in \lbrack 0, 1 \rbrack je dvojice statistik [θL,θU]\lbrack \theta_L, \theta_U \rbrack taková, že:

    P(θL<θ<θU)=1αP(\theta_L < \theta < \theta_U) = 1 - \alpha

    kde θL\theta_L je dolní mez intervalu a θU\theta_U je horní mez intervalu.

  • Hladina významnosti a spolehlivosti / significance and confidence level

    • Hladina významnosti α\alpha je pravděpodobnost, že parametr nespadá do intervalového odhadu.
    • Hladina spolehlivosti 1α1 - \alpha je pravděpodobnost, že parametr spadá do intervalového odhadu.
  • Levostranný, pravostranný a oboustranný interval / left-tailed, right-tailed and two-tailed interval

    • Levostranný (dolní): P(θθL)=1αP(\theta \le \theta_L) = 1 - \alpha.
    • Pravostranný (horní): P(θθU)=1αP(\theta \ge \theta_U) = 1 - \alpha.
    • Oboustranný: P(θθL)=P(θθU)=α2P(\theta \le \theta_L) = P(\theta \ge \theta_U) = \frac{\alpha}{2}.

Tvorba intervalového odhadu

Máme vzorek velikosti nn s výběrovým průměrem X\overline{X} a výběrovým rozptylem S2S^2. Odhadněte střední hodnotu μ\mu s hladinou spolehlivosti 0.95, pokud víte, že XN(μ,σ2)X \approx N(\mu, \sigma^2), kde rozptyl σ2\sigma^2 je neznámý.

  1. Zvolíme vhodnou výběrovou statistiku T(X)T(X) jejíž rozdělení závislé na μ\mu známe. V tomhle případě Studentův t-test:

    T(X)=XμS/ntn1T(X) = \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t_{n - 1}

    Tedy víme, že T(X)t(n1)T(X) \sim t(n-1)

  2. Určíme kvantily tα2=t0.025t_\frac{\alpha}{2} = t_{0.025} a t1α2=t0.975t_{1 - \frac{\alpha}{2}} = t_{0.975} z T(X)T(X):

    P(t0.025(n1)<T(X)<t0.975(n1))=1α=0.95t0.025(n1)=t0.975(n1)P(t0.025(n1)<T(X)<t0.025(n1))=0.95P(Xt0.025(n1)Sn<μ<X+t0.025(n1)Sn)=0.95\begin{aligned} P(t_{0.025}(n - 1) < T(X) < t_{0.975}(n-1)) &= 1 - \alpha = 0.95 \\ t_{0.025}(n - 1) &= -t_{0.975}(n - 1) \\ P(t_{0.025}(n - 1) < T(X) < -t_{0.025}(n-1)) &= 0.95 \\ P(\overline{X} - t_{0.025}(n - 1) \frac{S}{\sqrt{n}} < \textcolor{red}{\mu} < \overline{X} + t_{0.025}(n - 1) \frac{S}{\sqrt{n}}) &= 0.95 \end{aligned}
  3. Vyčíslíme interval z poslední rovnice.

  • Věrohodnost / likelihood

    Říká, jak dobře náš model (rozdělení pravděpodobnosti náhodné veličiny dané parametry) sedí na naměřená data.

    octicon-noteNote

    Pravděpodobnost je funkce jevů. Likelihood je funkce parametrů modelu.

    octicon-noteNote

    Likelihood nemusí nutně vracet čísla z intervalu [0,1]\lbrack 0, 1 \rbrack.

  • Maximum likelihood estimation (MLE)
    Metoda odhadu parametru založená na maximalizaci likelihoodu, že model sedí na naměřená data. 5

  • Method of moments (MOM)
    Metoda odhadu parametru založená na rovnosti teoretického a výběrového momentu. 6

  • Hypotéza
    Nějaký předpoklad o datech, který chceme ověřit. Často je formulovaná pomocí parametrů modelu. Např. “střední hodnota je 5.”

  • Testování hypotézy
    Cílem testování hypotéz je ověřit, že data nepopírají nějakou hypotézu.

    • Null hypothesis H0H_0: “výchozí nastavení”; často tvrdí, že nějaká vlastnost neexistuje.
    • Alternative hypothesis H1H_1: “to co, chceme dokázat”; opak H0H_0.

    Alternativní hypotézu potvrzujeme tak, že vyvracíme nulovou hypotézu. Pokud se nám nepodaří vyvrátit H0H_0, pak o H1H_1 nevíme nic. 7

    Na testování použijeme statistiku Tn=T(X)T_n = T(\mathbf{X}), kterou nazýváme testovací statistikou. Množinu hodnot, které může testovací statistika nabýt, rozdělíme na dvě disjunktní oblasti. Jednu označíme WαW_\alpha, a nazveme ji kritickou oblastí (nebo také oblastí zamítnutí hypotézy (region of rejection, critical region)) a druhá je doplňkovou oblastí (oblast nezamítnutí testované hypotézy).

    Na základě realizace náhodného výběru x=(x1,...,xn)\mathbf{x} = (x_1, ..., x_n)' vypočítáme hodnotu testovací statistiky tn=T(x)t_n = T(\mathbf{x}).

    • Pokud hodnota testovací statistiky tnt_n nabude hodnoty z kritické oblasti, t.j. tn=T(x)Wαt_n = T(\mathbf{x}) \in W_\alpha, pak nulovou hypotézu zamítáme.
    • Pokud hodnota testovací statistiky tnt_n nabude hodnoty z oblasti nezamítnutí, t.j. tn=T(x)∉Wαt_n = T(\mathbf{x}) \not\in W_\alpha, pak nulovou hypotézu nezamítáme.

    — MV013

Metafora se soudem

Platí presumpce nevinny. Předpokládáme, že člověk zločin nespáchal, dokud tuhle hypotézu nevyvrátíme.

  • H0H_0: “Obžalovaný neukradl papamobil.”

  • H1H_1: “Obžalovaný ukradl papamobil.”

  • Chyby v testování hypotéz

    • Typ I: zamítnutí H0H_0, i když je pravdivá — false positive.

    • Typ II: nezamítnutí H0H_0, i když je nepravdivá — false negative.

      octicon-noteNote

      Positive = zamítnutí H0H_0, tedy potvrzení H1H_1.
      Negative = nezamítnutí H0H_0, tedy o H1H_1 nevíme nic.

  • pp-hodnota (hladina významnosti)
    Nejmenší hladina významnosti α\alpha, při které ještě zamítáme H0H_0. 8

    Pravděpodobnost, že došlo k chybě typu I — zavrhnuli jsme H0H_0, ačkoli platí.

    p=P(type I error)=P(we reject H0    H0)p = P(\text{type I error}) = P(\text{we reject } H_0 \;|\; H_0)

    octicon-tipTip

    Pokud pp-value vyjde menší než požadovaná hladina významnosti α\alpha, pak pravděpodobnost, že došlo k chybě typu I je dostatečně malá na to, abychom mohli tvrdit, že zavrhujeme H0H_0, protože H0H_0 neplatí, a tedy akceptujeme H1H_1.

Parametrické testy jsou založené na parametrech pravděpodobnostních rozdělení.

  • Studentův T-test
    Umožňuje ověřit zda normální rozdělení má danou střední hodnotu. Taky umožňuje ověřit zda dvě normální rozdělení mají stejnou střední hodnotu, za předpokladu, že mají stejný (byť neznámý) rozptyl. 9
  • Analysis of variance (ANOVA)
    Testuje rozdíly mezi středními hodnotami dvou a více skupin. Používá se k ověření, zda rozptyly dvou nebo více množin dat jsou stejné až na konstantní posun a škálování. 10

Neparametrické testy nejsou založené (jen) na parametrech pravděpodobnostních rozdělení. Používají se, když neznáme rozdělení dat, nebo je těžké splnit předpoklady parametrických testů.

  • Sign test
    Testuje, zda se dvě náhodné veličiny při pozorování liší konzistentně. Jinými slovy, zda stření hodnota jejich rozdílu má nulový medián.
  • One-sample Wilcoxon signed-rank test
    Testuje, zda vzorky patří do symetrického rozdělení s daným mediánem.
  • Pearsonův chi-squared (χ2\chi^2) test
    Umožňuje ověřit, že dvě kategorické NV jsou nezávislé. 11

Testy (ne)závislosti náhodných veličin

Section titled “Testy (ne)závislosti náhodných veličin”

Opakování

  • Statistická / stochastická nezávislost
    Náhodné jevy AA a BB jsou stochasticky nezávislé, pokud P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B).

    Výskyt AA nemá vliv na výskyt BB.

    • “Při při prvním hodu padne 6” a “při druhém hodu padne 6” jsou nezávislé jevy.
    • Naproti tomu jev, že padne 6 při prvním hodu kostkou a jev, že součet čísel zaznamenaných v prvním a druhém pokusu je 8, jsou závislé jevy. 12
  • Nezávislost diskrétních NV

    Pokud XX, YY a ZZ jsou diskrétní náhodné veličiny, pak definujeme XX a YY jako podmíněně nezávislé vzhledem k ZZ, pokud:

    P(Xx,YyZ=z)=P(XxZ=z)P(YyZ=z)P(X \le x, Y \le y | Z = z) = P(X \le x | Z = z) \cdot P(Y \le y | Z = z)

    pro všechny xx, yy a zz takové, že P(Z=z)>0P(Z = z) > 0.

  • Nezávislost spojitých NV

    Pokud XX, YY a ZZ jsou spojité náhodné veličiny a mají společnou hustotu pravděpodobnosti fXYZ(x,y,z)f_{XYZ}(x,y,z), pak definujeme XX a YY jako podmíněně nezávislé vzhledem k ZZ, pokud:

    fX,YZ(x,yz)=fXZ(xz)fYZ(yz)f_{X,Y|Z}(x,y|z) = f_{X|Z}(x|z) \cdot f_{Y|Z}(y|z)

    pro všechna xx, yy a zz takové, že fZ(z)>0f_Z(z) > 0.

To neformálně řečeno znamená, že jakmile máme k dispozici informaci obsaženou v Z, není už další informace A užitečná pro přesnější poznání B ani znalost B nepřidá nic pro pochopení A, i kdyby A a B byly vzájemně závislé.

— Wikipedia: Statistická nezávislost

  • Regrese
    Analýza vztahu mezi dvěma závislými NV.

  • Lineární regrese
    Regrese s předpokladem, že vztah dvě NV jsou závislé lineárně. Rovnici regresní přímky zapisujeme jako:

    Yi=β0+β1Xi+εiY_i = \beta_0 + \beta_1 \cdot X_i + \varepsilon_i

    Kde:

    • YY je NV závislá na XX,
    • β0\beta_0 je konstanta,
    • β1\beta_1 je směrnice (slope),
    • εi\varepsilon_i je ii-tá pozorovaná hodnota chyby — náhodná složka / šum.

    Platí:

    • E(εi)=0E(\varepsilon_i) = 0,
    • D(εi)=σ2D(\varepsilon_i) = \sigma^2,
    • cov(εi,εj)=0\text{cov}(\varepsilon_i, \varepsilon_j) = 0 pro iji \neq j,
    • εiN(0,σ2)\varepsilon_i \sim N(0, \sigma^2) — náhodná složka má normální rozdělení,
    • regresní parametry β0\beta_0 a β1\beta_1 mohou mít libovolnou hodnotu.
  • Celkový F-test
    Pracuje s nulovou hypotézou ve tvaru:

    H0:β1=β2==βk=0H_0: \beta_1 = \beta_2 = \ldots = \beta_k = 0

    Tedy testujeme, zda hodnota analyzované NV závisí na lineární kombinaci vysvětlujících NV. Pokud je H0H_0 zamítnuta, pak alespoň jedna závislost existuje. Pokud je H0H_0 nezamítnuta, pak je množina vysvětlujících NV úplně blbě.

    Testová statistika má F-rozdělení.

  • Dílčí t-testy
    Umožňují otestovat, že dává smysl použít ii-tou vysvětlující NV. Testujeme nulovou hypotézu:

    H0:βi=0H_0: \beta_i = 0

    Pokud nelze zamítnout, pak ii-tá vysvětlující NV nemá vliv na analyzovanou NV a můžeme ji vynechat.

    Testová statistika má Studentovo t-rozdělení.

  1. Wikipedia: Statistics

  2. Momenty rozdělení 2

  3. Wikipedia: Consistent estimator

  4. Wikipedia: Statistic

  5. Wikipedia: Maximum likelihood estimation

  6. Wikipedia: Method of moments

  7. Wikipedia: Null hypothesis

  8. Wikipedia: P-hodnota

  9. Wikipedia: T-test

  10. Wikipedia: Analysis of variance

  11. Chi-square tests

  12. Wikipedia: Statistická nezávislost