291
Statistic˘ a Aplicat˘ a Iulian Stoleriu

Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

Statistica Aplicata

Iulian Stoleriu

Page 2: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

Copyright © 2019 Iulian Stoleriu

Page 3: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

Cuprins

1 Notiuni recapitulative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.1 Populatie statistica 91.2 Variabile aleatoare 111.3 Functia de repartitie (sau functia de repartitie cumulata) 131.4 Parametrii populatiei 131.5 Statistici 181.5.1 Exemple de statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.6 Legi limita în Teoria Probabilitatilor 211.6.1 Legea tare a numerelor mari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.6.2 Teorema limita centrala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2 Generarea de date statistice folosind MATLAB . . . . . . . . . 25

2.1 Generarea de numere aleatoare în MATLAB 252.1.1 Functia rand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.1.2 Functia randn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.1.3 Generarea de numere aleatoare de o repartitie cunoscuta . . . . . . . . . 27

2.2 Simularea unui experiment aleator 292.2.1 Simularea aruncarii unei monede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2.2 Simularea în MATLAB a unei variabile aleatoare de tip discret . . . . . . . . 29

2.3 Repartitii probabilistice în MATLAB 312.4 Exercitii rezolvate 322.5 Exercitii propuse 36

Page 4: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3 Elemente de Statistica descriptiva . . . . . . . . . . . . . . . . . . . . . . 39

3.1 Organizarea si descrierea datelor 393.1.1 Gruparea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.2 Reprezentarea datelor statistice 433.2.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.2.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . 473.2.6 Poligonul frecventelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.2.7 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.2.8 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.2.9 Diagrama scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.3 Masuri descriptive ale datelor negrupate 493.4 Masuri descriptive ale datelor grupate 533.5 Transformari de date 543.5.1 Functii MATLAB specifice pentru masurile descriptive. . . . . . . . . . . . . . . . 56

3.6 Exercitii rezolvate 573.7 Exercitii propuse 60

4 Notiuni de Teoria selectiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.1 Consideratii generale 634.2 Statistici de selectie si distributiile lor 654.3 Statistici de ordine 684.4 Selectii aleatoare pentru caracteristici normale 704.5 Exercitii rezolvate 754.6 Exercitii propuse 80

5 Estimatori. Intervale de incredere . . . . . . . . . . . . . . . . . . . . . . . 83

5.1 Definitii 835.2 Metode folosite pentru estimarea parametrilor 865.2.1 Metoda verosimilitatii maxime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.2.2 Metoda momentelor (K. Pearson) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.3 Estimarea parametrilor prin intervale de încredere 895.3.1 Interval de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 915.3.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 925.3.3 Interval de încredere pentru proportie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935.3.4 Interval de încredere pentru diferenta mediilor . . . . . . . . . . . . . . . . . . . . . 955.3.5 Interval de încredere pentru raportul dispersiilor . . . . . . . . . . . . . . . . . . . . 965.3.6 Interval de încredere pentru diferenta proportiilor . . . . . . . . . . . . . . . . . . 96

Page 5: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.4 Tabel cu intervale de încredere 97

5.5 Estimatii prin MATLAB 98

5.6 Exercitii rezolvate 99

5.7 Exercitii propuse 107

6 Testarea ipotezelor statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

6.1 Punerea problemei 111

6.2 Tipuri de teste statistice 1136.2.1 Etapele unei testari parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

6.3 Teste parametrice 1156.3.1 Testul t pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1156.3.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1166.3.3 Test pentru proportie într-o populatie binomiala . . . . . . . . . . . . . . . . . . . 117

6.4 Teste parametrice pentru doua populatii 1176.4.1 Testul t pentru diferenta mediilor a doua selectii . . . . . . . . . . . . . . . . . . 1176.4.2 Testul F pentru raportul a doua dispersii . . . . . . . . . . . . . . . . . . . . . . . . . 1186.4.3 Testul pentru egalitatea a doua proportii . . . . . . . . . . . . . . . . . . . . . . . . . 119

6.5 Teste parametrice în MATLAB 1206.5.1 Testul t pentru o selectie în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1206.5.2 Testul t pentru doua selectii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1216.5.3 Test pentru dispersie în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1216.5.4 Testul F în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

6.6 Exercitii rezolvate 123

6.7 Exercitii propuse 127

7 Teste de concordanta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

7.1 Testul χ2 de concordanta 1297.1.1 Cazul neparametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1307.1.2 Cazul parametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

7.2 Testul de concordanta Kolmogorov-Smirnov 1327.2.1 Testul K-S pentru o selectie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1327.2.2 Testul K-S pentru doua selectii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

7.3 Teste de concordanta în MATLAB 134

7.4 Testarea tipului de date experimentale 135

7.5 Test de independenta folosind tabele de contingenta 1377.5.1 Testul exact al lui Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

7.6 Exercitii rezolvate 143

7.7 Exercitii propuse 151

Page 6: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8 Teste neparametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

8.1 Testul semnelor 1588.1.1 Testul semnelor pentru date perechi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

8.2 Testul seriilor pentru caracterul aleator 1618.3 Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample runs test) 1638.4 Testul Wilcoxon bazat pe ranguri cu semn (Signed-Rank Test) 1658.5 Testul t pentru date perechi 1668.6 Testul Wilcoxon pentru date perechi 1678.7 Testul Wilcoxon bazat pe suma rangurilor (Wilcoxon rank-sum test) 1678.8 Teste neparametrice în MATLAB 1698.8.1 Testul semnelor în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1698.8.2 Testul seriilor în MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1708.8.3 Testele Wilcoxon in MATLAB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

8.9 Exercitii rezolvate 1728.10 Exercitii propuse 175

9 Teste de reesantionare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

9.1 Teste de permutari 1789.2 Bootstrapping 1809.3 Metoda Monte Carlo 1829.4 Exercitii rezolvate 1899.5 Exercitii propuse 193

10 Corelatie si regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

10.1 Introducere 19510.2 Corelatie si coeficient de corelatie 19610.2.1 Test statistic pentru coeficientul de corelatie . . . . . . . . . . . . . . . . . . . . . . 198

10.3 Coeficientul de corelatie Spearman 20010.4 Coeficientul de corelatie Kendall 20110.5 Functii MATLAB specifice corelatiei 20210.6 Exercitii rezolvate 20210.7 Exercitii propuse 204

11 Regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

11.1 Punerea problemei 20711.2 Regresie liniara simpla 20911.2.1 Intervale de încredere pentru parametrii de regresie . . . . . . . . . . . . . . . 21311.2.2 Test statistic pentru β1 (panta dreptei de regresie) . . . . . . . . . . . . . . . . . 21411.2.3 Test statistic pentru β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

Page 7: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7

11.3 Predictie prin regresie 21511.4 Validitatea modelului de regresie liniara simpla 21711.5 Regresie liniara multipla 21911.5.1 Test statistic pentru semnificatia coeficientilor de regresie multipla, βi . 220

11.6 Validitatea modelului de regresie liniara multipla 22011.7 Alte tipuri de regresie 22211.8 Regresie logistica 22211.9 Functii MATLAB specifice regresiei 22611.10 Exercitii rezolvate 22811.11 Exercitii propuse 241

12 ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

12.1 One-way ANOVA 24612.2 Two-way ANOVA 25012.3 Exercitii rezolvate 25612.3.1 Exemplu numeric pentru one-way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 25612.3.2 Exemplu numeric pentru two-way ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . 259

12.4 Probleme propuse 261

13 Anexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

13.1 Scurta introducere în MATLAB 26313.2 Repartitii probabilistice uzuale 26913.2.1 Repartitii discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26913.2.2 Repartitii continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271

13.3 Tabele de valori critice 276

Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289

Page 8: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8

Page 9: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

1. Notiuni recapitulative

. Statistics is the art of never having to say that you are wrong

1.1 Populatie statisticaO populatie (colectivitate) statistica este o multime de elemente ce poseda o trasaturacomuna ce urmeaza a fi studiata. Aceasta poate fi finita sau infinita, reala sau imaginara. Inacest material vom nota populatia statistica cu Ω. Din punct de vedere matematic, Ω esteo multime nevida. Elementele ce constituie o colectivitate statistica se vor numi unitatistatistice sau indivizi. Vom nota cu ω o unitate statistica. Daca populatia este finita, atuncinumarul N al unitatilor statistice ce o compun (i.e., |Ω|) îl vom numi volumul colectivitatii(sau volumul populatiei).Caracteristica (variabila) unei populatii statistice este o anumita proprietate urmarita laindivizii ei în procesul prelucrarii statistice si care constituie obiectul masurarii. Spreexemplu, inaltimea barbatilor dintr-o anumita tara, rata infiltrarii apei in solul urban, mediala Bacalaureat, altitudinea, culoarea frunzelor, nationalitatea participantilor la un congresinternational etc. Din punct de vedere matematic, caracteristica este reprezentata printr-ovariabila aleatoare definita pe Ω. Spre exemplu, daca populatia statistica este multimeatuturor studentilor dintr-o universitate înrolati în anul întâi de master, atunci o caracteristicaa sa ar fi media la licenta obtinuta de fiecare dintre acesti studenti. Teoretic, multimeavalorilor acestei caracteristici este intervalul [6, 10], iar aceasta variabila poate lua oricevaloare din acest interval. Caracteristicile pot fi: cantitative (sau masurabile sau numerice)(e.g., 2, 3, 5.75, 1/3, . . . ) sau calitative (categoriale sau atribute) (e.g., albastru, foartebine, german etc). La rândul lor, variabilele cantitative pot fi discrete (numarul de sosiriale unui tramvai în statie) sau continue (timpul de asteptare între doua sosiri ale tramvaiuluiîn statie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii fiind

Page 10: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

10 Capitolul 1. Notiuni recapitulative

astfel caracteristici numerice ale colectivitatii.Vom numi date (sau date statistice) informatiile obtinute în urma observatiei valorilor uneicaracteristici a unei populatii statistice. In cazul mentionat mai sus, datele sunt mediilela licenta observate. În general, datele pot fi calitative (se mai numesc si categoriale)sau cantitative, dupa cum caracteristica (sau variabila) observata este calitativa (exprimao calitate sau o categorie) sau, respectiv, cantitativa (are o valoare numerica). Totodata,aceste date pot fi date de tip discret, daca sunt obtinute în urma observarii unei caracteristicidiscrete (o variabila aleatoare discreta, sau o variabila ale carei posibile valori sunt innumar finit sau cel mult numarabil), sau date continue, daca aceasta caracteristica estecontinua (o variabila aleatoare de tip continuu, sau o variabila ce poate lua orice valoaredintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vorfi cantitative si continue. Datele calitative mai pot fi nominale sau ordinale. Variabilelenominale au nivele distincte, fara a avea o anumita ordine. De exemplu, culoarea parului,sau genul unei persoane. Pe de alta parte, valorile ordinale fac referinta la ordinea lor.De exemplu: schimbarea starii unui pacient dupa un anumit tratamen (aceasta poate fi:imbunatatire semnificativa, imbunatatire moderata, nicio schimbare, inrautatire moderata,inrautatire semnificativa).În Statistica, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X , Y, Z, . . .,iar valorile lor cu litere mici, x, y, z, . . ..In general, volumul colectivitatii poate fi foarte mare sau chiar infinit, astfel ca efectuareaunui recensamant (i.e., observarea caracteristicii de interes pentru toate elementele cecompun colectivitatea) este fie foarte costisitoare sau imposibila. Pentru a efectua o analizaa caracteristicii de interes sau chiar a repartitiei datelor observate, este suficienta analizaunei selectii de volum suficient de mare formata din observatii ale caracteristicii, urmandca aceasta analiza sa fie extrapolata (folosind metode statistice specifice) pentru intreagapopulatie.O selectie (sau esantion) este o colectivitate partiala de elemente extrase (la întâmplaresau nu) din colectivitatea generala, în scopul cercetarii lor din punctul de vedere al uneicaracteristici. Daca extragerea se face la întâmplare, atunci spunem ca am facut o selectieîntâmplatoare. Numarul indivizilor din selectia aleasa se va numi volumul selectiei. Dacase face o enumerare sau o listare a fiecarui element component al unei a populatii statistice,atunci spunem ca am facut un recensamânt. Selectia ar trebui sa fie reprezentativa pentrupopulatia din care face parte. Numim o selectie repetata (sau cu repetitie) o selectie înurma careia individul ales a fost reintrodus din nou în colectivitate. Altfel, avem o selectienerepetata. Selectia nerepetata nu prezinta interes daca volumul colectivitatii este finit,deoarece în acest caz probabilitatea ca un alt individ sa fie ales într-o extragere nu esteaceeasi pentru toti indivizii colectivitatii. Pe de alta parte, daca volumul întregii populatiistatistice este mult mai mare decât cel al esantionului extras, atunci putem presupune caselectia efectuata este repetata, chiar daca în mod practic ea este nerepetata.Selectiile aleatoare se pot realiza prin diverse metode, în functie de urmatorii factori: dis-ponibilitatea informatiilor necesare, costul operatiunii, nivelul de precizie al informatiiloretc. Câteva metode de selectie: selectie simpla, selectie sistematica, selectie stratificata,selectie ciorchine, selectia de tip experienta, selectie de convenienta, selectie de cota etc.Parametrii sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avemacces la intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a fiexplicate sau estimate pe baza datelor. Spre exemplu, pentru variabilele cantitative ale

Page 11: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

1.2 Variabile aleatoare 11

populatiei, putem avea: parametri care sa descrie tendinta centrala a populatiei (e.g., media,mediana, momente), parametri care sa descrie dispersia datelor (e.g., dispersia, deviatiastandard, coeficient de variatie), parametri de pozitie (e.g., cuantile), parametri ce descriuforma (e.g., skewness, kurtosis). Pentru date bidimensionale, datele pot fi descrise deparametrii ce descriu legatura intre variabile: corelatia sau coeficientul de corelatie. Pentrudate calitative (categoriale), cei mai des utilizati parametri sunt: π− proportia din populatiece are caracteristica de interes (e.g., numarul de fumatori din tara), cote (sanse teoreticapentru observarea caracteristicii de interes la intreaga populatie) (e.g., exista 70% sanse saploua maine).Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametriinecunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori se numescstatistici. Prin intermediul statisticilor putem trage concluzii despre populatia Ω, din carea provenit esantionul observat. Teoria probabilitatilor ne ofera procedee de determinarea repartitiei asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte.Repartitia exacta este acea repartitie ce poate fi determinata pentru orice volum al selectiei.În general, daca se lucreaza cu selectii de volum redus (n < 30), atunci repartitia exacta artrebui sa fie cunoscuta a priori, daca se doreste luarea de decizii prin inferenta. Repartitiaasimptotica este repartitia limita a statisticii când n→ ∞, iar utilizarea acesteia conduce larezultate bune doar pentru n≥ 30.In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatiidin acestea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte:sa descrie cat mai fidel si sugestiv acele date (prin grafice sau indicatori statistici), saestimeze anumiti parametri de interes (e.g., media teoretica, deviatia standard, asimetriaale caracteristicii), sa verifice prin inferenta ipotezele ce se pot face referitoare la anumitiparametri ai caracteristicii sau chiar la forma acesteia.

1.2 Variabile aleatoareÎn general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale,precizând regula de asociere. O astfel de regula de asociere se numeste variabila aleatoare(prescurtat, v.a.). Se numeste ”variabila” deoarece poate lua valori diferite, se numeste”aleatoare” deoarece valorile observate depind de rezultatele experimentului aleator, sieste "reala" deoarece valoarea numerica este un numar real. Asadar, din punct de vedereeuristic, o variabila aleatoare este o cantitate ce poate avea orice valoare dintr-o multimedata, fiecarei valori atribuindu-se o anumita pondere (frecventa relativa). În viata de zicu zi întâlnim numeroase astfel de functii, e.g., numerele ce apar la extragerea loto, re-zultatul masurarii fertilitatii solului in diverse locatii, numarul clientilor deserviti la unanumit ghiseu într-o anumita perioada, timpul de asteptare a unei persoane într-o statiede autobuz pâna la sosirea acestuia, calificativele obtinute de elevii de clasa a IV-a la untest de matematica etc. De regula, variabilele aleatoare sunt notate cu litere de la sfârsitulalfabetului, X , Y, Z sau ξ ,η , ζ etc.

Exemplu 1.1 Un exemplu simplu de variabila aleatoare este urmatorul. Consideramexperimentul aleator al aruncarii unei monede. Acest experiment poate avea doar douarezultate posibile, notate S (stema) si B (banul). Asadar, spatiul selectiilor este Ω = S, B.Acestui experiment aleator îi putem atasa variabila aleatoare reala X , care asociaza fetei S

Page 12: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12 Capitolul 1. Notiuni recapitulative

valoarea 1 si fetei B valoarea 0. Matematic, scriem astfel: X : Ω→R, X(S) = 1, X(B) = 0.Astfel, valorile 1 si 0 pentru X vor indica fata aparuta la aruncarea monedei. O astfel devariabila aleatoare se numeste variabila aleatoare Bernoulli si poate fi atasata oricaruieveniment aleator ce are doar doua rezultate posibile, numite generic succes si esec.Variabilele aleatoare (prescurtat v.a.) pot fi discrete sau continue. Variabilele aleatoarediscrete sunt cele care pot lua o multime finita sau cel mult numarabila (adica, o multimecare poate fi numarata) de valori. O variabila aleatoare se numeste variabila aleatoarecontinua (sau de tip continuu) daca multimea tuturor valorilor sale este totalitatea numerelordintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune disjuncta de astfelde intervale, cu precizarea ca pentru orice posibila valoare c, P(X = c) = 0.Exemple de v.a. discrete: numarul fetei aparute la aruncarea unui zar, numarul de aparitiiale unui tramvai într-o statie într-un anumit interval, numarul de insuccese aparute pâna laprimul succes etc. Din clasa v.a. de tip continuu amintim: timpul de asteptare la un ghiseupâna la servire, pretul unui activ financiar într-o perioada bine determinata.Pentru a specifica o v.a. discreta, va trebui sa enumeram toate valorile posibile pe careaceasta le poate lua, împreuna cu probabilitatile corespunzatoare. Suma tuturor acestorprobabilitati va fi întotdeauna egala cu 1, care este probabilitatea realizarii evenimentuluisigur. Când se face referire la repartitia unei v.a. discrete, se întelege modul în careprobabilitatea totala 1 este distribuita între toate posibilele valori ale variabilei aleatoare.Pentru o scriere compacta, adeseori unei v.a. discrete i se atribuie urmatoarea reprezentareschematica:tabelul de repartitie

X x1 x2 x3 . . . xnpk p1 p2 p3 . . . xn

(1.2.1)

unde pk este probabilitatea cu care variabila X ia valoarea xk (matematic, scriem pk =P(X = xk)) si suma tuturor probabilitatilor corespunzatoare variabilei discrete este egala

cu 1, i.e.n

∑i=1

pi = 1.

Exemplu 1.2Presupunem ca X este v.a. ce reprezintanumarul de puncte ce apare la aruncareaunui zar ideal. Aceasta variabila o putemreprezenta schematic ca in tabelul alaturat.

tabelul de repartitie

X 1 2 3 4 5 6pk 1/6 1/6 1/6 1/6 1/6 1/6

Daca X este o v.a. discreta de forma (1.2.1), atunci definim functia de probabilitate (defrecventa) (en., probability mass function) atasata variabilei aleatoare discrete X ca fiindo functie ce ataseaza fiecarei realizari ale unei variabile probabilitatea cu care aceastarealizare este observata. Matematic, scriem ca

f (xi) = pi, i ∈ 1, 2, . . . , n.

În cuvinte, pentru fiecare posibila valoare a unei v.a. discrete, functia de probabilitateataseaza probabilitatea cu care X ia aceasta valoare. Functia de probabilitate este pentru ov.a. discreta ceea ce o densitate de repartitie este pentru o variabila aleatoare continua.Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoareintr-un interval, sau chiar din R. Deoarece in aceste multimi exista o infinitate de valori,

Page 13: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

1.3 Functia de repartitie (sau functia de repartitie cumulata) 13

nu mai putem defini o variabila aleatoare continua la fel ca in cazul discret, precizandu-ifiecare valoare pe care o ia si ponderea corespunzatoare. In schimb, pentru o variabilaaleatoare continua, putem preciza multimea in care aceasta ia valori si o functie care sadescrie repartizarea acestor valori. O astfel de functie se numeste functie de densitate arepartitiei, sau simplu, densitate de repartitie (en., probability density function).

Exemplu 1.3 Vom spune ca o variabila aleatoare X are o repartitie (sau distributie)normala de medie µ si deviatie standard σ (notam aceasta prin X ∼N (µ, σ)) daca Xpoate lua orice valoare reala si are densitatea de repartitie data de:

f (x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , pentro orice x ∈ R.

Aceasta repartitie se mai numeste si repartitia gaussiana sau distributia gaussiana.Functia de probabilitate sau densitatea de repartitie poate depinde de unul sau mai multiparametri reali. Spre exemplu, repartitia normala are doi parametri, µ si σ .

1.3 Functia de repartitie (sau functia de repartitie cumulata)Numim functie de repartitie atasata v.a reale X o functie F : R→ [0, 1], definita prin

F(x) = P(X ≤ x), pentru orice x ∈ R.

Termenul din engleza pentru functia de repartitie este cumulative distribution function(cdf). Functia de repartitie asociaza fiecarei valori reale x probabilitatea cu care variabilaX ia valori mai mici sau egale cu x. Ea este o functie crescatoare, care ia valori intre 0 si 1.În cazul unei variabile aleatoare discrete, cu tabelul de repartitie dat de (1.2.1), functia derepartitie este:

F(x) = ∑i;xi≤x

pi, (1.3.2)

adica suma tuturor probabilitatilor corespunzatoare valorilor lui X care nu-l depasesc pe x.Daca X este o variabila aleatoare continua si f este densitatea sa de repartitie, atuncifunctia de repartitie este data de formula:

F(x) =x∫

−∞

f (t)dt, x ∈ R. (1.3.3)

Mai mult, F ′(x) = f (x), pentru orice x ∈ R.

1.4 Parametrii populatieiO colectivitate statistica poate fi descrisa folosind una sau mai multe variabile. Pentrufiecare dintre aceste variabile se pot determina anumite cantitati sau calitati specifice,numite parametri. Astfel, acesti parametri sunt niste trasaturi caracteristice colectivitatii,ce pot fi determinate sau estimate pe baza unor masuratori (observatii) ale variabilelor. Incontinuare vom prezenta cativa parametri numerici importanti pentru o variabila aleatoare,

Page 14: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

14 Capitolul 1. Notiuni recapitulative

folositi in analiza statistica. Vom denumi acesti parametri caracteristici numerice ale uneivariabile aleatoare.

Media (valoarea asteptata) (en., expected value; fr., espérance; ger., Erwartungswert)

Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcatfaptul ca exista variabile (atat discrete cat si continue) care nu admit o valoare medie.

• Daca X este o v.a. discreta având tabelul de repartitie (1.2.1), atunci media acesteiv.a. (daca exista!) se defineste prin:

µ =n

∑i=1

xi pi. (1.4.4)

Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) se definesteprin

E(U(X)) =n

∑i=1

U(xi)pi.

• Daca X este o v.a. de tip continuu, cu densitatea de repartitie f (x), atunci media(teoretica) acestei v.a., daca exista (!), se defineste astfel:

µ =∫

−∞

x f (x)dz. (1.4.5)

Daca U(x) este o functie, atunci media pentru variabila aleatoare U(X) (daca exista!)se defineste prin

E(U(X)) =∫

−∞

U(x) f (x)dz.

Notatia 1.1 În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucramcu mai multe variabile în acelasi timp), vom folosi notatia µX . Pentru media teoretica aunei variabile aleatoare se mai folosesc si notatiile: m, M(X) sau E(X).

Dispersia (sau varianta) (en., variance) si abaterea standard (en., standard deviation)

Consideram X o variabila aleatoare care admite medie finita µ . Dorim sa stim in cemasura valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoareX0 = X−µ (numita abaterea lui X de la media sa), atunci E(X0) = 0. Asadar, nu putemmasura gradul de împrastiere a valorilor lui X în jurul mediei sale doar calculând X−µ .Avem nevoie de o alta masura. Aceasta este dispersia variabilei aleatoare, notata prinσ2 sau Var(X), definita prin Var(X) = E[(X − µ)2]. În cazul în care poate fi pericol deconfuzie (spre exemplu, atunci când lucram cu mai multe variabile în acelasi timp), vomfolosi notatia σ2

X .

σ2 =

n

∑i=1

(xi−µ)2 pi

(in cazul unei v.a. discrete).

σ2 =

∫∞

−∞

(x−µ)2 f (x)dx

(in cazul unei v.a. continue).

Page 15: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

1.4 Parametrii populatiei 15

Alte formule pentru dispersie:

σ2 = E[X2]−µ

2 =

n

∑i=1

x2i pi−µ

2 , în cazul discret∫∞

−∞

x2 f (x)dz−µ2 , în cazul continuu

Numim abatere standard (sau deviatie standard) cantitatea σ =√

σ2. Are avantajul caunitatea sa de masura este aceeasi cu a variabilei X .În conformitate cu teorema lui Cebâsev1, pentru orice variabila aleatoare X ce admitemedie si orice a > 0, are loc inegalitatea:

P(|X−µ| ≥ kσ) ≤ 1k2 . (1.4.6)

În cuvinte, probabilitatea ca valorile variabilei X sa devieze de la medie cu mai mult de kdeviatii standard este mai mica decat 1

k2 . În cazul particular k = 3, obtinem regula celor3σ :

P(|X−µ| ≥ 3σ) ≤ 19≈ 0.1.

sau

P(µ−3σ < X < µ +3σ) ≥ 89, (1.4.7)

semnificând ca o mare parte din valorile posibile pentru X se afla în intervalul [µ−3σ , µ +3σ ].

Coeficientul de variatie

Este definit prin CV =σ

µsau, sub forma de procente, CV = 100

σ

µ%. Este util in com-

pararea variatiilor a doua sau mai multe seturi de date ce tin de aceeasi variabila. Dacavariatiile sunt egale, atunci vom spune ca setul de observatii ce are media mai mica estemai variabil decat cel cu media mai mare.

Standardizarea unei variabile aleatoare

Pentru o variabila aleatoare X de medie µ si dispersie σ2, variabila aleatoare Y =X−µ

σse numeste variabila aleatoare standardizata (sau normata). Astfel, prin standardizareaunei variabile, vom obtine urmatoarele proprietati ale sale: E(Y ) = 0, Var(Y ) = 1.Daca X este o variabila normala (scriem asta prin X ∼N (µ, σ)), atunci standardizarea saeste o variabila normala standard, adica X−µ

σ∼N (0, 1).

Momente centrate

Pentru o v.a. X (discreta sau continua), ce admite medie, momentele centrate sunt valorileasteptate ale puterilor lui X−µ . Definim astfel µk(X) = E((X−µ)k). In particular,

1Pafnuty Lvovich Chebyshev (1821−1894), matematician rus

Page 16: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

16 Capitolul 1. Notiuni recapitulative

µk(X) =n

∑i=1

(xi−µ)k pi;

(in cazul unei v.a. discrete).

µk(X) =∫

−∞

(x−µ)k f (x)dx;

(in cazul unei v.a. continue).

Momente speciale:

• µ2(X) = σ2. Se observa ca al doilea moment centrat este chiar dispersia.

• γ1 =µ3(X)

σ3 este coeficientul de asimetrie (en., skewness);Coeficientul γ1 este al treilea moment centrat standardizat. O repartitie este simetricadaca γ1 = 0. Vom spune ca asimetria este pozitiva (sau la dreapta) daca γ1 > 0 sinegativa (sau la stânga) daca γ1 < 0.

• K =µ4(X)

σ4 −3 este excesul (coeficientul de aplatizare sau boltire) (en., kurtosis).

Este o masura a boltirii distributiei (al patrulea moment standardizat). Termenul (−3)apare pentru ca indicele kurtosis al distributiei normale sa fie egal cu 0. Vom aveao repartitie mezocurtica pentru K = 0, leptocurtica pentru K > 0 sau platocurticapentru K < 0. Un indice K > 0 semnifica faptul ca, în vecinatatea modului, curbadensitatii de repartitie are o boltire (ascutire) mai mare decât clopotul lui Gauss.Pentru K < 0, în acea vecinatate curba densitatii de repartitie este mai plata decâtcurba lui Gauss.

Cuantile

Fie X o variabila aleatoare cu functia de repartitie F(x) = P(X ≤ x).Definitia 1.4.1 Pentru α ∈ (0, 1), definim cuantila de ordin α valoarea xα ∈R astfel încât:

xα = infx ∈ R; F(x)≥ α. (1.4.8)

Daca X este o variabila aleatoare de tip continuu si F(x) este strict crescatoare pe R, atuncixα este unica valoare pentru care

F(xα) = α. (1.4.9)

Observatia 1.1 (1) Cuantilele sunt masuri de pozitie, ce masoara locatia unei anumitevalori fata de restul valorilor. Ele sunt unice doar daca variabila aleatoare este continua siF(x) este strict crescatoare.(2) În cazul în care X este o variabila aleatoare discreta, este posibil sa avem mai multde o cuantila de ordin α pentru X . În acest caz, exista o infinitate de solutii, si anumevalorile dintr-un interval (vezi Figura 1.2, unde toate valorile din intervalul [x1, x2] suntα−cuantile).(3) Asa cum se poate observa din Figura 1.1, valoarea xα pentru o repartitie continua esteacel numar real pentru care aria hasurata este chiar α .

Page 17: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

1.4 Parametrii populatiei 17

Figura 1.1: Cuantila de ordin α pentru orepartitie continua

Figura 1.2: Cuantile de ordin α pentru orepartitie discreta

(4) Cazuri particulare de cuantile:• pentru α = 1/2, obtinem mediana. Astfel, F(Me) = 0.5. Mediana (notata Me)

este valoarea care imparte repartitia in doua parti in care variabila X ia valori cuprobabilitati egale. Scriem asta astfel:

P(X ≤Me) = P(X ≥Me) = 0.5.

Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decatmedia pentru tendinta centrala a valorilor variabilei.

• pentru α = i/4, i ∈ 1, 2, 3, obtinem cuartilele. Prima cuartila, Q1, este aceavaloare pentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.25. Scriemasta astfel: P(X ≤ Q1) = 0.25. Cuartila a doua este chiar mediana, deci Q2 = Me.Cuartila a treia, Q3, este acea valoare pentru care probabilitatea ca X sa ia o valoarela stanga ei este 0.75. Scriem asta astfel: P(X ≤ Q3) = 0.75.

• pentru α = j/10, j ∈ 1, 2, . . . , 9, obtinem decilele. Prima decila este acea valoarepentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.1. S.a.m.d.

• pentru α = j/100, j ∈ 1, 2, . . . , 99, obtinem centilele. Prima centila este aceavaloare pentru care probabilitatea ca X sa ia o valoare la stanga ei este 0.01. S.a.m.d.

(5) Daca X ∼N (0, 1), atunci cuantilele de ordin α le vom nota prin zα .

Modul (valoarea cea mai probabila)

Este valoarea cea mai probabila pe care o lua variabila aleatoare X . Cu alte cuvinte,este acea valoare x∗ pentru care f (x∗) (densitatea de repartitie sau functia de probabilitate)este maxima. O repartitie poate sa nu aiba niciun mod, sau poate avea mai multe module.

Covarianta si coeficientul de corelatie

Conceptul de corelatie (sau covarianta) este legat de modul în care doua variabile aleatoaretind sa se modifice una fata de cealalta; ele se pot modifica fie în aceeasi directie (caz încare vom spune ca X1 si X2 sunt direct <sau pozitiv> corelate) sau în directii opuse (X1 siX2 sunt invers <sau negativ> corelate).Consideram variabilele X1, X2 ce admit mediile, respectiv, µ1, µ2.

Page 18: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

18 Capitolul 1. Notiuni recapitulative

Definim corelatia (sau covarianta) variabilelor X1 si X2, notata prin cov(X1, X2), cantitatea

cov(X1, X2) = E[(X1−µ1)(X2−µ2)].

Daca X1 si X2 coincid, sa spunem ca X1 = X2 = X , atunci cov(X , X) = σ2X .

O relatie liniara între doua variabile este acea relatie ce poate fi reprezentata cel mai bineprintr-o linie. Corelatia detecteaza doar dependente liniare între doua variabile aleatoare.Putem avea o corelatie pozitiva, însemnând ca X1 si X2 cresc sau descresc împreuna (vezicazurile in care ρ = 0.85 sau ρ = 1 in Figura 10.2), sau o corelatie negativa, însemnândca X1 si X2 se modifica în directii opuse (vezi cazul ρ =−0.98 in Figura 10.2). In cazulρ = −0.16 din Figura 10.2, nu se observa nicio tendinta, caz in car putem banui cavariabilele nu sunt corelate.O masura a corelatiei dintre doua variabile este coeficientul de corelatie. Acesta este foarteutilizat în stiinte ca fiind o masura a dependentei liniare între doua variabile. Se numestecoeficient de corelatie al v.a. X1 si X2 cantitatea

ρ =cov(X1, X2)

σ1σ2,

unde σ1 si σ2 sunt deviatiile standard pentru X1, respectiv, X2. Uneori se mai noteaza prinρ(X1, X2) sau ρX1,X2 . Coeficientul de corelatie ia valori intre −1 (perfect negativ corelate)si 1 (perfect pozitiv corelate) si masoara gradul de corelatie liniara dintre doua variabile.

Figura 1.3: Reprezentare de date bidimensionale.

1.5 StatisticiConsideram o caracteristica de interes X a unei populatii statistice si fie x1, x2, . . . , xn unset de date observate pentru aceasta caracteristica. Fiecarei date observate xi i se poateasocia o variabila aleatoare Xi, astfel încât xi devine o posibila valoarea a variabilei Xi.Variabilele aleatoare X1, X2, . . . , Xn se numesc variabile aleatoare de selectie si pot fiinterpretate ca fiind un set de observatii independente asupra variabilei X . Toate aceste

Page 19: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

1.5 Statistici 19

variabile de selectie sunt identic repartizate, repartitia comuna fiind repartitia variabilei X .Asadar, Xi este o observatie a variabilei X si xi este valoarea corespunzatoare observata.Se numeste statistica (sau functie de selectie) o functie de aceste variabile aleatoare deselectie, i.e., o variabila aleatoare de forma

Sn(X) = g(X1, X2, . . . , Xn),

unde g este o functie g : Rn→ R masurabila.Ca o observatie, numele de statistica este folosit în literatura de specialitate atât pentruvariabila aleatoare de mai sus, cât si pentru valoarea ei, întelesul exact desprinzându-se dincontext. Repartitia unei statistici se mai numeste si repartitia (distributia) de selectie.În literatura, statistica este notata cu una dintre urmatoarele:

Sn(X), S(X , n), S(X1, X2, . . . , Xn).

Valoarea numericaSn(x) = g(x1, x2, . . . , xn)

se numeste valoarea functiei de selectie pentru un set dat de observatii x1, x2, . . . , xn.Prin intermediul statisticilor putem trage concluzii despre populatia din care a provenitesantionul observat. Teoria probabilitatilor ne ofera procedee de determinare atât a reparti-tiei exacte a lui Sn(X), cât si a repartitiei asimptotice a lui Sn(X). Repartitia exacta esteacea repartitie ce poate fi determinata pentru orice volum al selectiei. În general, dacase lucreaza cu selectii de volum redus (n < 30), atunci repartitia exacta ar trebui sa fiecunoscuta a priori, daca se doreste luarea de decizii prin inferenta. Repartitia asimptoticaeste repartitia limita a Sn(X) când n→ ∞, iar utilizarea acesteia conduce la rezultate bunedoar pentru n≥ 30.De cele mai multe ori, o statistica este utilizata în urmatoarele cazuri:

• în probleme de estimare punctuala a parametrilor populatiei;• în obtinerea intervalelor de încredere pentru un parametru necunoscut;• ca o statistica test pentru verificarea ipotezelor statistice.

1.5.1 Exemple de statistici

Media de selectie: Numim medie de selectie (de volum n) statistica X =1n

n

∑i=1

Xi.

Valoarea mediei de selectie pentru valori ale acestor variabile aleatoare este media empirica:

x =1n

n

∑i=1

xi.

Dispersia de selectie (sau varianta selectiei): Numim dispersie de selectie (de volum n)

statistica S2 (sau S2X , daca avem mai multe variabile) definita prin: S2 =

1n−1

n

∑i=1

[Xi−X ]2.

Valoarea dispersiei de selectie pentru valori ale acestor variabile aleatoare este dispersia(sau variatia) empirica: simplitate, o vom nota cu s2 (sau s2

X , daca avem mai multevariabile), iar valoarea acesteia pentru o selectie fixata este:

s2 =1

n−1

n

∑i=1

[xi− x]2.

Page 20: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

20 Capitolul 1. Notiuni recapitulative

în anumite situatii, în locul lui S2 se mai utilizeaza statistica S2∗(X), definita prin:

S2∗(X) =

1n

n

∑i=1

[Xi−X ]2.

Motivatia pentru considerarea statisticii S2 în detrimentul lui S2∗ este data de faptul ca prima

statistica estimeaza variatia teoretica σ2 mai bine decât cea de-a doua.

Deviatia standard de selectie: Numim deviatie standard de selectie (de volum n) statis-

tica S (sau SX , daca avem mai multe variabile) definita prin: S=√

S2 =

√1

n−1

n

∑i=1

[Xi−X ]2.

Valoarea deviatiei standard de selectie este notata cu s (sau sX , daca avem mai multe varia-bile), iar valoarea acesteia pentru o selectie fixata este:

s =

√1

n−1

n

∑i=1

[xi− x]2.

Functia de repartitie de selectie: Fie X1, X2, . . . , Xn variabile aleatoare de selectierepetata de volum n. Numim functie de repartitie de selectie (de volum n) functia F∗n (x) =n(x)

n, ∀x ∈ R, unde n(x) = card i, Xi ≤ x reprezinta numarul de elemente din selectie

mai mici sau egale cu x.Relatia din definitie poate fi scrisa si sub forma:

F∗n (x) =1n

n

∑i=1

χ(−∞,x](Xi), ∀x ∈ R, (1.5.10)

unde χA este functia indicatoare a multimii A.Pentru un x ∈ R fixat, F∗n este o variabila aleatoare repartizata binomial B(n, F(x)).Pentru o selectie fixata, F∗n (x) este functia de repartitie empirica, i.e.,

F∗n (x) =card i, xi ≤ x

n.

Baza de comparatie Populatie (colectivitate) Esantion (selectie)colectia tuturor elementelor care un subgrup al membrilor

ce este? poseda caracteristici comune, populatiei, alesi pentruce sunt de interes în studiu a participa la studiu

ce include? fiecare membru (unitate) doar o submultimedin grup din membrii grupului

caracteristica parametru statisticacolectarea datelor recensamânt selectie sau sondaj

interes în descrierea caracteristicilor luarea de decizii în cesi a parametrilor priveste populatia (inferenta)

Tabela 1.1: Populatie vs. Esantion

Page 21: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

1.6 Legi limita în Teoria Probabilitatilor 21

1.6 Legi limita în Teoria Probabilitatilor1.6.1 Legea tare a numerelor mari

Teoremele limita clasice descriu comportarea asimptotica a sumei Sn, potrivit normalizata.Legea numerelor mari descrie comportamentul asimptotic al unui sir de variabile aleatoare.În cazul cel mai simplu (si cel mai utilizat in Statistica), in care variabilele aleatoareXkk≥1 sunt independente stochastic si identic repartizate, cu E(Xn) = µ < ∞, ∀n ∈N, atunci legea tare a numerelor mari spune ca sirul Snn≥1, cu Sn =

n

∑k=1

Xk satisface

convergenta:Sn

na.s.−→ µ.

Astfel, desi variabilele aleatoare independente Xkk≥1 pot lua valori departate de mediilelor, media aritmetica a unui numar suficient de mare de astfel de variabile aleatoare iavalori în vecinatatea lui m, cu o probabilitate foarte mare.In Statistica, acest sir de v.a. poate fi privit ca fiind un model pentru repetitii independenteale unui experiment aleator, efectuate în aceleasi conditii. Desi avem de-a face cu un sirde functii ce iau valori întâmplatoare, suma unui numar suficient de mare de variabilealeatoare îsi pierde caracterul aleator.Legea tare a numerelor mari e foarte utila în metode de simulare tip Monte Carlo.

1.6.2 Teorema limita centralaTeorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite saaproximam sume de variabile aleatoare identic repartizate, avînd orice tip de repartitii (atâttimp cât variatia lor e finita), cu o variabila aleatoare normala.Presupunem ca in urma unor masuratori am obtinut datele x1, x2, . . . , xn si ca aceste date

Page 22: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

22 Capitolul 1. Notiuni recapitulative

sunt realizarile unor variabile X1, X2, . . . , Xn. Daca aceste variabile sunt normale, atunci

suma acestora (Sn =n

∑i=1

Xi) cat si media lor (X =1n

n

∑i=1

Xi) sunt tot variabile normale, pentru

orice volum al selectiei, n.Matematic, teorema TLC ne spune ca, daca avem un sir de v.a. independente stochasticsi identic repartizate, atunci, pentru n suficient de mare, repartitia asimptotica a sumei Sneste o variabila N (nµ, σ

√n). Acest fapt este echivalent cu a spune ca variabila aleatoare

suma standardizata

Sn =Sn−nµ

σ√

n=

Sn−µSn

σSn

(1.6.11)

este aproximativ o variabila aleatoare de repartitie N (0, 1). Altfel scris,

P(

Sn−nµ

σ√

n≤ x)≈Θ(x), ∀x ∈ R.

Totodata, mai avem ca distributia variabilei aleatoare medie de selectie X =Sn

n=

1n

n

∑k=1

Xk

este aproximativ normala N (µ,σ√

n).

Asadar, Teorema limita centrala spune ca, daca variabilele X1, X2, . . . , Xn nu sunt neaparatnormal repartizate, atunci, pentru un volum n este suficient de mare, repartitiile pentru Snsi X tind sa fie tot normale. Spunem astfel ca repartitiile asimptotice (la limita) pentru Snsi X sunt normale. Cu cat volumul observatiilor este mai mare, cu atat suma sau media lorsunt mai aproape de repartitia normala.Mai mult, daca variabilele Xi au aceeasi medie (µ) si aceeasi deviatie standard σ , atuncimedia X este o variabila normala de medie µX = µ si deviatie standard σX =

σ√n

. Se

observa ca, daca n este foarte mare, atunci deviatia standard a lui X scade, astfel ca valorilesale vor deveni foarte apropiate de µ .

R Se pune problema: Cât de mare ar trebui sa fie n pentru ca, în practica, teoremalimita centrala sa fie aplicabila? Se pare ca un numar n astfel încât n≥ 30 ar fi sufi-cicient pentru aproximarea cu repartitia normala desi, daca variabilele sunt simetrice,aproximarea ar putea fi buna si pentru un numar n mai mic de 30.

Page 23: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

1.6 Legi limita în Teoria Probabilitatilor 23

Page 24: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘
Page 25: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

2. Generarea de date statistice folosind MATLAB

. [Did you hear about the statistician that couldn’t get laid?

. He decided that a simulation was good enough.]

Numerele generate de MATLAB sunt rezultatul compilarii unui program deja existent înMATLAB, asadar el vor fi pseudo-aleatoare. Putem face abstractie de modul programat degenerare ale acestor numere si sa consideram ca acestea sunt numere aleatoare.

2.1 Generarea de numere aleatoare în MATLAB

2.1.1 Functia rand• Functia rand genereaza un numar aleator repartizat uniform în [0, 1].

De exemplu, comanda

X = (rand < 0.5)

simuleaza aruncarea unei monede ideale. Mai putem spune ca numarul X astfelgenerat este un numar aleator repartizat B(1, 0.5).

• De asemenea, numarul

Y = sum(rand(10,1) < 0.5)

urmeaza repartitia B(10, 0.5) (simularea a 10 aruncari ale unei monede ideale).• rand(m, n) genereaza o matrice aleatoare cu m×n componente repartizate U (0, 1).• Comanda a+(b−a)∗rand genereaza un numar pseudo-aleator repartizat uniform

în [a, b].

Page 26: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

26 Capitolul 2. Generarea de date statistice folosind MATLAB

Figura 2.1: Reprezentarea cu histograme a datelor uniforme.

• Folosind comanda s = rand('state'), i se atribuie variabilei s un vector de 35 deelemente, reprezentând starea actuala a generatorului de numere aleatoare uniform(distribuite). Pentru a schimba starea curenta a generatorului sau initializarea lui,putem folosi comanda

rand(method, s)

unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate fi'state', 'seed' sau 'twister'), iar s este un numar natural între 0 si 232−1, re-prezentând starea initializatorului. De exemplu, functia rand('state', 125)

fixeaza generatorul la starea 125.Observatia 2.1 Printr-o generare de numere aleatoare uniform distribuite în intervalul(a, b) întelegem numere aleatoare care au aceeasi sansa de a fi oriunde în (a, b), si nunumere la intervale egale. Figura 2.1 reprezinta cu histograme date uniform distribuite înintervalul [−2, 3], produse de comanda MATLAB:

hist(5*rand(1e4,1)-2,100)

2.1.2 Functia randn

• Functia randn genereaza un numar aleator repartizat normal N (0, 1).• randn(m, n) genereaza o matrice aleatoare cu m×n componente repartizate N (0, 1).• Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau

starea generatorului, folosim comanda:randn(method, s)

un numar natural între 0 si 232−1, reprezentând starea initializatorului.• Comanda m+σ ∗randn genereaza un numar aleator repartizat normal N (m, σ).

De exemplu, codul urmator produce Figura 2.2:

x = 0:0.05:10;

y = 5 + 1.1*randn(1e5,1); % date distribuite N (5, 1.1)hist(y,x)

Page 27: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

2.1 Generarea de numere aleatoare în MATLAB 27

2.1.3 Generarea de numere aleatoare de o repartitie cunoscutaComenzile MATLAB

legernd(<param>, m, n)

si

random(’lege’, <param>, m, n).

Oricare dintre cele doua comenzi genereaza o matrice aleatoare, cu m linii si n coloane,având componente numere aleatoare ce urmeaza repartitia lege. În loc de lege putem scrieoricare dintre expresiile din Tabelul 2.1. De exemplu,

normrnd (5, 0.2, 100, 10);

genereaza o matrice aleatoare cu 100×10 componente repartizate N (5, 0.2).

random (’poiss’,0.01, 200, 50);

genereaza o matrice aleatoare cu 200×50 componente repartizate P(0.01).Utilizând comanda

randtool

putem reprezenta interactiv selectii aleatoare pentru diverse repartitii. Comanda deschideo interfata grafica ce reprezinta prin histograme selectiile dorite, pentru parametrii doriti(vezi Figura 2.3). Datele generate de MATLAB pot fi exportate în fisierul Workspace cunumele dorit. De exemplu, folosind datele din Figura 2.3, am generat o selectie aleatoarede 10000 de numere ce urmeaza repartitia lognormala de parametri µ = 2 si σ = 0.5 siam salvat-o (folosind butonul Export) într-un vector L.

Tabelul 2.1 contine câteva repartitii uzuale si functiile corespunzatoare în MATLAB.

0 2 4 6 8 100

50

100

150

200

250

Figura 2.2: Reprezentarea cu histograme a datelor normale.

Page 28: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

28 Capitolul 2. Generarea de date statistice folosind MATLAB

Figura 2.3: Interfata pentru generarea de numere aleatoare de o repartitie data.

repartitii probabilistice discrete repartitii probabilistice continue

norm: repartitia normala N (µ,σ)bino: repartitia binomiala B(n, p) unif: repartitia uniforma continua U (a,b)nbin: repartitia binomiala negativa BN(n, p) exp: repartitia exponentiala exp(λ )poiss: repartitia Poisson P(λ ) gam: repartitia Gamma Γ(a,λ )unid: repartitia uniforma discreta U (n) beta: repartitia Beta β (m,n)geo: repartitia geometrica G eo(p) logn: repartitia lognormala logN (µ,σ)

hyge: repartitia hipergeometrica H (n,a,b) chi2: repartitia χ2(n)t: repartitia student t(n)f: repartitia Fisher F (m, n)

wbl: repartitia Weibull Wbl(k, λ )

Tabela 2.1: Repartitii uzuale în MATLAB

Page 29: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

2.2 Simularea unui experiment aleator 29

2.2 Simularea unui experiment aleator2.2.1 Simularea aruncarii unei monede

Pentru a simula aruncarea unei monede ideale (fiecare fata are sanse egale de aparitie)în MATLAB, vom genera un numar aleator uniform în (0, 1) si vom verifica daca acestnumar este mai mic decât 0.5. Daca este, putem presupune ca a aparut fata cu stema, altfela aparut banul. Astfel, comanda MATLAB

X = (rand < 0.5)

simuleaza aruncarea unei monede ideale. Parantezele rotunde verifica valoarea de adevara propozitiei din interior. Rezultatul comenzii va fi ori X = 0 (fals) ori X = 1 (adevarat),ceea ce putem presupune ca va corespunde aparitiei unei anumite fete a monedei. DacaX = 1, atunci numarul ales aleator este mai mic decât 0.5, deci a aparut stema, iar dacaX = 0, atunci numarul ales aleator este mai mare decât 0.5, deci a aparut banul.Numarul X astfel generat este un numar aleator repartizat Bernoulli B(1, 0.5) (similarcu schema bilei revenite, în cazul în care o urna are bile albe si negre în numar egal siextragem o bila la întâmplare). Daca dorim sa repetam experienta de un numar n de ori,atunci scriem

X = sum (rand(n,1)<0.5)

Comanda aceasta va afisa un numar natural între 0 si n, care reprezinta numarul de stemeaparute la aruncarea repetata, în mod independent, a unei monede ideale. Numarul X astfelgenerat este un numar aleator repartizat binomial B(n, 0.5). Aceasta variabila aleatoaremai poate fi simulata si prin comada

X = binornd(n,0.5,1,1) sau X = random('bino',n,0.5,1,1)

Exercitiu 2.1 Daca experimentul aleator este aruncarea unei monede ideale de n = 30 deori, atunci putem simula variabila aleatoare ce reprezinta numarul de steme aparute astfel

Y = sum (rand(30,1)<0.5)

Aceasta urmeaza repartitia B(30, 0.5) (simularea a 30 aruncari independente ale uneimonede ideale).Observatia 2.2 Acelasi experiment poate fi modelat si prin comanda

round(rand(30,1))

Pentru a numara câte fete de un anumit tip au aparut, folosim

sum(round(rand(30,1)))

2.2.2 Simularea în MATLAB a unei variabile aleatoare de tip discretSa consideram o variabila aleatoare ce poate avea doar 3 rezultate posibile, a, b si c, cuprobabilitatile de realizare 0.5, 0.2 si, respectiv, 0.3. Tabloul de repartitie asociat este:

X :(

a b c0.5 0.2 0.3

),

Page 30: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

30 Capitolul 2. Generarea de date statistice folosind MATLAB

Pentru a modela aceasta variabila aleatoare în MATLAB, procedam astfel: alegem uniformla întâmplare un numar x din intervalul [0, 1]. Daca x < 0.5, atunci convenim ca rezultatula s-a realizat, daca 0.5 < x < 0.7, atunci rezultatul b s-a realizat. Altfel, rezultatul variabileialeatoare X este c. Daca acest experiment se repeta de multe ori, atunci rezultatele pot fifolosite în estimarea probabilitatilor de realizare a variabilei aleatoare. Cu cât vom face maimulte experimente, cu atât vom aproxima mai bine valorile teoretice ale probabilitatilor,deci putem spune ca am aproximat variabila aleatoare X .În MATLAB, scriem:

syms a b c % declaram a, b si c ca variabile simbolice

r = rand;

X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)

Folosind aceasta metoda, putem simula aruncarea unui zar ideal. Avem 6 rezultate posibile,si anume, aparitia unei fete cu 1, 2, 3, 4, 5 sau 6 puncte. Pentru a simula acest experiment,modificam în mod convenabil problema. Vom considera ca punctele din intervalul [0, 1]formeaza multimea tuturor cazurilor posibile si împartim intervalul [0, 1] în 6 subintervalede lungimi egale:

(0,16), (

16,

26), (

26,

36), (

36,

46), (

46,

56), (

56, 1).

corespunzatoare, respectiv, celor sase fete, sa zicem în ordinea crescatoare a punctelor depe ele. Vom vedea mai târziu (vezi metoda Monte Carlo) ca alegerea acestor intervalecu capete închise, deschise sau mixte nu are efect practic asupra calculului probabilitatiidorite. Acum, daca dorim sa simulam în MATLAB aparitia fetei cu 3 puncte la aruncareaunui zar ideal, vom alege (comanda rand) un numar "la întâmplare" din intervalul [0, 1] siverificam daca acesta se afla în intervalul (2

6 ,36). Asadar, comanda MATLAB

u = rand; (u < 3/6 & u > 2/6)

simuleaza aruncarea unui zar ideal. Ca o observatie, deoarece cele 6 fete sunt identice,putem simplifica aceasta comanda si scrie

(rand < 1/6).

Functiile floor, ceil, round, fix

Sunt functii folosite pentru generarea de numere aleatoare întregi. De exemplu, functiafloor(x) este partea întreaga a lui x. Astfel, comenzile

floor(11*rand(20,1));ceil(11*rand(20,1));

genereaza fiecare câte 20 de numere întregi între 0 si 10, distribuite uniform discret.Diferenta dintre cele doua functii este ca floor(x) face rotunjirea la numarul întreg aflatla stânga lui x, pe când ceil(x) face rotunjirea la numarul întreg aflat la dreapta lui x.Functiile round(x) si fix(x) rotunjesc numarul real x la cel mai apropiat numar întreg, îndirectia lui ±∞, respectiv, în directia lui zero.Pentru generarea de numere întregi în MATLAB, mai putem folosi urmatoarele comenzi:

Page 31: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

2.3 Repartitii probabilistice în MATLAB 31

randsample(populatie, k)

randsample(n, k)

randsample(populatie, k, replace)

Prima comanda genereaza o selectie uniforma (discreta) nerepetata de k numere natu-rale alese aleator din vectorul populatie. Daca în locul vectorului populatie este n(comanda a doua), atunci se realizeaza o selectie uniforma nerepetata de k numere dinmultimea 1, 2, . . . , n. A treia comanda ne da posibilitatea sa controlam daca selectiaeste sau nu este repetata. Daca variabila replace este true sau 1, atunci selectia obtinutaeste una repetata, iar daca variabila replace este false sau 0, atunci selectia obtinutaeste una nerepetata.De exemplu, comanda

randsample([50:2:100], 10, 0)

genereaza o selectie nerepetata de 10 numere pare între 50 si 100:

66 72 50 68 88 74 82 80 94 76

Vectorul X dat de

X = randperm(n)

este o permutare aleatoare a elementelor multimii 1, 2, . . . , n.

2.3 Repartitii probabilistice în MATLAB

Functia de probabilitate (pentru v.a. discrete) si densitatea de repartitie (pentru v.a. conti-nue) (ambele notate anterior prin f (x)) se introduc în MATLAB cu ajutorul comenzii pdf,astfel:

pdf('LEGE', x, <param>) sau LEGEpdf(x, <param>)

Functia de repartitie F(x) a unei variabile aleatoare se poate introduce în MATLAB cuajutorul comenzii cdf, astfel:

cdf('LEGE', x, <param>) sau LEGEcdf(x, <param>)

Inversa functiei de repartitie pentru repartitii continue, F−1(y), se introduce cu comandaicdf, astfel:

icdf('LEGE', y, <param>) sau LEGEinv(y, <param>)

În comenzile de mai sus, LEGE poate fi oricare dintre legile de repartitie din Tabelul 2.1, xeste un scalar sau vector pentru care se calculeaza f (x) sau F(x), y este un scalar sau vectorpentru care se calculeaza F−1(y), iar <param> este un scalar sau un vector ce reprezintaparametrul (parametrii) repartitiei considerate.

Page 32: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

32 Capitolul 2. Generarea de date statistice folosind MATLAB

Observatia 2.3 Fie X o variabila aleatoare si F(x, θ) functia sa de repartitie, θ fiindparametrul repartitiei. Pentru un x ∈ R, relatia matematica

P(X ≤ x) = F(x)

o putem scrie astfel în MATLAB:

cdf('numele repartiµiei lui X',x,θ). (2.3.1)

Problema poate aparea la evaluarea în MATLAB a probabilitatii P(X < x). Daca repartitiaconsiderata este una continua, atunci corespondentul în MATLAB este tot (2.3.1), deoareceîn acest caz

P(X ≤ x) = P(X < x)+P(X = x) = P(X < x).

De exemplu, daca X ∼N (5, 2), atunci

P(X < 4) = cdf('norm', 4, 5, 2).

Daca X este de tip discret, atunci

P(X < x) =

P(X ≤ [x]) , x nu e întregP(X ≤ m−1) , x = m ∈ Z,

unde [x] este partea întreaga a lui x.De exemplu, daca X ∼B(10, 0.3), atunci

P(X < 5) = P(X ≤ 4)= cdf('bino', 4, 10, 0.3)= 0.8497.

2.4 Exercitii rezolvate

Exercitiu 2.2 Un sondaj preliminar a determinat ca 42% dintre persoanele cu drept de votdintr-o anumita tara ar vota candidatul C pentru presedintie. Alegem la întâmplare 200 devotanti. Care este probabilitatea ca un procent dintre acestia, situat între 40% si 50%, îlvor vota pe C la presedintie?R: Sa notam cu p = 0.42 si cu X variabila aleatoare ce reprezinta numarul de votanti ceau ales candidatul C, din selectia aleatoare de volum n = 200 considerata. Este clar caX ∼B(n, p). Se cere probabilitatea P(80≤ X ≤ 100) (deoarece 40% din 200 înseamna80 etc). Deoarece X este o variabila aleatoare discreta, avem ca:

P = P(80≤ X ≤ 100) = P(X ≤ 100)−P(X < 80) = FX(100)−FX(79),

unde FX este functia de repartitie a lui X .În MATLAB scriem astfel:

P = binocdf(100, 200, 0.42) - binocdf(79, 200, 0.42) = 0.7303.

Page 33: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

2.4 Exercitii rezolvate 33

Exercitiu 2.3 Dintre spectatorii prezenti pe un anumit stadion la un meci de fotbal, unprocent de 20% sunt femei. La o tombola organizata pentru spectatori, un computer alegela întâmplare numerele a 7 bilete de intrare si se premiaza posesorii.(i) Care este probabilitatea ca macar 3 dintre spectatorii premiati sa fie femei?(ii) Care este probabilitatea ca nicio femeie sa nu câstige la tombola?(iii) Daca selectia biletelor câstigatoare ar fi fost realizata prin alegerea a 7 spectatori ceerau asezati în sir, pe un acelasi rând ales la întâmplare, argumentati daca probabilitatilegasite la (i) si (ii) ramân aceleasi.R: Experimentul aleator considerat este alegerea unui bilet de intrare. Acest experimentse repeta in aceleasi conditii, in mod independent, de 7 ori. Desi extragerile se fac faraca biletul ales sa fie reintrodus in urna, putem considera ca extragerile se fac cu repetitie,datorita faptului ca numarul de extrageri (7) este mult mai mic decat numarul de spectatoride pe stadion (necunoscut in problema, dar cu siguranta este mult mai mare decat 7).Aceasta conventie este des intalnita in Statistica, atunci cand volumul esantionului con-siderat (n) este mult mai mic decat volumul populatiei din care se extrage esantionul, N.Scriem in acest caz ca n N. In practica, aceasta are loc atunci cand n < 0.05N.Asadar, convenind ca extragerile se fac cu repetitie, putem considera ca suntem in cazulschemei bilei revenite. Evenimentul aleator de interes (legat de experimentul aleator) esteca biletul ales la intamplare sa fie in posesia unei femei. Din ipoteza, probabilitatea caintr-o proba evenimentul sa se realizeze intr-o singura proba este p = 0.2. Notam cu Xvariabila ce reprezinta numarul de femei ce apar la alegerea la întâmplare a 7 spectatori.(i) In limbajul cu bile si urna, evenimentul compus macar 3 dintre spectatorii premiatisa fie femei este echivalent cu aparitia a cel putin 3 bile albe din 7 extrageri cu repetitie,stiind ca probabilitatea de a aparitie a unei bile albe la o singura extragere este p = 0.2.Astfel, probabilitatea exenimentului este:

P(X ≥ 3) = 1−P(X < 3) = 1−P(X ≤ 2) = 0.1480. (binocdf(3,7,0.2))

(ii) Evenimentul cerut este scris simbolic X = 0 si are probabilitatea

P(X = 0) =C07 p0 (1− p)7 = 0.2097. (binopdf(0,7,0.2))

(iii) În acest caz, probabil ca probabilitatile de mai sus nu mai sunt aceleasi, deoarecealegerea spectatorilor nu mai este aleatorie (spectatorii asezati alaturi pot fi cunostinte,prieteni etc.).

Exercitiu 2.4 O companie independenta de evaluari statistice a estimat ca un anumitcandidat are 25% sanse sa câstige alegerile locale. Dorim sa efectuam un alt sondaj deopinie care sa verifice rezultatul companiei. Determinati care ar trebui sa fie volumulminim de selectie pentru ca, cu o probabilitate de cel putin 0.97, procentul de alegatori ceintentioneaza sa-l voteze pe respectivul candidat se încadreaza între valorile 20% si 30%.Determinati volumul minim folosind doua metode: teorema lui Cebâsev si teorema limitacentrala.

R: Sa notam cu νn numarul de votanti (din n alesi aleator) care voteaza cu respecti-vul candidat. Se cere cel mai mic n ∈ N pentru care

P(

0.2≤ νn

n≤ 0.3

)≥ 0.97,

Page 34: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

34 Capitolul 2. Generarea de date statistice folosind MATLAB

echivalent cuP(∣∣∣νn

n−0.25

∣∣∣≤ 0.05)≥ 0.97.

(i) Observam ca variabila aleatoare νn ∼B(n, 0.25), de unde E(νn) =n4 si Var(νn) =

3n16

.Asadar,

E(νn

n) = 0.25, Var(

νn

n) =

316n

.

Folosim inegalitatea lui Cebâsev pentru X = νnn , a = 0.05. Gasim ca:

P(∣∣∣νn

n−0.25

∣∣∣≤ 0.05)≥ 1− Var

(νnn

)0.052 = 1− 75

n.

Impunem conditia

1− 75n≥ 0.97,

de unde obtinem ca n≥ 2500 .(ii) Cautam n astfel încât

P(−0.05≤ νn

n−0.25≤ 0.05

)= 0.97. (2.4.2)

Ne asteptam ca valoarea lui n sa fie mare, deci putem aplica Teorema limita centrala.Aplicând TLC, scriem ca variabila aleatoare standardizata

νn−E(νn)

σ(νn)= 4

νn−0.25n√3n

∼N (0, 1).

Folosind aceasta, rescriem egalitatea (2.4.2) astfel:

0.97 = P(−0.05≤ νn

n−0.25≤ 0.05

)= P

(−0.05×4

√n3≤ 4

νn−0.25n√3n

≤ 0.05×4√

n3

)= Θ

(0.2√

n3

)−Θ

(−0.2

√n3

)= Θ

(0.2√

n3

)−[

1−Θ

(0.2√

n3

)]= 2Θ

(0.2√

n3

)−1

de unde Θ(0.2√n

3

)= 0.985 si 0.2

√n3 = z0.985 ≈ 2.17 (cuantila de ordin 0.985 pentru

repartitia normala standard). Din ultima egalitate gasim ca n ≈ 353.1969. În MATLAB,calculam astfel:

n = 3*(norminv(0.985,0,1)/0.2)^2

Asadar, pentru ca relatia din enunt sa aiba loc, va trebui ca n≥ 354 .Observam, din nou, ca aceasta valoare este mult mai mica decât cea gasita anterior.

Page 35: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

2.4 Exercitii rezolvate 35

Exercitiu 2.5 Un cetatean turmentat pleaca de la bar spre casa. Sa presupunem ca punctulde plecare este punctul O de pe axa orizontala si se misca doar pe aceasta axa astfel: înfiecare unitate de timp, acesta ori face un pas la stânga, cu probabilitatea 0.5, ori face unpas la dreapta, cu probabilitatea 0.5, independent de pasii anteriori. Folosind Teoremalimita centrala, estimati probabilitatea ca, dupa 100 de pasi, acesta nu a ajuns la mai multde doi pasi de punctul de plecare.Solutie: Fie Xi variabila aleatoare ce reprezinta pasul pe care cetateanul îl face lamomentul i (i ∈ N). Sa atribuim X = −1, daca face un pas la stânga, si X = 1, dacaface un pas la dreapta. Asadar, X este o variabila aleatoare discreta ce poate lua doardoua valori, −1 si 1, ambele cu probabilitatea 0.5. Se calculeaza cu usurinta, E(X) = 0 siD2(X) = 1. Suntem interesati sa aflam ce se întâmpla dupa 100 de pasi. Consideram mai

întâi Sn =n

∑i=1

Xi. Atunci,

E(Sn) =n

∑i=1

E(Xi) = 0 si D2(Sn) =n

∑i=1

D2(Xi) = n,

deoarece Xii=1,n sunt independente.Pentru n≥ 30, Teorema limita centrala spune ca Sn ∼N (0,

√n). Pentru n = 100, S100 ∼

N (0, 10). Probabilitatea ceruta este:

P(|S100| ≤ 2) = P(−2≤ S100 ≤ 2) = FS100(2)−FS100(−2) = 0.1583.(normcdf(2,0,10)-normcdf(-2,0,10))

Folosind urmatorul cod, putem simula în MATLAB miscarea aleatorie (vezi Figura 2.4):

N = input('N = '); % numar de pasi

X = 2*(rand(N,1)<0.5)-1; % simuleaza pasii la fiecare moment

S = cumsum(X); % simuleaza unde a ajuns dupa fiecare pas

plot(1:N, S, '-') % reprezinta miscarea

Z=length(find(S == 0)) % numarul de reintoarceri la bar

Figura 2.4: Miscare aleatoare (browniana) 1D.

Page 36: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

36 Capitolul 2. Generarea de date statistice folosind MATLAB

2.5 Exercitii propuse

Exercitiu 2.1 Temperatura T (0C) dintr-un anumit proces chimic are repartitia U (−5, 5).Calculati P(T < 0); P(−2.5 < T < 2.5); P(−2≤ T ≤ 3).Exercitiu 2.2 Temperatura de topire a unui anumit material este o v.a. cu media de 120 oCsi deviatia standard de 2 oC. Determinati temperatura medie si deviatia standard în oF ,stiind ca oF = 1.8 oC+32.Exercitiu 2.3 Daca Z ∼N (0, 1), calculati:

P(Z ≤ 1.35); P(0≤ Z ≤ 1); P(1≤ Z); P(|Z|> 1.5).

Exercitiu 2.4 Calculati cuartilele repartitiei N (0, 1). De asemenea, calculati z0.95 siz0.975.Exercitiu 2.5 O pereche de zaruri ideale este aruncata de 200 de ori. Care este probabilita-tea sa obtinem o suma de 7 în cel putin 20% dintre cazuri?Exercitiu 2.6 Simulati în MATLAB variabila aleatoare discreta X ce are tabloul de distri-butie:

X :

( −2 0 214

12

14

).

Gasiti si reprezentati grafic functia de repartitie FX(x). Calculati FX(12).

Exercitiu 2.7 O companie de asigurari ofera angajatilor sai diverse polite de asigurare.Pentru un asigurat ales aleator, notam cu X numarul de luni scurs între doua plati succesive.Functia de repartitie a lui X este:

F(x) =

0, x < 1;0.3, 1≤ x < 3;0.4, 3≤ x < 4;0.45, 4≤ x < 6;0.65, 6≤ x < 12;1, 12≤ x.

(a) Determinati functia de probabilitate a lui X .(b) Calculati P(3≤ X ≤ 6) si P(4≤ X).Exercitiu 2.8 Pentru evaluarea rezultatelor obtinute la teza de Matematica de catre eleviiunei anumite scoli, se face un sondaj de volum 35 printre elevii scolii, iar notele lor suntsumarizate in Tabelul 2.2.

note 4 5 6 7 8 9 10frecventa 3 6 7 8 5 4 2

Tabela 2.2: Medii generale si frecvente

(i) Sa se scrie si sa se reprezinte grafic functia de repartitie pentru aceasta selectie;(ii) Notam cu X variabila aleatoare care guverneaza populatia. Utilizand selectia de maisus, sa se aproximeze probabilitatea P(6≤ X ≤ 8).

Page 37: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

2.5 Exercitii propuse 37

Exercitiu 2.9 Datele din tabelul de mai jos reprezinta procentul de someri dintr-o anumitaregiune a tarii, pentru anumite categorii de vârsta.

Vârsta [18, 25) [25, 35) [35, 45) [45, 55) [55, 65)Procent 8 12 22 23 35

Folosind MATLAB, generati o selectie aleatoare de volum 275, tinând cont de repartitiadatelor.

Page 38: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘
Page 39: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3. Elemente de Statistica descriptiva

. [Statistics is like a bikini; what is revealed

. is interesting, but what is concealed is crucial.]

Statistica descriptiva este acea ramura a Statisticii care se preocupa de descrierea datelorstatistice, prin gruparea, reprezentarea grafica si calcularea unor masuri empirice ale formeisau tendintei datelor. Este primul pas pe care il face un statistician ce urmareste sa extragainformatii dintr-un set de date.Daca datele statistice sunt negrupate, atunci se prefera o grupare a lor in clase, pentru omai buna observare a lor. Dupa gruparea in clase (care este la latitudinea statisticianului),datele sunt asezate in tabele de frecvente. Aceste tabele pot contine, pe langa claseleconstruite, frecvente absolute, frecvente relative, frecvente cumulate, frontierele claselor,valorile de mijloc. Uneori doar un singur tip de frecvente este suficient pentru a continuaanaliza datelor. Un exemplu de tabel de frecvente este Tabelul 5.2.Exista mai multe optiuni pentru reprezentarea grafica a datelor, in functie de tipul de datepe care le avem. Spre exemplu, pentru date discrete sunt preferate reprezentarile cu baresau cu sectoare de disc. Dupa caz, mai pot fi folosite reprezentari cu puncte sau stem&leaf.Pentru date continue se folosesc histograme sau sectoare de disc.

3.1 Organizarea si descrierea datelorPresupunem ca avem o colectivitate statistica, careia i se urmareste o anumita caracteristica(sau variabila). Spre exemplu, colectivitatea este multimea tuturor studentilor dintr-ouniversitate înrolati în anul întâi de master, iar caracteristica este media la licenta obtinutade fiecare dintre acesti studenti. Teoretic, multimea valorilor acestei caracteristici esteintervalul [6, 10], iar aceasta variabila poate lua orice valoare din acest interval.

Page 40: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

40 Capitolul 3. Elemente de Statistica descriptiva

Vom numi date (sau date statistice) informatiile obtinute în urma observarii valoriloracestei caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenta observate.În general, datele pot fi calitative (se mai numesc si categoriale) sau cantitative, dupa cumcaracteristica (sau variabila) observata este calitativa (exprima o calitate sau o categorie)sau, respectiv, cantitativa (are o valoare numerica). Totodata, aceste date pot fi date detip discret, daca sunt obtinute în urma observarii unei caracteristici discrete (o variabilaaleatoare discreta, sau o variabila ale carei posibile valori sunt in numar finit sau celmult numarabil), sau date continue, daca aceasta caracteristica este continua (o variabilaaleatoare de tip continuu, sau o variabila ce poate lua orice valoare dintr-un interval sauchiar de pe axa reala). În cazul din exemplul de mai sus, datele vor fi cantitative si continue.În Statistica se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X , Y, Z, . . .,si valorile lor cu litere mici, x, y, z, . . .. In mare parte din acest curs vom folosi notatia Zpentru variabila aleatoare si cu z o posibila valoare (sau realizare) a sa. Daca in exemplulde mai sus notam cu Z variabila medie la licenta, atunci un anume z observat va fi mediala licenta pentru un student din colectivitate ales aleator.Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta inordonarea si reprezentarea grafica a datelor, dar si în calcularea anumitor caracteristicinumerice pentru acestea. Datele înainte de prelucrare, adica exact asa cum au fost culese,se numesc date negrupate. Un exemplu de date negrupate (de tip continuu) sunt celeobservate in Tabelul 3.1, reprezentând timpi (în min.sec) de asteptare pentru primii 100de clienti care au asteptat la un ghiseu pâna au fost serviti.

1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76

0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14

2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28

0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67 3.89

1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74 4.85

3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 4.12

3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88

5.36 1.32

Tabela 3.1: Date statistice negrupateDe cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea seurmareste a se grupa datele, pentru o mai usoara gestionare. Imaginati-va ca enumeramtoate voturile unei selectii întâmplatoare de 15000 de votanti, abia iesiti de la vot. Maidegraba, ar fi mai util si practic sa grupam datele dupa numele candidatilor, precizândnumarul de voturi ce l-a primit fiecare. Asadar, pentru o mai buna descriere a datelor, estenecesara gruparea lor in clase de interes.

3.1.1 Gruparea datelorDatele prezentate sub forma de tabel (sau tablou) de frecvente se numesc date grupate.Datele de selectie obtinute pot fi date discrete sau date continue, dupa cum caracteristicilestudiate sunt variabile aleatoare discrete sau, respectiv, continue.(1) Date de tip discret: Daca datele de selectie sunt discrete (e.g., z1, z2, . . . , zn), esteposibil ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor datesunt z′1, z′2, . . . , z′r, r ≤ n. Atunci, putem grupa datele într-un asa-numit tabel de frecvente(vezi exemplul din Tabelul 6.4). Alternativ, putem organiza datele negrupate într-un tabel

Page 41: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.1 Organizarea si descrierea datelor 41

nota frecventa absoluta frecventa cumulata frecventa relativa frecventa relativa cumulata2 2 2 2.22% 2.22%3 4 6 4.44% 6.66%4 8 14 8.89% 15.55%5 15 29 16.67% 32.22%6 18 47 20.00% 52.22%7 17 64 18.89% 71.11%8 15 79 16.67% 87.78%9 7 86 7.78% 95.56%

10 4 90 4.44% 100%Total 90 - 100% -

Tabela 3.2: Tabel cu frecvente pentru date discrete.

de frecvente, dupa cum urmeaza:

data z′1 z′2 . . . z′rfrecventa f1 f2 . . . fr

(3.1.1)

unde fi este frecventa aparitiei valorii z′i, (i = 1, 2, . . . , r), si se va numi distributia empiricade selectie a lui Z. Aceste frecvente pot fi absolute sau de relative. Un tabel de frecvente(sau o distributie de frecvente) contine cel putin doua coloane: o coloana ce reprezintadatele observate (grupate în clase) si o coloana de frecvente. În prima coloana apar clasele,adica toate valorile distincte observate. Datele din aceasta coloana nu se repeta. Prinfrecventa absoluta a clasei întelegem numarul de elemente ce apartine fiecarei clase înparte. De asemenea, un tabel de frecvente mai poate contine frecvente relative sau cumulate.O frecventa relativa se obtine prin împartirea frecventei absolute a unei categorii la sumatuturor frecventelor din tabel. Astfel, suma tuturor frecventelor relative este egala cu 1.Frecventa (absoluta) cumulata a unei clase se obtine prin cumularea tuturor frecventelorabsolute pâna la (inclusiv) clasa respectiva. Frecventa relativa cumulata a unei clase seobtine prin cumularea tuturor frecventelor relative pâna la (inclusiv) clasa respectiva.Asadar, elementele unui tabel de frecvente pot fi: clasele (ce contin valori pentru variabile),frecvente absolute, frecvente relative sau cumulate. Într-un tabel, nu este obligatoriu saapara toate coloanele cu frecvente sau ele sa apara în aceasta ordine.Vom numi o serie de timpi (sau serie dinamica ori cronologica) un set de date culese lamomente diferite de timp. O putem reprezenta sub forma unui tablou de forma

data :

(z1 z2 . . . znt1 t2 . . . tn

),

unde zi sunt valorile caracteristicii, iar ti momente de timp (e.g., raspunsurile citite de unelectrocardiograf).În Tabelul 6.4, sunt prezentate notele studentilor din anul al III-lea la examenul deStatistica. Acesta este exemplu de tabel ce reprezenta o caracteristica discreta.

(2) Date de tip continuu: Daca datele statistice sunt realizari ale unei variabile Z de tipcontinuu, atunci se obisnuieste sa se faca o grupare a datelor de selectie în clase. Datele

Page 42: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

42 Capitolul 3. Elemente de Statistica descriptiva

de tip continuu pot fi grupate într-un tablou de distributie sau sub forma unui tabel dedistributie, dupa cum urmeaza:

data [a0,a1) [a1,a2) . . . [ar−1,ar)

frecventa f1 f2 . . . fr

clasa frecventa valoare medie[a0,a1) f1 z′1[a1,a2) f2 z′2

......

...[ar−1,ar) fr z′r

Tabela 3.3: Tabel cu frecvente pentrudate de tip continuu.

În particular, putem grupa datele de tip continuu din Tabelul 3.1 în tabloul de distributieurmator:

data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)frecventa 14 17 21 18 16 14

Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cumdoreste utilizatorul. Uneori, tabelul de distributie pentru o caracteristica de tip continuumai poate fi scris si sub forma unui tabel ca in (3.1.1), unde

• z′i =ai−1 +ai

2este elementul de mijloc al clasei [ai−1, ai);

• fi este frecventa aparitiei valorilor din [ai−1, ai), (i = 1, 2, . . . , r),r

∑i=1

fi = n.

Pentru definirea clas elor unui tabel de frecvente, nu exista o regula precisa. Fiecareutilizator de date îsi poate crea propriul tabel de frecvente. Scopul final este ca acesttabel sa scoata în evidenta caracteristicele datelor, cum ar fi: existenta unor grupe (clase)naturale, variabilitatea datelor într-un anumit grup (clasa), informatii legate de existentaunor anumite date statistice care nu au fost observate in selectia data etc. În general, acestecaracteristici nu ar putea fi observate privind direct setul de date negrupate. Totusi, pentrucrearea tabelelor de frecvente, se recomanda urmatorii pasi:

1. Determinarea numarului de clase (disjuncte). Este recomandat ca numarul claselorsa fie între 5 si 20. Daca volumul datelor este mic (e.g., n < 30), se recomandaconstituirea a 5 sau 6 clase. De asemenea, daca este posibil, ar fi util ca fiecareclasa sa fie reprezentata de cel putin 5 valori (pentru un numar mic de clase). Dacanumarul claselor este mai mare, putem avea si mai putine date într-o clasa, dar nu maiputin de 3. O clasa cu prea putine valori (0, 1 sau 2) poate sa nu fie reprezentativa.

2. Determinarea latimii claselor. Daca este posibil, ar fi bine daca toate clasele ar aveaaceeasi latime. Acest pas depinde, în mare masura, de alegerea din pasul anterior.

3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încâtfiecare data statistica sa apartine unei singure clase.

În practica, un tabel de frecvente se realizeaza prin încercari, pâna avem convingerea cagruparea facuta poate surprinde cât mai fidel datele observate.Asadar, daca ne este data o însiruire de date ale unei caracteristici discrete sau continue,atunci le putem grupa imediat în tabele sau tablouri de frecvente. Invers (avem tabelulsau tabloul de repartitie si vrem sa enumeram datele) nu este posibil, decât doar în cazulunei caracteristici de tip discret. De exemplu, daca ni se da Tabelul 5.2, ce reprezinta rata

Page 43: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.2 Reprezentarea datelor statistice 43

somajului într-o anumita regiune a tarii pe categorii de vârste, nu am putea sti cu exactitatevârsta exacta a persoanelor care au fost selectionate pentru studiu.

vârsta frecventa frecventa relativa frecventa cumulata vârsta medie[18,25) 34 8.83% 8.83% 21.5[25,35) 76 19.74% 28.57% 30[35,45) 124 32.21% 60.78% 40[45,55) 87 22.60% 83.38% 50[55,65) 64 16.62% 100.00% 60

Total 385 100% - -

Tabela 3.4: Tabel cu frecvente pentru rata somajului.

Observam ca acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vomnumi valoare de mijloc pentru o clasa, valoarea obtinuta prin media valorilor extreme aleclasei. În cazul Tabelului 5.2, valorile de mijloc sunt scrise în coloana cu vârsta medie.Frecventa cumulata a unei clase este suma frecventelor tuturor claselor cu valori mai mici.

3.2 Reprezentarea datelor statisticeUn tabel de frecvente sau o distributie de frecvente (absolute sau relative) sunt de cele maimulte ori baza unor reprezentari grafice, pentru o mai buna vizualizare a datelor. Acestereprezentari pot fi facute în diferite moduri, dintre care amintim pe cele mai uzuale.

3.2.1 Reprezentare prin puncteReprezentarea prin puncte (en., dot plot) estefolosita, de regula, pentru selectii de date de tipdiscret de dimensiuni mici. Sunt reprezentatepuncte asezate unul peste celalalt, reprezentândnumarul de aparitii ale unei valori pentrucaracteristica data. Un astfel de grafic estereprezentat în Figura 3.1. Aceste reprezentarisunt utile atunci când se doreste scoatereaîn evidenta a anumitor pâlcuri de date (en.,clusters) sau chiar lipsa unor date (goluri). Auavantajul de a conserva valoarea numerica adatelor reprezentate. Figura 3.1: Reprezentarea cu puncte.

3.2.2 Reprezentarea stem-and-leafEste folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic.Urmatorul set de date negrupate reprezinta punctajele (din 100 de puncte) obtinute de cei20 de elevi ai unui an de studiu la o testare semestriala:

50 34 55 41 59 61 62 64 68 18 68 73 75 77

44 77 62 77 53 79 81 48 85 96 88 92 39 96

Page 44: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

44 Capitolul 3. Elemente de Statistica descriptiva

Tabelul 3.3 reprezinta aceste date sub forma stem-and-leaf (ramura-frunza). Se observaca acest tabel arata atât cum sunt repartizate datele, cât si forma repartitiei lor (a se privigraficul ca având pe OY drept axa absciselor si OX pe cea a ordonatelor). Asadar, 7|5semnifica un punctaj de 75. Pentru un volum prea mare de date, aceasta reprezentare nueste cea mai buna metoda de vizualizare a datelor. În sectiunile urmatoare vom prezenta sialte metode utile.

Figura 3.2: Reprezentarea datelor discrete.

stem leaf109 2 68 1 5 6 87 3 5 7 7 7 96 1 2 2 4 8 85 0 3 5 94 1 4 83 4 921 80

Figura 3.3: Tabel stem-and-leaf repre-zentând punctajele studentilor.

3.2.3 Reprezentarea cu bare (bar charts)Este utila pentru reprezentarea variabilelor discrete cu un numar mic de valori diferite.Barele sunt dreptunghiuri ce reprezinta frecventele si nu sunt unite între ele. Fiecaredreptunghi reprezinta o singura valoare. Într-o reprezentare cu bare, categoriile sunt plasate,de regula, pe orizontala iar frecventele pe verticala. În Figura 3.41 sunt reprezentate dateledin tabelul cu note. Se poate schimba orientarea categoriilor si a claselor; în acest cazbarele vor aparea pe orizontala (vezi Figura 3.42).

Figura 3.4: Reprezentari cu bare verticale sau orizontale.

Page 45: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.2 Reprezentarea datelor statistice 45

Figura 3.5 contine o reprezentare de date folosind bare 3D.

Figura 3.5: Reprezentare 3D prin bare.

3.2.4 Histograme

Cuvântul "histograma" a fost introdus pentru prima oara de Karl Pearson1 în 1895. Acestaderiva din cuvintele grecesti histos (gr., ridicat în sus) si gramma (gr., desen, înregistrare).O histograma este o forma pictoriala a unui tabel de frecvente, foarte utila pentru selectiimari de date de tip continuu. Se aseamana cu reprezentarea prin bare, cu urmatoarele douadiferente: nu exista spatii între bare (desi, pot aparea bare de înaltime zero ce arata a fispatiu liber) si ariile barelor sunt proportionale cu frecventele corespunzatoare. Numarulde dreptunghiuri este egal cu numarul de clase, latimea dreptunghiului este intervalulclasei, iar înaltimea este asa încât aria fiecarui dreptunghi reprezinta frecventa. Aria totalaa tuturor dreptunghiurilor este egala cu numarul total de observatii. Daca barele uneihistograme au toate aceeasi latime, atunci înaltimile lor sunt proportionale cu frecventele.Înaltimile barelor unei histogramei se mai numesc si densitati de frecventa. În cazul încare latimile barelor nu sunt toate egale, atunci înaltimile lor satisfac:

înaltimea = k · frecventalatimea clasei

, k = factor de proportionalitate.

1Karl Pearson (1857−1936), statistician, avocat si eugenist britanic

Page 46: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

46 Capitolul 3. Elemente de Statistica descriptiva

Înaltimea (în cm) frecventa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 25) 10[25, 30) 2

Tabela 3.5: Tabel cu înaltimile plantelor

Tabela 3.6: Histograme pentru datele din Tabelul 3.5Sa presupunem ca am fi grupat datele din Tabelul 3.5 într-o alta maniera, în care clasele nusunt echidistante (vezi Tabelul 3.7). În Tabelul 3.7, datele din ultimele doua clase au fostcumulate într-o singura clasa, de latime mai mare decât celelalte, deoarece ultima clasa dinTabelul 3.5 nu avea suficiente date. Histograma ce reprezinta datele din Tabelul 3.7 estecea din Figura 3.8. Conform cu regula proportionalitatii ariilor cu frecventele, se poateobserva ca primele patru bare au înaltimi egale cu frecventele corespunzatoare, pe cândînaltimea ultimei bare este jumatate din valoarea frecventei corespunzatoare, deoarecelatimea acesteia este dublul latimii celorlalte.

În general, pentru a construi o histograma, vomavea în vedere urmatoarele:− datele vor fi împartite (unde este posibil) înclase de lungimi egale. Uneori aceste divizarisunt naturale, alteori va trebui sa le fabricam.− numarul de clase este, în general, între 5 si20.− înregistrati numarul de date ce cad în fiecareclasa (numite frecvente).− figura ce contine histograma va avea claselepe orizontala si frecventele pe verticala. Figura 3.6: Histograma 3D

Înaltimea (în cm) frecventa[0, 5) 5[5, 10) 13[10, 15) 23[15, 20) 17[20, 30) 12

Tabela 3.7: Tabel cu înaltimile plantelor

Tabela 3.8: Histograme pentru datele din Tabelul 3.7

Page 47: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.2 Reprezentarea datelor statistice 47

înaltimea (în cm) frontierele latimea frecventa densitatea de frecventa[18,25) 17.5−25.5 8 34 4.25[25,35) 24.5−35.5 11 76 6.91[35,45) 34.5−45.5 11 124 11.27[45,55) 44.5−55.5 11 87 7.91[55,65) 54.5−65.5 11 64 5.82

Tabela 3.9: Tabel cu frontierele claselor.

Observatia 3.1 (1) Daca lungimea unei clase este infinita (e.g., ultima clasa din Tabelul3.7 este [20, ∞)), atunci se obisnuieste ca latimea ultimului interval sa fie luata drept dublullatimii intervalului precedent.(2) În multe situatii, capetele intervalelor claselor sunt niste aproximari, iar în loculacestora vom putea utiliza alte valori. Spre exemplu, sa consideram clasa [15, 20). Aceastaclasa reprezinta clasa acelor plante ce au înaltimea cuprinsa între 15cm si 20cm. Deoarecevalorile înaltimilor sunt valori reale, valorile 15 si 20 sunt, de fapt, aproximarile acestorvalori la cel mai apropiat întreg. Asadar, este posibil ca aceasta clasa sa contina acele plantece au înaltimile situate între 14.5cm (inclusiv) si 20.5cm (exclusiv). Am putea face referirela aceste valori ca fiind valorile reale ale clasei, numite frontierele clasei. În cazul în caream determinat frontierele clasei, latimea unei clase se defineste ca fiind diferenta întrefrontierele ce-i corespund. În concluzie, în cazul clasei [15, 20), aceasta are frontierele14.5 - 20.5, latimea 6 si frecventa 17

6 . Pentru exemplificare, în Tabelul 3.9 am prezentatfrontierele claselor, latimile lor si densitatile de frecventa pentru datele din Tabelul 5.2.

3.2.5 Reprezentare prin sectoare de disc (pie charts)

Se poate reprezenta distributia unei caracteristici si folosind sectoare de disc (diagramecirculare) (en., pie charts), fiecare sector de disc reprezentând câte o frecventa relativa.Aceasta varianta este utila în special la reprezentarea datelor calitative. Exista siposibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 3.8 amreprezentat datele din Tabelul 5.2.

Figura 3.7: Reprezentarea pe disc a frecven-telor relative ale notelor din tabelul cu note

Figura 3.8: Reprezentare pe disc 3D

Page 48: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

48 Capitolul 3. Elemente de Statistica descriptiva

3.2.6 Poligonul frecventelor

Un poligon de frecventa este similar cu o reprezentarecu bare, dar în loc sa foloseasca barele, se creeazaun poligon prin trasarea frecventelor si conectareaacestor puncte cu o serie de segmente.

Figura 3.9: Un polygon frecvente

3.2.7 Ogive

Pentru frecventele cumulate pot fi folosite ogive. Oogiva reprezinta graficul unei frecvente cumulate(absoluta sau relativa).

Figura 3.10: Ogiva pentru frecventeleabsolute cumulate din Tabelul 6.4

3.2.8 Diagrama Q-Q sau diagrama P-PQ-Q plot (diagrama cuantila-cuantila) si P-P plot(diagrama probabilitate-probabilitate) sunt utilizatein a determina apropierea dintre doua seturi de date(repartitii). Daca datele provin dintr-o acceasi repar-titie, atunci ele se aliniaza dupa o dreapta desenatain figura. Diagrama Q-Q este bazata pe rangurilevalorilor, iar diagrama P-P este bazata pe functiilede repartitie empirice.

Figura 3.11: Diagrama Q-Q plot

3.2.9 Diagrama scatter plotDaca (xk, yk), k ∈ 1, 2, . . . , n este un set de datebidimensionale, ce reprezinta observatii asupra vec-torului aleator (X , Y ), atunci o masura a legaturiidintre variabilele X si Y este coeficientul de corela-tie empiric introdus de K. Pearson. Primul pas înanaliza regresionala este vizualizarea datelor. Pen-tru aceasta se foloseste reprezentarea scatter plot.

Figura 3.12: Exemplu de scatter plot

Page 49: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.3 Masuri descriptive ale datelor negrupate 49

Sa consideram o populatie statistica de volum N si o caracteristica a sa, X , ce are functiade repartitie F . Asupra acestei caracteristici facem n observatii, în urma carora culegemun set de date statistice. Dupa cum am vazut anterior, datele statistice pot fi prezentateîntr-o forma grupata (descrise prin tabele de frecvente) sau pot fi negrupate, exact asacum au fost culese în urma observarilor. Pentru analiza acestora, pot fi utilizate diversetehnici de organizare si reprezentare grafica a datelor statistice însa, de cele mai multeori, aceste metode nu sunt suficiente pentru o analiza detaliata. Suntem interesati în aatribui acestor date anumite valori numerice reprezentative. Pot fi definite mai multe tipuride astfel de valori numerice, e.g., masuri ale tendintei centrale (media, modul, mediana),masuri ale dispersiei (dispersia, deviatia standard), masuri de pozitie (cuantile, distantaintercuantilica) etc. În acest capitol, vom introduce diverse masuri descriptive numerice,atât pentru datele grupate, cât si pentru cele negrupate.

3.3 Masuri descriptive ale datelor negrupateConsideram un set de date statistice negrupate, x1, x2, . . . , xn (xi ∈ R, i = 1, 2 . . . , n, n≤N), ce corespund unor observatii facute asupra variabilei X . Pe baza acestor observatii,definim urmatoarele masuri descriptive ale datelor, in scopul de a estima parametrii realiai caracteristicilor populatiei. Deoarece ele se bazeaza doar pe observatiile culese, acestemasuri se mai numesc si masuri empirice.

• Valoarea medieEste o masura a tendintei centrale a datelor. Pentru o selectie x1, x2, . . . , xn,definim:

x =1n

n

∑i=1

xi,

ca fiind media datelor observate. Aceasta medie empirica este un estimator pentrumedia teoretica, µ = EX , daca aceasta exista.

• Pentru fiecare i, cantitatea di = xi− x se numeste deviatia valorii xi de la medie.Aceasta nu poate fi definita ca o masura a gradului de împrastiere a datelor, deoarece

n

∑i=1

(xi− x) = 0.

• MomentelePentru k ∈ N∗, momentele de ordin k se definesc astfel:

αk =1n

n

∑i=1

xki .

Pentru fiecare k ∈ N∗, momentele centrate de ordin k se definesc astfel:

µk =1n

n

∑i=1

(xi− x)k.

Page 50: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

50 Capitolul 3. Elemente de Statistica descriptiva

• Dispersia (sau varianta)Aceasta este o masura a gradului de împrastiere a datelor în jurul valorii medii.Pentru o selectie x1, x2, . . . , xn, definim dispersia astfel:

s2 =1

n−1

n

∑i=1

(xi− x)2

(=

1n−1

[n

∑i=1

x2i −n(x)2]

).

• Deviatia standardEste tot o masura a împrastierii datelor în jurul valorii medii. Pentru o selectiex1, x2, . . . , xn, definim deviatia standard:

s =

√1

n−1

n

∑i=1

(xi− x)2.

• Coeficientul de variatie (sau de dispersie)Acest coeficient (de obicei, exprimat în procente) este util atunci când comparamdoua repartitii având unitati de masura diferite. Nu este folosit atunci când x sau µ

este foarte mic. Pentru doua populatii care au aceeasi deviatie standard, gradul devariatie a datelor este mai mare pentru populatie ce are media mai mica.

CV =sx, coeficient de variatie,

• Amplitudinea (plaja de valori, range)Pentru un set de date, amplitudinea (en., range) este definita ca fiind diferenta dintrevaloarea cea mai mare si valoarea cea mai mica a datelor, i.e., xmax− xmin.

• Scorul zEste numarul deviatiilor standard pe care o anumita observatie, x, le are sub saudeasupra mediei. Pentru o selectie x1, x2, . . . , xn, scorul X este definit astfel:

x =x− x

s.

• Corelatia (covarianta)Daca avem n perechi de observatii, (x1, y1), (x2, y2), . . . , (xn, yn), definim corelatia(covarianta):

covsel =1

n−1

n

∑i=1

(xi− x)(yi− y). (3.3.2)

• Coeficientul de corelatie

rsel =covsel

sxsy, coeficient de corelatie,

• Functia de repartitie empiricaSe numeste functie de repartitie empirica asociata unei variabile aleatoare X si uneiselectii x1, x2, . . . , xn, functia Fn : R−→ [0, 1], definita prin

Fn(x) =cardi; xi ≤ x

n. (3.3.3)

Propozitia de mai jos arata ca functia de repartitie empirica aproximeaza functia derepartitie teoretica (vezi Figura 3.13).

Page 51: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.3 Masuri descriptive ale datelor negrupate 51

Propozitie 3.3.1 Fie Ω o colectivitate statistica si X o caracteristica a sa, ce sedoreste a fi studiata. Notez cu F(x) functia de repartitie (teoretica) a lui X . Pentru oselectie de valori ale lui X , x1, x2, . . . , xn, construim functia de repartitie empirica,Fn(x). Atunci:

Fn(x)prob−→ F(x), când n→ ∞, ∀x ∈ R.

Figura 3.13: Functia de repartitie empirica si functia de repartitie teoretica pentru o v.a. N (0, 1)

• Coeficientul de asimetrie (en., skewness) este al treilea moment standardizat, care sedefineste prin

γ1 =µ3

s3 =

1n

n

∑i=1

(xi− x)3

[1

n−1

n

∑i=1

(xi− x)2

]3/2 .

O repartitie este simetrica daca γ1 = 0. Vom spune ca asimetria este pozitiva (sau ladreapta) daca γ1 > 0 si negativa (sau la stânga) daca γ1 < 0.

• Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis) se defineste prin

K =µ4

s4 −3 =

1n

n

∑i=1

(xi− x)4

(1n

n

∑i=1

(xi− x)2

)2 −3.

Este o masura a boltirii distributiei (al patrulea moment standardizat). Termenul (−3)apare pentru ca indicele kurtosis al distributiei normale sa fie egal cu 0. Vom aveao repartitie mezocurtica pentru K = 0, leptocurtica pentru K > 0 sau platocurticapentru K < 0. Un indice K > 0 semnifica faptul ca, în vecinatatea modului, curbadensitatii de repartitie are o boltire (ascutire) mai mare decât clopotul lui Gauss.Pentru K < 0, în acea vecinatate curba densitatii de repartitie este mai plata decâtcurba lui Gauss.

• Cuantile

Page 52: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

52 Capitolul 3. Elemente de Statistica descriptiva

Cuantilele (de ordin q) sunt valori ale unei variabile aleatoare care separa repartitiaordonata în q parti egale.Pentru q = 2, cuantila xq se numeste mediana, notata prin x0.5 sau me.Presupunem ca observatiile sunt ordonate, x1 < x2 < · · ·< xn. Pentru aceasta ordine,definim valoarea mediana:

x0.5 =

x(n+1)/2 , daca n = impar;(xn/2 + xn/2+1)/2 , daca n = par;

Pentru q = 4, cuantilele se numesc cuartile (sunt în numar de 3). Prima cuartila,notata x0.25 sau q1, se numeste cuartila inferioara, a doua cuartila este mediana,iar ultima cuartila, notata x0.75 sau q3, se numeste cuartila superioara. Diferentaq3−q1 se numeste distanta intercuartilica.Pentru q = 10 se numesc decile (sunt în numar de 9), pentru q = 100 se numescpercentile (sunt în numar de 99), pentru q = 1000 se numesc permile (sunt în numarde 999). Sunt masuri de pozitie, ce masoara locatia unei anumite observatii fata derestul datelor.

• ModulModul (sau valoarea modala) este acea valoare x∗ din setul de date care apare celmai des. Un set de date poate avea mai multe module. Daca apar doua astfel devalori, atunci vom spune ca setul de date este bimodal, pentru trei astfel de valoriavem un set de date trimodal etc. În cazul în care toate valorile au aceeasi frecventade aparitie, atunci spunem ca nu exista mod. De exemplu, setul de date

1 3 5 6 3 2 1 4 4 6 2 5

nu admite valoare modala. Nu exista un simbol care sa noteze distinctiv modul unuiset de date.

• Valori aberante (en. outliers)Valorile aberante sunt valori statistice observate care sunt îndepartate de marea ma-joritate a celorlalte observatii. Ele pot aparea din cauza unor masuratori defectuoasesau în urma unor erori de masurare. De cele mai multe ori, ele vor fi excluse dinanaliza statistica. Din punct de vedere matematic, valorile aberante sunt valorile cenu apartin intervalului urmator.

[q1−1.5(q3−q1), q3 +1.5(q3−q1)]

• Sinteza prin cele cinci valori statistice (five number summary)Reprezinta cinci masuri statistice empirice caracteristice unui set de date statistice.Acestea sunt (în ordine crescatoare): cea mai mica valoare observata (min

ixi),

prima cuartila (q1), mediana (me), a treia cuartila (q3) si cea mai mare valoareobservata (max

ixi). Aceste cinci numere pot fi reprezentate grafic într-o diagrama

numita box-and-whisker plot.În figurile de mai jos sunt desenate astfel de diagrame. Datele din Tabelul 5.2 suntreprezentate în prima figura de mai jos prin doua diagrame box-and-whiskers. Înprima diagrama (numerotata cu 1) am generat uniform datele din tabel, pastrândclasele; în a doua diagrama am folosit reprezentarea datelor din acelasi tabel princentrele claselor. Reprezentarile sunt cele clasice, cu dreptunghiuri. Valorile aberantesunt reprezentate prin puncte în diagrama box-and-whisker plot.

Page 53: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.4 Masuri descriptive ale datelor grupate 53

vârsta f. abs. f. rel. f. cum. mijlocul clasei[18,25) 34 8.83% 8.83% 21.5[25,35) 76 19.74% 28.57% 30[35,45) 124 32.21% 60.78% 40[45,55) 87 22.60% 83.38% 50[55,65) 64 16.62% 100.00% 60

Total 385 100% - -

Tabela 3.10: Tabel cu frecvente.

Figura 3.14: Box-and-whisker plot pentru datele din Tabelul 5.2

În Figura 3.15, am reprezentat cu box-and-whisker un set de date discrete ce continedoua valori aberante. Aici dreptunghiul afost crestat (notched box-and-whisker plot);lungimea crestaturii oferind un interval deîncredere pentru mediana. Valorile aberantesunt reprezentate in figura prin puncte inafata range-ului datelor.

Figura 3.15: Box-and-whisker plot pentruun set de date discrete

. Q: What did the box-and-whisker say to the outlier?

. A: "Don’t you dare get close to my whisker!!"

3.4 Masuri descriptive ale datelor grupateConsideram un set de date statistice grupate (de volum n), ce reprezinta observatii asupravariabilei X . Pentru o selectie cu valorile de mijloc x1, x2, . . . , xr si frecventele absolute

corespunzatoare, f1, f2, . . . , fr, cur

∑i=1

fi = n, definim:

Page 54: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

54 Capitolul 3. Elemente de Statistica descriptiva

x f =1n

r

∑i=1

xi fi, media (empirica) de selectie, (sau, media ponderata)

s2 =1

n−1

r

∑i=1

fi(xi− x f )2 =

1n−1

(r

∑i=1

x2i fi−n x2

f

), dispersia (varianta) empirica,

s =√

s2, deviatia empirica standard.

Formule similare se pot da si pentru masurile descriptive ale întregii populatii.Mediana pentru un set de date grupate este acea valoare ce separa toate datele în douaparti egale. Se determina mai întâi clasa ce contine mediana (numita clasa mediana), apoipresupunem ca în interiorul fiecarei clase datele sunt uniform distribuite. O formula dupacare se calculeaza mediana este:

me = l +n2 −Fme

fmec,

unde: l este limita inferioara a clasei mediane, n este volumul selectiei, Fme este sumafrecventelor pâna la (exclusiv) clasa mediana, fme este frecventa clasei mediane si c estelatimea clasei.Similar, formulele pentru cuartile sunt:

q1 = l1 +n4 −Fq1

fq1

c si q3 = l3 +3n4 −Fq3

fq3

,

unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective,iar Fq este suma frecventelor pâna la (exclusiv) clasa ce contine cuartila, fq este frecventaclasei unde se gaseste cuartila.Pentru a afla modul unui set de date grupate, determinam mai întâi clasa ce contine aceastavaloare (clasa modala), iar modul va fi calculat dupa formula:

Mod = l +d1

d1 +d2c,

unde d1 si d2 sunt frecventa clasei modale minus frecventa clasei anterioare si, respectiv,frecventa clasei modale minus frecventa clasei posterioare, l este limita inferioara a claseimodale si c este latimea clasei modale.

3.5 Transformari de dateUneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru aobtine valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilorobservate (folosind functiile ln sau log10, daca valorile sunt toate pozitive), radacina patrataa valorilor, transformarea logit, radacini de ordin superior etc. In Tabelul 3.11 am sugerattipul de transformare ce poate fi utilizat in functie de coeficientul de skewness γ1.

Page 55: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.5 Transformari de date 55

În ce conditii. . . skewness formuladate aproape simetrice −0.5 < γ1 < 0.5 nicio transformareskewness moderat pozitiv, date nenegative 0.5≤ γ1 < 1 yi =

√xi

skewness moderat pozitiv, exista date < 0 0.5≤ γ1 < 1 yi =√

xi +Cskewness moderat negativ −1 < γ1 ≤ 0.5 yi =

√C− xi

skewness mare negativ γ1 ≤−1 yi = ln(C− xi)skewness mare pozitiv, date pozitive γ1 ≥ 1 yi = lnxiskewness mare pozitiv, exista date ≤ 0 γ1 ≥ 1 yi = ln(xi +C)

Tabela 3.11: Exemple de transformari de date statistice

Aici, C > 0 este o constanta ce poate fi determinata astfel incat datele transformate sa aibaun skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ceface transformarea este definita. În loc de functia ln se poate folosi si logaritmul în altabaza, e.g., functia log10.De exemplu, presupunem ca datele observate sunt x1, x2, . . . , xn si acestea nu sunt toatepozitive, cu un coeficient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoareaminima a datelor; aceasta este xmin =−0.8464. Pentru a obtine un set de valori pozitive,vom adauga valoarea 1 la toate datele observate. Apoi, logaritmam valorile obtinute.Cele doua procedee cumulate sunt echivalente cu folosirea directa a formulei ln(1+ xi)(adunand valoarea 1, am facut toate argumentele logaritmului pozitive). Obtinem astfelun nou set de date, si anume y1, y2, . . . , yn, unde yi = ln(1+ xi). Un exemplu este cel dinFigura 3.16. Se observa ca datele logaritmate sunt aproape normale. O analiza statisticapoate fi condusa pentru datele yi, urmand ca, eventual, la final sa aplicam transformareainversa xi = eyi−1 pentru a transforma rezultatele pentru datele initiale.

Figura 3.16: Datele intiale si datele logaritmate

Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilorin punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentrua determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatoriistatistici atat pentru datele transformate, cat si pentru datele originale. Un exemplu este celdin Tabelul 3.12.

Page 56: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

56 Capitolul 3. Elemente de Statistica descriptiva

Indicatorul datele originale datele tranformatexi yi = ln(1+ xi)

Minimum −0.8464 −1.8734Maximum 14.1107 2.7154Media 6.02142 1.51Cuartila q1 3.1152 0.6532Mediana 6.5200 1.2512Cuartila q3 8.7548 1.5785Deviatia standard 5.2511 0.7524Dispersia 27.5741 0.5661Skewness 6.2322 0.0233Kurtosis 78.6077 2.9786Numarul de observatii 100 100χ2 pentru testul de normalitate (cu 7 grade de libertate) − 7.1445

Tabela 3.12: Exemplu de indicatori pentru datele originale si pentru datele transformate

3.5.1 Functii MATLAB specifice pentru masurile descriptive.mean(x) % media valorilor elementelor lui x;geomean(x) % media geometrica a elementelor lui x;harmmean(x) % media armonica a elementelor lui x;quantile(x,alpha) % cuantila de ordin α a vectorului x;iqr(x) % distanta intercuantilica, x0.75− x0.25;median(x) % valoarea mediana a lui x;std(x), var(x) % deviatia standard si dispersia valorilor lui x;range(x) % amplitudinea (range) vectorului x;mode(x) % modul lui x;zscore(x) % realizeaza scorul elementelor lui x;moment(x,k) % momentul de ordin k al lui x;sort(x) % sorteaza crescator elementele vectorului x;max(x), min(x) % maximum si minimum pentru elementele lui x;skewness(x) % skewness pentru elementele lui x;kurtosis(x) % kurtosis pentru elementele lui x;prctile(x,p) % percentilele de ordin p ale lui x;cdfplot(x) % reprezinta grafic functia de repartitie empirica a lui x;cov(x,y) % covarianta dintre x si y;corrcoef(x,y) % coeficientul de corelatie dintre x si y;LEGEstat(<param>) % afiseaza media si dispersia pentru LEGE(<param>);

Tabela 3.13: Functii MATLAB specifice pentru masuri descriptive.

Page 57: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.6 Exercitii rezolvate 57

3.6 Exercitii rezolvateExercitiu 3.1 Urmatorul set de date reprezinta preturile (în mii de euro) a 20 de case,vândute într-o anumita regiune a unui oras:

113 60.5 340.5 130 79 475.5 90 100 175.5 100

111.5 525 50 122.5 125.5 75 150 89 100 70

(a) Determinati amplitudinea, media, mediana, modul, deviatia standard, cuartilele sidistanta intercuartilica pentru aceste date. Care valoare este cea mai reprezentativa?(b) Desenati diagrama box-and-whiskers si comentati-o. Exista valori aberante?(c) Calculati coeficientii de asimetrie si de aplatizare.R: Rearanjam datele în ordine crescatoare:

50 60.5 70 75 79 89 90 100 100 100 111.5

113.5 122.5 125.5 130 150 175.5 340.5 475.5 525

Amplitudinea este 525 − 50 = 475,media lor este 154.15, mediana este100+111.5

2= 105.75, modul este 100, cuartila

inferioara este q1 =79+89

2= 84, q2 = me,

cuartila superioara este q3 =130+150

2= 140

si distanta intercuartilica este d = q3−q1 = 56.Mediana este valoarea cea mai reprezentativa înacest caz, deoarece cele mai mari trei preturi,anume 340.5, 475.5, 525, maresc media si o facmai putin reprezentativa pentru celelalte date.În cazul în care setul de date nu este simetric,valoarea mediana este cea mai reprezentativavaloare a datelor. Figura 3.17: Box-and-whisker plot pentru

datele din Exercitiul 3.1

Deviatia standard este s =

√1

n−1

n

∑i=1

(xi− x)2 = 133.3141. Folosind formulele,

gasim ca γ1 = 1.9598 (asimetrie la dreapta) si K = 5.4684 (boltire pronuntata). Valorileaberante sunt cele ce se afla in afara intervalului

[q1−1.5(q3−q1), q3 +1.5(q3−q1)] = [0, 178].

Se observa ca valorile 340.5,475.5 si 525 sunt valori aberante, reprezentate prin puncte infigura. În MATLAB,

X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ...

111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70];

a = range(X); m = mean(X); me = median(X); Mo = mode(X); boxplot(X)

Page 58: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

58 Capitolul 3. Elemente de Statistica descriptiva

Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75);

d = Q3 - Q1; g1 = skewness(X); K = kurtosis(X);

Exercitiu 3.2 Consideram datele din Tabelul 3.5.(a) Determinati amplitudinea, media, mediana, modul, dispersia si distanta intercuartilicapentru aceste date.(b) Desenati diagrama box-and-whiskers si comentati-o. Exista valori aberante?R: Amplitudinea este a = 30. Folosind centrele claselor, media este

x =∑(x · f )

n=

170

(2.5 ·5+7.5 ·13+12.5 ·23+17.5 ·17+22.5 ·10+27.5 ·2) = 13.93.

Dispersia este:

s2 =1

n−1(∑(x2 · f )−n · x2)

=1

69(2.52 ·5+7.52 ·13+12.52 ·23+17.52 ·17+22.52 ·10+27.52 ·2 − 70 ·13.932)

≈ 37.06.

Clasa mediana este clasa [10, 15). Deoarece în clasele anterioare ([0, 5) si [5, 10)) se afladeja 5+13 = 18 date mai mici decât mediana, pentru a afla valoarea mediana a plantelor(i.e., acea valoare care este mai mare decât alte 35 de valori la stanga ei si mai mica decâtalte 35 de plante de la dreapta sa), va trebui sa determinam acea valoare din clasa medianace este mai mare decât alte 17 valori din aceasta clasa. Asadar, avem nevoie de a determinao fractie 17

23 dintre valorile clasei mediane. În concluzie, valoarea mediana este

me = 10+35−18

23×5 = 13.6957.

Clasa modala este [10, 15), iar modul este Mo = 10+ 1010+6 ×5 = 13.125.

Calculam acum prima cuartila dupa formula q1 = l1 +n4 −Fq1

fq1

. Clasa in care se gaseste

prima cuartila este [5, 10) (o valoare din acest interval va avea la stanga sa 70/4 dintrevalorile observate). Avem: Fq1 = 5, fq1 = 13, c = 5, de unde q1 = 9.8077.Similar, clasa in care se gaseste a treia cuartila este [15, 20) (o valoare din acest intervalva avea la dreapta sa 70/4 dintre valori. Avem: Fq3 = 41, fq3 = 10, c = 5, de undeq3 = 18.3824.Folosind MATLAB:

X = [5*rand(1,5), 5+5*rand(1,13),10+5*rand(1,23), 15+5*rand(1,17), ...

20+5*rand(1,10), 25+5*rand(1,2)]; % datele

x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor

f = [5; 13; 23; 17; 10; 2]; % frecventele

n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);

q1 = quantile(X,0.25); me = median(X); q3 = quantile(X,0.75);

Page 59: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.6 Exercitii rezolvate 59

Exercitiu 3.3 O companie de asigurari a înregistrat numarul de accidente pe saptamânace au avut loc într-un anumit sat, în decurs de un an (52 de saptamâni). Acestea sunt, înordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2

4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2

(a) Construiti un tabel de frecvente care sa contina numarul de accidente, frecventeleabsolute si relative.(b) Gasiti media empirica, mediana si deviatia standard empirica.(c) Reprezentati prin bare rezultatele din tabelul de frecvente.(d) Gasiti si reprezentati grafic (cdfplot) functia de repartitie empirica a numarului deaccidente.R: (a) Tabelul de frecvente este Tabelul 3.14. (b) Avem:

numarul 0 1 2 3 4frecv. abs. 7 9 14 12 10frecv. rel. 0.1346 0.1731 0.2692 0.2308 0.1923

Tabela 3.14: Tabel de frecvente pentru Exercitiu 3.3

x =1

52

52

∑i=1

xi = 2.1731, s =

√√√√ 151

52

∑i=1

(xi− x)2 = 1.3094, me = 2.

(c) Reprezentarea prin bare a numarului de accidente si graficul lui F∗n (x) sunt reprezentateîn Figura 3.18.

(d) Functia de repartitie empiricaeste:

F∗n (x)=

0, daca x < 0;752 , daca x ∈ [0, 1);1652 , daca x ∈ [1, 2);3052 , daca x ∈ [2, 3);4252 , daca x ∈ [3, 4);1, daca x≥ 4.

Figura 3.18: Reprezentarea numarului de accidente

Codul MATLAB pentru calcule si grafice este:

Page 60: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

60 Capitolul 3. Elemente de Statistica descriptiva

Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];

m = mean(Y); s = std(Y); me = median(Y);

subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare

subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice

3.7 Exercitii propuseExercitiu 3.4 Pentru un set de 5 valori, media empirica este x = 50 si dispersia empiricaeste s2 = 4. Daca trei dintre valori sunt 48, 51, 52, determinati si celelalte doua valori.

Exercitiu 3.5 Se considera urmatoarea selectie de note obtinute de elevii unei scoli la tezade Matematica.

5, 7, 8, 6, 9, 7, 10, 4, 7, 9, 6, 5, 7, 8, 7

6, 10, 8, 6, 9, 4, 7, 5, 8, 8, 7, 5, 4, 8, 6

(a) Determinati media, deviatia standard si mediana pentru aceasta selectie.(b) Grupati datele si scrieti functia de repartitie empirica.(c) Reprezentati un box-and-whisker plot pentru date.

Exercitiu 3.6 Pentru evaluarea rezultatelor obtinute la proba de Matematica a examenuluide Bacalaureat de catre elevii unei scoli, s-a facut un sondaj de volum 30 printre eleviiscolii, notele fiind urmatoarele:

3.72 7.45 4.65 6.95 5.00 4.30 8.93 7.14 8.24 6.67

9.33 9.05 5.86 6.75 7.20 7.28 6.65 5.90 7.75 4.33

7.18 8.00 5.50 7.70 4.12 8.40 7.00 6.90 5.00 7.80

(a) Descrieti datele folosind o reprezentare stem& leaf.(b) Calculati media, dispersia si mediana pentru selectia considerata.(c) Determinati cele cinci masuri statistice din five number summary(d) Reprezentati un box-and-whisker plot pentru date.(e) Ionel a obtinut nota 8.45 la examen. Determinati scorul sau.

Exercitiu 3.7 Tabelul de mai jos contine notele la Matematica a 10 elevi dintr-o anumitascoala obtinute la: testul de simulare a examenului de Bacalaureat (T) si la examenulBacalaureat (B).

T 6.15 5.75 8.45 8.90 7.83 6.50 10 4.50 9.25 7.65B 7.23 6.00 7.76 9.63 6.90 6.33 9.90 3.24 8.67 7.90

(a) Reprezentati cele doua seturi de date prin câte un box-and-whisker plot, în aceeasifigura.(b) Reprezentati datele din tabel printr-o diagrama scatter.(c) Calculati coeficientul de corelatie empirica între notele la cele doua teste.

Page 61: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

3.7 Exercitii propuse 61

Exercitiu 3.8 Consideram diagrama stem-and-leaf din Figura 3.3. Raspundeti laurmatoarele cerinte:(a) Aflati cuartilele si distanta interquartilica;(b) Exista valori extreme pentru acest set de date?(c) Construiti diagrama box-and-whiskers pentru acest set de date;(d) Care este valoarea maxima cu care putem înlocui cea mai mica observatie fara a afectavaloarea primei cuartile?

Exercitiu 3.9O companie foloseste doua masini pentru a pro-duce batoane de ciocolata. Pentru a controlacalibrarea masinilor, au fost alese aleator câte30 de batoane de ciocolata produse de fiecaremasina. Datele rezultate în urma cântaririi aces-tor batoane sunt reprezentate grafic în diagramaalaturata. Comparati si comentati datele din celedoua esantioane.

Page 62: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘
Page 63: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4. Notiuni de Teoria selectiei

. [A statistical fact: 50% of marriages end in divorce.

. Thus, if you don’t file for divorce, your wife will.]

4.1 Consideratii generaleDupa cum am vazut anterior, printr-o colectivitate statistica (sau populatie) întelegem omultime nevida Ω de elemente care este cercetata din punct de vedere al uneia sau maimultor caracteristici. Elementele colectivitatii le vom numi indivizi (sau unitati statistice).Vom nota cu ω o unitate statistica. Daca populatia este finita, atunci numarul n al unitatilorstatistice ce o compun (i.e., card(Ω)) îl vom numi volumul colectivitatii (sau volumulpopulatiei).Consideram o populatie (colectivitate statistica) Ω. Studiem populatia Ω din punctul devedere al unei caracteristici a sale, X . Aceasta caracteristica este o anumita proprietateurmarita la indivizii ei în procesul prelucrarii statistice si o vom asimila cu o variabilaaleatoare definita pe Ω. Problema esentiala a Statisticii Matematice este de a stabililegea de probabilitate pe care o urmeaza caracteristica X . Pentru a gasi aceasta lege(repartitie), avem nevoie mai întâi de un numar reprezentativ de observatii (o selectie)asupra colectivitatii Ω. Pe baza acestor observatii, vom determina prin inferenta o legecare sa reprezinte variabila X .

Vom numi selectie (sau esantion, sondaj) o subcolectivitate a colectivitatii cercetate Ω.Numarul elementelor selectiei poarta numele de volumul selectiei (esantionului). Selectiilepot fi repetate sau nerepetate. O selectie se numeste repetata (sau bernoulliana) daca dupaexaminarea individului acesta se reintroduce în colectivitate; în caz contrar avem o selectienerepetata. În practica, volumul colectivitatii Ω este mult mai mare decât volumul selectiei.

Page 64: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

64 Capitolul 4. Notiuni de Teoria selectiei

În aceste cazuri, selectia nerepetata poate fi considerata ca fiind selectie repetata. Selectiilepe care le vom considera în continuare sunt numai selectii repetate din colectivitateastatistica.Mai jos, vom prezenta aceste selectii repetate într-un cadru matematic abstract. Pentru oabordare mai detaliata, se poate consulta [nenciu]).Consideram spatiul masurabil (Ω, F ), unde F este un corp borelian de parti ale lui Ω.Caracteristica X urmarita poate fi reprezentata de o variabila aleatoare definita pe (Ω, F ).Din punct de vedere practic, F reprezinta o colectie de submultimi a lui Ω pentru careputem atribui probabilitatea. Dorim sa definim matematic o selectie repetata de volumn. Euristic, ideea este urmatoarea: a efectua n sondaje repetate dintr-o multime Ω, esteechivalent cu a considera o singura selectie dintr-o populatie de genul "Ω multiplicat de nori". Construim astfel:

Ω(n) = Ω×Ω×·· ·×Ω, F (n) = F ×F ×·· ·×F ,

produs cartezian de n ori. Un element al lui Ω(n) va fi

ω(n) = (ω1, ω2, . . . , ωn),

numita selectie repetata de volum n. Cuplul (Ω(n), F (n)) se numeste spatiul selectiilorrepetate de volum n. Consideram variabilele aleatoare

Xi : Ω(n)→ R, Xi(ω

(n)) = X(ωi), ∀i = 1, n.

Acestea sunt variabile aleatoare definite pe (Ω(n), F (n)), sunt independente stochastic(pentru ca v.a. X(ωi)i=1,2, ...,n sunt independente) si sunt identic repartizate, cu functiade repartitie comuna FX (se verifica usor ca FXi = FX , ∀i = 1, 2, . . . , n). Vom numi Xi, i =1, 2, . . . , n, variabile aleatoare de selectie repetata de volum n. Vom numi vector deselectie repetata de volum n, vectorul Y , astfel încât:

Y : Ω(n)→ R, Y (ω(n)) = (X1(ω

(n)), X2(ω(n)), . . . , Xn(ω

(n))).

Pentru un ω(n) fixat, componentele vectorului Y (ω(n)) se numesc valori de selectie repetatade volum n. Vom nota cu

Ln = Y (Ω(n))⊂ Rn,

si-l vom numi spatiul valorilor de selectie repetata de volum n. Elementele lui Ln le vomnota prin

x = (x1, x2, . . . , xn),

(xi = Xi(ω(n)), pentru ω(n) fixat, i = 1, 2, . . . , n).

Vom numi statistica (sau functie de selectie) variabila aleatoare

Sn(X) = g(X1, X2, . . . , Xn),

unde g este o functie g : Rn→ R masurabila.Ca o observatie, numele de "statistica" este folosit în literatura de specialitate atât pentruvariabila aleatoare de mai sus, cât si pentru valoarea ei, întelesul exact desprinzându-se din context. Repartitia unei statistici se mai numeste si repartitia (distributia) de selectie.

Page 65: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4.2 Statistici de selectie si distributiile lor 65

Notatia 4.1 În literatura, statistica este notata cu una dintre urmatoarele:

Sn(X), S(X , ω(n)), S(X , n), S(X1, X2, . . . , Xn),

sau, eventual, cu alte litere în loc de S. Statisticile medie de selectie si dispersie de selectieau notatii aparte, si anume X , respectiv S2

X (sau, daca nu este pericol de confuzie, S2).Valoarea numerica

Sn(x) = g(x1, x2, . . . , xn)

se numeste valoarea functiei de selectie pentru un ω(n) fixat.Observatia 4.1 Asadar, o statistica este o functie de variabilele aleatoare de selectie. Prinintermeniul statisticilor putem trage concluzii despre populatia Ω, din care a provenitesantionul ω(n). Teoria probabilitatilor ne ofera procedee de determinare atât a repartitieiexacte a lui Sn(X) (daca este posibil), cât si a repartitiei asimptotice a lui Sn(X). Repartitiaexacta este acea repartitie ce poate fi determinata pentru orice volum al selectiei. În general,daca se lucreaza cu selectii de volum redus (n < 30), atunci repartitia exacta ar trebui sa fiecunoscuta a priori, daca se doreste luarea de decizii prin inferenta. Repartitia asimptoticaeste repartitia limita a Sn(X) când n→ ∞, iar utilizarea acesteia conduce la rezultate bunedoar pentru n≥ 30.De cele mai multe ori, o statistica este utilizata în urmatoarele cazuri:

• în probleme de estimare punctuala a parametrilor;• în obtinerea intervalelor de încredere pentru un parametru necunoscut;• ca o statistica test pentru verificarea ipotezelor statistice.

4.2 Statistici de selectie si distributiile lorFie (Ω, F ) o colectivitate statistica si X o caracteristica cercetata a sa. Sa notam cuf (x) si F(x) densitatea de repartitie (sau functia de probabilitate), respectiv, functia derepartitie pentru X . Acestea pot fi cunoscute sau necunoscute a priori si le vom numifunctii teoretice (densitate de repartitie teoretica sau functie de probabilitate teoreticapentru f si functie de repartitie teoretica pentu F). Daca se cunoaste f (x), atunci putemdetermina µ = E(X) si σ2 =Var(X), daca acestea exista, si le vom numi medie teoreticasi dispersie teoretica.În cazul în care una sau mai multe caracteristici teoretice corespunzatoare lui X nu nesunt a priori cunoscute, vom cauta sa le determinam prin inferenta, adica prin extragereaunor selectii de date din colectivitate, calculând caracteristicile respective pentru selectiileconsiderate si apoi extrapolând (în anumite conditii si dupa anumite criterii) la întreagacolectivitate.Sa consideram ω(n) o selectie repetata de volum n din colectivitatea data siXi, i = 1, 2, . . . , n, variabilele aleatoare de selectie. Cu ajutorul acestora, putemconstrui diverse functii de selectie. Mai jos discutam câteva dintre acestea.

1. Media de selectie: Numim medie de selectie (de volum n), statistica

X =1n

n

∑i=1

Xi.

Page 66: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

66 Capitolul 4. Notiuni de Teoria selectiei

Valoarea mediei de selectie pentru valori ale acestor variabile aleatoare este media empirica(media valorilor observate):

x =1n

n

∑i=1

xi.

Propozitie 4.2.1 Pentru o variabila aleatoare de medie µ si deviatie standard σ , media deselectie X corespunzatoare lui X satisface urmatoarele proprietati:

[1] E(X) = µ; Var(X) =σ2

n; σ(X) =

σ√n

[2] X a.s.−→ µ (n→ ∞).

Convergenta de la [2] spune ca media de selectie X se apropie mult de media teoretica apopulatiei atunci când volumul selectiei este mare.Observatia 4.2 (1) În unele situatii vom nota prin µX si prin σX media de selectie,respectiv, deviatia standard de selectie a lui X .(2) Propozitia 4.4.2 precizeaza care este repartitia mediei de selectie pentru variabilealeatoare de selectie dintr-o colectivitate normala, iar Propozitia 4.4.4 precizeaza careeste repartitia asimptotica a mediei de selectie pentru variabile de selectie de volum mareselectate dintr-o colectivitate oarecare.(3) Daca selectia se face fara revenire dintr-o populatie de volum mic, cu volumul selectiein comparativ cu volumul populatiei N (n > 0.05N) si X nu este neaparat normal repartizata,atunci putem spune doar ca

E(X) = µ si σ(X) =σ√

n

√N−nN−1

,

fara a putea preciza care este repartitia asimptotica a lui X .

2. Dispersie de selectie (sau varianta selectiei): Numim dispersie de selectie (de volumn), statistica S2 (sau S2

X , daca avem mai multe variabile) definita prin:

S2 =1

n−1

n

∑i=1

[Xi−X ]2.

Valoarea dispersiei de selectie pentru valori ale variabilelor aleatoare de selectie estedispersia (sau variatia) empirica, pe care o vom nota cu s2 (sau s2

X , daca avem mai multevariabile). Aceasta este

s2 =1

n−1

n

∑i=1

[xi− x]2.

În anumite situatii, în locul lui S2 se mai utilizeaza statistica S2∗(X), definita prin:

S2∗ =

1n

n

∑i=1

[Xi−X ]2.

Page 67: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4.2 Statistici de selectie si distributiile lor 67

Motivatia pentru considerarea statisticii S2 în detrimentul lui S2∗ este data de faptul ca prima

statistica estimeaza variatia teoretica σ2 mai bine decât cea de-a doua. Aceste statisticisatisfac urmatoarele proprietati:

Propozitie 4.2.2 Pentru o variabila aleatoare de medie µ si deviatie standard σ , dispersiilede selectie S2 si S2

∗ corespunzatoare lui X satisface urmatoarele proprietati:

[1] E(S2) = σ2 E(S2

∗) =n−1

2

[2] S2 prob−→ σ2 (n→ ∞)

Observatia 4.3 (1) Daca media teoretica a colectivitatii este cunoscuta a priori, E(X) =µ ∈ R, atunci se mai poate defini dispersia de selectie d2(X) prin formula:

d2(X) =1n

n

∑i=1

[Xi−µ]2. (4.2.1)

(2) Dupa cum vom vedea în capitolul urmator, primele doua relatii arata ca statisticaS2 este un estimator nedeplasat pentru dispersia teoretica σ2, pe când S2

∗ este estimatordeplasat pentru σ2. Propozitiile 4.4.6 si 4.4.7 precizeaza repartitiilor dispersiilor deselectie pentru colectivitati normale.

3. Functia de repartitie de selectie Fie X1, X2, . . . , Xn variabile aleatoare de selectierepetata de volum n pentru caracteristica X ce are functia de repartitie F(x). Numim functiede repartitie de selectie (de volum n), functia F∗n : R×Ω(n)→ [0, 1] definita prin

F∗n (x,ω(n)) =

n(x)n

, ∀x ∈ R,

unde n(x) = card i, Xi(ω(n))≤ x reprezinta numarul de elemente din selectie mai mici

sau egale cu x. Relatia din definitie poate fi scrisa si sub forma:

F∗n (x) =1n

n

∑i=1

χ(−∞,x](Xi), ∀x ∈ R, (4.2.2)

unde χA este functia indicatoare a multimii A.Pentru un x ∈ R fixat, nF∗n este o variabila aleatoare repartizata binomial B(n, F(x)).Pentru o selectie ω(n) fixata, F∗n (x) ia valorile:

F∗n (x) =card i, xi ≤ x

n,

(i.e., este functia de repartitie empirica).

Page 68: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

68 Capitolul 4. Notiuni de Teoria selectiei

Propozitie 4.2.3 Functia de repartitie de selectie satisface urmatoarele proprietati:

[1] E(F∗n (x)) = F(x), ∀x ∈ R;

[2] Var(F∗n (x)) =1n

F(x)(1−F(x)), ∀x ∈ R.

Observatia 4.4 În Statistica, exista o serie de criterii care permit sa se aprecieze apropie-rea lui F∗n (x) de F(x). Mai jos, amintim doar doua dintre ele.(1) Functia de repartitie de selectie satisface convergenta

F∗n (x)a.s.−−−→

n→∞F(x), ∀x ∈ R.

Acest rezultat este o consecinta directa a legii tari a numerelor mari. Într-adevar, deoareceF∗n (x) se poate scrie sub forma (4.2.2) (i.e., o suma de variabile aleatoare identic repartizatesi independente stochastic), LTNM implica

F∗n (x)a.s.−−−→

n→∞E(χ(−∞,x](X)) = P(X ≤ x) = F(x), ∀x ∈ R.

(2) Pentru n ∈ N suficient de mare, functia de repartitie de selectie satisface proprietatea

√n(F∗n (x)−F(x)) ∼ N (0,

√F(x)(1−F(x))), x fixat în R.

Altfel spus, variabila√

n(F∗n (x)− F(x)) converge în repartitie la o variabila normalaN (0,

√F(x)(1−F(x)).

4.3 Statistici de ordineDaca variabilele aleatoare din selectia X1, X2, . . . , Xn le rearanjam în ordinea marimiilor si scriem

X(1) ≤ X(2) ≤ ·· · ≤ X(n),

atunci vom numi variabila aleatoare X(i) statistica de ordine de ordin i, pentru oricei = 1, 2, . . . , n. Pentru o selectie data, valoarea statisticii de ordine de ordin i o vom notaprin x(i), pentru orice i = 1, 2, . . . , n.Statistica X(1) se numeste prima statistica de ordine si este întotdeauna minimumul selectiei,i.e.,

X(1) = minX1, X2, . . . , Xn.Statistica X(n) se numeste ultima statistica de ordine si este întotdeauna maximumulselectiei, i.e.,

X(n) = maxX1, X2, . . . , Xn.De exemplu, daca avem valorile de selectie

x1 = 8, x2 = 7, x3 = 9, x4 = 5, x5 = 3,

Page 69: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4.3 Statistici de ordine 69

atuncix(1) = 3, x(2) = 5, x(3) = 7, x(4) = 8, x(5) = 9.

Daca n = 2m+1, atunci X(m+1) = X( n+12 ) = MeX , adica mediana de selectie este o statistica

de ordine în acest caz. Daca n = 2m, atunci avem doua valori de mijloc, X(m) si X(m+1).Deoarece MeX = 1

2(X(m)+X(m+1)), mediana de selectie nu este statistica de ordine pentrun par.Definim amplitudinea (range) selectiei ca fiind statistica A = X(n)−X(1). StatisticileX(n)−MeX si X(1)−MeX se numesc deviatiile extreme ale selectiei.Desi variabilele aleatoare de selectie sunt independente, totusi statisticile de ordine suntdependente.Sa presupunem ca F(x) este functia de repartitie a selectiei date si f (x) densitatea derepartitie. Urmatoarea propozitie stabileste functiile de repartitie pentru statisticile deordine.

Propozitie 4.3.1 Pentru un k = 1, 2 . . . , n fixat, functia de repartitie pentru X(k) este:

FX(k)(x) =n

∑j=k

C jnF(x) j[1−F(x)]n− j, pentru orice x ∈ R.

Demonstratie. Avem succesiv:

FX(k)(x) = P(X(k) ≤ x)

= P(cel putin k v.a. din cele n nu depasesc pe x)= P(cel putin k succese în n încercari)

=n

∑j=k

C jn[P(X ≤ x)] j[1−P(X ≤ x)]n− j

=n

∑j=k

C jnF(x) j[1−F(x)]n− j, pentru orice x ∈ R.

În particular, pentru k = 1, obtinem ca functia de repartitie a celui mai mic element alselectiei:

FX(1)(x) = 1− [1−F(x)]n, pentru orice x ∈ R.Functia de repartitie a celui mai mare element al selectiei este:

FX(n)(x) = [F(x)]n, pentru orice x ∈ R.

În particular, densitatile de repartitie pentru X(1) si X(n) sunt:

fX(1)(x) = n[1−F(x)]n−1 f (x), pentru orice x ∈ R

sifX(n)(x) = n[F(x)]n−1 f (x), pentru orice x ∈ R.

Page 70: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

70 Capitolul 4. Notiuni de Teoria selectiei

Exemplu 4.1 La finala de 100m viteza masculin din cadrul campionatelor mondiale deatletism în aer liber, timpii de sosire ai celor 8 sportivi calificati sunt variabile aleatoareindependente stochastic, identic repartizate U (9.5s, 10.5s). Calculati urmatoareleprobabilitati:(1) Probabilitatea ca recordul mondial de 9.58s sa cada;(2) Probabilitatea ca toti candidatii sa termine cursa cu timpi de sosire pâna în 10s.(3) Probabilitatea ca macar 3 atleti sa termine cursa sub 9.7s.

R: Deoarece T ∼U (9.5s, 10.5s), atunci FT (x) =

0, daca x≤ 9.5x−9.5, daca 9.5 < x < 10.51, daca x≥ 10.5

Atunci:

P1 = P(T(1) ≤ 9.58) = FT(1)(9.58) = 1− [1−F(9.58)]8 = 1−0.928 ≈ 0.4868.

P2 = P(T(8) ≤ 10) = FT(8)(10) = [F(10)]8 = 0.58 ≈ 0.004.

P3 = P(T(3) ≤ 9.7) = FT(3)(9.7) =8

∑j=3

C j8F(9.7) j[1−F(9.7)]8− j ≈ 0.4049.

4.4 Selectii aleatoare pentru caracteristici normaleSa consideram Ω o colectivitate statistica si X o caracteristica a sa, ce urmeaza a fi studiatadin punct de vedere statistic. Fie X1, X2, . . . , Xn variabile aleatoare de selectie repetatade volum n. În cele mai multe cazuri practice, X urmeaza o repartitie normala (gaussiana).De regula, daca volumul populatiei este mic (n < 30), atunci consideram doar caracteristicinormale, iar pentru o repartitie aproape simetrica cu n > 30 putem considera orice tip derepartitie pentru caracteristica. Prezentam în continuare câteva rezultate utile referitoare laselectii aleatoare pentru caracteristici normale (gaussiene).

Propozitie 4.4.1 Daca ξi ∼N (µi, σi) sunt variabile aleatoare independente stochastic si

ai ∈ R, i = 1, 2, . . . , n, atunci variabila aleatoare ξ =n

∑i=1

aiξi satisface proprietatea:

ξ ∼N

(n

∑i=1

aiµi,

√n

∑i=1

a2i σ2

i

).

Daca ai = 1/n, ∀i, atunci obtinem:

Page 71: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4.4 Selectii aleatoare pentru caracteristici normale 71

Propozitie 4.4.2 (repartitia mediei de selectie pentru o variabila gaussiana)Daca X ∼N (µ, σ) si Xi, i = 1, 2, . . . , n, sunt variabilele aleatoare de selectie, atuncistatistica X satisface:

X ∼N

(µ,

σ√n

). (n ∈ N∗)

O consecinta directa a acestei propozitii este urmatoarea:

Propozitie 4.4.3 Daca Xi∼N (µ, σ), ∀i= 1, 2, . . . , n, sunt variabile aleatoare de selectie,atunci

Z =X−µ

σ√n

∼N (0, 1).

Observatia 4.5 Acest rezultat va fi folosit pentru testarea mediei teoretice µ (testul Z)când dispersia teoretica este cunoscuta a priori.

Propozitie 4.4.4 (repartitia asimptotica a mediei de selectie pentru o variabila oarecare)Daca X1, X2, . . . , Xn, variabile aleatoare de selectie repetata de volum n, ce urmeaza orepartitie data, atunci pentru un volum n suficient de mare, statistica X satisface:

X ∼N

(µ,

σ√n

). (n > 30)

Observatia 4.6 (1) Daca n este suficient de mare, atunci concluzia Propozitiei 4.4.3ramâne valabila si în cazul în care avem o selectie repetata de volum n pentru o caracteris-tica ce nu este neaparat gaussiana.(2) Când selectia se face fara revenire dintr-o populatie de volum mic si X nu este neaparatnormal repartizata, atunci putem spune doar ca

µX = µ si σX =σ√

n

√N−nN−1

,

fara a putea preciza care este repartitia lui X . Aici N este volumul populatiei Ω, n > 0.05N.

Propozitie 4.4.5 Daca X ∼N (0, 1) si X1, X2, . . . , Xn, variabile aleatoare de selectierepetata de volum n, atunci variabila aleatoare

H2 =n

∑i=1

X2i ∼ χ

2(n).

Page 72: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

72 Capitolul 4. Notiuni de Teoria selectiei

Observatia 4.7 În particular, daca X ∼N (0, 1), atunci X2 ∼ χ2(1). Urmatoarea propo-zitie este tot o consecinta directa a Propozitiei 4.4.5.

Propozitie 4.4.6 (repartitia dispersiei de selectie când media caracteristicii este cunos-cuta) Daca X ∼N (µ, σ) , atunci variabila aleatoare

H2 =1

σ2

n

∑i=1

(Xi−µ)2 ∼ χ2(n).

Propozitie 4.4.7 (repartitia dispersiei de selectie când media caracteristicii este necunos-cuta) Fie X ∼N (µ, σ) caracteristica unei populatii statistice. Atunci statistica

χ2 =

1σ2

n

∑i=1

(Xi−X)2 ∼ χ2(n−1).

Observatia 4.8 Concluzia propozitiei 4.4.7 se poate rescrie astfel:

n−1σ2 S2 ∼ χ

2(n−1), (4.4.3)

unde S2 este dispersia de selectie.

Propozitie 4.4.8 Daca X ∼N (µ, σ) este caracteristica unei colectivitati statistice, atuncistatistica

t =X−µ

S√n

∼ t(n−1).

(Aici, t(n−1) este repartitia Student cu (n−1) grade de libertate).

Observatia 4.9 Acest rezultat va fi folosit pentru testarea mediei teoretice µ (testul t)când dispersia teoretica este necunoscuta a priori.

Propozitie 4.4.9 Fie ξi ∼N (µi, σi) variabile aleatoare independente stochastic si ai ∈R, i = 1, 2, . . . , n. Pentru fiecare caracteristica ξi consideram câte o selectie repetatade volum ni, si notam cu ξi media de selectie corespunzatoare fiecarei selectii. Atuncistatistica Y = a1ξ1 +a2ξ2 + . . . +anξn satisface proprietatea:

Y ∼N

(n

∑i=1

aiµi,

√n

∑i=1

a2i

σ2i

ni

).

Page 73: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4.4 Selectii aleatoare pentru caracteristici normale 73

Urmatoarea propozitie este un caz particular al Propozitiei 4.4.9, cu n = 2, ξ1 = X , ξ2 =Ysi a1 = 1, a2 =−1.

Propozitie 4.4.10 (repartitia diferentei mediilor de selectie pentru caracteristici gaus-siene, când dispersiile sunt cunoscute)Consideram o selectie de volum n1 pentu o variabila normala X ∼N (µ1, σ1) si o selectiede volum n2 pentru o variabila normala Y ∼N (µ2, σ2), cele doua selectii fiind alese inde-pendent una de cealalta. Notam cu X si, respectiv, Y mediile de selectie corespunzatoareselectiilor alese. Atunci statistica

X−Y ∼ N

µ1−µ2,

√σ2

1n1

+σ2

2n2

.

Observatia 4.10 (1) Concluzia propozitiei anterioare se mai poate scrie astfel:

Z =(X−Y )− (µ1−µ2)√

σ21

n1+

σ22

n2

∼ N (0, 1).

(2) Sa consideram doua variabile normale X si Y , ce urmeaza a fi studiate. De exemplu, Xsi Y sunt masele pieselor produse de doua strunguri într-o zi de lucru. Sa mai presupunemca deviatiile standard ale variabilelor considerate (σX si σY ) sunt cunoscute (i.e., deviatiilesunt date deja în cartea tehnica a celor doua strunguri). Pentru fiecare dintre cele douacaracteristici, consideram câte o selectie repetata, de volume n1, respectiv, n2 (adica, vomselecta n1 dintre piesele produse de strungul întâi si n2 piese produse de cel de-al doileastrung). Sa notam cu X1, respectiv, Y2 mediile de selectie corespunzatoare. Propozitiaanterioara precizeaza care este repartitia diferentei standardizate a celor doua medii deselectie. Aceasta ne va fi deosebit de utila, spre exemplu, în verificarea ipotezei ca maselemedii µ1 si µ2 ale pieselor produse de cele doua strunguri coincid.

Propozitie 4.4.11 (repartitia diferentei mediilor de selectie când dispersiile sunt necunos-cute, egale) Consideram o selectie de volum n1 pentu o variabila normala X ∼N (µ1, σ1)si o selectie de volum n2 pentru o variabila normala Y ∼N (µ2, σ2), cele doua selectiifiind alese independent una de cealalta. Notam cu X , Y si S2

1 = S2(X), S22 = S(Y ) mediile

de selectie si, respectiv, dispersiile de selectie corespunzatoare selectiilor alese. În plus,presupunem ca dispersiile teoretice pentru X si Y sunt egale, i.e., σ2

1 = σ22 = σ2. Atunci

statistica

T =(X−Y )− (µ1−µ2)√(n1−1)S2

1 +(n2−1)S22

√n1 +n2−2

1n1+ 1

n2

∼ t(n1 +n2−2).

Page 74: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

74 Capitolul 4. Notiuni de Teoria selectiei

Propozitie 4.4.12 (repartitia diferentei mediilor de selectie când dispersiile sunt ne-cunoscute si diferite) Consideram o selectie de volum n1 pentu o variabila normalaX ∼N (µ1, σ1) si o selectie de volum n2 pentru o variabila normala Y ∼N (µ2, σ2),cele doua selectii fiind alese independent una de cealalta. Notam cu X , Y si S2

1 = S2(X),S2

2 = S2(Y ) mediile de selectie si, respectiv, dispersiile de selectie corespunzatoare selecti-ilor alese. Presupunem ca dispersiile teoretice pentru X si Y sunt diferite, i.e., σ2

1 6= σ22 .

Atunci statistica

T =(X−Y )− (µ1−µ2)√

S21

n1+

S22

n2

∼ t(N), (4.4.4)

unde

N =

(S2

1n1

+S2

2n2

)2

(S2

1n1

)2 1n1−1

+

(S2

2n2

)2 1n2−1

− 2. (4.4.5)

Observatia 4.11 În practica, înainte de a testa egalitatea mediilor teoretice a douacaracteristici, se foloseste mai întâi un test statistic pentru testarea egalitatii variatiilor(dispersiilor) celor doua caracteristici. În functie de rezultatul acestui test, se va alegestatistica potrivita pentru a testa egalitatea mediilor.

Urmatoarele doua propozitii vor fi folosite pentru verificarea ipotezelor statistice, înproblema testarii egalitatii variatiilor teoretice σ2

1 = σ22 (testul F) când mediile teoretice

corespunzatoare sunt necunoscute a priori (Propozitia 4.4.13) sau cunoscute a priori(Propozitia 4.4.14).

Propozitie 4.4.13 (repartitia raportului dispersiilor pentru caracteristici gaussiene)Fie X ∼ N (µ1, σ1) si Y ∼ N (µ2, σ2) doua caracteristici ale unei populatii statistice.Pentru fiecare caracteristica consideram câte o selectie repetata, de volum n1, respectiv, n2.Fie S2

1 = S2(X) si S22 = S2(Y ) dispersiile de selectie corespunzatoare celor doua selectii

repetate. Atunci statistica

F =σ2

2σ2

1

S21

S22∼ F (n1−1, n2−1).

Propozitie 4.4.14 (repartitia raportului dispersiilor pentru caracteristici gaussiene)Suntem în conditiile Propozitiei 4.4.13, cu mentiunea ca mediile teoretice µ1 si µ2 sunt

Page 75: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4.5 Exercitii rezolvate 75

cunoscute a priori. Atunci

F1 =σ2

2σ2

1

d21

d22∼ F (n1, n2),

unde d21 si d2

2 sunt date de:

χ21 =

1σ2

1

n1

∑i=1

(X1 i−µ1)2 ∼ χ

2(n1), χ22 =

1σ2

2

n2

∑j=1

(X2 j−µ2)2 ∼ χ

2(n2).

4.5 Exercitii rezolvateExercitiu 4.1 Presupunem ca masa medie a unor batoane de ciocolata produse de o masinaeste o caracteristica X ∼N (100, 0.65). În vederea verificarii parametrilor masinii, dintrebatoanele primite într-un depozit s-au ales la întâmplare 1000 de bucati.(i) Calculati media si deviatia standard ale mediei de selectie, X .(ii) Calculati P(98 < X < 102).(iii) Un baton este declarat rebut daca masa sa este sub 98 de grame sau peste 102 degrame. Calculati procentul de rebuturi avute.R: (i) Stim ca media de selectie X urmeaza repartitia N (100, 0.65/

√1000). Asadar,

µX = 100, σX ≈ 0.02.

(ii) Probabilitatea P1 = P(98 < X < 102) este

P1 = P(X < 102)−P(X ≤ 98) = FX(102)−FX(98)≈ 1.

(iii) Probabilitatea de a avea un rebut este:

P2 = P(X < 98

⋃X > 102

)= P(X < 98)+P(X > 102)= FX(98)+1−FX(102),

de unde, procentul de rebuturi este

r = P2 ·100% ≈ 0.2091%,

adica aproximativ 2 rebuturi la 1000 de batoane.

În MATLAB, acestea pot fi calculate astfel:

mu = 100; sigma = 0.65; n=1000; % n = volumul selectiei

X = normrnd(mu, sigma, n,n); % am generat selectia de volum n

Xbar = mean(X); S = sigma/sqrt(n); % Xbar = media de selectie

Page 76: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

76 Capitolul 4. Notiuni de Teoria selectiei

m = mean(Xbar); s = std(Xbar); % media si deviatia standard

P1 = normcdf(102, mu, S) - normdf(98, mu, S);

P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma);

rebut = P2*100;

Exercitiu 4.2 Samponul marca FAIRHAIR se vinde acum în supermarket în trei marimi(volume): 250ml, 500ml si 1 litru. Treizeci la suta dintre cumparatorii acestui produscumpara flaconul de 250ml, 50% pe cel de 500ml, iar restul pe cel de 1 litru. Notam cu Xvolumul unui flacon de FAIRHAIR. Fie X1 si X2 volumele flacoanelor cumparate de doidintre clienti, alesi la întâmplare.(a) Determinati repartitia mediei de selectie X . Calculati media E(X) si comparati-o cuµ = E(X).(b) Calculati σ(X) si comparati-o cu σ = σ(X).(c) Calculati probabilitatea P(X ≥ 500).(d) Care ar trebui sa fie volumul minim de cumparatori pentru ca media de selectie sasatisfaca relatia P(X ≥ 500)> 0.75?R: Fie v.a. X ce reprezinta volumul ales de un cumparator. Atunci distributia lui X este:

x 250 500 1000p(x) 0.3 0.5 0.2

.

Deoarece X1 si X2 sunt variabile aleatoare de selectie, ele sunt independente ac si au aceeasirepartitie ca X . Avem ca µ = E(X) = 525 si σ = σ(X) = 25

√109.

(a) Media de selectie este X = (X1 +X2)/2. Repartitia sa este:

x 250 375 500 625 750 1000p(x) 0.09 0.3 0.25 0.12 0.2 0.04

Media este µX = E(X) = E(X) = µ = 525.

(b) σX =σ√

2= 25

√1092

< σ .

(c) P(X ≥ 500) = 0.25+0.12+0.2+0.04 = 0.61.

(d) În general, X ∼N

(µ,

σ√n

), de unde gasim ca

X−µ

σ√n∼N (0, 1) Asadar,

0.75 < P(X ≥ 500) = 1−P(X ≤ 500) = 1−P

(X−µ

σ√n≤ 500−µ

σ√n

)

= 1−Θ

(500−µ

σ√n

)= 1−Θ

(−√

n109

),

de unde

Θ

(−√

n109

)< 0.25 si −

√n

109< Θ

−1(0.25) = z0.25 =−0.6745,

si astfel n > 109 · z20.25 ≈ 50.

Page 77: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4.5 Exercitii rezolvate 77

Exercitiu 4.3 În vederea studierii unei caracteristici X ce are densitatea de repartitie

f (x) =

2x, x ∈ (0, 1);0, x 6∈(0, 1).

s-a efectuat o selectie repetata de volum n = 100. Se cere sa se determine probabilitateaP(X < 0.65), unde X este media de selectie.R: Se observa cu usurinta ca f (x) îndeplineste conditiile unei functii de repartitie, adicaeste masurabila, nenegativa si ∫

Rf (x)dx =

∫ 1

02xdx = 1.

Pentru a calcula probabilitatea ceruta, avem nevoie de E(X) si Var(X). Avem:

E(X) =∫R

x f (x)dx =∫ 1

02x2 dx =

23,

Var(X) = E(X2)− (E(X))2 =∫R

x2 f (x)dx− 49=

118

.

Asadar, repartitia mediei de selectie X este

X ∼N

(23,

1√18 ·√

100

).

Putem acum calcula probabilitatea ceruta. Ea este:

P(X < 0.65) = FX(0.65) = normcdf(0.65, 2/3, 1/(30*sqrt(2)))= 0.2398.

Exercitiu 4.4 Notam cu P1, P2, . . . , P9 preturile oferite de 9 ofertanti la o licitatie publicapentru vinderea unui anumit tablou. Presupunem ca acestea sunt variabile aleatoarerepartizate uniform U (1000, 2000). Obiectul se va vinde celui care vine cu oferta cea maimare. Determinati valoarea asteptata a pretului obtinut pentru acest tablou.

R: Deoarece P∼U (1000, 2000), atunci

f (x)=

1

1000, daca 1000 < x < 2000

0, daca x 6∈(1000, 2000)F(x) =

0, daca x≤ 1000x−1000

1000, daca 1000 < x < 2000

1, daca x≥ 2000Functia de repartitie a statisticii de ordine M = P(9) = maxP1, P2, . . . , P9 este

FT(9)(x) = [F(x)]9, x ∈ R.

Densitatea de repartitie a statisticii de ordine M este

fT(9)(x) = F ′T(9)(x) = 9[F(x)]8 f (x), x ∈ R.

Page 78: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

78 Capitolul 4. Notiuni de Teoria selectiei

Pretul de vânzare asteptat este media variabilei aleatoare M,

E(M) =

∞∫−∞

x fY (x)dx =9

1000

2000∫1000

x(

x−10001000

)8

dx = 1900.

Exercitiu 4.5 Doua avioane zboara în aceeasi directie pe doua coridoare paralele. Lamomentul t = 0, primul avion are un avans de 6km în fata celui de-al doilea. Presupunemca viteza primului avion (masurata în km/h) este o v.a. repartizata normal, cu media 510 sideviatia standard 10, iar viteza celui de-al doilea avion este normal repartizata, cu media500 si deviatia standard 10.(a) Care este probabilitatea ca, dupa 4 ore de zbor, al doilea avion sa nu îl fi ajuns peprimul?(b) Determinati probabilitatea ca, dupa 4 ore de zbor, distanta dintre cele doua avioane safie de cel mult 5km.

R: Notam cu v1 si v2 cele doua viteze. Avem ca

v1 ∼N (510,10) si v2 ∼N (500,10).

Dupa 4 ore de zbor (adica avem câte o selectie de volum 4 pentru fiecare v.a.), mediile deselectie for satisface:

v1 ∼N (510,5) si v2 ∼N (500,5).

Diferenta mediilor de selectie este o v.a. repartizata astfel:

v1− v2 ∼N (10,5√

2).

(a) Evenimentul ca, dupa 4 ore de zbor, al doilea avion sa nu îl fi ajuns pe primul este4v1−4v2 +6 > 0. Probabilitatea acestui eveniment este:

P(4v1−4v2 +6 > 0) = P(v1− v2 >−32) = 1−P(v1− v2 ≤−

32)

= 1−Fv1−v2(−32)

= 1 - normcdf(-3/2,10,5*sqrt(2))= 0.9994.

(b) Evenimentul ca, dupa 4 ore de zbor, distanta dintre cele doua avioane sa fie de celmult 5km este |4v1−4v2 +6| ≤ 5. Probabilitatea acestui eveniment este:

P(|4v1−4v2 +6| ≤ 5) = P(−11

4≤ v1− v2 ≤−

14

)= Fv1−v2

(−1

4

)−Fv1−v2

(−11

4

)= 0.0017.

În MATLAB, putem calcula astfel:

normcdf(-1/4,10,5*sqrt(2)) - normcdf(-11/4,10,5*sqrt(2)).

Page 79: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4.5 Exercitii rezolvate 79

Exercitiu 4.6 Becurile produse de un manufacturier A au timpul mediu de functionarede 1400 ore, cu deviatia standard de 200 ore, în timp ce timpul mediu de functionare alebecurilor produse de un manufacturier B au timpul mediu de functionare de 1200 ore, cudeviatia standard de 100 ore. Se face o selectie de 125 becuri din fiecare tip si se testeazabecurile alese. Pentru selectiile date, care este probabilitatea ca becurile produse de A auun timp mediu de viata mai mare cu(a) 160 de ore;(b) 250 de ore;mai mare decât timpul mediu de functionare ale becurilor produse de B?(c) Care este probabilitatea ca timpul mediu de functionare al becurilor selectate din tipulA sa fie cuprins între 1375 de ore si 1425 de ore?(d) Presupunem ca timpul mediu de functionare ale becurilor produse de A este o v.a.normala. Alegem la întâmplare un bec de tipul A. Care este probabilitatea ca timpul samediu de functionare sa fie cuprins între 1375 de ore si 1425 de ore?

R: Notam cu T1 si T2 cele doua timpuri de functionare. Avem ca

µT1 = 1400, σT1 = 200 si µT2 = 1200, σT2 = 100.

Pentru o selectie de volum n = 125 (vom considera ca selectia este repetata, deoarece volu-mul selectiei este mult mai mic decât numarul becurilor produse de fiecare manufacturir),avem ca:

T1 ∼N (1400,2005√

5) si T2 ∼N (1200,

1005√

5).

Diferenta mediilor de selectie este o v.a. repartizata astfel:

T1−T2 ∼N (200,20).

(a) Probabilitatea ceruta este:

P(T1−T2 > 160) = 1−FT1−T2(160)

= 1 - normcdf(160,200,20)= 0.9772.

(b) Probabilitatea ceruta este:

P(T1−T2 > 250) = 1−FT1−T2(250)

= 1 - normcdf(250,200,20)= 0.0062.

(c) Probabilitatea ceruta este:

P(1375≤ T1 ≤ 1425) = FT1(1425)−FT1

(1375)= normcdf(1425,1400,8*sqrt(5))-normcdf(1375,1400,8*sqrt(5))

= 0.8377.

(d) Probabilitatea ceruta este:

P(1375≤ T1 ≤ 1425) = FT1(1425)−FT1(1375)= normcdf(1425,1400,200) - normcdf(1375,1400,200)

= 0.0995.

Page 80: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

80 Capitolul 4. Notiuni de Teoria selectiei

4.6 Exercitii propuse

Exercitiu 4.7 Cantitatea de apa consumata de Ana în fiecare zi se presupune a fi o v.a.normala cu media 2 l si deviatia standard 300ml, independenta de zi. Ana a cumparatazi un bax de 6 sticle a câte 2.5 litri de apa fiecare. Presupunând ca Ana bea doar dinapa cumparata azi, care este probabilitatea ca ea sa mai aiba apa din acest stoc si dupa osaptamâna (7 zile, inclusiv cea de azi)?Exercitiu 4.8 Masa medie a unui bagaj ce trece pe la serviciul de check-in al aeroportuluidin Iasi pentru cursa de Viena este o v.a. cu media 21kg si deviatia standard 3.5kg pentrupasagerii de la clasa economic si o v.a. cu media 12kg si deviatia standard 4.5kg pentrupasagerii de la clasa business. Presupunem ca aceste valori sunt ale unor variabile aleatoareindependente de la un pasager la altul, indiferent de clasa.(a) Într-o anumita cursa se afla 16 pasageri la clasa business si 81 pasageri la clasaeconomic. Care este valoarea asteptata si deviatia standard a masei totale de bagaje alepasagerilor din acel avion?(b) Care este probabilitatea ca masa totala de bagaje ale celor 97 de pasageri pentruaceasta cursa sa nu depaseasca 2000kg?(c) Se aleg la întâmplare bagajele a 6 pasageri de la clasa economic si a 10 pasageri dela clasa business si se cântaresc. Care este probabilitatea ca diferenta maselor bagajelordintre cele doua clase sa fie mai mica de 20kg?Exercitiu 4.9 Batoanele de ciocolata produse de o anumita firma cântaresc fiecare 50 g, cudeviatia standard 0.02 g. Se aleg la întâmplare doua loturi de batoane de ciocolata, fiecareavând 100 de bucati. Care este probabilitatea ca diferenta dintre masele totale ale celordoua loturi sa nu fie mai mare de 5 g?Exercitiu 4.10 Presupunem ca timpul de asteptare a autobuzului în statie este o v.a. repar-tizata U (0, 10) pentru orele diminetii, iar timpul de asteptare a autobuzului în statie laorele serii este o v.a. repartizata U (0, 8). Toti timpii sunt independenti între ei.(a) Daca într-o anumita saptamâna luati autobuzul în fiecare zi (5 zile lucratoare), careeste timpul total mediu pe care va asteptati sa-l petreceti în statia de autobuz în întreagasaptamâna?(b) Care este abaterea standard a timpului total petrecut în statia de autobuz în întreagasaptamâna?(c) Determinati valoarea medie si abaterea standard a diferentei dintre timpul total petrecutdimineata si timpul total petrecut seara în statia de autobuz în întreaga saptamâna?Exercitiu 4.11 Presupunem ca timpul necesar pescuirii unui peste dintr-un anumit iaz esteo variabila aleatoare repartizata exp(10min). La un concurs, sapte pescari se întrec în aprinde câte un peste, câstigând cel care l-a prins primul.(i) Care este probabilitatea ca primul peste sa fie prins în mai putin de 7 minute?(ii) Care este probabilitatea ca toti cei 7 pescari sa fi prins câte un peste în mai putin de15 minute?Exercitiu 4.12 Un anumit component electric, care este strict necesar pe un satelit ceorbiteaza Pamântul, are durata medie de functionare continua de 10 zile.(a) Care este probabilitatea ca durata de functionare continua a unui astfel de componentsa depaseasca 10 zile? (se considera ca timpul de functionare este o v.a. exponentiala).(b) De îndata ce se defecteaza, acest component va trebui înlocuit imediat cu unul nou,identic. Care este numarul minim de componente de acest tip ce trebuie luate la plecareaîntr-o misiune de un an, pentru ca probabilitatea ca satelitul sa devina inoperativ din cauza

Page 81: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

4.6 Exercitii propuse 81

epuizarii tuturor rezervelor functionabile sa fie mai mica de 0.02?Exercitiu 4.13 La un examen oral s-au prezentat 18 studenti. Studentii sunt împartitialeator în doua grupe de câte 9. Profesorului va examina prima grupa de studenti, apoi ia opauza, dupa care examineaza studentii ramasi. Pentru fiecare student, timpul de examinareeste o v.a. normala, de medie 20min si deviatie standard 5min, independent de timpii deexaminare ai altor studenti. Studentii intra la examen pe rând, unul câte unul. Examenulîncepe la ora 9:10 a.m.(a) Care este probabilitatea ca examinarea primei grupe sa dureze mai mult de ora 12:00?(b) Care este probabilitatea ca timpii de examinare pentru cele grupe sa difere cu maiputin de 10min?(c) Daca pauza este de 30 minute, care este probabilitatea ca profesorul sa termineexamenul pâna la ora 16 : 00?(d) Cât de lunga ar trebui sa fie pauza astfel încât sansele ca profesorul sa termine examenulpâna la ora 16 : 00 sa fie de cel putin 95%?Exercitiu 4.14 Durata de functionare continua a bateriilor produse de o anumita firma esteo variabila aleatoare normala de medie 100h si deviatie standard de 4h.(a) Alegem la întâmplare un pachet ce contine 4 baterii produse de aceasta firma. Careeste probabilitatea ca suma timpilor de functionare continua a bateriilor din pachet sa fiemai mare de 410h?(b) Consideram o selectie aleatoare de 100 de baterie de acest tip si notam cu X media deselectie. Calculati probabilitatea P(9≤ X ≤ 11)?Exercitiu 4.15 Un astronom vrea sa masoare distanta de la Pamânt pâna la o stea înde-partata. El este constient ca, din cauza conditiilor atmosferice, nici o masuratoare nu vada distanta exacta d. Drept urmare, astronomul a decis sa faca o serie de masuratori siapoi utilizeaza valoarea lor medie ca estimare a distantei reale. Se presupune ca valorilemasuratorilor succesive sunt variabile aleatoare independente, cu media d ani-lumina siabaterea standard de 2 ani-lumina. Câte masuratori va trebui sa faca pentru a fi cel putin95 la suta sigur ca estimarea distantei este estimata exact, cu o eroare de pâna la jumatatede an-lumina?Exercitiu 4.16 Timpul necesar unui elev de a termina un anumit tip de test este o variabilaaleatoare distribuita normal, cu media de 10 minute si abaterea standard de 1 minut. Pentruun esantion de 20 de elevi, care este probabilitatea ca deviatia standard a timpilor determinare a testului sa depaseasca 30 de secunde?Exercitiu 4.17 Aproximati probabilitatea ca suma a 25 de numere aleatoare uniformgenerate în intervalul (0, 1) sa depaseasca 20.Exercitiu 4.18 Un anumit dispozitiv electric are nevoie de 4 baterii AAA pentru a functiona.Se folosesc patru baterii identice, care functioneaza independent una de cealalta. Timpulmediu de functionare continua pentru o singura baterie este de 100 de ore. Care suntsansele ca dispozitivul sa functioneze mai mult de 100 de ore.

Page 82: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘
Page 83: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5. Estimatori. Intervale de incredere

. Q: How many statisticians does it take to change a lightbulb?

. A: 1.24 to 3.07. (α = 0.05)

5.1 DefinitiiUna dintre problemele de care se preocupa Statistica este estimarea parametrilor unei po-pulatii. Consideram o populatie statistica de volum N (finit sau infinit) si X o caracteristica(variabila aleatoare) a sa. Pe baza unor observatii asupra lui X , x1, x2, . . . , xn, dorim saestimam parametrii µ = EX , σ2 = Var(X). In continuare, vom preciza atat estimatoripunctuali pentru acesti parametri, cat si intervale de incredere.Deoarece setul de valori observate poate sa difere de la un esantion la altul, vom considerain locul lor variabilele aleatoare de selectie repetata de volum n, X1, X2, . . . , Xn. Cu altecuvinte, xi este o posibila valoare a variabilei Xi (i = 1, 2, , . . . , n). Aceste variabile suntindependente si repartitia lor comuna este repartitia lui X .

• O functie f (X1, X2, . . . , Xn) ce depinde de aceste variabile se va numi generic sta-tistica. In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion,f (x1, x2, . . . , xn), se numeste tot statistica.

• Se numeste estimator al lui θ o statistica θ = θ(X1, X2, . . . , Xn), cu ajutorul careiadorim sa îl aproximam pe θ . În acest caz, ne-am dori sa stim în ce sens si cât de bineeste aceasta aproximatie.

• Daca x1, x2, . . . , xn sunt date observate, atunci θ = θ(x1, x2, . . . , xn) se numesteestimatie a lui θ . Asadar, o estimatie pentru un parametru necunoscut este valoareaestimatorului pentru selectia observata. Prin abuz de notatie, vom nota atât estimato-rul cât si estimatia cu θ si vom face diferenta între ele prin precizarea variabilelor decare depind.

Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nupot fi exacte. Apar astfel erori de aproximare. Ne-am dori sa stim în ce sens si cât de bineun estimator aproximeaza (se apropie) de valoarea estimata. Pentru aceasta, avem nevoie

Page 84: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

84 Capitolul 5. Estimatori. Intervale de incredere

de anumite cantitati care sa cuantifice erorile de aproximare. In acest sens, vom discutaaici despre: deplasare, eroarea medie patratica si eroarea standard.

• Un estimator θ se numeste estimator nedeplasat (en., unbiased estimator) pentruparametrul θ daca media estimatorului este chiar valoarea parametrului pe careestimeaza. Matematic, scriem astfel:

E(θ) = θ .

• Altfel, spunem ca θ este un estimator deplasat pentru θ , iar deplasarea (distorsiunea)se defineste prin:

b(θ , θ) = E(θ)−θ .

Cantitatea b(θ , θ) este o masura a erorii pe care o facem în estimarea lui θ prin θ .• O masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea

standard (en., standard error), notata aici prin σ(θ) sau σθ

. Spre exemplu, dacaestimatorul θ este X , atunci

σX =σ√

n,

unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σX vatinde la 0 daca n creste nemarginit. Astfel, daca numarul de masuratori creste, mediaacestor masuratori se apropie mult de valoarea parametrului µ .

• Un estimator pentru eroarea standard (en., estimated standard error), notata aici prinσ(θ) sau σ

θsau s

θ. Spre exemplu, daca estimatorul θ este X , atunci un estimator

pentru eroarea standard estesX =

s√n,

unde s este estimatorul pentru deviatia standard.• Numim eroare medie patratica a unui estimator θ pentru θ (en., mean squared error)

cantitateaMSE(θ , θ) = E

([θ −θ

]2).

Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimatorsi valoarea parametrului estimat. Pentru un estimator nedeplasat, MSE este chiardispersia estimatorului, σ2

θ.

Exemple de estimatori:

1. Media de selectie

X =1n

n

∑i=1

Xi

este un estimator nedeplasat pentru parametrul µ (media teoretica).2. Dispersia de selectie

S2 =1

n−1

n

∑i=1

[Xi−X ]2

este un estimator nedeplasat pentru dispersia teoretica pentru parametrul σ2.3. Pe de alta parte, statistica S este un estimator deplasat pentru σ . Extragerea radicalu-

lui nu comuta cu operatorul de medie, E.

Page 85: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.1 Definitii 85

4. Statistica

S2∗ =

1n

n

∑i=1

[Xi−X ]2

este un estimator deplasat pentru parametrul σ2, deplasarea fiind

b(s2, σ2) =−σ2

n.

• Un estimator nedeplasat θ pentru θ , θ ∈ Θ, se numeste estimator nedeplasatuniform de dispersie minima (en., Uniformly Minimum Variance Unbiased Estimator- UMVUE) daca pentru orice alt estimator nedeplasat pentru θ , notat cu θ ∗, avem

Var(θ)≤Var(θ ∗),

pentru orice valoarea a parametrului θ . Spre exemplu, pentru distributia normala cuparametri necunoscuti, X si S2 sunt estimatori UMVUE pentru µ , respectiv, σ2.

• Estimatorul θ pentru θ este un estimator consistent daca

θ(X1, X2, . . . , Xn)prob−→ θ , când n−→ ∞.

În acest caz, valoarea numerica a estimatorului, θ(x1, x2, . . . , xn), se numeste esti-matie consistenta pentru θ . Spre exemplu, X si S2 sunt estimatori consistenti pentruµ , respectiv, σ2 (consecinte ale legii slabe a numerelor mari).

• Pentru un anumit parametru pot exista mai multi estimatori nedeplasati. De exemplu,pentru parametrul λ din repartitia Poisson P(λ ) exista urmatorii estimatori:

X si S2.

Dintre doi estimatori pentru un parametru, este de preferat acel estimator care aredispersia minima. In exemplul anterior il vom alege pe X .

• Daca θ este un estimator pentru θ este un estimator obtinut prin metoda verosimili-tatii maxime si h(x) este o functie bijectiva, atunci h(θ) = h(θ). În cazul în careh(x) nu este bijectiva, atunci relatia anterioara nu este neaparat valabila, dupa cumarata exemplul urmator.Astfel, deoarece S2 este un estimator pentru σ2 si functia h : [0, ∞)→ [0, ∞), h(x) =√

x este bijectiva, atunci si S =√

S2 este un estimator pentru σ =√

σ2.

Exemplu 5.1 Fie θ un estimator pentru θ . Patratul acestui estimator, θ 2 nu este, în general,estimatorul pentru θ 2. Aici, h(x) = x2. De exemplu, sa presupunem ca X ∼N (0, 1) siavem urmatoarele 30 de observatii asupra lui X :

0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570

-0.1802; -0.0357; 1.9344; 1.3056; 0.0831; -0.3277

-0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312

2.0718; -0.5944; 0.6286; -0.5350; 2.2090; -0.6057

1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030.

Un estimator absolut corect pentru media teoretica a lui X , i.e., pentru µX = 0, este X .(pentru selectia data, X = 0.0521). Variabila aleatoare X2 urmeaza repartitia χ2(1) si aremedia µX2 = 1 (vezi repartitia χ2). Un estimator absolut corect pentru µX2 este X2. Pe dealta parte, pentru selectia data avem ca X2 ≈ 1.4 iar

(X)2

= 0.027.

Page 86: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

86 Capitolul 5. Estimatori. Intervale de incredere

5.2 Metode folosite pentru estimarea parametrilor• metoda verosimilitatii maxime;• metoda momentelor;• metoda minimului lui χ2;• metoda celor mai mici patrate;• metoda intervalelor de încredere.

5.2.1 Metoda verosimilitatii maximeFie caracteristica X studiata, care are functia de probabilitate f θ , X) (unde θ =(θ1,θ2, . . . , θp) sunt parametri necunoscuti). Sa presupunem ca avem n observatii asupracaracteristicii X , adica am ales o selectie de date,

x1, x2, . . . , xn.

Fie X1, X2, . . . , Xn variabilele aleatoare de selectie repetata de volum n. Vom numifunctie de verosimilitate (eng., likelihood) functia

L (θ , X) =n

∏k=1

f (Xk, θ),

privita ca o functie de θ .Definitia 5.2.1 (1) Numim estimator de verosimilitate maxima (maximum likelihoodestimator) pentru θ o statistica θ = θ(X1, X2, . . . , Xn) pentru care se obtine maximumulfunctiei de verosimilitate L (θ , X). (2) Valoarea unei astfel de statistici pentru o observatiedata se numeste estimatie de verosimilitate maxima pentru θ .Observatia 5.1 Aceasta metoda estimeaza "valoarea cea mai verosimila" pentru parame-

trul θ . Nu este necesar ca∂L

∂θsa existe pentru ca estimatorul de verosimilitate maxima sa

fie calculat. Daca aceasta exista, atunci acest estimator se obtine ca solutia θ a sistemuluide ecuatii:

∂L θ , X)

∂θk= 0, k = 1, 2, . . . , p, (5.2.1)

care este echivalent cu urmatorul sistem:

∂ lnL θ , X)

∂θk=

n

∑i=1

∂ ln f (Xi; θ)

∂θk= 0, k = 1, 2, . . . , p. (5.2.2)

Exemplu 5.2 Estimati prin metoda verosimilitatii maxime parametrii unei caracteristiciX ∼N (µ, σ).Solutie: Legea de probabilitate pentru X ∼N (µ, σ) este

f (x, µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

Alegem o selectie repetata de volum n, pe care o vom nota (Xk)k=1,n.Parametrii caracteristicii X sunt θ = (µ, σ) si functia de verosimilitate asociata selectiei

Page 87: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.2 Metode folosite pentru estimarea parametrilor 87

este

L (X ; µ, σ) = ∏k=1

f (Xk, µ, σ)

=1

σn(2π)n2

e−

n

∑k=1

(Xk−µ)2

2σ2.

Astfel,

lnL (X ; µ, σ) = ln(

1σn(2π)

n2

)− 1

2σ2

n

∑k=1

(Xk−µ)2.

Asadar, pentru a gasi estimatorii de verosimilitate maxima pentru µ si σ , avem de rezolvatsistemul:

∂L

∂ µ=

1σ2

n

∑k=1

(Xk−µ) = 0;

∂L

∂σ=− n

σ+

1σ3

n

∑k=1

(Xk−µ)2 = 0.

Se observa cu usurinta ca solutia sistemului ce convine (tinem cont ca σ > 0) este

µ =1n

n

∑k=1

Xk = X , σ =

√1n

n

∑k=1

(Xk−X)2 = d(X). (5.2.3)

Verificam acum daca valorile gasite sunt valori de maxim. Pentru aceasta, matricea hessianacalculata pentru valorile obtinute trebuie sa fie negativ definita. Mai întâi, calculam matriceahessiana. Aceasta este:

H(µ, σ) =∂ 2L

∂ µ∂σ=

− n

σ2 − 2σ3

n

∑k=1

(Xk−µ)

− 2σ3

n

∑k=1

(Xk−µ)n

σ2

(1− 3

nσ2

n

∑k=1

(Xk−µ)2

) .

Acum calculam H(µ, σ).

H(µ, σ) =∂ 2L

∂ µ∂σ|µ=µ,σ=σ =

− nσ2 0

0 − 2nσ2

,

care este o matrice negativ definita, deoarece valorile sale proprii, adica radacinile polino-mului caracteristic

det(H(µ, σ)−λ I2) = 0,

suntλ1 =−

nσ2 < 0 si λ2 =−

2nσ2 < 0.

Deci, estimatorii µ si σ obtinuti prin metoda verosimilitatii maxime sunt

µ = X si σ = d(X). √

Observatia 5.2 De remarcat faptul ca estimatorul d(X) obtinut prin metoda verosimilita-tii maxime nu este absolut corect, ci doar corect.

Page 88: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

88 Capitolul 5. Estimatori. Intervale de incredere

5.2.2 Metoda momentelor (K. Pearson)În anumite cazuri, valorile critice pentru functia de verosimilitate sunt dificil de calculat.De aceea, e nevoie de alte metode pentru a gasi estimatori pentru parametri.Fie caracteristica X care are functia de probabilitate f θ , X) (unde θ = (θ1,θ2, . . . , θp) suntparametri necunoscuti) ce admite momente pâna la ordinul p (adica, αp = E(X p)< ∞).Dorim sa gasim estimatori (estimatii) punctuale ale parametrilor necunoscuti. Pentruaceasta, efectuam observatii asupra caracteristicii, adica alegem o selectie de date,

x1, x2, . . . , xn.

Fie X1, X2, . . . , Xn variabilele aleatoare de selectie repetata de volum n. Metoda momen-telor consta în estimarea parametrilor necunoscuti din conditiile ca momentele initiale deselectie sa fie egale cu momentele initiale teoretice respective, ale lui X . Aceasta înseamnaca avem de rezolvat un sistem de ecuatii în care necunoscutele sunt parametrii ce urmeazaa fi estimati.Definitia 5.2.2 Numim estimator (punctual) pentru θ obtinut prin metoda momentelorsolutia θ = (θ1, θ2, . . . , θp) (aici θk = θk(X1, X2, . . . , Xn), k = 1, p) a sistemului:

α1(X1, X2, . . . , Xn) = α1(X), (5.2.4)α2(X1, X2, . . . , Xn) = α2(X),

...α p(X1, X2, . . . , Xn) = αp(X),

unde αk(X1, X2, . . . , Xn) sunt momentele de selectie de ordin k pentru X ,

αk(X1, X2, . . . , Xn) =1n

n

∑i=1

Xki ,

si αk(X) sunt momentele teoretice pentru X (care depind de θ ), adica:

αk = E(Xk), k = 1, 2, . . . , p.

O estimatie (punctuala) pentru θ va fi o realizare a estimatorului θ = (θ1, θ2, . . . , θp), undecomponentele sunt θk = θk(x1, x2, . . . , xn), k = 1, p).Observatia 5.3 Aceasta metoda este fundamentata teoretic pe faptul ca momentele de se-lectie sunt estimatori absolut corecti pentru momentele teoretice corespunzatoare. Metodanu poate fi aplicata repartitiilor care nu admit medie (e.g., repartitia Cauchy).Exemplu 5.3 Fie X ∼U (a, b) caracteristica unei populatii, unde a < b sunt numere reale.Utilizând metoda momentelor, determinati estimatori pentru capetele intervalului.Solutie: Daca X ∼U (a, b), atunci

E(X) =a+b

2, Var(X) =

(b−a)2

12,

de unde

E(X2) =Var(X)+ [E(X)]2 =a2 +ab+b2

3.

Page 89: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.3 Estimarea parametrilor prin intervale de încredere 89

Sistemul (5.2.4) se scrie astfel în acest caz:

α1(X1, X2, . . . , Xn) = E(X) (5.2.5)α2(X1, X2, . . . , Xn) = E(X2),

unde

α1 =1n

n

∑i=1

Xi, α2 =1n

n

∑i=1

X2i .

Inlocuind în relatiile (5.2.5), avem de gasit solutia (a, b) a urmatorului sistem:

a+b = 2α1

a ·b = 4α21−3α2.

Aceasta este:

a = α1−√

3√

α2−α21; b = α1 +

√3√

α2−α21.

Facând calculele si tinând cont ca α1 = X , obtinem estimatorii pentru a si, respectiv, b:

a = X−√

3S; b = X +√

3S,

unde

X =1n

n

∑i=1

Xi si S =

√1n

n

∑i=1

(Xi−X)2.

Estimatiile punctuale pentru a si b sunt:

a=1n

n

∑i=1

xi −√

3n

n

∑i=1

(xi− x)2, b=1n

n

∑i=1

xi +

√3n

n

∑i=1

(xi− x)2 √

5.3 Estimarea parametrilor prin intervale de încredereDupa cum am vazut anterior, putem determina estimatii punctuale pentru parametrii uneipopulatii însa, o estimatie punctuala, nu precizeaza cât de aproape se gaseste estimatiaθ(x1, x2, . . . , xn) fata de valoarea reala a parametrului θ . De exemplu, daca dorim saestimam masa medie a unor produse alimentare fabricate de o anumita masina, atunciputem gasi un estimator punctual (e.g., media de selectie) care sa ne indice ca aceasta estede 500 de grame. Ideal ar fi daca aceasta informatie ar fi prezentata sub forma: masa medieeste 500g±10g.Putem obtine astfel de informatii daca vom construi un interval în care, cu o probabilitatedestul de mare, sa gasim valoarea reala a lui θ .Sa consideram o selectie repetata de volum n, X1, X2, . . . , Xn, ce urmeaza repartitia lui X .Dorim sa gasim un interval aleator care sa acopere cu o probabilitate mare (e.g., 0.95, 0.98,0.99 etc) valoarea posibila a parametrului necunoscut.Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numiminterval de încredere (en., confidence interval (C.I.)) pentru parametrul θ , cu probabilitatea

Page 90: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

90 Capitolul 5. Estimatori. Intervale de incredere

de încredere 1−α , un interval aleator (θ , θ) astfel încât probabilitatea ca acest interval saacopere valoarea reala a lui θ sa fie 1−α . Scriem asta matematic astfel:

P(θ < θ < θ) = 1−α, (5.3.6)

unde θ(X1, X2, . . . , Xn) si θ(X1, X2, . . . , Xn) sunt statistici.Spre exemplu, un interval de încredere cu semnificatia 0.95 (en., a 95% C.I.) este un intervalaleator ce acopera valoarea reala a parametrului θ cu probabilitatea 0.95. Probabilitatea0.95 este asociata intervalului si nu parametrului de estimat, θ . Cu alte cuvinte, în cazulunui interval de încredere cu încrederea de 95%, este gresita afirmatia ca probabilitateaca parametrul estimat sa se afle în acest interval este de 0.95. Intervalul este aleator iarparametrul de estimat este o constanta.Pentru o observatie fixata, capetele intervalului (aleator) de încredere vor fi functii devalorile de selectie. De exemplu, pentru datele observate, x1, x2, . . . , xn, intervalul(

θ(x1, x2, . . . , xn), θ(x1, x2, . . . , xn))

se numeste valoare a intervalului de încredere pentru θ . Pentru simplitate însa, vom folositermenul de "interval de încredere" atât pentru intervalul propriu-zis, cât si pentru valoareaacestuia, întelesul desprinzându-se din context.Valoarea α se numeste nivel de semnificatie sau probabilitate de risc. Cu cât α este maimic (de regula, α = 0.01 sau 0.02 sau 0.05), cu atât sansa (care este (1−α) ·100%) cavaloarea reala a parametrului θ sa se gaseasca în intervalul gasit este mai mare. Desi sansele99% sau 99.99% par a fi foarte apropiate si ar da rezultate asemanatoare, sunt cazuri încare fiecare sutime conteaza. De exemplu, sa presupunem ca într-un an calendaristic uneveniment are sansa de 99% de a se realiza, în orice zi a anului, independent de celelaltezile. Atunci, sansa ca acest eveniment sa se realizeze în fiecare zi a anului în tot decursuluiacestui an este de 0.99365 ≈ 2.55%. Daca sansa de realizare în fiecare zi ar fi fost de99.99%, atunci rezultatul ar fi fost ≈ 96.42%, ceea ce înseamna o diferenta foarte maregenerata de o diferenta initiala foarte mica.Intervalul de încredere pentru valoarea reala a unui parametru nu este unic. Daca ni se dauconditii suplimentare (e.g., fixarea unui capat), atunci putem obtine intervale infinite la uncapat si finite la celalalt capat.Forma generala a unui interval de încredere pentru un parametru θ la nivelul de semnificatieα este:

(θ − kα sθ, θ + kα s

θ),

unde θ este un estimator punctual pentru θ , kα este un numar ce depinde de α si secalculeaza pe baza unor cuantile ale unor statistici potrivite estimarii, iar s

θeste eroarea

estimatorului punctual θ .În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristicinormale. În fiecare caz, nivelul de semnificatie este α . Mai întâi, vom preciza intervalelede încredere pentru medie, dispersie si proportie, bazate pe o singura selectie, apoi intervalede încredere pentru diferenta mediilor, pentru raportul dispersiilor si diferenta proportiilor,bazate pe doua selectii aleatoare.

Page 91: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.3 Estimarea parametrilor prin intervale de încredere 91

O singura populatie statistica

5.3.1 Interval de încredere pentru medie

(1) Dispersia este cunoscuta

Intervalul de incredere pentru medie poate fi bilateral (daca nu exista alte informatiisuplimentare despre interval, atunci il alegem centrat) sau unilateral (daca nu exista limitasuperioara sau inferioara pentru medie). Vom nota cu prin zα cuantila de ordin α pentrurepartitia N (0, 1).

(1) Intervalul de încredere bilateral pentru media teoretica µ când σ este cunoscut este:

(µ, µ) =

(x− z1−α

2

σ√n, x+ z1−α

2

σ√n

). (5.3.7)

(2) Daca pentru media teoretica nu se precizeaza o limita superioara, atunci intervalulde încredere este:

(µ, ∞) =

(x− z1−α

σ√n, ∞

).

(3) Daca pentru media teoretica nu se precizeaza o limita inferioara, atunci intervalul deîncredere este:

(−∞, µ) =

(−∞, x+ z1−α

σ√n

).

În cazul în care volumul selectiei este mare (de cele mai multe ori în practica, aceastaînseamna n≥ 30) metoda de determinare a unui interval de încredere prezentata mai susse poate aplica si pentru selectii dintr-o colectivitate ce nu este neaparat normala. Aceastaeste o consecinta faptului ca, pentru n mare, statistica X urmeaza repartitia N (0, 1)pentru orice forma a repartitiei caracteristicii X (conform teoremei limita centrala).Intervalele de încredere determinate mai sus sunt valide pentru selectia (repetata saunerepetata) dintr-o populatie infinita, sau pentru selectii repetate dintr-o populatie finita. Încazul selectiilor nerepetate din colectivitati finite, în estimarea intervalelor de încrederevom tine cont si de volumul N al populatiei. Spre exemplu, daca selectia de volum nse face dintr-o populatie finita de volum N si n≥ 0.05N, atunci un interval de încrederecentrat pentru media populatiei este:

(µ, µ) =

(x− z1−α

2

σ√n

√N−nN−1

, x+ z1−α

2

σ√n

√N−nN−1

). (5.3.8)

(2) Dispersia este necunoscuta

Ne aflam în conditiile din sectiunea precedenta (i.e., o caracteristica normala, X ∼N (µ, σ)), mai putin faptul ca σ este cunoscut. Daca deviatia standard σ nu este cunos-cuta, atunci ea va trebui estimata. Stim deja ca o estimatie pentru σ este statistica s, dataprin

s =

√1

n−1

n

∑i=1

(xi− x)2.

Intervalele de incredere sunt:

Page 92: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

92 Capitolul 5. Estimatori. Intervale de incredere

(1) Daca nu se cunoaste o alta informatie suplimentara despre µ , atunci intervalul deîncredere pentru media teoretica µ când σ este necunoscut este:

(µ, µ) =

(x− t1−α

2 ;n−1s√n, x+ t1−α

2 ;n−1s√n

). (5.3.9)

(2) Daca pentru media teoretica nu se precizeaza o limita superioara, atunci intervalulde încredere este:

(µ, ∞) =

(x− t1−α;n−1

s√n, ∞

).

(3) Daca pentru media teoretica nu se precizeaza o limita inferioara, atunci intervalul deîncredere este:

(−∞, µ) =

(−∞, x+ t1−α;n−1

s√n

).

Aici, prin tα;n−1 am notat cuantila de ordin α pentru repartitia t cu (n− 1) grade delibertate.Formulele din aceasta sectiune sunt practice atunci când selectia se face dintr-o colectivitategaussiana de volum n mic. Când n este mare, atunci va fi o diferenta foarte mica întrevalorile z1−α

2si t1−α

2 ;n−1, de aceea am putea folosi z1−α

2în locul valorii t1−α

2 ;n−1. Maimult, pentru un n mare (n≥ 30), intervalele de încredere obtinute mai sus ramân aceleasipentru orice forma a repartitiei caracteristicii X , nu neaparat pentru una gaussiana. Asadar,pentru o selectie de volum mare dintr-o colectivitate oarecare, un interval de încrederepentru media populatiei, când dispersia nu este cunoscuta, este:

(µ, µ) =

(x− z1−α

2

s√n, x+ z1−α

2

s√n

). (5.3.10)

5.3.2 Interval de încredere pentru dispersie(1) Media este cunoscuta

Pentru estimarea punctuala a lui σ2 când media este cunoscuta folosim statistica s2∗ definita

prin

s2∗ =

1n

n

∑i=1

[xi−µ]2.

În functie de faptul daca avem sau nu informatii suplimentare despre dispersie (analog caanterior), gasim ca intervalul de încredere pentru σ2, dupa cum urmeaza:

(1) nu avem informatii suplimentare despre dispersie:

(σ2, σ2) =

(ns2∗

χ21−α

2 ;n

,ns2∗

χ2α

2 ;n

); (5.3.11)

(2) avem informatii ca dispersia este nemarginita superior:

(σ2, σ2) =

(ns2∗

χ21−α;n

, +∞

); (5.3.12)

Page 93: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.3 Estimarea parametrilor prin intervale de încredere 93

(3) avem informatii ca dispersia este nemarginita inferior:

(σ2, σ2) =

(0,

ns2∗

χ2α;n

), (5.3.13)

unde prin χ2α;n am notat cuantila de ordin α pentru repartitia χ2 cu n grade de libertate.

(2) Media este necunoscuta

Pentru estimarea punctuala a lui σ2 când media este necunoscuta folosim statistica s2

definita prin

s2 =1

n−1

n

∑i=1

[xi− x]2.

În functie de faptul daca avem sau nu informatii suplimentare despre dispersie, gasim caintervalul de încredere pentru σ2 este:

(1) nu avem informatii suplimentare despre dispersie:

(σ2, σ2) =

((n−1)s2

χ21−α

2 ;n−1

,(n−1)s2

χ2α

2 ;n−1

), (5.3.14)

unde prin χ2α;n−1 am notat cuantila de ordin α pentru repartitia χ2 cu (n−1) grade

de libertate.(2) avem informatii ca dispersia este nemarginita superior:

(σ2, σ2) =

((n−1)s2

χ21−α;n−1

, +∞

); (5.3.15)

(3) avem informatii ca dispersia este nemarginita inferior:

(σ2, σ2) =

(0,

(n−1)s2

χ2α;n−1

). (5.3.16)

Intervale de încredere pentru deviatia standard se obtin prin extragerea radacinii patratedin capetele de la intervalele de încredere pentru dispersie.

5.3.3 Interval de încredere pentru proportiePentru o populatie statistica, prin proportie a populatiei vom întelege procentul din întreagacolectivitate ce satisface o anumita proprietate (sau are o anumita caracteristica) (e.g.,proportia de studenti integralisti dintr-o anumita facultate). Pe de alta parte, prin proportiede selectie întelegem procentajul din valorile de selectie ce satisfac o anumita proprietate(e.g., proportia de studenti integralisti dintr-o selectie aleatoare de 40 de studenti ai uneifacultati). Proportia unei populatii este un parametru (pe care îl vom nota cu p), iarproportia de selectie este o statistica (pe care o notam aici prin p).Fie X o caracteristica binomiala a unei colectivitati, cu probabilitatea de succes p (e.g.,numarul de steme aparute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim saconstruim un interval de încredere pentru proportia populatiei, p. Pentru aceasta, avem

Page 94: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

94 Capitolul 5. Estimatori. Intervale de incredere

nevoie de selectii de volum mare din aceasta colectivitate. Un estimator potrivit pentru peste proportia de selectie, adica

p = p =Xn.

Printr-un "volum mare" vom întelege un n ce satisface: n≥ 30, n p > 5 si n(1− p)> 5.Media variabilei aleatoare X este E(X) = np, iar dispersia este Var(X) = np(1− p). Putem

scrie pe X ca fiind X =n

∑i=1

Xi, unde Xi sunt variabile aleatoare Bernoulli B(1, p). Pentru

un volum n mare, variabila aleatoare X satisface (conform teoremei limita centrala aplicatasirului Xii):

X−n p√n p(1− p)

=Xn − p√p(1− p)

n

=p − p√p(1− p)

n

∼ N (0, 1).

Pe baza acestui rezultat, putem construi un interval de încredere pentru p, de forma:(p− z1−α

2

√p(1− p)

n, p+ z1−α

2

√p(1− p)

n

). (5.3.17)

Deoarece p nu este a priori cunoscut, p a fost înlocuit sub radical cu estimatorul sau.Valoarea

E = z1−α

2

√p(1− p)

n(5.3.18)

se numeste eroarea standard a proportiei. E este eroarea care se face prin estimarea lui pprin intervalul de încredere dat de (5.3.17).Acest interval de încredere este valabil pentru selectie dintr-o populatie infinita (sau n N,de regula n < 0.05N) sau pentru selectia cu repetitie dintr-o populatie finita. Daca selectiase realizeaza fara repetitie dintr-o populatie finita (cu N astfel înât n ≥ 0.05N), atunciintervalul de încredere este:(

p− z1−α

2

√p(1− p)

n

√N−nN−1

, p+ z1−α

2

√p(1− p)

n

√N−nN−1

). (5.3.19)

Observatia 5.4 [1] Daca se doreste estimarea volumului selectiei pentru care se obtineestimarea proportiei p printr-un interval de încredere cu o eroare maxima E , atunci folosimformula (5.3.18). Daca am putea ghici proportia populatiei, p, atunci gasim urmatoareaestimare a volumului selectiei:

n = p(1− p)(z1−α

2

E

)2

, (5.3.20)

unde [ · ] este partea întreaga. Daca p nu poate fi ghicit, atunci folosim faptul ca p(1− p)este maxim pentru p = 0.5 si estimam pe n prin

n =14

(z1−α

2

E

)2

.

Page 95: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.3 Estimarea parametrilor prin intervale de încredere 95

[2] Exista si alte metode de a determina intervale de încredere pentru proportie. Spreexemplu, intervalul urmator, obtinut de E. B. Wilson în 1927, este o îmbunatatire aintervalului (5.3.17), care ofera rezultate foarte bune chiar si pentru un n mic sau pentruvalori extreme ale lui p.

11+ 1

nz21−α

2

[p+

12n

z21−α

2± z1−α

2

√1n

p(1− p)+1

4n2 z21−α

2

](5.3.21)

Doua populatii statistice

5.3.4 Interval de încredere pentru diferenta mediilorFie X1 si X2 caracteristicile a doua populatii. Presupunem ca aceste variabile sunt normale,N (µ1, σ1), respectiv, N (µ1, σ1). Intervalul de incredere pentru diferenta mediilor estebazat pe cate o selectie aleatoare pentru fiecare variabila. Alegem din prima populatie oselectie repetata de volum n1, notata prin (X1i)i=1,n1

, ce urmeaza repartitia lui X1, iar din adoua populatie alegem o selectie repetata de volum n2, notata prin (X2 j) j=1,n2

, ce urmeazarepartitia lui X2. Fixam nivelul de semnificatie α . Fie (x1i)i=1,n1

si (x2 j) j=1,n2realizarile

variabilelor corespunzatoare. Sa notam dispersiile de selectie pentru fiecare caracteristicaprin

s21 =

1n1−1

n1

∑i=1

(x1i− x1)2 si s2

2 =1

n2−1

n2

∑j=1

(x2 j− x2)2.

Un estimator punctual pentru µ1−µ2 este x1− x2.Deviatia standard a acestui estimator depinde de informatia ce o avem despre dispersii. Elepot fi: cunoscute, necunoscute si egale, necunoscute si diferite.Tipic, intervalul de încredere pentru diferenta mediilor se va scrie sub forma(

x1− x2−q1−α

2sx1−x2, x1− x2 +q1−α

2sx1−x2

),

unde q1−α

2este cuantila de ordin 1− α

2 specifica fiecarui caz. Distingem urmatoarele treicazuri:

(1) dispersiile σ21 si σ2

2 sunt cunoscute a priori. Atunci, un interval de încredere pentrudiferenta mediilor este:x1− x2− z1−α

2

√σ2

1n1

+σ2

2n2

, x1− x2 + z1−α

2

√σ2

1n1

+σ2

2n2

.

(2) dispersiile σ21 = σ2

2 = σ2 si necunoscute. In acest caz, un interval de încrederepentru µ1−µ2 este:x1− x2− t1−α

2 ; n1+n2−2

√(n1−1)s2

1 +(n2−1)s22

(n1 +n2−2

1n1+ 1

n2

)− 12

,

x1− x2 + t1−α

2 ; n1+n2−2

√(n1−1)s2

1 +(n2−1)s22

(n1 +n2−2

1n1+ 1

n2

)− 12 .

Page 96: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

96 Capitolul 5. Estimatori. Intervale de incredere

(3) dispersiile σ21 6= σ2

2 , necunoscute. Atunci, un interval de încredere pentru µ1−µ2 lanivelul de semnificatie α este:x1− x2− t1−α

2 ; m

√s2

1n1

+s2

2n2

, x1− x2 + t1−α

2 ; m

√s2

1n1

+s2

2n2

,

unde

m =

(s2

1n1

+s2

2n2

)2

(s2

1n1

)2 1n1−1

+

(s2

2n2

)2 1n2−1

− 2.

Pentru un volum de selectie n mare (n ≥ 30), intervalele de încredere obtinute mai susramân aceleasi pentru orice forma a repartitiei caracteristicii X , nu neaparat pentru unagaussiana.

5.3.5 Interval de încredere pentru raportul dispersiilorFie X1 si X2 caracteristicile a doua populatii normale, N (µ1, σ1), respectiv, N (µ2, σ2),pentru care nu se cunosc mediile si dispersiile teoretice. Alegem din prima populatie oselectie repetata de volum n1 ce urmeaza repartitia lui X1, iar din a doua populatie alegemo selectie repetata de volum n2 ce urmeaza repartitia lui X2. Fixam nivelul de semnificatieα . Un interval de încredere pentru raportul dispersiilor,

σ21 /

σ22

este: (s2

1s2

2f α

2 ,n1−1,n2−1,s2

1s2

2f1−α

2 ,n1−1,n2−1

), (5.3.22)

unde fn,m;α reprezinta cuantila de ordin α pentru repartitia Fisher cu (n, m) grade delibertate.

5.3.6 Interval de încredere pentru diferenta proportiilorFie X1 si X2 doua caracteristici binomiale independente ale unei populatii, cu volumelesi probabilitatile de succes n1, p1 si, respectiv, n2, p2. Dorim sa aflam un interval deîncredere pentru diferenta proportiilor, p1− p2. Pentru a reusi aceasta, avem nevoie deselectii de volum mare. Conditiile tpentru ca intervalul sa fie valid sunt: n1 ≥ 30, n2 ≥30, n1 p1 > 5, n2 p2 > 5, n1(1− p1)> 5, n2(1− p2)> 5.Un estimator punctual pentru p1− p2 este p1− p2.

Deviatia standard a acestui estimator este sp1−p2=√

p1 (1−p1)n1

+ p2 (1−p2)n2

.La un nivel de semnificatie α , un interval de încredere pentru p1− p2 este:(

p1− p2− z1−α

2sp1−p2

, p1− p2 + z1−α

2sp1−p2

)(5.3.23)

Tabelul 5.1 sumarizeaza intervalele de încredere prezentate pâna acum. În fiecare caz,nivelul de semnificatie este α .

Page 97: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.4 Tabel cu intervale de încredere 97

5.4 Tabel cu intervale de încredere

Param. Alti param. Interval de încredere cu nivelul de semnificatie α

µ

(X− z1− α

2σ√

n , X + z1− α2

σ√n

)σ2 (

X− z1−ασ√

n , +∞

)cunoscut (

−∞, X + z1−ασ√

n

)

µ

(X− t1− α

2 ; n−1s√n , X + t1− α

2 ; n−1s√n

)σ2 (

X− t1−α; n−1σ√

n , ∞

)necunoscut (

−∞, X− tα; n−1s√n

)

σ2

(n

χ21− α

2 ;ns2, n

χ2α2 ;n

s2

(n

χ2α;n

s2, +∞

)cunoscut (

−∞, nχ2

1−α;ns2)

σ2

((n−1)

χ21− α

2 ;n−1s2, (n−1)

χ2α2 ;n−1

s2

(n−1

χ2α;n−1

s2, +∞

)necunoscut (

−∞, n−1χ2

1−α;n−1s2)

p n(

p− z1− α2

√p(1−p)

n , p+ z1− α2

√p(1−p)

n

)mare

µ1, µ2σ2

1 /σ2

2

(s2

1

s22

fn1−1,n2−1; α2,

s21

s22

fn1−1,n2−1;1− α2

)necunoscuti

µ1−µ2 σ21 , σ2

2

X1−X2− z1− α2

√σ2

1n1

+σ2

2n2

, X1−X2 + z1− α2

√σ2

1n1

+σ2

2n2

cunoscuti

µ1−µ2 σ21 6= σ2

2

X1−X2− t1− α2 ; N

√s2

1n1

+s2

2n2

, X1−X2 + t1− α2 ; N

√s2

1n1

+s2

2n2

necunoscuti

σ21 = σ2

2µ1−µ2

(X1−X2− t1− α

2 ; n1+n2−2 d(X1, X2), X1−X2 + t1− α2 ; n1+n2−2 d(X1, X2)

)necunoscuti

p1− p2 n1, n2

(p1− p2− z1− α

2

√p1 (1−p1)

n1+ p2 (1−p2)

n2, p1− p2 + z1− α

2

√p1 (1−p1)

n1+ p2 (1−p2)

n2

)mari

Tabela 5.1: Tabel cu intervale de încredere.Mai sus, prin d(X1, X2) am notat:

d(X1, X2) =√

(n1−1)s21 +(n2−1)s2

2

(n1 +n2−2

1n1+ 1

n2

)− 12

.

Page 98: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

98 Capitolul 5. Estimatori. Intervale de incredere

5.5 Estimatii prin MATLAB

Estimarea parametrilor prin metoda verosimilitatii maxime poate fi realizata în MATLAB

folosind functia mle. Formatul general al functiei este:

[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',...)

unde:• p este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaza a fi

estimat punctual;• pCI este variabila de memorie pentru intervalul (intervalele) de încredere ce va fi

estimat;• X este un vector ce contine datele ce urmeaza a fi analizate;• distribution este parte din formatul comenzii iar lege poate fi oricare dintre

legile din Tabelul 2.1;• nume_i/val_i sunt perechi optionale de argumente/valori, dintre care amintim:

– alpha reprezinta nivelul de confidenta pentru intervalul de încredere. Valoa-rea implicita în Matlab este α = 0.005;

– ntrials (utilizata doar pentru repartitia binomiala, reprezinta numarul derepetitii ale experimentului.

Daca urmarim sa estimam parametrii unei caracteristici gaussiene, atunci putem folosicomanda simplificata:

[p, pCI] = mle(X)

fara a mai preciza legea de distributie.

vârsta frecventa frecventa relativa frecventa cumulata vârsta medie[18,25) 34 8.83% 8.83% 21.5[25,35) 76 19.74% 28.57% 30[35,45) 124 32.21% 60.78% 40[45,55) 87 22.60% 83.38% 50[55,65) 64 16.62% 100.00% 60

Total 385 100% - -

Tabela 5.2: Tabel cu frecvente pentru rata somajului.

De exemplu, sa luam drept obiect de lucru datele din Tabelul 5.2. O estimare a parametrilorµ si σ prin metoda verosimilitatii maxime este

X = [7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35; ...

10*rand(87,1)+45;10*rand(64,1)+55]

[p, pCI] = mle(X)

si obtinem estimarile:

p =

41.9716 12.0228 % estimari punctuale pentru µ si σ

Page 99: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.6 Exercitii rezolvate 99

pCI =

40.7653 11.2439 % intervale de incredere

43.1779 12.9547

unde prima coloana reprezinta estimarea punctuala si un interval de încredere pentru µ , iara doua coloana estimarea punctuala si un interval de încredere pentru σ .Estimari punctuale si cu intervale de încredere mai putem obtine si utilizând functia

LEGEfit(X,alpha)

unde, în locul cuvântului LEGE punem o lege de probabilitate ca în Tabelul 2.1, X reprezintaobservatiile si alpha este nivelul de confidenta. (Exemple: normfit, binofit, poissfit,expfit etc).Exemplu 5.4 Consideram un vector ale carui componente sunt:

X = 2*rand(1e6,1) - 1;

Daca presupunem ca aceste observatii au fost obtinute urmarind valorile unei v.a. normaleN (µ, σ), atunci estimam parametrii sai astfel:

[mu, sigma] = normfit(X)

Gasim estimarile

mu = 0.0006425

sigma = 0.5771

Daca presupunem ca aceste observatii au fost obtinute urmarind valorile unei v.a. uniformecontinuu U (a, b), atunci estimam parametrii sai astfel:

[a, b] = unifit(X)

a = -1.0000

b = 1.0000

5.6 Exercitii rezolvateExercitiu 5.1 Ana dactilografiaza un articol de 60 de pagini. La recitirea articolului, Anaa descoperit pe fiecare pagina de articol urmatoarele numere de greseli:

7 6 5 9 10 4 4 8 5 8 6 4 5 6 6 5 12 16 9 5

8 7 7 4 11 6 6 5 4 6 13 8 6 9 7 8 5 4 3 6

8 4 7 10 10 6 7 9 12 8 5 7 6 7 14 8 8 4 3 10

Sa presupunem ca numarul de greseli aparute pe fiecare pagina dactilografiata de Ana esteo variabila aleatoare repartizata Poisson.(1) Sa se estimeze numarul mediu de greseli facute de Ana pe fiecare pagina dactilografi-ata;

Page 100: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

100 Capitolul 5. Estimatori. Intervale de incredere

(2) Sa se estimeze numarul mediu de greseli facute de Ana la dactilografierea unei carti de280 de pagini, presupunând ca ar lucra în exact aceleasi conditii si cu aceeasi îndemânare.(3) Cu ce probabilitate va avea Ana mai putin de 2000 de greseli pentru toata cartea?

R: Sa presupunem ca Y este vectorul ce are drept componente numerele din enunt. DacaX este variabila aleatoare ale carei valori reprezinta numarul de greseli aparute pe o paginadactilografiata si X ∼P(n), atunci E(X) =Var(X) = n.Daca notam cu Xk, k = 1, 280, variabilele aleatoare ale caror valori reprezinta numarul degreseli de dactilografie facute pe fiecare pagina a cartii (respectiv), atunci

280

∑k=1

Xk ∼ P(280 ·n),

deoarece Xk sunt v.a. independente stochastic si identic repartizate.Probabilitatea este

P = P(280

∑k=1

Xk ≤ 2000) = F(2000),

unde F(x) este functia de repartitie pentru280

∑k=1

Xk, adica a unei v.a. repartizata P(280 ·n).Estimam parametrul repartitiei Poisson folosind comanda mle din MATLAB. Codul cerezolva problema este urmatorul

[n,nCI] = mle(Y,'distribution','poiss','alpha',0.1) % pentru (1)

N = 280*n;

Rulând codul, obtinem rezultatele:n =

7.1000 % estimarea punctuala a lui nnCI = % intervalul de incredere

6.5342

7.6658

Asadar, sa convenim ca Ana face în medie n = 7.1 greseli pentru fiecare pagina dactilogra-fiata. Atunci, pentru toata cartea va face în medie N = 7.1 ·280 = 1988 greseli.Probabilitatea este:

P = poisscdf(2000,N)

adica P≈ 0.6117.Exercitiu 5.2 Aruncam o moneda despre care nu stim daca este sau nu corecta (adica,probabilitatea de aparitie a fetei cu stema nu este neaparat 0.5). Fie X variabila aleatoarece reprezinta numarul de aparitii ale fetei cu stema la aruncarea repetata a unei monede.Notam cu p probabilitatea evenimentului ca la o singura aruncare a monedei apare stema.Realizam 80 de aruncari ale acelei monede si obtinem valorile (1 înseamna ca fata custema a aparut iar 0 daca nu a aparut):

0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0

1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0

Gasiti estimatii punctuale si intervale încredere pentru p, folosind functiile mle si binofitdin MATLAB.

Page 101: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.6 Exercitii rezolvate 101

R: Utilizam functiile MATLAB astfel:

[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)

cu rezultatul:

p = pCI =

0.5125 0.3981

0.6259

sau, folosind comanda binofit,

[p,pCI] = binofit(sum(Y),length(Y),0.05)

cu rezultatul:

p = pCI =

0.5125 0.3981

0.6259

Exercitiu 5.3 O masina de înghetata umple cupe cu înghetata. Se doreste ca înghetata dincupe sa aiba masa de µ = 250g. Desigur, este practic imposibil sa umplem fiecare cupacu exact 250g de înghetata. Presupunem ca masa continutului din cupa este o variabilaaleatoare repartizata normal, cu masa necunoscuta si dispersia cunoscuta, σ = 3g. Pentru averifica daca masina este ajustata bine, se aleg la întâmplare 30 de înghetate si se cântarestecontinutul fiecareia. Obtinem astfel o selectie repetata, x1, x2, . . . , x30 dupa cum urmeaza:

257 249 251 251 252 251 251 249 248 248 251 253 248 245 251

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253

Un estimator nedeplasat pentru masa medie este media de selectie, X = 250.0667.(a) Se cere sa se gaseasca un interval de încredere pentru µ , cu nivelul de confidenta 0.99.(b) Sa se gaseasca un interval de încredere pentru masa medie în cazul în care abatereastandard σ nu mai este cunoscuta.R: (a) Un interval de încredere pentru µ când σ este cunoscut este:

(µ, µ) =

(x− z1−α

2

σ√n, x+ z1−α

2

σ√n

).

Urmatorul cod MATLAB furnizeaza un interval de încredere bazat pe datele de selectieobservate.

n=30; sigma=3; alpha = 0.01;

x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];

z = icdf('norm',1-alpha/2,0,1); % cuantila 1-alpha/2 pentru normala

m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n);% capete interval

Page 102: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

102 Capitolul 5. Estimatori. Intervale de incredere

fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul

Rulând codul, obtinem intervalul de încredere pentru µ când σ este cunoscut:

(µ, µ) = (248.659, 251.478).

(b) Un interval de încredere pentru µ când σ este necunoscut este:

(µ, µ) =

(x− t1−α

2 ;n−1s√n, x+ t1−α

2 ;n−1s√n

).

Urmatorul cod MATLAB furnizeaza un interval de încredere bazat pe datele de selectieobservate.

n=30; alpha = 0.01;

x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...

248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];

dev = std(X); % deviatia standard de selectie

t = icdf('t',1-alpha/2,n-1); % cuantila 1-alpha/2 pentru t(n-1)

m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n); % capete interval

fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul

Rulând codul, obtinem intervalul de încredere pentru µ când σ este cunoscut:

(µ, µ) = (248.572, 251.561).

Figura 5.1: Intervalul de încredere pentru Exercitiu 5.3.

Page 103: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.6 Exercitii rezolvate 103

Observatia 5.5 [1] Intervalul de încredere pentru medie când σ este cunoscut este maimic decât în cazul în care σ este necunoscut. Informatia în plus despre date ajuta la gasireaunei estimari mai bune pentru parametrul cautat.[2] Dorim sa folosim MATLAB pentru a obtine o estimatie printr-un interval de încrederepentru µ când σ nu este cunoscuta. Folosind functia normfit obtinem chiar mai multdecât ne propunem, si anume: estimatii punctuale pentru µ si σ si câte un interval deîncredere pentru ambele. Rulând functia, adica

[m,s,mCI,sCI] = normfit(X,0.01)

Observam ca valorile furnizate pentru intervalul de încredere pentru µ , (mCI), sunt exactaceleasi ca cele obtinute în exercitiul precedent.

m = s = mCI = sCI =

250.0667 2.9704 248.572 2.2111

251.561 4.4159

Observatia 5.6 Sa presupunem ca facem 50 de selectii repetate de volum 30 (adicaalegem în 50 de zile diferite câte o selectie de 30 de înghetate) si aflam intervalele deîncredere (toate cu nivelul de confidenta α = 0.01) pentru masa medie a continutului.Figura 5.2 reprezinta grafic cele 50 de intervale.Dupa cum se observa din figura, se poate întâmpla ca un interval de încredere generat sanu contina valoarea pe care acesta ar trebui sa o estimeze. Aceasta nu contrazice teoria,deoarece probabilitatea cu care valoarea estimata este acoperita de intervalul de încredereeste

P(

µ < µ < µ

)= 1−α = 0.99,

deci exista sanse de a gresi în estimare, în cazul de fata de 1%.Exercitiu 5.4 Într-un institut politehnic, s-a determinat ca dintr-o selectie aleatoare de 100de studenti înscrisi, doar 67 au terminat studiile, obtinând o diploma. Gasiti un intervalde încredere care, cu o confidenta de 95% sa determine procentul de studenti absolventidintre toti studentii ce au fost înscrisi.R: Mai întâi, observam ca α = 0.05, n > 30, p = 67

100 = 0.67, np = 67 > 5 si n(1− p) =33 > 5. Deoarece nu ni se da vreo informatie despre N (numarul total de studenti înscrisi),putem presupune ca n < 0.005N si putem aplica formula (5.3.17). Gasim ca intervalul deîncredere cautat este:(

0.67− z0.975

√0.67(1−0.67)

100, 0.67+ z0.975

√0.67(1−0.67)

100

)=(59.27%, 74.73%).

Exercitiu 5.5 Dintr-o selectie de 200 de elevi ai unei scoli cu 1276 de elevi, 65% afirma cadetin cel putin un telefon mobil. Sa se gaseasca un interval de încredere pentru procentulde copii din respectiva scoala ce detin cel putin un telefon mobil, la nivelul de semnificatieα = 0.05.

Page 104: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

104 Capitolul 5. Estimatori. Intervale de incredere

Figura 5.2: 50 de realizari ale intervalului de încredere pentru µ

Solutie: Avem: n = 200, N = 1276, p = 0.65. Deoarece n≥ 0.05N, folosind (5.3.19)si gasim ca un interval de încredere la nivelul de semnificatie 0.05 este(0.65−1.96

√0.65(1−0.65)

200

√1276−2001276−1

, 0.65+1.96

√0.65(1−0.65)

200

√1276−2001276−1

)= (58.93%, 71.07%).

Exercitiu 5.6 Un studiu sustine ca între 35% si 40% dintre elevii de liceu din tara fumeaza.Cât de mare ar trebui sa fie volumul unei selectii dintre elevii de liceu pentru a estimaprocentul real de elevi ce fumeaza, cu o eroare de estimare maxima de 0.5%. Se va alegenivelul de semnificatie α = 0.1.R: Folosim formula (5.3.20), pentru p = 0.4 (se alege valoarea 40%, cea mai apropiatade 50%). Cuantila este z0.95 = 1.28. Gasim ca o estimatie pentru n este:

n =

[0.4(1−0.4)

(1.64

0.005

)2]= 25820.

Exercitiu 5.7 O fabrica produce batoane de ciocolata cântarind 100g fiecare. Pentru ase estima abaterea masei de la aceasta valoare, s-a facut o selectie de 35 de batoane,obtinându-se valorile:

100.12; 99.92; 100.1; 99.89; 100.07; 99.88; 100.11; 99.90; 99.97;

99.89; 100.15; 99.9; 99.7; 100.2; 99.7; 100.2; 100.1; 100.04;

99.76; 100.1; 99.24; 98.19; 100.15; 100.5; 99.79; 98.95; 100.23;

99.89; 99.89; 100.2; 100.12; 98.63; 99.03; 100.3; 98.68.

Page 105: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.6 Exercitii rezolvate 105

Gasiti un interval de încredere (cu α = 0.05) pentru deviatia standard masei batoanelorproduse de respectiva fabrica.

R: Mai întâi, calculam d2(x). Avem:

d2(x) =1

35

35

∑i=1

[Xi−100]2 = 0.3.

Din tabele, sau utilizând MATLAB, gasim cuantilele:

χ20.975;35 = 53.2033; χ

20.025;35 = 20.5694.

În MATLAB, cuantilele se calculeaza astfel:

icdf('chi2',0.975, 35); icdf('chi2',0.025, 35)

Intervalul de încredere pentru dispersie este (folosind formula (5.3.11)):

(σ2, σ2) = (0.20, 0.51).

Pentru variatia standard, intervalul de încredere este:

(σ , σ) = (√

0.2,√

0.51) = (0.44, 0.71).

Exercitiu 5.8 Gasiti un interval de încredere (cu α = 0.05) pentru deviatia standard acontinutului de nicotina a unui anumit tip de tigari, daca o selectie de 24 de bucati aredeviatia standard a continutului de nicotina de 1.6mg.

R: Mai întâi, s = d∗(x) = 1.6. Din tabele, sau utilizând MATLAB, gasim:

χ20.975;24 = 39.3641; χ

20.025;24 = 12.4012.

Intervalul de încredere pentru dispersie este (folosind formula (5.3.14)):

(σ2, σ2) = (1.56, 4.95).

Pentru deviatia standard, intervalul de încredere este:

(√

1.5608,√

4.9544) = (1.25, 2.22).

Exercitiu 5.9 Doua strunguri sunt potrivite sa produca piese identice pentru o comanda.Pentru a estima daca abaterile diametrelor pieselor produse de cele doua masini suntsensibil egale, s-au luat la întamplare doua seturi de volume n1 = 7 si n2 = 10 de piese dincele doua loturi. Masuratorile au condus la urmatoarele rezultate:

Lotul 1 25.06 24.95 25.01 25.05 24.98 24.97 25.02 − − −Lotul 2 25.01 25.09 25.02 24.95 24.97 25.03 24.99 24.97 25.03 24.98

Page 106: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

106 Capitolul 5. Estimatori. Intervale de incredere

Sa se determine un interval de încredere pentru raportul dispersiilor diametrelor pieselorproduse de cele doua loturi (α = 0.1). Se va presupune ca diametrele pieselor urmeaza orepartitie normala.

R: Folosim (5.3.22). Determinam mai întâi dispersiile empirice. Acestea sunt:

s21 =

16

7

∑i=1

(L1i−L1i)2 = 0.0412 si s2

2 =19

10

∑j=1

(L2 j−L2 j)2 = 0.0409.

Cuantilele sunt:f0.05,6,9 = 0.2440 si f0.95,6,9 = 3.3738.

Folosind MATLAB, putem calcula cuantilele astfel:

f1 = finv(0.05, 6, 9); f2 = finv(0.95, 6, 9);

Gasim intervalul de încredere:

( f1, f2)≈ (0.25, 3.4).

Exercitiu 5.10 Dintr-o selectie de 45 de baieti ai unei scoli, 21 au spus ca le placeMatematica, iar dintr-o selectie de 65 de fete ale aceleiasi scoli, 37 au sustinut ca leplace aceasta disciplina. Construiti un interval de încredere la nivelul de semnificatieα = 0.02 pentru diferenta proportiilor de baieti si fete din respectiva scoala carora le placeMatematica.

R: Folosim formula (5.3.23). Mai întâi, p1 =2345 , p2 =

3765 si z0.99 ≈ 2.33. Intervalul

cautat este:2145− 37

65−2.33

√2145 · 24

4545

+3765 · 28

6565

,2145− 37

65+2.33

√2145 · 24

4545

+3765 · 28

6565

= (−0.1990, −0.0061).

Exercitiu 5.11 O selectie aleatoare de volum n = 25 cu media se selectie x = 50 se iadintr-o populatie de volum N = 1000, ce are deviatia standard σ = 2.(a) Daca presupunem ca populatia este normala, gasiti un interval de încredere pentrumedia populatiei, cu α = 0.05.(b) Gasiti un interval de încredere pentru media populatiei (α = 0.05) în cazul în carepopulatia nu este normala.

R: (a) Folosim formula (5.3.7). Gasim intervalul de încredere

(µ, µ) =

(50− z0.975

2√25

, 50+ z0.9752√25

)= (48.4, 51.6).

(b) Deoarece populatia nu este normal distribuita si nici volumul populatiei nu este mare(n < 30), vom estima intervalul de încredere bazându-ne pe inegalitatea lui Cebâsev.

Page 107: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.7 Exercitii propuse 107

Aceasta spune ca, daca X este o variabila aleatoare ce admite medie (µ) si dispersie (σ2),atunci are loc inegalitatea

P((X−µ)2 ≥ a) ≤ σ2

a2 , pentru orice a > 0,

Aplicam inegalitatea lui Cebâsev pentru variabila X . Luând a= kσ , gasim ca probabilitateaca valorile lui X sa fie aproximate prin µX = µ cu o eroare de cel mult k deviatii standardeste:

P(|X−µX |< kσX) ≥ 1− 1k2 .

Luând 1− 1k2 = 0.95, gasim k =

√20. Astfel, un interval de încredere pentru media

populatiei va fi

(µ, µ)=

(x− k

σ√n, x+ k

σ√n

)=

(50−

√20

2√25

, 50+√

202√25

)=(46.42, 53.58).

Am folosit faptul ca σ2X =Var(X) =

σ2

n. Observam ca acest interval este mai mare decât

cel gasit anterior, de aceea inegalitatea lui Cebîsev este rar folosita pentru a determinaintervale de încredere. Totusi, în acest caz nu aveam o alta alternativa de calcul. Daca sedoreste o precizie mai buna, ar fi indicat ca volumul selectiei sa fie de cel putin 30, caz încare putem folosi aproximarea cu repartitia normala.

5.7 Exercitii propuseExercitiu 5.12 Într-o scoala sunt 200 de elevi de clasa a XII-a care au sustinut teza laMatematica. Tabelul urmator contine o selectie aleatoare de 36 de note la aceasta teza:

note 4 5 6 7 8 9 10frecventa 5 6 7 8 5 3 2

[1] Estimati punctual media, dispersia si mediana populatiei din care provine aceastaselectie, precizând formulele folosite.[2] Determinati un interval de incredere pentru media populatiei la nivelul α = 0.04.[3] Scrieti functia de repartitie empirica si desenati graficul acesteia.[4] Estimati printr-un interval de încredere procentul notelor de trecere obtinute de eleviide clasa a XII-a din acea scoala (α = 0.04).Exercitiu 5.13 Tabelul urmator contine preturile la Benzin 95 pentru o selectie de 64 debenzinarii din tara.

pretul (6.10, 6.15] (6.15, 6.20] (6.20, 6.25] (6.25, 6.30] (6.30, 6.35] (6.35, 6.40]frecventa 6 8 16 19 10 5

[1] Estimati punctual media, dispersia si mediana populatiei din care provine aceastaselectie, precizând formulele folosite.[2] Reprezentati datele prin histograme.[3] Determinati un interval de încredere pentru pretul mediu al benzinei în tara (α = 0.04).

Page 108: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

108 Capitolul 5. Estimatori. Intervale de incredere

Exercitiu 5.14 În urma aruncarii unei monede de 4050 de ori, s-a observat ca fata custema a aparut de 2052 ori. Determinati un interval de încredere pentru probabilitatea deaparitie a fetei cu stema la aruncarea respectivei monede. Se va lua nivelul de semnificatieα = 0.05.Exercitiu 5.15 La un control de calitate, dintr-un lot de 150 de piese, 5 au fost gasitedefecte. Determinati un interval de încredere cu α = 0.01 pentru probabilitatea ca o piesaluata la întâmplare sa fie defecta.Exercitiu 5.16 Cât de mare ar trebui sa fie volumul selectiei, pentru a estima proportia defumatori din tara cu o eroare de cel mult 2%, si o probabilitate de încredere de 0.95?Exercitiu 5.17 Un studiu recent arata ca dintre 120 de accidente rutiere ce s-au soldatcu victime, 56 era datorate consumului de alcool. Gasiti un interval de încredere care saestimeze cu o probabilitate de risc α = 0.05 procentul real al accidentelor rutiere cauzatede consumul de alcool.Exercitiu 5.18 Pentru selectia urmatoare

871 822 729 794 523 972 768 758 583 893 598 743 761 858 948

598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

sa se estimeze varianta populatiei din care provine aceasta selectie.Exercitiu 5.19 Fie X1, X2, . . . , Xn o selectie repetata de volum n mare, luata dintr-o carac-teristica ce are media µ necunoscuta si dispersia 4. Determinati volumul selectiei pentrucare, cu o probabilitate de 99% putem estima pe µ cu o eroare de o zecime.Exercitiu 5.20 Un angajat la Serviciu Fortelor de Munca doreste sa faca un sondaj princare sa determine procentul de persoane dintr-o regiune a tarii ce lucreaza la negru. Eldoreste sa fie 98% sigur ca rezultatul gasit estimeaza procentul real cu o eroare de celmult 2%. Dintr-un sondaj recent, la care au participat 1500 de persoane angajate, 273 audeclarat ca nu li s-au facut carte de munca.(a) Cât de mare ar trebui sa fie volumul selectiei pentru a realiza estimarea dorita?(b) Daca nu ar avea acces la acel sondajul recent, cât de mare ar trebui sa fie volumulselectiei pentru a realiza estimarea dorita?Exercitiu 5.21 Timpul necesar unui student de a rezolva testul la Statistica (T , exprimatîn minute) este o v.a. cu densitatea de repartitie f : R→ [0, 1],

f (x, θ) =

x

θ 2 e−xθ , x > 0;

0 , x≤ 0.

(a) Pentru ce valori ale parametrului θ functia de mai sus este o functie de repartitie?Fixam θ = 30.(b) Determinati timpul mediu necesar rezolvarii testului.(c) Calculati probabilitatea ca un student (ales la întâmplare) sa aiba nevoie de mai multde o ora si jumatate pentru a rezolva testul?Exercitiu 5.22 Pacala îl ademeneste pe Tândala la un joc de barbut. Pacala a confectionaturmatoarele trei zaruri, pentru care numarul de puncte de pe fiecare fata sunt modificate:

zarul 1: 5 7 8 9 10 18

zarul 2: 2 3 4 15 16 17

zarul 3: 1 6 11 12 13 14

Page 109: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

5.7 Exercitii propuse 109

Pentru fiecare zar, toate fetele au aceeasi sansa de aparitie. Fiecare jucator alege un zar siîl pastreaza pentru restul competitiei. Un joc consta în aruncarea zarului ales, iar cel careobtine un numar mai mare de puncte va câstiga jocul. Un astfel de joc poate fi repetat demai multe ori, în conditii identice si independente.(a) Pacala, politicos fiind, îl invita pe Tândala sa fie primul care îsi alege zarul. Aratati ca,orice zar ar alege Tândala, Pacala are posibilitatea de a alege un zar mai bun dintre celeramase.(b) La fiecare joc, cel care obtine un numar mai mare de puncte primeste de la celalaltjucator 1 RON. Determinati câstigul mediu pe care îl poate avea Pacala dupa 60 de jocuri(aruncari).(c) Calculati probabilitatea ca, dupa 60 de jocuri, Pacala sa aiba cel putin 10 RON.(d) Determinati numarul minim de jocuri ce trebuie efectuate, dupa care Pacala va fiaproape sigur (cu probabilitate cel putin egala cu 0.99) ca va avea cel putin 10 RON.Exercitiu 5.23 Ati observat ca numarul de picioare pentru marea majoritate a oamenilortara este mai mare decât media pe tara? Care ar fi explicatia? Este media un estimator deluat în seama în acest caz?

Page 110: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘
Page 111: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

6. Testarea ipotezelor statistice

. [Should you torture the data long enough,

. it will eventually confess.]

6.1 Punerea problemeiTestarea ipotezelor statistice este o metoda prin care se iau decizii statistice pe bazadatelor experimentale culese. Testele prezentate mai jos au la baza notiuni din teoriaprobabilitatilor. Aceste teste ne permit ca, plecând de la un anumit set sau anumite seturide date culese experimental, sa se putem valida anumite estimari de parametri ai uneirepartitii sau chiar putem prezice forma legii de repartitie a caracteristicii considerate.Presupunem ca X este variabila de interes a unei populatii statistice si ca legea sa deprobabilitate depinde de un parametru θ . In general, o repartitie poate depinde de maimulti parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, sapresupunem ca (xk)k=1,n sunt datele observate relativ la caracteristica X .

• Numim ipoteza statistica o presupunere relativa la valorile parametului θ sau chiarreferitoare la tipul legii caracteristicii.

• O ipoteza neparametrica este o presupunere relativa la repartitia lui X . De exemplu,o ipoteza de genul X ∼ Normala.

• Numim ipoteza parametrica o presupunere facuta asupra valorii parametrilor uneirepartitii. Daca multimea la care se presupune ca apartine parametrul necunoscut esteformata dintr-un singur element, avem de-a face cu o ipoteza parametrica simpla.Altfel, avem o ipoteza parametrica compusa.

• O ipoteza nula este acea ipoteza pe care o intuim a fi cea mai apropiata de realitatesi o presupunem a priori a fi adevarata. Cu alte cuvinte, ipoteza nula este ceeace doresti sa crezi, în cazul în care nu exista suficiente evidente care sa sugereze

Page 112: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

112 Capitolul 6. Testarea ipotezelor statistice

contrariul. Un exemplu de ipoteza nula este urmatorul: "presupus nevinovat, pânase gasesc dovezi care sa ateste o vina". O ipoteza alternativa este orice alta ipotezaadmisibila cu care poate fi confruntata ipoteza nula.

• A testa o ipoteza statistica (en., statistical inference) înseamna a lua una dintredeciziile:

− ipoteza nula se respinge (caz in care ipoteza alternativa este admisa)− ipoteza nula se admite (sau, nu sunt motive pentru respingerea ei)

• În Statistica, un rezultat se numeste semnificativ din punct de vedere statistic dacaeste improbabil ca el sa se fi realizat datorita sansei. Între doua valori exista o dife-renta semnificativa daca exista suficiente dovezi statistice pentru a dovedi diferenta,si nu datorita faptului ca diferenta ar fi mare.

• Numim nivel de semnificatie probabilitatea de a respinge ipoteza nula când, de fapt,aceasta este adevarata. În general, nivelul de semnificatie este o valoare pozitivaapropiata de 0, e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analizastatistica sau soft statistic, valoarea implicita pentru α este 0.05.

• În urma unui test statistic pot aparea doua tipuri de erori:1. eroarea de speta (I) sau riscul furnizorului (en., false positive) − este eroarea

care se poate comite respingând o ipoteza (în realitate) adevarata. Se mainumeste si risc de genul (I). Probabilitatea acestei erori este egala chiar nivelulde semnificatie α , adica:

α = P(H0 se respinge | H0 este adevarata).

2. eroarea de speta a (II)-a sau riscul beneficiarului (en., false negative) − esteeroarea care se poate comite acceptând o ipoteza (în realitate) falsa. Se mainumeste si risc de genul al (II)-lea. Probabilitatea acestei erori este

β = P(H0 se admite | H0 este falsa).

Gravitatea comiterii celor doua erori depinde de problema studiata. De exemplu,riscul de genul (I) este mai grav decât riscul de genul al (II)-lea daca verificamcalitatea unui articol de îmbracaminte, iar riscul de genul al (II)-lea este mai gravdecât riscul de genul (I) daca verificam concentratia unui medicament.Un alt exemplu simplu de test statistic este testul de sarcina. Acest test este, defapt, o procedura statistica ce ne da dreptul sa decidem daca exista sau nu suficienteevidente sa concluzionam ca o sarcina este prezenta. Ipoteza nula ar fi lipsa sarcinii.Majoritatea oamenilor în acest caz vor cadea de acord cum ca un false negative estemai grav decât un false positive.

• Denumim valoare P sau P−valoare sau nivel de semnificatie observat (en., P-value)probabilitatea de a obtine un rezultat cel putin la fel de extrem precum cel observat,presupunând ca ipoteza nula este adevarata. Valoarea P este cea mai mica valoarea nivelului de semnificatie α pentru care ipoteza (H0) ar fi respinsa, bazându-nepe observatiile culese. Daca Pv ≤ α , atunci respingem ipoteza nula la nivelul desemnificatie α , iar daca Pv > α , atunci admitem (H0). Cu cât Pv este mai mica, cuatât mai mari sanse ca ipoteza nula sa fie respinsa. De exemplu, daca valoarea P estePv = 0.045 atunci, bazându-ne pe observatiile culese, vom respinge ipoteza (H0)la un nivel de semnificatie α = 0.05 sau α = 0.1, dar nu o putem respinge la unnivel de semnificatie α = 0.02. Daca ne raportam la P−valoare, decizia într-un test

Page 113: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

6.2 Tipuri de teste statistice 113

statistic poate fi facuta astfel: daca aceasta valoare este mai mica decât nivelul desemnificatie α , atunci ipoteza nula este respinsa, iar daca P−value este mai maredecât α , atunci ipoteza nula nu poate fi respinsa.

Sa presupunem ca suntem într-o sala de judecata si ca judecatorul trebuie sa decida dacaun inculpat este sau nu vinovat. Are astfel de testat urmatoarele ipoteze:

(H0) inculpatul este nevinovat;(H1) inculpatul este vinovat.

Posibilele stari reale (asupra carora nu avem control) sunt:[1] inculpatul este nevinovat (H0 este adevarata si H1 este falsa);[2] inculpatul este vinovat (H0 este falsa si H1 este adevarata)

Deciziile posibile (asupra carora avem control - putem lua o decizie corecta sau una falsa):[i] H0 se respinge (dovezi suficiente pentru a încrimina inculpatul);

[ii] H0 nu se respinge (dovezi insuficiente pentru a încrimina inculpatul);În realitate, avem urmatoarele posibilitati, sumarizate în Tabelul 6.1:

Situatie realaDecizii H0 - adevarata H0 - falsa

Respinge H0 [1]&[i] [2]&[i]Accepta H0 [1]&[ii] [2]&[ii]

Tabela 6.1: Posibilitati decizionale.

Interpretarile datelor din Tabelul 6.1 se gasesc în Tabelul 6.2.

Situatie realaDecizii H0 - adevarata H0 - falsa

Respinge H0 închide o persoana nevinovata închide o persoana vinovataAccepta H0 elibereaza o persoana nevinovata elibereaza o persoana vinovata

Tabela 6.2: Decizii posibile.

Erorile posibile ce pot aparea sunt cele din Tabelul 6.3.

Situatie realaDecizii H0 - adevarata H0 - falsa

Respinge H0 α judecata corectaAccepta H0 judecata corecta β

Tabela 6.3: Erori decizionale.

6.2 Tipuri de teste statisticeTipul unui test statistic este determinat de ipoteza alternativa (H1). Avem astfel:

• test unilateral stânga, atunci când (H1) este θ < θ0 (vezi Figura 6.1 (a));• test unilateral dreapta, atunci când (H1) este θ > θ0 (vezi Figura 6.1 (b));• test bilateral, atunci când (H1) este θ 6= θ0 (vezi Figura 6.2);

Page 114: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

114 Capitolul 6. Testarea ipotezelor statistice

Figura 6.1: Regiune critica pentru test (a) unilateral stânga, (b) unilateral dreapta.

Figura 6.2: Regiune critica pentru test bilateral.

Asadar, pentru a construi un test statistic vom avea nevoie de o regiune critica. Pentrua construi aceasta regiune critica vom utiliza metoda intervalelor de încredere. Dacavaloarea observata se afla în regiunea critica (adica în afara intervalului de încredere),atunci respingem ipoteza nula.

6.2.1 Etapele unei testari parametriceAvem doua variante echivalente pentru a efectua un test statistic: (I) testul bazat pe oregiune critica sau (II) testul bazat pe valoarea Pv.Varianta I:

• Stabilim ipoteza nula si ipoteza alternativa;• Consideram o selectie aleatoare x1, x2, . . . , xn de observatii asupra caracteristicii

de interes. De multe ori, aceasta selectie provine dintr-o repartitie normala. Încaz contrar, va trebui ca volumul selectiei sa fie mare, de regula n ≥ 30. FieX1, X2, . . . , Xn variabile aleatoare de selectie;

• Alegem o statistica (criteriu) S(X1, X2, . . . , Xn) care, dupa acceptarea ipotezei (H0),aceasta are o repartitie cunoscuta, independenta de parametrul testat;

• Alegem un nivel de semnificatie α apropiat de 0. De regula, α = 0.01, 0.02, 0.05.• Gasim regiunea critica U ;• Calculam valoarea s0 a statisticii S(X1, X2, . . . , Xn) pentru selectia considerata;• Luam decizia:

– Daca s0 ∈ U , atunci ipoteza nula, (H0), se respinge;– Daca s0 6∈U , atunci ipoteza nula, (H0), se admite (mai bine zis, nu avem

motive sa o respingem si o admitem pâna la efectuarea unui test mai puternic).

Page 115: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

6.3 Teste parametrice 115

Varianta II:• Stabilim ipoteza nula si ipoteza alternativa;• Alegem un nivel de semnificatie α apropiat de 0. De regula, α = 0.01, 0.02, 0.05.• Alegem o statistica test S(X1, X2, . . . , Xn) care, dupa acceptarea ipotezei (H0),

aceasta are o repartitie cunoscuta, independenta de parametrul testat;• Calculam valoarea s0 a statisticii S(X1, X2, . . . , Xn) pentru selectia considerata;• Calculam valoarea Pv, care este probabilitatea ca, daca (H0) este adevarata, sa

observam un rezultat cel putin la fel de extrem ca si s0.– Daca Pv < α , atunci ipoteza nula, (H0), se respinge;– Daca Pv > α , atunci ipoteza nula, (H0), se admite.

6.3 Teste parametrice6.3.1 Testul t pentru medie

Testul t pentru medie se foloseste pentru selectii normale de volum mic, de regula n < 30,când dispersia populatiei este necunoscuta a priori.Fie caracteristica X ∼N (µ, σ), cu µ necunoscut si σ > 0 necunoscut.Vrem sa verificam ipoteza nula

(H0) : µ = µ0

versus ipoteza alternativa(H1) : µ 6= µ0,

cu probabilitatea de risc α .Metoda I: Etapele testului sunt urmatoarele:

• Obtinem o multime de masuratori asupra variabilei X : x1, x2, . . . , xn.• Pe baza acestor masuratori putem calcula media si deviatia standard:

x =1n

n

∑i=1

xi si s =

√1

n−1

n

∑i=1

(xi− x)2.

• Calculam statistica test

t0 =x−µ0

s√n

. (6.3.1)

• Decizia se ia astfel:– daca |t0|< t1−α

2 ; n−1, atunci admitem (H0).– daca |t0| ≥ t1−α

2 ; n−1, atunci respingem (H0).

Observatia 6.1 Regiunea critica este complementara intervalului de încredere. Deciziase ia astfel:

• daca t0 =x−µ0

s√n∈(−t1−α

2 ; n−1, t1−α

2 ; n−1

)(echivalent, t0 6∈U ), admitem (H0).

• daca t0 =x−µ0

s√n6∈(−t1−α

2 ; n−1, t1−α

2 ; n−1

)(echivalent, t0 ∈U ), respingem (H0).

Page 116: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

116 Capitolul 6. Testarea ipotezelor statistice

Metoda a II-a: O alta modalitate de testare a unei ipoteze statistice parametrice esteprin intermediul P−valorii, Pv. Reamintim, P−valoarea este probabilitatea de a obtineun rezultat cel putin la fel de extrem ca cel observat, presupunând ca ipoteza nula esteadevarata. Aceasta valoare este afisata de orice soft statistic folosit in testarea ipotezelor.Daca S este statistica test, atunci

Pv = P(|S|> |s0|) = P(S > |s0|)+P(S <−|s0|), (6.3.2)

unde S este statistica folosita în testare si s0 este valoarea acestei statistici pentru selectiadata (respectiv, selectiile date, în cazul testarii cu doua selectii).Pentru testul unilateral stânga, P−valoarea se poate calcula dupa formula:

Pv = P(S < s0), (6.3.3)

iar pentru testul unilateral dreapta, P−valoarea este data de:

Pv = P(S > s0), (6.3.4)

Utilizând P−valoarea, testarea se face astfel:Ipoteza nula va fi respinsa daca Pv < α si va fi admisa daca Pv ≥ α . Asadar, cu cât Pv estemai mic, cu atât mai multe dovezi de respingere a ipotezei nule.

6.3.2 Test pentru dispersiePentru variabila X ca mai sus dorim sa testam ipoteza:

(H0) : σ2 = σ

20 vs. ipoteza alternativa (H1) : σ

2 6= σ20 ,

cu probabilitatea de risc α . Etapele testului sunt urmatoarele:• Obtinem o multime de masuratori asupra variabilei X : x1, x2, . . . , xn.• Pe baza acestor masuratori putem calcula media si deviatia standard:

x =1n

n

∑i=1

xi si s =

√1

n−1

n

∑i=1

(xi− x)2.

• Calculam statistica

χ20 =

n−1σ2

0s2, (6.3.5)

• Luarea deciziei se face astfel:– daca χ

20 ∈

2 ;n−1, χ21−α

2 ;n−1

), atunci admitem (H0) (i.e., σ2 = σ2

0 );

– daca χ20 6∈

2 ;n−1, χ21−α

2 ;n−1

), atunci respingem (H0) (i.e., σ2 6= σ2

0 ).Observatia 6.2 Decizia testului putea fi luata si pe baza P−valorii. Valoarea ei pentrutestul unilateral stânga (resp., dreapta) este

Pv = P(χ2 < χ20 ) (resp., Pv = P(χ2 > χ

20 )).

Pentru testul bilateral este dublul celei mai mici valori dintre cele doua de mai sus.

Page 117: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

6.4 Teste parametrice pentru doua populatii 117

6.3.3 Test pentru proportie într-o populatie binomiala

Fie X o caracteristica binomiala a unei colectivitati, cu probabilitatea de succes p. Pe bazaunor selectii ale populatiei, dorim sa testam urmatoarea ipoteza asupra lui p:

(H0) : p = p0 vs. (H1) : p 6= p0.

De asemenea, putem considera si ipoteze alternative unilaterale:

(H1)s : p < p0 sau (H1)d : p > p0.

Pentru a putea testa acesta ipoteza, ne vom folosi de rezultatele din cursul precedent. Sapresupunem ca volumul populatiei (N) este mult mai mare posibil infinit) decât volumul nal selectiilor considerate. Fixam un nivel de semnificatie α . Vom construi testul pentruproportia populatiei pe baza intervalului de încredere (5.3.17).

Etapele testului sunt:• Pe baza selectiei, calculam p, care este o estimare a proportiei populatiei, p;• Calculam valoarea

P0 =p − p0√

p0 (1− p0)

n

;

• Calculam cuantila z1− α

2;

• DacaP0 ∈

(−z1− α

2, z1− α

2

),

atunci admitem ipoteza nula la acest nivel de semnificatie. Altfel, o respingem. Regiuneacritica este complementara intervalului de încredere.

6.4 Teste parametrice pentru doua populatiiVom discuta mai jos trei teste statistice: testul t pentru diferenta mediilor, testul pentruegalitatea a doua dispersii si testul pentru egalitatea a doua proportii.Fie X1 si X2 caracteristicile (independente) a doua populatii normale, N (µ1, σ1), respectiv,N (µ2, σ2), pentru care nu se cunosc mediile teoretice. Alegem din prima populatie o se-lectie repetata de volum n1, x1 = x11, x12, . . . , x1n1, ce urmeaza repartitia lui X1, iar dina doua populatie alegem o selectie repetata de volum n2, x2 = x21, x22, . . . , x2n2, ce ur-meaza repartitia lui X2. Fie (X1i)i=1,n1

si (X2 j) j=1,n2aleatoare de selectie corespunzatoare

fiecarei selectii. Fixam pragul de semnificatie α .

6.4.1 Testul t pentru diferenta mediilor a doua selectiiTestul t pentru diferenta mediilor se foloseste pentru selectii normale independente devolum mic (n < 30), atunci când dispersiile populatiilor considerate sunt necunoscute apriori. Dorim sa testam ipoteza nula ca mediile sunt egale

(H0) : µ1 = µ2

vs. ipoteza alternativa(H1) : µ1 6= µ2.

Page 118: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

118 Capitolul 6. Testarea ipotezelor statistice

Pentru testul t pentru diferenta mediilor distingem doua cazuri: (1) σ1 6= σ2 suntnecunoscute; (2) σ1 = σ2 si sunt necunoscute.

Etapele testul t pentru diferenta mediilor

(1) Se dau: x11, x12, . . . , x1n1, x21, x22, . . . , x2n2 (date normale), µ0, α;(2) Calculam x1, x2, s1 si s2 dupa formulele uzuale;(3) Determinam valoarea t1− α

2 ; m (unde m = N, daca σ1 6= σ2 sau m = n1 + n2− 2,daca σ1 = σ2) astfel încât functia de repartitie pentru repartitia Student t(m),

Fm

(t1− α

2 ; m

)= 1− α

2. Aici, N =

(s2

1n1

+s2

2n2

)2

(s2

1n1

)2 1n1−1

+

(s2

2n2

)2 1n2−1

− 2.

(4) Calculez valoarea

t0 =

x1− x2√s2

1n1

+s2

2n2

, daca σ1 6= σ2

x1− x2√(n1−1)s2

1 +(n2−1)s22

√n1 +n2−2

1n1+ 1

n2

, daca σ1 = σ2

(5) Daca:(i) |t0|< t1− α

2 ; m, atunci µ1 = µ2;(ii) |t0| ≥ t1− α

2 ; m, atunci µ1 6= µ2.

Observatia 6.3 (1) În practica, nu putem sti a priori daca dispersiile teoretice a celordoua populatii ce urmeaza a fi testate sunt egale sau nu. De aceea, pentru a sti ce test safolosim, va trebui sa testam mai întâi ipoteza ca cele doua dispersii sunt egale, vs. ipotezaca ele difera. Pentru aceasta, va trebui sa utilizam un test pentru raportul dispersiilor. Dupace acest prim test a fost realizat, putem decide ce varianta folosim în testarea egalitatiimediilor.(2) Testul t pentru doua selectii, bilateral sau unilateral, poate fi aplicat cu succes si pentrupopulatii non-normale, daca volumele selectiilor observate sunt n1 ≥ 30, n2 ≥ 30.(3) Pentru testul t, P−valoarea se poate calcula dupa urmatoarele formule:

Pv = P(|T |> |t0|) = 1−Fm(|t0|)+Fm(−|t0|) (pentru testul T bilateral);Pv = P(T < t0) = Fm(t0) (pentru testul T unilateral stânga);Pv = P(T > t0) = 1−Fm(t0) (pentru testul T unilateral dreapta).

unde m = N sau m = n1 +n2−2, dupa caz.

6.4.2 Testul F pentru raportul a doua dispersiiDorim sa testam ipoteza nula ca dispersiile teoretice σ1 si σ2 sunt egale

(H0) : σ21 = σ

22

vs. ipoteza alternativa(H1) : σ

21 6= σ

22 .

Page 119: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

6.4 Teste parametrice pentru doua populatii 119

Calculam statistica:

f0 =σ2

2σ2

1

s21

s22. (6.4.6)

Calculam cuantilele pentru repartitia Fisher cu (n1−1, n2−1) grade de libertate:

f α

2 ; n1−1,n2−1 si f1−α

2 ; n1−1,n2−1.

Regula de decizie este:• daca f0 ∈

(f α

2 ; n1−1,n2−1, f1−α

2 ; n1−1,n2−1

), atunci admitem (H0) (i.e., σ1 = σ2);

• daca f0 6∈(

f α

2 ; n1−1,n2−1, f1−α

2 ; n1−1,n2−1

), atunci respingem (H0) (i.e., σ1 6= σ2).

6.4.3 Testul pentru egalitatea a doua proportiiFie X1 si X2 doua caracteristici binomiale independente ale unei populatii, cu volumele siprobabilitatile de succes n1, p1 si, respectiv, n2, p2. Pe baza unor selectii, dorim sa testamipotezele:

(H0) : p1 = p2 vs. (H1) : p1 6= p2.

De asemenea, putem considera si ipoteze alternative unilaterale:

(H1)s : p1 < p2 sau (H1)d : p1 > p2.

Pentru a putea testa acesta ipoteza, ne vom folosi de rezultatele din cursul precedent. Sapresupunem ca volumul populatiei (N) este mult mai mare (posibil infinit) decât volumeleselectiilor considerate. Fixam un nivel de semnificatie α . Daca ipoteza nula este admisa,atunci p1 = p2 = p. Un estimator pentru p este frecventa relativa a numarului de succesecumulate în cele doua selectii, i.e.,

p∗ =n1 p1 +n2 p2

n1 +n2.

Etapele testului sunt:• Calculam proportiile de selectie p1 si p2, care sunt estimari pentru p1, respectiv, p2;• Calculam valoarea

P0 =p1 − p2√

p∗(1− p∗)(

1n1+ 1

n2

) ;

• Calculam cuantila z1−α

2;

• DacaP0 ∈

(−z1−α

2, z1−α

2

),

atunci admitem ipoteza nula la acest nivel de semnificatie. Altfel, o respingem.Regiunea critica este complementara intervalului de încredere.

Page 120: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

120 Capitolul 6. Testarea ipotezelor statistice

6.5 Teste parametrice în MATLAB

6.5.1 Testul t pentru o selectie în MATLAB

Testul t poate fi simulat în MATLAB utilizând comanda generala[h, p, ci, stats] = ttest(X,m0,alpha,tail)

unde:• h este rezultatul testului. Daca h = 1, atunci ipoteza nula se respinge, daca h = 0, atunci

ipoteza nula nu poate fi respinsa pe baza observatiilor facute (adica, se admite, pâna la untest mai puternic);

• p este valoarea P (P− value);• ci este un interval de încredere pentru µ , la nivelul de semnificatie α;• m0 = µ0, valoarea testata;• alpha este nivelul de semnificatie;• tail poate fi unul dintre urmatoarele siruri de caractere:

– 'both', pentru un test bilateral (poate sa nu fie specificata, se subîntelege implicit);– 'left', pentru un test unilateral stânga (µ < µ0);– 'right', pentru un test unilateral dreapta (µ > µ0);

• variabila stats înmagazineaza urmatoarele date:– tstat - este valoarea statisticii T pentru observatia considerata;– df - numarul gradelor de libertate ale testului;– sd - deviatia standard de selectie;

Pentru exercitiul 6.1, codul MATLAB este:

n = 90; alpha = 0.05; m0 = 6.5;

x=2:10; f=[2 4 8 15 18 17 15 7 4];

xbar = x*f'/n; s = sqrt(sum(f.*(x-xbar).^2)/(n-1));

t0 = (xbar-m0)/(s/sqrt(n)); t = tinv(1-alpha/2,n-1);

if (abs(t0)< t);

disp('(H0)')

else

disp('(H1)')

end

Sau, folosind functia ttest:

n = 90; alpha = 0.05; m0 = 6.5;

X = [2*ones(1,2), 3*ones(1,4), 4*ones(1,8), 5*ones(1,15), ...

6*ones(1,18),7*ones(1,17),8*ones(1,15),9*ones(1,7),10*ones(1,4)];

[h, p, ci, stats] = ttest(X,m0,alpha,'both')

afiseaza:

Page 121: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

6.5 Teste parametrice în MATLAB 121

h = p = ci = stats =

0 0.4975 5.9777 6.7556 tstat: -0.6812

df: 89

sd: 1.8570

6.5.2 Testul t pentru doua selectii

Testul t pentru egalitatea a doua medii poate fi simulat în MATLAB utilizând comanda

[h, p, ci, stats] = ttest2(X, Y, alpha, tail, vartype)

unde:• h, p, ci, alpha, stats si tail sunt la fel ca mai sus;• X si Y sunt vectori sau o matrice, continând observatiile culese. Daca ele sunt matrice,

atunci mai multe teste Z sunt efectuate, de-alungul fiecarei coloane;• vartype ia valoarea equal daca dispersiile teoretice sunt egale sau unequal pentru

dispersii inegale.

6.5.3 Test pentru dispersie în MATLAB

Testul pentru dispersie (varianta) poate fi simulat în MATLAB utilizând comanda[h, p, ci, stats] = vartest(X,var,alpha,tail)

unde:• h, p, ci, m0, alpha, stats, tail sunt la fel ca în functia ttest;• var este valoarea testata a dispersiei;

Pentru exercitiul 6.2, codul MATLAB este

alpha = 0.1; n = 11; sig0 = 0.003;

x = [10.50 10.55 10.60 10.65];

f = [2 3 5 1];

xbar = x*f'/n; s2 = sum(f.*(x-xbar).^2)/(n-1);

c0 = (n-1)*s2/sig0;

c1 = chi2inv(alpha/2,n-1); c2 = chi2inv(1-alpha/2,n-1);

if (c1 < c0 & c0 < c2);

disp('(H0)')

else

disp('(H1)')

end

Sau, folosind functia vartest:

Page 122: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

122 Capitolul 6. Testarea ipotezelor statistice

n = 11; alpha = 0.1; sig0 = 0.003;

X = [10.5*ones(1,2), 10.55*ones(1,3), 10.6*ones(1,5), 10.65];

[h, p, ci, stats] = vartest(X,sig0,alpha,'both')

afiseaza:

h = p = ci = stats =

0 0.6011 0.0012 0.0055 tstat: 7.2727

df: 10

6.5.4 Testul F în MATLAB

Testul raportului dispersiilor poate fi simulat în MATLAB utilizând comanda

[h, p, ci, stats] = vartest2(X, Y, alpha, tail)

unde variabilele sunt la fel ca în functia ttest2.Exemplu 6.1 Revenim la Exercitiul 6.4 si verificam daca cele doua selectii de note(Tabelul 6.5) provin din populatii cu dispersii egale. Asadar, avem de testat (la nivelul desemnificatie α = 0.01)

(H0) σ21 = σ

22 vs. (H1) σ

21 6= σ

22 .

R: Utilizând notatiile din Exercitiul 6.4, comanda MATLAB care rezolva acest test este:

[h, p, CI, stats] = vartest2(u, v , 0.01 , 'both')

(pentru teste unilaterale, folosim 'left' sau 'right' în locul lui 'both'.)Rezultatul comenzii anterioare este:

h = p = CI = stats =

0 0.2119 0.2191 fstat: 0.6047

1.7426 df1: 24

df2: 29

Deoarece h = 0, decidem ca dispersiile teoretice ale celor doua populatii pot fi consideratea fi egale la nivelul de semnificatie α = 0.01.Observatia 6.4 Decizia testului poate fi luata si pe baza inspectiei valorii P, observândca aceasta este mai mare decât α . Aceasta este:

Pv = 1−Fn1−1,n2−1(| f0|)+Fn1−1,n2−1(−| f0|) = 1−Fn1−1,n2−1(| f0|).

Page 123: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

6.6 Exercitii rezolvate 123

În MATLAB, calculam astfel:

f0 = var(u)/var(v); Pv = 1 - fcdf(abs(f0),n1-1,n2-1)

6.6 Exercitii rezolvateExercitiu 6.1Pentru a determina media notelor la teza deMatematica a elevilor dintr-un anumit oras,s-a facut un sondaj aleator de volum n = 90printre elevii din oras.

nota 2 3 4 5 6 7 8 9 10frecv. 2 4 8 15 18 17 15 7 4

Tabela 6.4: Tabel cu notele la teza

Notele observate in urma sondajului sunt grupate in Tabelul 6.4. Dorim sa tes-tam, la nivelul de semnificatie α = 0.05, daca media tuturor notelor la teza de Matematicaa elevilor din oras este µ = 6.5.R: Asadar, avem de testat

(H0) µ = 6.5 vs. (H1) µ 6= 6.5.

Media si deviatia standard a notelor din tabel sunt:

x = 6.3667, s = 1.8570.

Valoarea statisticii t0 si pragul teoretic de referinta (cuantila) sunt:

t0 =x−µ0

s√n

=−0.6812, t1−α

2 ; n−1 = t0.975; 89 = 1.9870.

Deoarece |t0| < t0.975; 89, luam decizia ca ipoteza (H0) este admisa la acest nivel desemnificatie.Metoda a II-a: Decizia testului putea fi luata si pe baza P−valorii. Aceasta poate ficalculata de un soft statistic, valoarea ei fiind Pv = P(|T |> |t0|) = 0.4975, care este maimare decat valoarea lui α . Astfel, ipoteza nula este admisa in acest caz.

Exercitiu 6.2 Se cerceteaza caracteristica X , ce reprezinta diametrul pieselor (în mm)produse de un strung. Presupunem ca valorile observate urmeaza o repartitie normala.Pentru o selectie de piese de volum n = 11 si obtinem distributia empirica:(

10.50 10.55 10.60 10.652 3 5 1

).

Sa se testeze (cu α = 0.1) ipoteza nula

(H0) : σ2 = 0.003,

versus ipoteza alternativa(H1) : σ

2 6= 0.003.

Page 124: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

124 Capitolul 6. Testarea ipotezelor statistice

R: Folosim testul pentru dispersie. Calculam mai intai s2 si apoi valoarea statisticii test.Obtinem s2 = 0.0022 si, astfel,χ2

0 = 100.003 ·0.0022 = 7.2727. Cuantilele sunt:

χ2α

2 ;n−1 = 3.9403; χ21−α

2 ;n−1 = 18.3070.

Astfel, intervalul teoretic de referinta este

χ20 ∈

2 ;n−1, χ21−α

2 ;n−1

)= (3.9403, 18.3070).

Cum valoarea χ20 = 7.2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu

poate fi respinsa. (o acceptam).

Metoda a II-a: Decizia testului putea fi luata si pe baza P−valorii. Deoarece P(χ2 <7.2727) = 0.3005 si P(χ2 > 7.2727) = 0.6995, valoarea ei pentru testul bilateral este

Pv = 2P(χ2 < χ20 ) = 2∗chi2cdf(7.2727,10)= 0.6011,

care este mai mare decat valoarea lui α . Astfel, ipoteza nula este admisa in acest caz.

Exercitiu 6.3 Într-un sondaj national de opinie, 5000 de persoane au fost rugate sa ras-punda la o întrebare legata de apartenenta religioasa. La întrebarea "Sunteti crestini?",raspunsul a fost afirmativ în 4893 dintre cazuri. Rezultatul acestui sondaj este utilizat înestimarea procentului de crestini din tara. Sa notam cu p acest procent. La nivelul desemnificatie α = 0.05, testati daca p este de 95% sau mai mare.R: Avem de testat ipoteza

(H0) : p = 0.95 vs. (H1) : p > 0.95.

Procentul de selectie este p = 48935000 = 0.9786, cuantila este z1−α = 1.6449 si valoarea

statisticii esteP0 =

0.9786 − 0.95√0.95(1−0.95)

5000

= 9.2791 ∈ [1.6449, ∞),

asadar ipoteza nula este respinsa la acest nivel de semnificatie. Admitem ca p > 0.95.Aceeasi concluzie poate fi dedusa si prin inspectia P−valorii. Aceasta este

Pv = P(Z > P0) = 1−P(Z ≤ P0) = 1−Θ(9.2791)≈ 0 < α = 0.05.

Asadar, ipoteza nula va fi respinsa la toate nivele de semnificatie practice.

Exercitiu 6.4 Caracteristicile X1 si X2 reprezinta notele obtinute de studentii de la MasterMF ′08, respectiv, MF ′09 la examenul de Statistica Aplicata. Conducerea universitatiirecomanda ca aceste note sa urmeze repartitia normala si examinatorul se conformeazadorintei de sus. Presupunem ca X1 ∼N (µ1, σ1) si X2 ∼N (µ2, σ2), cu σ1 6= σ2, necu-noscute a priori. Pentru a verifica modul cum s-au prezentat studentii la acest examen îndoi ani consecutivi, selectam aleator notele a 25 de studenti din prima grupa si 30 de notedin a doua grupa. distribuctii de frecvente ale notelor sunt cele din Tabelul 6.5.

Page 125: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

6.6 Exercitii rezolvate 125

(i) Verificati daca ambele seturi de date provin dintr-o repartitie normala;(ii) Gasiti un interval de încredere pentru diferenta mediilor, la nivelul de semnificatieα = 0.05;(ii) Sa se testeze (cu α = 0.01) ipoteza nula

(H0) : µ1 = µ2, (în medie, studentii sunt la fel de buni)

versus ipoteza alternativa

(H1) : µ1 < µ2, (în medie, studentii au note din ce în ce mai mari)

Nota obtinutaFrecventa absoluta

Grupa MF ′08 Grupa MF ′095 3 56 4 67 9 88 7 69 2 3

10 0 2

Tabela 6.5: Tabel cu note.

R: (i) h = chi2gof(u) % h = 0, deci u∼N

k = chi2gof(v) % k = 0, deci v∼N

(u si v sunt vectorii din codul MATLAB de mai jos)(ii) Un interval de încredere la acest nivel de semnificatie se obtine apelând functiaMATLAB

[h, p, ci, stats] = ttest2(u, v, 0.05, 'both', 'unequal')

Acesta este:(-0.7294, 0.6760)

Altfel, se calculeaza intervalul de încredere (vezi Tabelul 5.1)x1− x2− t1−α

2 ; N

√s2

1n1

+s2

2n2

, x1− x2 + t1−α

2 ; N

√s2

1n1

+s2

2n2

Codul MATLAB:

n1=25; n2=30; alpha = 0.05;

u =[5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)];

v =[5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)];

s1 = var(u); s2 = var(v); t = tinv(1-alpha/2,N);

N = (s1/n1+s2/n2)^2/((s1/n1)^2/(n1-1)+(s2/n2)^2/(n2-1))-2;

m1 = mean(u)-mean(v)-t*sqrt(s1/n1+s2/n2);

m2 = mean(u)-mean(v)+t*sqrt(s1/n1+s2/n2);

fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);

Page 126: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

126 Capitolul 6. Testarea ipotezelor statistice

(iii) Comanda MATLAB este:

[h,p,ci,stats] = ttest2(u, v, 0.01, 'left', 'unequal')

În urma rularii comenzii, obtinem:

h = p = ci = stats =

0 0.4698 -Inf tstat: -0.0761

0.8137 df: 52.7774

sd: 2x1 double

Observatia 6.5 Valoarea P poate fi calculata si cu formula:

Pv = P(T < t0) = FN−1(t0) = 0.4698.

În MATLAB scriem astfel:

t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2); Pv = tcdf(t0, N-1)

Exercitiu 6.5 Revenim la Exemplul 5.10. Sa se testeze, la nivelul de semnificatie α = 0.02daca exista diferente semnificative între proportiile de baieti si fete din respectiva scoalacarora le place Matematica.

R: Avem: p1 =2345 , p2 =

3765 , p∗ = 23+37

45+65 = 611 si z0.99 ≈ 2.33. Valoarea statisticii este:

P0 =2345 − 37

65√6

11(1− 611)( 1

45 +1

65

) =−0.6019 ∈ [−2.3263, 2.3263],

deci ipoteza nula nu poate fi respinsa la acest nivel de semnificatie.Aceeasi concluzie o putem lua daca verificam P−valoarea. Aceasta este:

Pv = P(|Z |> |P0|) = 1−P(Z < |P0|)+P(Z <−|P0|) = 0.5472 > 0.02 = α.

Page 127: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

6.7 Exercitii propuse 127

6.7 Exercitii propuseExercitiu 6.6 În clasa a-IX-a a unui liceu sunt 160 de elevi.Reprezentarea stem&leaf de mai jos contine punctajele a 40dintre acestia, obtinute la testul initial de Matematica (punctajulmaxim este 100 de puncte).(1) Calculati media, dispersia si modul pentru selectia data.(2) Estimati printr-un interval de încredere punctajul mediu laMatematica pentru elevii din acea scoala (α = 0.06).(3) Estimati printr-un interval de încredere procentul elevilordin scoala care au obtinut mai putin de 50 de puncte la testulinitial la Matematica (α = 0.06).(4) Testati ipoteza ca 18% dintre elevii din acea scoala aupunctaje sub 50 (α = 0.06).

stem leaf10 0 09 2 5 68 0 0 1 3 5 67 3 4 5 5 5 7 7 7 96 1 2 2 4 5 5 8 85 0 3 5 8 94 1 4 83 4 92 51 9

Exercitiu 6.7 Tabelul alaturat contine repartitia pe grupe devârsta si gen a unei selectii aleatoare de 385 de someri dintr-oanumita regiune a tarii.(a) Estimati vârsta medie si deviatia standard pentru populatie.(b) Estimati printr-un interval de încredere vârsta medie asomerilor din acea regiune (α = 0.04).(c) Testati ipoteza ca vârsta medie a somerilor este 42 de ani(α = 0.04).(d) Testati ipoteza ca vârsta somerilor este o variabila aleatoarenormala (α = 0.04).

vârsta frecventa[18,25) 34[25,35) 76[35,45) 124[45,55) 87[55,65) 64

Exercitiu 6.8 Caracteristica X reprezinta cheltuielile lunare pentru convorbirile telefoniceale unei familii. În urma unui sondaj la care au participat 100 de familii, am obtinut datele(repartitia de frecvente):(

[50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300)6 11 13 18 20 14 11 7

)(a) Sa se verifice, cu nivelul de semnificatie α = 0.02, ipoteza ca media acestor cheltuielilunare pentru o singura familie este de 140RON, stiind ca abaterea standard este 35RON.(b) Verificati aceeasi ipoteza în cazul în care abaterea standard nu este cunoscuta a priori.

Exercitiu 6.9 La un examen national, se contabilizeaza nota x obtinuta de fiecareexaminat în parte. Pentru o analiza statistica, se aleg la întâmplare 200 de candidati. S-a

gasit ca suma notelor alese este200

∑i=1

xi = 1345.37 si suma patratelor acestor note este

200

∑i=1

x2i = 10128.65. Se cer:

(a) Gasiti un interval de încredere pentru media µ a tuturor notelor participantilor laexamen, la nivelul de semnificatie α = 0.05.(b) Testati ipoteza nula (H0) : µ = 6.75, vs. ipoteza alternativa (H1) : µ 6= 6.75, lanivelul α = 0.05. Argumentati statistica folosita în testare.

Page 128: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

128 Capitolul 6. Testarea ipotezelor statistice

Exercitiu 6.10 Un patron sustine ca firma sa nu face discriminare sexuala la angajare (i.e.,atât barbatii, cât si femeile au aceeasi sansa de a se angaja în respectiva firma). Se aleg500 de angajati si se gasesc 267 de barbati. Testati la nivelul de semnificatie 0.05 dacapatronul firmei spune adevarul sau nu.

Exercitiu 6.11 Dintre toate înregistrarile vitezelor vehiculelor ce trec prin dreptul radaruluifix asezat în fata universitatii, se aleg 10 date la întâmplare. Acestea sunt (în km/h):

48 44 55 45 47 41 39 49 55 52

Presupunem ca selectia face parte dintr-o populatie normala.(a) Gasiti un interval de încredere cu încrederea de 98% pentru viteza medie a vehiculelorce trec prin dreptul radarului.(b) Testati daca viteza medie cu care se circula prin fata acestui radar este de 45km/h saunu, considerându-se un nivel de semnificatie α = 0.02 ;(c) Estimati probabilitatea ca viteza legala de 50km/h sa fi fost depasita, folosind dateleselectiei considerate.

Exercitiu 6.12 Informatiile din tabelul de mai jos sunt date despre doua selectii indepen-dente ce au fost extrase din doua populatii statistice.

Selectia Volumul selectiei media de selectie deviatia standard de selectie1 50 9.75 1.52 75 9.5 0.95

Se cer:(a) Estimati punctual si printr-un interval de încredere (α = 0.01) valoarea µ1−µ2;(b) Testati (α = 0.01) ipoteza

(H0) : µ1 = µ2 vs. (H1) : µ1 6= µ2

Exercitiu 6.13 O selectie de 700 de salarii pe ora din România arata ca media salariuluipe ora este x = 11.42RON si s = 9.3. Putem decide, pe baza acestui sondaj, ca mediasalariului pe ora este, de fapt, µ > 9.78RON, valoare stabilita de guvernul român? Se vafolosi α = 0.05.

Exercitiu 6.14 Se arunca o moneda de 250 de ori, obtinându-se 138 de aparitii ale stemei.La un nivel de semnificatie α = 0.05, sa se decida daca avem suficiente dovezi de a afirmaca acesta moneda este falsa.

Page 129: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7. Teste de concordanta

. [You should take Poisson only on rare occasions]

În general, testele de concordanta (en., goodness-of-fit tests) realizeaza concordanta întrerepartitia empirica (repartitia datelor observate) si o repartitie teoretica sau testeaza dacadoua seturi de date observate provin dintr-o aceeasi repartitie. Doua dintre cele mai desutilizate teste de concordanta sunt:

• testul χ2 de concordanta (pentru a testa concordanta între repartitia datelor obsevatesi o repartitie teoretica data)

• testul Kolmogorov-Smirnov (pentru a testa a testa concordanta între repartitia datelorobsevate si o repartitie teoretica data (one-sample test) sau pentru a testa daca douaseturi de date observate provin dintr-o aceeasi repartitie (two-sample test).

7.1 Testul χ2 de concordantaAcest test de concordanta poate fi utilizat ca un criteriu de verificare a ipotezei potrivitcareia un ansamblu de observatii urmeaza o repartitie data. Se aplica la verificareanormalitatii, a exponentialitatii, a caracterului Poisson, a caracterului Weibull etc. Testulmai este numit si testul χ2 al lui Pearson sau testul χ2 al celei mai bune potriviri (en.,goodness of fit test).

Testul poate fi aplicat daca:• setul de date este obtinut în urma unei selectii aleatoare simple;• variabila studiata este numerica sau categoriala;• avem un numar suficient de date (n≥ 30);• în fiecare clasa a variabilei considerate ne asteptam sa gasim macar 5 valori.

Page 130: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

130 Capitolul 7. Teste de concordanta

7.1.1 Cazul neparametricSa consideram o caracteristica X a unei populatii statistice Ω. Repartitia variabilei aleatoareX este necunoscuta a priori, însa intuim (sau avem anumite informatii) cum ca aceasta ar fidata de legea de probabilitate complet specificata f (x, θ) (e.g., f (x) = e−2 2x

x! , x ∈ N (X ∼P(2)) sau f (x) = 1

3√

2πe(x−5)2

18 (X ∼N (5, 3) )).Deoarece legea de probabilitate ipotetica este complet specificata, θ este cunoscut si vomomite sa mai punem în evidenta dependenta lui f de acesta în decursul aceste sectiuni.Pentru a verifica ipoteza facuta asupra repartitiei lui X , consideram un set de observatiiasupra lui X si testam concordanta dintre repartitia empirica a datelor observate cu legeateoretica data de f (x). Fie x1, x2, . . . , xn setul de date observate. Sa notam cu F(x) functiade repartitie teoretica, i.e., F ′ = f . În cele ce urmeaza, urmarim sa aplicam testul χ2 deconcordanta, ale carui etape sunt:

• Descompunem în clase multimea observatiilor facute asupra lui X , astfel încât fiecareelement al multimii apartine unei singure clase. Scriem asadar,

x1, x2, . . . , xn=k⋃

i=1

Oi, Oi⋂

O j =∅, ∀i 6= j.

Determinam frecventele empirice absolute, i.e., numerele ni de observatii ce apartin

fiecarei clase Oi. În mod evident, va trebui sa avem cak

∑i=1

ni = n.

În general, se doreste ca n≥ 30 pentru ca testul sa fie concludent.• Pentru fiecare i∈ 1, 2, . . . , k, determinam probabilitatea teoretica pi ca un element

al populatiei sa se afle în clasa Oi. Aceasta probabilitate este obtinuta cu ajutorulfunctiei f (x). Astfel, frecventele teoretice absolute sunt n pi, i∈ 1, 2, . . . , k. Altfelspus, n pi este numarul estimat de valori ale repartitiei cercetate ce ar cadea în clasaOi. Pentru un test relevant, ar fi de dorit ca npi ≥ 5 pentru orice i. În cazul în carenumarul estimat de aparitii într-o anumita clasa nu depaseste valoarea 5, atunci sevor cumula doua sau mai multe clase, astfel încât în noua clasa sa fie respectataconditia. Desi, daca avem cel putin 5 clase, uneori sunt suficiente cel putin 3 valoriîn fiecare clasa.În consecinta, trebuie tinut cont de modificarea numarului de clase, iar numarul ktrebuie modificat corespunzator (îl înlocuim cu noul numar, notat aici tot cu k).

• Formulam ipoteza nula,

(H0) : Functia de repartitie a lui X este F(x).

Aceasta este echivalenta cu

(H0) : probabilitatea unei observatii de a apartine clasei Oi este pi (i= 1, 2, . . . , k).

• Ipoteza alternativa este negatia ipotezei nule.• Deviatia între cele doua situatii (empirica si teoretica) este masurata de statistica

χ2 =

k

∑i=1

(ni−n pi)2

n pi. (7.1.1)

Page 131: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.1 Testul χ2 de concordanta 131

(Fiecare dintre termenii(ni−n pi)

2

n pipoate fi privit ca fiind o eroare relativa de

aproximare a valorilor asteptate ale repartitiei cu valorile observate.)Statistica χ2 urmeaza repartitia χ2(k−1). Uneori, statistica χ =

√χ2 se numeste

discrepanta.• Alegem nivelul de semnificatie α , de regula, foarte apropiat de zero.• Alegem regiunea critica, ca fiind regiunea pentru care valoarea χ2

0 a acestei statisticipentru observatiile date satisface

χ20 > χ

21−α; k−1,

unde χ21−α; k−1 este cuantila de ordin 1−α pentru repartitia χ2(k−1).

• Daca ne aflam în regiunea critica, atunci datele observate sunt semnificativ diferitede datele asteptate (calculate teoretic). În consecinta, ipoteza nula (H0) se respingela nivelul de semnificatie α . Altfel, nu sunt dovezi statistice suficiente sa se respinga.

7.1.2 Cazul parametricCând probabilitatile teoretice pi nu sunt a priori cunoscute, atunci ele vor trebui estimate.Acest caz apare atunci când legea de probabilitate f (x, θ) nu este complet specificata, cidoar specificata (stim forma lui f , dar nu stim unul sau, eventual, mai multi parametri aisai). Folosind datele observate, va trebui sa estimam parametrii necunoscuti ai repartitieiipotetice. Fiecare estimare ne va costa un grad de libertate. Cu alte cuvinte, daca avemde estimat un singur parametru, atunci pierdem un grad de libertate, pentru doi parametri,pierdem doua grade etc.Sa presupunem ca legea de probabilitate a lui X de mai sus este f (x, θ), unde θ = (θ1, θ2,. . . , θp) ∈Θ⊂Rp sunt parametri necunoscuti. Pentru a aproxima acesti parametri, folosimobservatiile culese asupra lui X . O metoda la îndemâna pentru estimari parametrice estemetoda verosimilitatii maxime, dar cea mai potrivita metoda de estimare a parametrilorpentru a putea fi utilizati in testul lui Pearson este metoda minimului lui χ2.Dupa ce am estimat parametrii repartitiei teoretice ipotetice, determinam probabilitatileestimate. Stabilim apoi ipoteza nula:

(H0) : pi = pi, (i = 1, 2, . . . , k),

unde pi este probabilitatea unei observatii de a apartine clasei i si pi sunt valorile estimate.Din acest moment, etapele testului χ2− cazul parametric sunt asemanatoare cu cele dincazul neparametric, cu deosebirea ca statistica χ2 data prin (7.1.1) urmeaza repartitia χ2

cu (k− p−1) grade de libertate. Aceasta este urmare a faptului ca se pierd p grade de li-bertate din cauza folosirii observatiilor date pentru estimarea celor p parametri necunoscuti.

Etapele aplicarii testului χ2 de concordanta (neparametric sau parametric)

• Se dau: α, x1, x2, . . . , xn. Intuim F(x; θ1, θ2, . . . , θp);• Formulam ipotezele statistice:(H0) functia de repartitie teoretica a variabilei aleatoare X este F(x; θ1, θ2, . . . , θp)(H1) ipoteza nula nu este adevarata.

• Daca θ1, θ2, . . . , θk (k ≤ p) nu sunt parametri cunoscuti, atunci determinam estimarileθ1, θ2, . . . , θk pentru acestia (doar în cazul parametric; altfel sarim peste acest pas);

Page 132: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

132 Capitolul 7. Teste de concordanta

• Scriem distributia empirica de selectie (tabloul de frecvente),(clasa Oi

ni

)i=1,k

,k

∑i=1

ni = n;

• Se calculeaza probabilitatea pi, ca un element luat la întâmplare sa se afle în clasa Oi. DacaOi = (ai−1, ai], atunci

pi = F(ai; θ)−F(ai−1; θ), în cazul neparametric;pi = F(ai; θ)−F(ai−1; θ), în cazul parametric.

Se verifica daca n pi ≥ 5, ∀i. Daca nu, se reorganizeaza clasele.

• Se calculeaza χ20 =

k

∑i=1

(ni−n pi)2

n pi;

• Determinam valoarea pragului teoretic χ∗, care este

χ∗ =

χ2

1−α; k−1 , în cazul neparametric,χ2

1−α; k−p−1 , în cazul parametric,

unde χ2α; n este cuantila de ordin α pentru repartitia χ2(n);

• Daca χ20 < χ

∗, atunci acceptam (H0), altfel o respingem.

7.2 Testul de concordanta Kolmogorov-SmirnovTestul de concordanta Kolmogorov-Smirnov poate fi utilizat în compararea unor observatiidate cu o repartitie cunoscuta (testul K-S cu o selectie) sau în compararea a doua selectii(testul K-S pentru doua selectii). Spre deosebire de criteriul χ2 al lui Pearson, care folosestedensitatea de repartitie, criteriul Kolmogorov-Smirnov utilizeaza functia de repartitieempirica, F∗n (x). În cazul unei singure selectii, este calculata distanta dintre functia derepartitie empirica a selectiei si functia de repartitie teoretica pentru repartitia testata, iarpentru doua selectii este masurata distanta între doua functii empirice de repartitie. Înfiecare caz, repartitiile considerate în ipoteza nula sunt repartitii de tip continuu. TestulKolmogorov-Smirnov este bazat pe rezultatul teoremei urmatoare:

Teorema 7.2.1 (Kolmogorov) Fie caracteristica X de tip continuu, care are functiade repartitie teoretica F si fie functia de repartitie de selectie F∗n . Atunci, distantadn = sup

x∈R|F∗n (x)−F(x)| satisface relatia:

limn→∞

P(√

n ·dn < x) = K(x) =∞

∑k=−∞

(−1)ke−2k2 x2, x > 0. (7.2.2)

7.2.1 Testul K-S pentru o selectieDaca ipotezele testului sunt satisfacute, acest test este mai puternic decât testul χ2.Avem un set de date statistice independente, pe care le ordonam crescator, x1 < x2 < .. . <xn. Aceste observatii independente provin din aceeasi populatie caracterizata de variabilaaleatoare X , pentru care urmarim sa îi stabilim repartitia. Mai întâi, cautam sa stabilimipoteza nula. De exemplu, daca intuim ca functia de repartitie teoretica a lui X ar fi F(x),atunci stabilim:

Page 133: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.2 Testul de concordanta Kolmogorov-Smirnov 133

(H0) : functia de repartitie teoretica a variabilei aleatoare X este F(x).Ipoteza alternativa (H1) este, de regula, ipoteza ce afirma ca (H0) nu este adevarata.Alegem un nivel de semnificatie α 1.În criteriul K-S pentru o singura selectie, se compara functia F(x) intuita a priori cu functiade repartitie empirica, F∗n (x). Reamintim,

F∗n (x) =cardi; xi ≤ x

n.

Studiind functia empirica de repartitie a acestui set de date, Kolmogorov a gasit ca distantadn = sup

x∈R|F∗n (x)− F(x)| satisface relatia (7.2.2), unde K(λ ), λ > 0, este functia lui

Kolmogorov (tabelata). În testul K-S, masura dn caracterizeaza concordanta dintre F(x) siF∗n (x). Daca ipoteza (H0) este adevarata, atunci diferentele dn nu vor depasi anumite valori.

Etapele aplicarii testului Kolmogorov-Smirnov pentru o selectie:

• Se dau α si x1 < x2 < · · ·< xn. Consideram cunoscuta (intuim) F(x);• Ipotezele statistice sunt:

(H0) functia de repartitie teoretica a variabilei aleatoare X este F(x)(H1) ipoteza nula nu este adevarata.

• Calculam λ1−α , cuantila de ordin 1−α pentru functia lui Kolmogorov. Aceasta cuantilaverifica relatia K(λ1−α) = 1−α .

• Se calculeaza dn = maxx|F∗n (x)−F(x)|;

• Daca dn satisface inegalitatea√

ndn < λ1−α , atunci admitem ipoteza (H0), altfel o respingem.

7.2.2 Testul K-S pentru doua selectiiÎn cazul în care avem de comparat doua repartitii, procedam astfel. Sa presupunem caF∗m(x) este functia de repartitie empirica pentru o selectie de volum m dintr-o populatie ceare functia teoretica de repartitie F(x) si ca G∗n(x) este functia de repartitie empirica pentruo selectie de volum n dintr-o populatie ce are functia teoretica de repartitie G(x). Dorim satestam

(H0) : F = G versus (H1) : F 6= G.

(eventual, în (H1) putem considera F > G sau F < G.) Consideram statistica

dm,n = supx|F∗m(x)−G∗n(x)|,

ce reprezinta diferenta maxima între cele doua functii. Etapele testului urmeaza îndea-proape pe cele din testul K-S cu o singura selectie. Decizia se face pe baza criteriului√

mnm+n

dm,n < qα ,

unde qα este o cuantila a repartitiei Kolmogorov (tabelata).Testul Kolmogorov-Smirnov pentru doua selectii este unul dintre cele mai utile teste decontingenta pentru compararea a doua selectii. Acest test nu poate specifica natura celordoua repartitii.

Page 134: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

134 Capitolul 7. Teste de concordanta

Etapele aplicarii testului Kolmogorov-Smirnov pentru doua selectii:

• Se dau α , x1 < x2 < · · ·< xm si y1 < y2 < · · ·< yn. Intuim F(x) si G(x);• Ipotezele statistice sunt:

(H0) F = G vs. (H1) F 6= G.• Determinam pragul teoretic qα corespunzator valorii α din tabelul urmator:

α 0.10 0.05 0.025 0.01 0.005 0.001qα 1.22 1.36 1.48 1.63 1.73 1.95

• Se calculeaza dm,n = supx|F∗m(x)−G∗n(x)|.

• Daca dm,n satisface inegalitatea√

mnm+n dm,n < qα , atunci admitem ipoteza (H0), altfel ipoteza

nula este respinsa la acest prag de semnificatie.Observatia 7.1 Pentru ipoteza alternativa F > G (sau F < G), se va considera statisticadm,n = sup

x[F∗m(x)−G∗n(x)] (respectiv, dm,n = sup

x[G∗n(x)−F∗m(x)]).

7.3 Teste de concordanta în MATLAB

(1) Functia chi2gof(x) testeaza (folosind testul χ2 al lui Pearson) daca vectorul xprovine dintr-o repartitie normala, cu media si dispersia estimate folosind x. În cazul încare datele sunt negrupate, atunci rezultatul testului de normalitate se obtine din

[h,p,stats] = chi2gof(X)

În cazul în care datele sunt grupate, deci au anumite particularitati observate, va trebuisa tinem cont de aceste particularitati. Aceasta se poate face apelând la forma generala afunctiei MATLAB este:

[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)

unde:− h, p sunt la fel ca în exemplele anterioare;− perechile namei/valuei sunt optionale. Variabilele namei pot fi: numarul de clase,'nbins', un vector de valori centrale ale intervalelor ce definesc clasele, 'ctrs', sau unvector cu capetele claselor, 'edges'.Alte variabile ce pot fi utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency','alpha'.− variabila de memorie stats afiseaza: chi2stat - statistica χ2, df - gradele delibertate, edges - un vector cu capetele intervalelor claselor dupa triere, O - numarul devalori observate în fiecare clasa, E - numarul de valori asteptate în fiecare clasa.

Testul Kolmogorov in MATLAB (o singura selectie)

Pentru testul Kolmogorov-Smirnov pentru o selectie, functia MATLAB este:[h, p, ksstat] = kstest(x, F, alpha, type)

În plus, fata de functiile anterioare, avem optiunea 'type'. Aceasta se refera la cum secompara cele doua functii de repartitie si poate fi una dintre urmatoarele: 'unequal','larger', 'smaller'.

Page 135: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.4 Testarea tipului de date experimentale 135

7.4 Testarea tipului de date experimentalePentru a putea efectua un test statistic în mod corect, este necesar sa stim care este tipul(tipurile) de date pe care le avem la dispozitie. Pentru anumite teste statistice (e.g., testulZ sau testul t, datele testate trebuie sa fie normal distribuite si independente. De multeori, chiar si ipoteza ca datele sa fie normal repartizate trebuie verificata. De aceea, se puneproblema realizarii unei legaturi între functia de repartitia empirica si cea teoretica (testede concordanta).În MATLAB sunt deja implementate unele functii ce testeaza daca datele sunt normalrepartizate. Functia normplot(X) reprezinta grafic datele din vectorul X versus orepartitie normala. Scopul acestei functii este de a determina grafic daca datele dinobservate sunt normal distribuite. Daca aceste date sunt selectate dintr-o repartitie normala,atunci acest grafic va fi liniar, daca nu, atunci va fi un grafic curbat. De exemplu, sareprezentam cu normplot vectorii X si Y de mai jos. Graficele sunt cele din Figura 7.1.

X = normrnd(100,2,200,1);

subplot(1,2,1); normplot(X)

Y = exprnd(5,200,1);

subplot(1,2,2); normplot(Y)

Figura 7.1: Reprezentarea normala a datelor.

Observam ca primul grafic este aproape liniar, pe când al doilea nu este. Putem astfel saconcluzionam ca datele date de X sunt normal repartizate (fapt confirmat si de modul cumle-am generat), iar datele din Y nu sunt normal repartizate.Functia chi2gof determina, în urma unui test χ2, daca datele observate sunt normalrepartizate, la un nivel de semnificatie α = 0.05. Astfel, comanda

h = chi2gof(x)

Page 136: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

136 Capitolul 7. Teste de concordanta

ne va furniza rezultatul h = 1, daca datele nu sunt normal repartizate (i.e., ipoteza alter-nativa (H1) este admisa), sau h = 0, daca nu putem respinge ipoteza ca datele observatesunt normal distribuite (i.e., ipoteza nula (H0) este admisa). Aplicând testul pentru X si Yde mai sus, obtinem h = 0, respectiv, h = 1.De asemenea, putem verifica daca datele statistice ar putea proveni si din alte repartitiidecât cea normala. De exemplu, functia

probplot(distribution,Y)

creaza un grafic ce compara repartitia datelor din vectorul Y cu repartitia data dedistribution. Printre repartitiile ce pot fi comparate folosind aceasta comandamentionam: 'normal', 'exponential', 'weibull' si 'lognormal'. Trebuie avutgrija ca valorile vectorului Y sa fie pozitive pentru compararea cu oricare dintre ultimeletrei repartitii. Comanda simplificata este probplot(Y), care presupune în mod implicit cadistribution = 'normal'. O alta comanda utila este

wblplot(Y)

care este echivalenta cu comanda probplot(weibull,Y).În continuare, prezentam un exemplu de utilizare a acestor comenzi. Figura 7.2, verificamdaca fiecare dintre cele doua selectii generate, una exponentiala si cealalta normala, arputea proveni dintr-o repartitie exponentiala.

x = exprnd(0.5, 250,1); % selectie exponentiala

y = normrnd(3, 1, 250,1); % selectie normala

probplot('exponential',[x y])

legend('Selectie exponentiala','Selectie normala','Location','SE')

Figura 7.2: Reprezentarea exponentiala a datelor.

Urmatoarea functie MATLAB compara un set de date cu o repartitie precizata. Functia

Page 137: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.5 Test de independenta folosind tabele de contingenta 137

histfit(X, n, 'tip_repartitie')

reprezinta datele din vectorul X printr-o histograma ce are numarul de bare egal cu n. Dacaoptiunea 'tip_repartitie' apare (valabila doar pentru lucrul cu Statistics Toolbox!), atuncipeste histograma se va desena densitatea de repartitie a repartitiei precizate (e.g., exponential,gamma, lognormal etc). În caz în care optiunea nu apare, se considera implicit ca repartitia cu carese compara datele este cea normala. Exemplul de mai jos produce graficul din Figura 7.3.

X = binornd(1e3, 0.1, 1e4, 1); histfit(X, 100)

Figura 7.3: Compararea prin histograme.

7.5 Test de independenta folosind tabele de contingentaPâna acum am discutat cum pot fi grupate observatiile unei singure caracteristici, fie discreta saucontinua. Însa, în multe cazuri avem de studiat o anumita populatie prin prisma a mai mult de douacaracteristici. În aceasta sectiune, vom prezenta un test de independenta între doua caracteristicidupa care se face împartirea datelor observate. Sa presupunem ca avem un set de observatii ce suntîmpartite în categorii determinate de doua criterii diferite.Spre exemplu, în vederea introducerii de cursuri optionale pentru elevii de liceu ai unei scoli, s-arealizat un sondaj de opinie la care au participat 350 de elevii, în care acestia au avut de precizatcursul de limbi straine preferat si nivelul de studiu ce considera ca li s-ar potrivi. Rezultatele înstare negrupata pot arata astfel:

Nr. crt. Limba straina Nivel de studiu

1 engleza mediu

2 franceza avansat

3 germana avansat

4 engleza incepator

5 spaniola mediu

6 ...

Page 138: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

138 Capitolul 7. Teste de concordanta

Aceste observatii pot fi sumarizate sub forma unui tabel (vezi tabelul 7.1). Aici, populatia de elevidin respectiva scoala este descrisa de valorile a doua caracteristici, si anume: limba straina si nivelulde studiu. Un astfel de tabel va fi util în luarea de decizii, dupa cum vom vedea mai târziu. Deexemplu, putem sa testam daca alegerea limbii straine este independenta de nivelul de studii (i.e.,cele doua caracteristici sunt independente)Identificam aici doua caracteristici (atribute): X este limba straina (e.g., Engleza, Franceza, Ger-mana, Italiana, Spaniola si Rusa) si Y reprezinta nivelul de studiu (e.g., începator, mediu si avansat).Numarul de elevi ce intra în fiecare categorie este afisat în Tabelul 7.1.

Nivel@@Limba Engleza Franceza Germana Italiana Spaniola Rusa Totalîncepator 33 19 11 12 11 6 92

mediu 65 37 10 14 24 7 157avansat 43 15 7 17 12 7 101Total 141 71 28 43 47 20 350

Tabela 7.1: Tabel cu repartizarea elevilor la cursurile de limbi straine.

În general, daca datele observate sunt clasificate în categorii ce depind de doua atribute diferite,atunci putem forma un tabel de genul Tabelului 7.2, numit tabel de contingenta. Aici X si Y suntatributele si Xi, i = 1, r, Yj, j = 1, s, sunt diverse categorii în care fiecare atribut în parte poate fiîmpartit.

X @@Y Y1 Y2 . . . Yj . . . Ys Suma pe linieX1 n11 n12 . . . n1 j . . . n1s n1∗X2 n21 n22 . . . n2 j . . . n2s n2∗...

...... · ... · ... · ... · ...

...Xi ni1 ni2 . . . ni j . . . nis ni∗...

...... · ... · ... · ... · ...

...Xr nr1 nr2 . . . nr j . . . nrs nr∗

Suma pe coloana n∗1 n∗2 . . . n∗ j . . . n∗s n (suma totala)

Tabela 7.2: Tabel de contingenta.

În Tabelul 7.2 am folosit urmatoarele notatii: ni j pentru numarul (frecventa absoluta) de observatiice au valoarea Xi pentru atributul X si valoarea Yj pentru atributul Y (i = 1, r, j = 1, s), iar n∗ j, ni∗si n sunt

n∗ j =r

∑i=1

ni j, ni∗ =s

∑j=1

ni j, n =r

∑i=1

s

∑j=1

ni j.

Fiecare individ din selectia aleasa apartine unei singure categorii caracterizata de atributul X si uneisingure categorii caracterizata de atributul Y . În concluzie, fiecare individ poate apartine doar uneiadintre cele r× s celule.

Dorim acum sa testam daca atributele X si Y sunt independente (în exemplul de mai sus, aceasta arînsemna determinarea faptului daca alegerea cursului de limba straina este independenta de nivelulde studiu).Sa notam prin pi j probabilitatea ca o data observata sa cada în categoria (Xi, Yj), si prin pi∗ si p∗ j

probabilitatile marginale,

pi∗ =s

∑j=1

pi j, p∗ j =r

∑i=1

pi j.

Page 139: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.5 Test de independenta folosind tabele de contingenta 139

Avem car

∑i=1

s

∑j=1

pi j =r

∑i=1

pi∗ =s

∑j=1

p∗ j = 1.

În general, valorile reale pentru pi j, pi∗ si p∗ j nu sunt cunoscute (specificate) a priori si se vorestima folosind datele din tabelul de contingenta. Vom nota prin pi j, pi∗ si, respectiv, p∗ j estimatoriilor. Pentru a estima probabilitatile marginale, folosim metoda verosimilitatii maxime. Functia deverosimilitate este

L =r

∏i=1

pni∗i∗

s

∏j=1

pn∗ j∗ j

Conditiile de extrem (cu legatura ∑ri=1 ∑

sj=1 pi j = 1) pentru

lnL =r

∑i=1

ni∗ ln pi∗+s

∑j=1

n∗ j ln p∗ j +λ (r

∑i=1

s

∑j=1

pi j−1)

sunt:∂ lnL∂ pi∗

= 0, i = 1, n si∂ lnL∂ p∗ j

= 0

Valorile probabilitatilor marginale le estimam prin valorile maxime ale lui L, si anume:

pi∗ =ni∗n

(i = 1, r) si p∗ j =n∗ j

n( j = 1, s). (7.5.3)

Ipoteza nula este:

(H0) : pi j = pi∗p∗ j, i = 1, r, j = 1, s (i.e., nu exista nicio asociere între atributele X si Y ).

(H1) : (H0) nu este adevarata.

Astfel, pentru i si j fixati, daca ipoteza nula ar fi adevarata, atunci valoarea asteptata în celula (i, j)este

Ei j = n pi j = n pi∗ · p∗ j =ni∗n∗ j

n, i = 1, r, j = 1, s. (7.5.4)

Calculam valoarea statisticii

H2 = ∑i, j

(ni j−

ni∗n∗ j

n

)2

ni∗n∗ j

n

(= ∑

i, j

(Oi j−Ei j)2

Ei j

), (7.5.5)

unde, în paranteza, Oi j = ni j este numarul de valori observate în celula (i, j) iar Ei j numarul devalori asteptate (en., expected) în celula (i, j).Daca în fiecare celula numarul de valori asteptate este de cel putin 5, atunci statistica H2 urmeazarepartitia χ2 cu (r−1)(s−1) grade de libertate.

Etapele testului de independenta sunt urmatoarele:

• Se dau ni j, i = 1, r, j = 1, s si pragul de semnificatie α;• Pe baza observatiilor ni j, calculam estimatiile (7.5.3);• Calculam H2 cu formula (7.5.5);• Daca Ei j ≥ 5, ∀i, j si H2 ≤ χ2

1−α;(r−1)(s−1), atunci se admite (H0) la nivelul α .Altfel, respingem (H0) la acest prag de semnificatie.

Page 140: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

140 Capitolul 7. Teste de concordanta

Revenim la datele din Tabelul 7.1. Pentru a stabili daca, la un nivel de semnificatie α = 0.05,alegerea cursului de limba straina este independenta de nivelul de studiu, calculam mai întâiestimatiile Ei j. Acestea sunt scrise în paranteze în Tabelul 7.3.

Nivel@@Limba Engleza Franceza Germana Italiana Spaniola Rusa Total

începator33

(37.06)19

(18.66)11

(7.36)12

(11.30)11

(12.35)6

(5.26)92

mediu65

(63.25)37

(31.85)10

(12.56)14

(19.29)24

(21.08)7

(8.97)157

avansat43

(40.69)15

(20.49)7

(8.08)17

(12.41)12

(13.56)7

(5.77)101

Total 141 71 28 43 47 20 350

Tabela 7.3: Tabel cu repartizarea si estimatia elevilor la cursurile de limbi straine.

Calculam H2:

H2 =3

∑i=1

6

∑j=1

(ni j−Ei j)2

Ei j=

(33−37.06)2

37.06+ · · ·+ (7−5.77)2

5.77

= 10.1228 < 18.3070 = χ20.95, 10

deci admitem ipoteza nula conform careia tipul cursului si nivelul sau sunt atribute independente.Pentru calculul acestor valori în MATLAB, putem proceda astfel:

n = 350; r = 3; s = 6; alpha = 0.05;

O = [33 19 11 12 11 6; 65 37 10 14 24 7; 43 15 7 17 12 7];

E = sum(O')'*sum(O)/n;

H2 = sum(sum((O-E).^2./E)); Hcrit = chi2inv(1-alpha,(r-1)*(s-1));

if (H2<Hcrit)

disp('variabilele sunt independente')

else

disp('variabilele sunt dependente')

end

7.5.1 Testul exact al lui FisherÎn cazul particular în care r = s = 2, tabelul de contingenta este de forma:

X @@Y Y1 Y2 Suma pe linieX1 a b a+bX2 c d c+d

Suma pe coloana a+ c b+d a+b+ c+d

Tabela 7.4: Tabel de contingenta 2×2.

Page 141: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.5 Test de independenta folosind tabele de contingenta 141

unde a, b, c, d sunt valorile observate pentru fiecare celula în parte. Valorile asteptate Ei j (veziformula (7.5.4)) sunt:

E11 =(a+b)(a+ c)

n, E12 =

(a+b)(b+d)n

, E21 =(c+d)(a+ c)

n, E22 =

(c+d)(b+d)n

,

unde n = a+b+ c+d. Statistica H2 data de relatia (7.5.5) devine:

H2 =

(ad−bc

n

)2( 1E11

+1

E12+

1E21

+1

E22

),

si urmeaza repartitia χ2(1). Din faptul ca H2 ∼ χ2(1), rezulta ca statistica H =√

H2 ∼N (0, 1),si se poate utiliza H pentru testul statistic de independenta.

Desi acest test poate fi realizat, în cazul tabelelor de contingenta 2×2 se utilizeaza testul exact allui Fisher. Acest test poate fi utilizat chiar si în cazul în care valorile observatiilor sunt mai micidecât 5. Sa alegem un prag de semnificatie α .Testam ipoteza nula

(H0) : nu exista nicio asociere între atributele X si Y.

versus ipoteza alternativa

(H1) : (H0) nu este adevarata. (test bilateral)

Rezultatele obtinute le putem scrie sub forma unei matrice, pe care o vom numi matricea configura-tiei. Aceasta este:

M =

(a bc d

).

Sa presupunem acum ca, pentru o matrice 2×2, sumele valorilor pe linii si pe coloane sunt fixate apriori. Atunci, putem alege elementele matricei ce satisface aceste conditii în mai multe moduri(este greu de precizat în câte moduri, în cazul cel mai general). În cazul problemei de fata, sapresupunem ca a+b, c+d, a+ c si b+d sunt fixate. Atunci, daca ipoteza nula este adevarata,probabilitatea de a obtine exact valorile din Tabelul 7.4 este:

P =Ca

a+bCcc+d

Ca+cn

. (7.5.6)

Aceasta probabilitate se obtine prin utilizarea schemei hipergeometrice.Exista însa mai multe matrice de tip 2×2 care au o configuratie fixata a sumelor pe fiecare linie sipe fiecare coloana (i.e., a+b, c+d, a+ c si b+d sunt fixate). Pentru fiecare matrice de acest tip,putem calcula o probabilitate (conditionata de realizarea ipotezei nule) de genul celei de mai sus.În cazul testului bilateral, P−valoarea testului (notata prin Pv) este suma tuturor probabilitatilorconditionate astfel calculate, care sunt mai mici sau egale cu probabilitatea obtinuta pentru confi-guratia data (inclusiv probabilitatea configuratiei date).Daca P−valoarea este mai mare decât α , atunci ipoteza nula este admisa la acest prag de semnifica-tie. Daca Pv ≤ α , atunci respingem (H0).În cazul în care ipoteza alternativa este una specifica (e.g., unul dintre atribute este preferat celuilalt),atunci P−valoarea este doar jumatate din suma anterioara. Spunem în acest caz ca avem un testunilateral.

Page 142: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

142 Capitolul 7. Teste de concordanta

Exemplu 7.1 Se testeaza efectele unui anumit tip de medicamente pe un grup de voluntari ceprezinta simptome de raceala. Acestia sunt în numar de 14 si au fost împartiti în doua grupuride 7 persoane. Pacientilor din primul grup, G1, li s-au administrat medicamentul iar pacientilordin grupul G2 nu li s-au administrat nimic. Dupa o saptamâna, s-a testat starea sanatatii celor 14pacienti, rezultatele fiind cele din Tabelul 7.5.

X @@Y sanatos bolnav Suma pe linieG1 6 1 7G2 4 3 7

Suma pe coloana 10 4 14

Tabela 7.5: Tabel de contingenta pentru testarea unui medicament.

Sa se determine daca administrarea medicamentului are vreun efect asupra starii de sanatate avoluntarilor. Se va folosi nivelul de semnificatie α = 0.05.

R: Ipoteza nula este:

(H0) : Starea de sanatate a voluntarilor este independenta de administrarea medicamentului.

Ipoteza alternativa (bilaterala) este:

(H1) : Ipoteza (H0) este falsa.

Matricea configuratiei este

M1 =

(6 14 3

)Folosind relatia (7.5.6), probabilitatea aparitiei acestei configuratii, stiind ca sumele pe linii si pecoloane sunt fixate, este

P1 =C6

7 C47

C1014

= 0.2448.

Alte configuratii cu suma 7 pe fiecare linie si sumele 10 pe prima coloana si 4 pe a doua coloanasunt:

M2 =

(4 36 1

), M3 =

(5 25 2

), M4 =

(3 47 0

), M5 =

(7 03 4

).

Probabilitatile conditionate corespunzatoare acestora sunt:

P2 = 0.2448; P3 = 0.4404, P4 = 0.0350, P5 = 0.0350.

P−valoarea este suma tuturor probabilitatilor mai mici sau egale cu P1:

Pv = P1 +P2 +P4 +P5 = 0.2448+0.2448+0.0350+0.0350 = 0.5596 > 0.05 = α.

Asadar, la acest prag de semnificatie admitem ipoteza nula.Observatia 7.2 (1) A se observa ca suma P1 +P2 +P3 +P4 +P5 = 1, ceea ce era deasteptat.(2) Daca rezultatul experimentului ar fi matricea M5 si ipoteza alternativa este

(H1) : exista evidente ca medicamentul are efecte benefice,

atunci avem un test unilateral. În acest caz, P−valoarea este Pv = P5/2 = 0.0152 < α ,ceea ce conduce la respingerea ipotezei nule si, deci, exista evidente ca medicamentul areefecte benefice.

Page 143: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.6 Exercitii rezolvate 143

7.6 Exercitii rezolvate

Exercitiu 7.1Se arunca un zar de 60 de ori si se obtin rezulta-tele din Tabelul 7.6. Sa se decida, la nivelul desemnificatie α = 0.02, daca zarul este corect saufals.

Fata (clasa Oi) Frecv. absoluta (ni)1 152 73 44 115 66 17

Tabela 7.6: Tabel cu numarul depuncte obtinute la aruncarea zarului.

R: (aplicam testul χ2 de concordanta, cazul neparametric)Zarul este corect doar daca fiecare fata a sa are aceeasi sansa de a aparea, adica probabilita-tile ca fiecare fata în parte sa apara sunt:

(H0) : pi =16, (i = 1, 2, . . . , 6).

Altfel, notam cu X variabila aleatoare ce are valori numarul punctelor ce apar la aruncareazarului. Un zar corect ar însemna ca X urmeaza repartitia uniforma discreta U (6).Toate cele 60 de rezultate obtinute în urma aruncarii zarului pot fi împartite în sase clase.Aceste clase sunt: Oi = i, i ∈ 1, 2, . . . , 6. Ipoteza nula este (H0) sau, echivalent,

(H0) : Functia de repartitie a lui X este U (6).

Ipoteza alternativa este "(H0) nu are loc", adica:

(H1) : Exista un j, cu p j 6=16, ( j ∈ 1, 2, . . . , 6).

Calculez valoarea statisticii χ2 pentru observatiile date:

χ20 =

(15−10)2

10+

(7−10)2

10+

(4−10)2

10+

(11−10)2

10+

(6−10)2

10+

(17−10)2

10= 13.6.

Repartitia statisticii χ2 este χ2 cu k−1 = 5 grade de libertate. Regiunea critica este:

U = (χ20.98; 5; +∞) = (13.3882, +∞).

Deoarece χ20 se afla în regiunea critica, ipoteza nula se respinge la nivelul α = 0.02, asadar

zarul este masluit. Codul MATLAB:

n = 60; k=6; alpha = 0.02; x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6);

chi2 = sum((f-n*p).^2)./(n*p)); % valoarea χ20

val = chi2inv(1-alpha,k-1); % cuantila χ20.99; 5

H = (chi2 > val) % afiseaza 0 daca zarul e corect si 1 daca nu

Page 144: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

144 Capitolul 7. Teste de concordanta

Observatia 7.3 Daca nivelul de semnificatie este ales α = 0.01, atunci χ20.99; 5 = 15.0863,

ceea ce determina acceptarea ipotezei nule (adica zarul este corect) la acest nivel.

Exercitiu 7.2 Revenim la Exercitiul 7.1, dar cu valoarea nivelului de încredere din Obser-vatia 7.3. Codul MATLAB ce foloseste functia de mai sus este:

x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01;

[h, p, stats] = chi2gof(x,'ctrs',x,'frequency',f,'expected',e,'alpha',alpha)

Acest cod returneaza:

h = p = stats =

0 0.0184 chi2stat: 13.6000

df: 5

edges: [0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000]

O: [15 7 4 11 6 17]

E: [10 10 10 10 10 10]

Acest rezultat confirma ca ipoteza nula (zarul este corect) este acceptata la nivelul α = 0.01.

Exercitiu 7.3 La campionatul mondial de fotbal din 2006 au fost jucate în total 64 demeciuri, iar repartitia numarului de goluri înscrise într-un meci are tabelul de distributie caîn Tabelul 7.7. Determinati (la nivelul de semnificatie α = 0.05) daca numarul de goluripe meci urmeaza o distributie Poisson.

Nr. de goluri pe meci Nr. de meciuri0 81 132 183 114 105 26 2

Tabela 7.7: Tabel cu numarul de goluri pe meci la FIFA WC 2006.

R: (aplicam testul de concordanta χ2 parametric) Fie X variabila aleatoare ce reprezintanumarul de goluri înscrise într-un meci. Teoretic, X poate lua orice valoare din multimeaN. Multimea observatiilor facute asupra lui X este 0, 1, 2, 3, 4, 5, 6, cu frecventelerespective din tabel. În total, au fost inscrise 144 de goluri. Estimam numarul de goluri pemeci prin media lor, adica λ = x = 144

64 = 2.25. Pe baza datelor observate, dorim sa testamdaca X urmeaza o repartitie Poisson. Avem astfel de testat ipoteza nula:

(H0) : X urmeaza o lege Poisson P(λ ).

vs. ipoteza alternativa

(H1) : X nu urmeaza o lege Poisson P(λ ).

Page 145: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.6 Exercitii rezolvate 145

Clasa ni pi n pi(ni−n pi)

2

n pi0 8 0.1054 6.7456 0.23331 13 0.2371 15.1775 0.31242 18 0.2668 17.0747 0.05013 11 0.2001 12.8060 0.25474 10 0.1126 7.2034 1.08575 2 0.0506 3.2415 −≥ 6 2 0.0274 1.7514 −≥ 5 4 0.0780 4.9926 0.1973

Tabela 7.8: Tablou de distributie pentru P(2.25).

Daca admitem ipoteza (H0) (adica X ∼P(2.25), atunci pi = pi(λ ) si distributia valorilorvariabilei este data de Tabelul 7.8. Valoarea pi este P(X = i), adica probabilitatea cavariabila aleatoare X ∼P(2.25) sa ia valoarea i (i = 0, 1, 2, 3, 4). Am putea forma 7clase. Deoarece pentru ultimele doua clase din Tabelul 7.8, si anume X = 5 si X ≥ 6,valorile asteptate în aceste clase, npi nu depasesc valoarea 3, le stergem din tabel si le unimîntr-o singura clasa, în care X ≥ 5, cu npi ≈ 5. Vom nota prin p≥5 probabilitatea

p≥5 = P(X ≥ 5) = 1−P(X < 5) = 1−P(X ≤ 4) = 1−4

∑i=0

P(X = i).

Ramânem asadar cu 6 clase. Ipoteza nula (H0) se poate rescrie astfel:

(H0) : p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p≥5 = 0.0780.

Ipoteza alternativa este

(H1) : ipoteza (H0) nu este adevarata.

Calculam acum valoarea statisticii χ2 pentru observatiile date:

χ20 =

(8−6.7456)2

6.7456+

(13−15.1775)2

15.1775+

(18−17.0747)2

17.0747+

(11−12.8060)2

12.8060+ . . .

+(10−7.2034)2

7.2034+

(4−4.9926)2

4.9926= 2.1337.

Deoarece avem 6 clase si am estimat parametrul λ , deducem ca numarul gradelor delibertate este 6−1−1 = 4. Cuantila de referinta (valoarea critica) este χ2

0.95; 4 = 9.4877.Regiunea critica pentru χ2 este intervalul (χ2

0.95; 4, +∞). Deoarece χ20 < χ2

0.95; 4, urmeazaca ipoteza nula (H0) nu poate fi respinsa la nivelul de semnificatie α . Asadar, este rezonabilsa afirmam ca numarul de goluri marcate urmeaza o repartitie Poisson. Prezentam maijos un cod MATLAB ce rezolva aceasta problema.

X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);...

5*ones(2,1);6*ones(2,1)];

f = [8 13 18 11 10 4]; % vectorul de frecvente absolute

Page 146: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

146 Capitolul 7. Teste de concordanta

n = 64; alpha = 0.05; lambda = mean(X);

for i=1:5 % probabilitatile P(X=i), i=0,1,2,3,4

p(i) = poisspdf(i-1,lambda);

end

p(6)= 1 - poisscdf(4,lambda); % probabilitatea P(X≥5)H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4);

if (H2 < Hstar)

disp('X urmeaza repartitia Poisson');

else

disp('X nu urmeaza repartitia Poisson');

end √

Eventual, putem folosi functia chi2gof.

y = [0 1 2 3 4 5];

[h, p, stats] = chi2gof(y,'ctrs',y,'frequency',f,'expected',e,'alpha',alpha)

Observatia 7.4 Daca ipoteza nula este respinsa, atunci motivul poate fi acela ca unelevalori observate au deviat prea mult de la valorile asteptate. În acest caz, este interesant deobservat care valori sunt extreme, cauzând respingerea ipotezei nule. Putem defini astfelreziduurile standardizate:

ri =Oi−n pi√n pi (1− pi)

=Oi−Ei√Ei (1− pi)

,

unde prin Oi am notat valorile observate si prin Ei valorile asteptate. Daca ipoteza nula arfi adevarata, atunci ri ∼N (0, 1). În general, reziduuri standardizate mai mari ca 2 suntsemnale ca datele contin valori observate extreme.Exercitiu 7.4 Într-o anumita zi de lucru, sunt urmariti timpii de asteptare într-o statie detramvai, pâna la încheierea zilei de lucru (adica, pâna trece ultimul tramvai). Notam cu Tcaracteristica ce reprezinta numarul de minute asteptate în statie, pâna soseste tramvaiul.Rezultatele observatiilor sunt sumarizate în Tabelul 7.9. Se cere sa se cerceteze (α = 0.05)daca timpii de asteptare sunt repartizati exponential.

Durata 0−5 5−10 10−15 15−20 20−25ni 39 35 14 7 5

Tabela 7.9: Timpi de asteptare în statia de tramvai.

R: (folosim testul χ2 de concordanta, parametric) Avem de testat ipoteza nula

(H0) F(x)∼= F0(x) = 1− e−λ x, x > 0

vs. ipoteza alternativa(H1) ipoteza (H0) este falsa.

Page 147: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.6 Exercitii rezolvate 147

Deoarece parametrul λ este necunoscut, va trebui estimat pe baza selectiei date. Pentruaceasta, folosim metoda verosimilitatii maxime. Functia de verosimilitate pentru exp(λ )este

L(t1, t2, . . . , tn; λ ) =n

∏k=1

λe−λ ti = λne−λ nt .

Mai sus, am notat prin t1, t2, . . . , tn valorile de selectie pentru variabila aleatoare T .Punctele critice pentru L(λ ) sunt date de ecuatia

∂ lnL∂λ

= 0 =⇒ ∂

∂λ(n lnλ −λ nt) =⇒ λ =

1t.

Se observa cu usurinta ca

∂ 2 lnL∂λ 2 |λ=λ

=−nt2 < 0,

de unde concluzionam ca λ este punct de maxim pentru functia de verosimilitate.Tabelul de distributie pentru caracteristica T este:(

2.5 7.5 12.5 17.5 22.539 35 14 7 5

).

Calculam media de selectie, t = 1100(2.5 ·39+7.5 ·35+12.5 ·14+17.5 ·7+22.4 ·5) = 7.7,

adica λ = 0.1299.Daca variabila T ar urma repartitia exponentiala exp(λ ), atunci probabilitatile ca T sa iavalori în fiecare clasa sunt, în mod corespunzator:

pi = pi(λ ) = P(X ∈ (ai, ai+1] | F = F0) = F0(ai+1; λ )−F0(ai; λ ), i = 1, 2, 3, 4, 5.

unde a6 =+∞.În Tabelul 7.10 am înregistrat urmatoarele date:

• clasele (de notat ca ultima clasa este (20,+∞), deoarece se doreste o concordantaa datelor observate cu date repartizate exponential, iar multimea valorilor pentrurepartitia exponentiala este R+),

• extremitatile din stânga ale claselor (ai),• frecventele absolute ni (sau valorile observate în fiecare clasa),• probabilitatile pi, valorile asteptate în fiecare clasa (n pi),• erorile relative de aproximare ale datelor asteptate cu cele observate.

Numarul gradelor de libertate este k− p−1= 3. Calculam valoarea critica χ20.95; 3 = 7.8147

si, de asemenea, valoarea

H0 =k

∑i=1

(ni−n pi)2

n pi= 6.5365.

Deoarece χ20 < χ2

0.95; 3, ipoteza (H0) nu poate fi respinsa la acest nivel de semnificatie.

Page 148: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

148 Capitolul 7. Teste de concordanta

Clasa ai ni pi n pi(ni−n pi)

2

n pi(0, 5] 0 39 0.4776 47.7615 1.6072(5, 10] 5 35 0.2495 24.9499 4.0483(10, 15] 10 14 0.1303 13.0334 0.0717(15, 20] 15 7 0.0681 6.8085 0.0054(20,+∞) 20 5 0.0745 7.4467 0.8039(0,+∞) − 100 1 100 6.5365

Tabela 7.10: Tabel de distributie pentru timpii de asteptare.

Codul MATLAB este urmatorul:

T=[2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)];

% sau

% T=[5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)];

n = 100; alpha = 0.05; m = mean(T); lambda = 1/m;

a = [0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5];

for i =1:5

p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);

end

H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3);

if (H2 < cuant)

disp('Timpii de asteptare sunt exponential repartizati');

else

disp('ipoteza (H0) se respinge');

end

Exercitiu 7.5 (test de verificare a normalitatii)Consideram selectia −2;−0.5; 0; 1; 1; 2; 2; 3, extrasa dintr-o anumita colectivitate. La

nivelul de semnificatie α = 0.1, sa se decida daca populatia din care provine selectia estenormala de medie 1 si dispersie 2 (i.e., X ∼N (1,

√2)).

R: (folosim testul Kolmogorov-Smirnov) Mai întâi, calculam functia de repartitieempirica. Avem:

F∗n (x) = P(X ≤ x) =

0, daca x <−2;18 , daca x ∈ [−2,−0.5);28 , daca x ∈ [−0.5, 0);38 , daca x ∈ [0, 1);58 , daca x ∈ [1, 2);78 , daca x ∈ [2, 3);1, daca x≥ 3.

Pentru α = 0.1 si n = 8, cautam în tabelul pentru inversa functiei lui Kolmogorov acelx1−α;8 = x0.9;8 astfel încât K(x1−α;8) = 1−α . Gasim ca x0.9;8 = 0.411.Pe de alta parte, F(x) = Θ(x−1√

2), unde Θ(x) este functia de repartitie pentru legea normala

Page 149: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.6 Exercitii rezolvate 149

N (0, 1).Ipoteza ca X urmeaza repartitia normala N (1,

√2) este acceptata daca

√ndn < x1−α .

Calculele pentru determinarea valorii dn sunt date de Tabelul 7.11. În Figura 7.4, putemobserva reprezentarile acestor doua functii pentru setul de date observate.

xi −∞ −2 −0.5 0 1 2 3 ∞

F(xi) 0 0.0169 0.1444 0.2398 0.5 0.7602 0.9214 1F∗n (xi−0) 0 0 0.125 0.25 0.375 0.625 0.875 1

F∗n (xi) 0 0.125 0.25 0.375 0.625 0.875 1 1|F∗n (xi−0)−F(xi)| 0 0.0169 0.0194 0.0102 0.125 0.1352 0.0464 0|F∗n (xi)−F(xi)| 0 0.1081 0.1056 0.1352 0.125 0.1148 0.0786 0

Tabela 7.11: Tabel de valori pentru testul Kolmogorov-Smirnov.

Figura 7.4: F∗n (x) si F(x) din Tabelul 7.11.

Pentru a calcula dn, notam faptul ca cea mai mare diferenta între F(x) si F∗n (x) poate firealizata ori înainte de salturile functiei F∗n , ori dupa acestea, i.e.,

supx∈R|F(x)−F∗n (x)|= max

i

|F(xi)−F∗n (xi−0)|, înainte de saltul i;|F(xi)−F∗n (xi)|, dupa saltul i.

Din tabel, observam ca dn = 0.1352. Deoarece√

n · dn =√

8 · 0.1352 = 0.3824 < 0.411,concluzionam ca putem accepta ipoteza (H0) la pragul de semnificatie α = 0.1.

Codul MATLAB ce rezolva problema este:

X = [-2; -0.5; 0; 1; 1; 2; 2; 3]; F = normcdf(X, 1, sqrt(2));

[h, p, ksstat] = kstest(X, [X,F], 0.1, 'unequal')

Page 150: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

150 Capitolul 7. Teste de concordanta

unde, X este vectorul de date observate si F este vectorul ce contine valorile functiei derepartitie F(x) pentru componentele lui X .Rulând acest cod, obtinem:

h = p = ksstat =

0 0.9968 0.1352

Observam ca valoarea ksstat este chiar dn gasita anterior.Exercitiu 7.6 Într-un sondaj de opinie, 5 barbati si 5 femei au fost întrebate daca urmarescmeciuri de fotbal la TV în mod regulat. Toti barbatii si doar doua femei au raspunsafirmativ, ceilalti spunând ca nu. Sa se testeze la nivelul de semnificatie α = 0.05 dacadiferenta este semnificativa din punct de vedere statistic (i.e., daca femeile se uita la fotballa TV cot la cot cu barbatii).R: Ipoteza nula este:

(H0) : Vizionarea meciurilor de fotbal la TV este independenta de gen.

Ipoteza alternativa (bilaterala) este:

(H1) : Ipoteza (H0) este falsa.

Folosim testul exact al lui Fisher. De fapt, folosirea celuilalt test (testul bazat pe probabili-tati aproximative) nu este oportuna, deoarece nu avem cel putin 5 valori asteptate în fiecarepozitie a matricei de configuratie. Matricea configuratiei este

M0 =

(5 02 3

)Folosind relatia (7.5.6), probabilitatea aparitiei acestei configuratii, stiind ca sumele pelinii si pe coloane sunt fixate, este

P1 =C5

7 C03

C510≈ 0.0833.

Alte configuratii cu suma 5 pe fiecare linie si sumele 7 pe prima coloana si 3 pe a douacoloana sunt:

M1 =

(3 24 1

), M2 =

(4 13 2

), M3 =

(5 02 3

).

Probabilitatile conditionate corespunzatoare acestora sunt:

P2 ≈ 0.4167; P3 ≈ 0.4167, P4 ≈ 0.0833.

Valoarea Pv a testului este suma tuturor probabilitatilor mai mici sau egale cu P0:

Pv = P0 +P4 ≈ 0.1667 > 0.05 = α.

Asadar, la acest prag de semnificatie admitem ipoteza nula.

Page 151: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.7 Exercitii propuse 151

Observatia 7.5 Daca am forta folosirea testului bazat pe probabilitati aproximative, atuncitabelul cu valorile observate si cele asteptate este

X \ Y TV no TV Total5 0

Barbati (3.5) (1.5) 52 3

Femei (3.5) (1.5) 5Total 7 3 10

Valoarea statisticii test (7.5.5) va fi

H2 =(5−3.5)2

3.5+

(2−3.5)2

3.5+

(0−1.5)2

1.5+

(3−1.5)2

1.5= 4.2857 > 3.8415 = χ

20.95,1

si am concluziona gresit ca ipoteza nula este respinsa.

7.7 Exercitii propuse

Exercitiu 7.7 Urmarim sa comparam preturile aceluiasi tip de pâine de 500g, alegând laîntâmplare diverse magazine din doua orase. Scopul investigatiei este de a decide dacapretul mediu al acestui produs difera de la un oras la altul. Notam cu X1 pretul acestuiprodus în primul oras si cu X2 pretul din al doilea oras. Valorile pentru fiecare caracteristicasi frecventele absolute sunt sumarizate în urmatoarele doua matrice:

X1 :(

2.0 2.1 2.2 2.3 2.4 2.57 9 19 14 10 5

)si X2 :

(2.0 2.1 2.2 2.3 2.46 10 17 14 4

)(a) Determinati un interval de încredere pentru diferenta mediilor celor doua caracteristici(α = 0.04).(b) Se poate admite ipoteza ca dispersiile celor doua caracteristici sunt egale (α = 0.04)?(c) Tinând cont de rezultatul de la (b), se poate admite ipoteza ca pretul mediu al acestuitip de pâine nu difera între cele doua orase (α = 0.04)?

Exercitiu 7.8 Testati normalitatea datelor din Tabelul 3.5 la nivelul de semnificatie α =0.1.Exercitiu 7.9 Se prezice ca repartitia literelor care apar cel mai des în limba engleza ar fiurmatoarea:

Litera O R N T EFrecventa 16 17 17 21 29

Aceasta semnifica urmatoarea: de fiecare data când cele 5 litere apar într-un text, în 16%dintre cazuri apare litera O, în 21% dintre cazuri apare litera T etc. Sa presupunem ca uncriptologist analizeaza un text si numara aparitiile celor 5 litere. Acesta a gasit urmatoareadistributie:

Litera O R N T EFrecventa 18 14 18 19 31

Page 152: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

152 Capitolul 7. Teste de concordanta

Folosind testul χ2 de concordanta, sa se verifice daca aceste aparitii sunt în nota discordantacu predictia initiala.Exercitiu 7.10 Tabelul urmator contine numarul de nasteri pe zi ce au avut loc într-oanumita maternitate, observate în decursul a 100 de zile alese la întâmplare.

nasteri pe zi 0 1 2 3 4 5 6frecventa 21 27 33 10 7 1 1

(a) Estimati numarul mediu de nasteri pe zi ce au loc în mod regulat în acea maternitate.(b) Testati ipoteza ca numarul de nasteri pe zi este o variabila aleatoare repartizataPoisson.(c) Folosind rezultatul de la punctul (b), estimati probabilitatea ca, într-o zi aleasa laîntâmplare, sa aiba loc cel putin 2 nasteri în acea maternitate.

Exercitiu 7.11 Se doreste determinarea sanselor de avea un baiat sau o fata pentru mamelecu patru copii. Avem la îndemâna o selectie de 564 de mame a câte 4 copii. Rezultatelesunt cele din tabelul de mai jos.

Numar de copii Frecventa4 fete 38

3 fete si un baiat 1382 fete si 2 baieti 213o fata si 3 baieti 141

4 baieti 34

(i) Reprezentati grafic datele pe un pe disc (pie chart).(ii) La nivelul de semnificatie α = 0.05, testati ipoteza ca, pentru mamele cu patru copii,probabilitatea de avea un baiat este egala cu probabilitatea de avea o fata.Indicatie: Se testeaza concordanta cu repartitia B(4,0.5).Exercitiu 7.12 Se arunca o moneda de 250 de ori, obtinându-se 138 de aparitii ale stemei.La un nivel de semnificatie α = 0.05, sa se decida daca avem suficiente dovezi de a afirmaca acesta moneda este falsa.Exercitiu 7.13 Datele din tabelul de mai jos reprezinta repartizarea pe vârste pentru unesantion de 385 de someri dintr-o anumita regiune a tarii.

Vârsta [18, 25) [25, 35) [35, 45) [45, 55) [55, 65)Frecventa 34 76 124 87 64

(a) Reprezentati datele prin bare.(b) Folosind testul χ2, testati daca datele din tabel sunt observatii facute asupra uneicaracteristici normale (se va alege α = 0.05).Exercitiu 7.14 Se considera caracteristica X ce reprezinta înaltimea barbatilor (în centi-metri) dintr-o anumita regiune a unei tari. S-a facut o selectie de volum n = 200, iar datelede selectie au fost grupate în tabelul urmator:

Clasa ≤ 165 (165, 170] (170, 175] (175, 180] (180, 185] (185, 190] (190, 195] ≥ 195ni 12 25 34 47 36 27 17 2

(a) Reprezentati datele printr-o histograma.(b) Precizati estimatori nedeplasati pentru media si dispersia înaltimii barbatilor din acea

Page 153: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.7 Exercitii propuse 153

regiune. Folosind datele din tabel, determinati valorile acestor estimatori.(c) Testati daca datele din tabel sunt observatii facute asupra unei caracteristici normale(α = 0.05).(d) Care este probabilitatea ca un barbat ales la întâmplare din acest tinut sa fie mai înaltde 182cm?Exercitiu 7.15 Doua strunguri produc piese de acelasi tip. Notam cu X1 diametrul pie-selor produse de primul strung, si cu X2 diametrul pieselor produse de al doilea strung.Presupunem ca ambele caracteristicile, X1 si X2, urmeaza legea normala.

X1 :(

4.90 4.95 5.00 5.0511 16 19 14

)si X2 :

(4.90 4.95 5.00 5.10

6 8 14 7

)(a) Determinati un interval de încredere pentru diferenta mediilor celor doua caracteristici(α = 0.03).(b) Se poate admite ipoteza ca dispersiile celor doua caracteristici sunt egale (α = 0.03)?(b) Tinând cont de rezultatul de la (b), se poate admite ipoteza ca mediile diametrelorpieselor produse de cele doua strunguri sunt egale, cu alterntiva ca E(X1) > E(X2)?(α = 0.03)Exercitiu 7.16 Pentru a determina procentul de cursanti ai unei scoli de soferi care au luatpermisul de conducere dupa prima examinare, s-a considerat o selectie aleatoare de 40 decursanti de gen masculin si o selectie aleatoare de 60 de gen feminin. Datele sunt cele demai jos:• barbati:

0 0 1 1 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1

0 1 0 0 1 1 1 0 0 1 1 0 0 0 1 0 1 1 1 0

• femei:

0 0 1 1 0 0 0 1 0 1 0 0 1 0 1 0 0 0 0 1 0 1 0 0 1 1 0 0 0 1

0 1 0 0 1 1 1 0 0 1 1 0 1 0 1 0 1 1 1 0 0 1 0 0 1 0 1 0 0 1

Aici, 1 reprezinta succes si 0 insucces.(a) Folosind un tabel de contingenta, sa se testeze ipoteza ca obtinerea permisului deconducere dupa prima examinare este independenta de gen (α = 0.05);(b) Testati ipoteza ca procentul de barbati ce obtin permisul dupa prima examinare esteegal cu procentul de femei ce obtin permisul dupa prima examinare (α = 0.05);(c) Testati ipoteza ca doar 40% dintre cursantii acestei scoli obtin permisul de conduceredupa prima examinare (α = 0.05).Exercitiu 7.17 Tabelul de mai jos reprezinta o selectie de rezultate din diferite sporturi,grupate pe echipa câstigatoare si sport.

Fotbal Baschet Handbal Volei RugbyGazdele câstiga 53 112 45 21 31Oaspetii câstiga 40 92 48 29 24

La nivelul de semnificatie α = 0.05, sa se decida daca victoria gazdelor/oaspetilor esteindependenta de sport.Exercitiu 7.18 Se doreste a se testa daca testul poligraf poate detecta daca o persoanaminte sau nu. Tabelul de mai jos reprezinta o selectie de rezultate.

Page 154: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

154 Capitolul 7. Teste de concordanta

Realitatea→ Subiectul testat a mintit în realitate↓ Rezultatul poligrafului ↓ NU | DA

Poligraful indica faptul ca subiectul minte 11 | 35Poligraful indica faptul ca subiectul nu minte 39 | 9

La nivelul de semnificatie α = 0.05, sa se decida daca testul poligraf este eficient în adetecta minciuna.Exercitiu 7.19 Se doreste a se testa daca sentinta pe care o va primi un acuzat esteindependenta de cum pledeaza. Tabelul de mai jos reprezinta o selectie de rezultate.

Cum pledeaza→ Acuzatul pledeaza↓ Decizia judecatorului ↓ "vinovat" | "nevinovat"

trimis la închisoare 390 | 62ramâne liber 558 | 20

La nivelul de semnificatie α = 0.05, sa se decida daca sentinta este independenta de cumpledeaza acuzatul. Daca ati fi avocatul apararii, ati încuraja acuzatul sa pledeze vinovat?Exercitiu 7.20 Tabelul de mai jos reprezinta o selectie de date de volum 100, grupate dupadoua caracteristici, X si Y .

X \ Y y1 y2 y3

x1 12 7 21x2 a b c

Completati tabelul cu valorile a, b si c astfel încât caracteristicile X si Y sunt independentela nivelul de semnificatie α = 0.05.Exercitiu 7.21 Consideram aceeasi problema ca în Exemplul 7.1, dar cu tabelul de maijos.

X \ Y sanatos bolnavG1 8 2G2 3 7

Folosind testul Fisher, sa se determine daca administrarea medicamentului are vreun efectasupra starii de sanatate a voluntarilor. Se va folosi nivelul de semnificatie α = 0.1.Exercitiu 7.22 Elevii unui anumit liceu au efectuat de generatii excursii organizate. Direc-torul liceului doreste sa verifice daca parintii copiilor înca mai sustin aceasta initiativa. Ela trimis un chestionar la toti parintii copiilor din liceu, prin care le cerea sa indice optiunealor si ciclul de studii al copilului lor. Doar 150 de parinti au raspuns, iar rezultatele au fostgrupate în tabelul de mai jos.

Ciclul \ Opinia De acord Nu sunt de acord Nicio parereGimnaziu 42 30 6

Liceu 40 25 7

(a) Testati daca alegerea facuta de parinti este independenta de ciclul de studii (α = 0.05).(b) Pe baza raspunsurilor primite, decideti daca proportia de parinti ce sunt de acord cuexcursiile este semnificativ diferita de proportia celor ce au alte opinii (α = 0.05).

Page 155: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

7.7 Exercitii propuse 155

Exercitiu 7.23 Într-un sondaj de opinie, un numar de 160 de studenti din universitate(alesi aleator) au fost rugati sa se pronunte în legatura cu necesitatea introducerii uneiprobe scrise la examenul de licenta. Raspunsurile posibile erau: "Da", "Nu" sau "Nu stiud’astea". Dintre acestia, 19 baieti si 26 de fete au raspuns "Da", iar 40 de baieti si 50 defete au raspuns "Nu". La sondaj au participat 85 de fete si 75 de baieti.(a) Sunt proportiile de baieti si fete care au rasuns "Da" semnificativ diferite? (α = 0.04).(b) Ce test propuneti pentru a stabili daca exista sau nu diferente semnificative de opinieîntre baieti si fete? Formulati ipotezele testului.(c) Determinati rezultatul testului formulat la (b) (α = 0.04).

Page 156: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘
Page 157: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8. Teste neparametrice

. [Statistics shows that people who celebrate

. the most birthdays live longer.]

Testele discutate anterior funtioneaza în ipoteza ca datele selectate urmeaza o repartitienormala sau ca volumul datelor este suficient de mare, pentru ca aproximarea cu repartitianormala sa fie valida. Se pune astfel problema urmatoare:

Q: În cazul în care volumul datelor este mic si nu avem garantia ca ar fi normaldistribuite, se mai pot afla informatii despre repartitia datelor sau despre parametriivariabilei?

Testele neparametrice ar putea da un raspuns pozitiv la aceasta întrebare. Aceste testesunt teste statistice în cadrul carora nu se fac presupuneri asupra formei repartitiei. Elenu verifica valorile parametrilor traditionali, de aceea mai sunt cunoscute si sub titulaturade metode fara parametri (en., parameter-free methods) sau metode fara repartitie (en.,distribution-free methods). Testele neparametrice pot fi utilizate atunci când sunt dubiiasupra normalitatii datelor statistice.Se pot construi teste neparametrice corespunzatoare fiecarui test parametric studiat maisus, însa aceste teste neparametrice sunt, în general, grupate în urmatoarele categorii:

• teste pentru diferenta dintre grupuri (pentru selectii independente). Este cazulcompararii mediilor a doua selectii ce provin din populatii independente. De regula,daca ipotezele acestuia sunt îndeplinite, atunci se utilizeaza testul t. Varianteneparametrice ale acestui test sunt: testul Wald-Wolfowitz sau testul Mann-Whitney.

• teste pentru diferenta dintre variabile (pentru selectii dependente). Utilizat la com-pararea a doua variabile ce caracterizeaza populatia din care s-a luat selectia. Testeneparametrice utilizate: testul semnelor, testul Wilcoxon (signed-rank).

Page 158: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

158 Capitolul 8. Teste neparametrice

• teste pentru relatii între variabile. Pentru a determina corelatia între doua variabile,de regula se utilizeaza coeficientul de corelatie lui Pearson. Exista variante nepara-metrice ale testului bazat pe coeficientul de corelatie Pearson, e.g., coeficientul R(Spearman), coeficientul τ (Kendall) sau coeficientul Γ (Goodman si Kruskal).

Avantajul testelor neparametrice este ca sunt mai robuste, adica folosesc mai putineipoteze decât testele parametrice. Testele neparametrice nu au nevoie de o repartitie apriori cunoscuta a datelor observate sau de un volum mare de date. Totusi, efectul lipseiunor ipoteze restrictive face ca puterea unui test neparametric sa fie (în general) maimica decât a testului parametric corespunzator (care ar fi folosit daca ipotezele sale suntsatisfacute). Astfel, în cazul unui test neparametric sunt sanse mai mici ca ipoteza nula safie respinsa atunci când ea este, în realitate, falsa. Acest fapt înseamna ca valoare Pv estemai mare în cazul unui test neparametric decât în cazul testului parametric corespunzator,calculata pentru acelasi set de date. Testele neparametrice pot fi singurele optiuni pentruanaliza datelor statistice în urmatoarele cazuri: datele sunt ordinale, datele sunt fara valorinumerice, datele contin valori aberante extreme sau în cazul în care datele sunt rezultatulunor masuratori imprecise. Daca s-ar dori analiza acestor date folosind teste parametrice,vor fi necesare ipoteze restrictive severe asupra datelor, cum ar fi ipoteza de normalitate.De multe ori, aceste ipoteze pot fi nerealiste.

8.1 Testul semnelor

Testul semnelor se mai numeste si testul medianei. Este un test neparametric bazatpe semnele anumitor valori si nu pe valorile în sine. Testul semnelor este util atuncicând avem date ordinale (grupate pe categorii ordonate), fara a sti valorile numerice alediferentelor dintre categorii. Daca valorile numerice sunt cunoscute, atunci se poate folosiun test mai puternic, e.g., testul rangurilor cu semn al lui Wilcoxon. Este unul dintre celemai simple teste statistice neparametrice. Pentru ca acest test sa poate fi utilizat, trebuie cadatele statistice observate sa fie alese aleator si independent din populatia considerata.Acest test verifica valoarea centrala a setului de date observate si nu impune nicio ipotezareferitoare la repartitia datelor. La testul t clasic, valoarea centrala testata este media (inconditiile normalitatii datelor sau pentru un volum suficient de mare de date), iar la testulsemnelor se testeaza valoarea mediana a observatiilor. Daca setul de date este simetric,atunci valoarea mediana este egala cu media. In acest caz, testul semnelor poate dainformatii despre media datelor observate, desi este un test mai putin precis decat testul t.

Conditiile testului: Datele x1, x2, . . . , xn sunt observatii aleatoare si independente asupraunei caracteristici continue X a unei populatii.Ipoteza nula:

(H0) : Me = Me∗ (valoarea mediana a datelor este o valoare data, Me∗),

la nivelul de semnificatie α . In functie de ipoteza alternativa, putem avea un test unitaleralsau un test bilateral.

Page 159: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8.1 Testul semnelor 159

Test unilateral stânga:

(H1)s : Me < Me∗

Statistica test este

S∗ = S< =n

∑i=1

1xi<Me∗

unde S< este nr. datelor mai mici decât Me∗

Test bilateral:

(H1) : Me 6= Me∗

Statistica test esteS∗ = S 6= = maxS<, S>

Pentru testul unilateral dreapta, ipoteza alternativa este (H1)d : Me > Me∗, iar statistica

test este S∗ = S> =n

∑i=1

1xi>Me∗, adica numarul datelor mai mari decât Me∗.

Observatiile care au o valoare egala cu Me∗ sunt eliminate din analiza si n este ajustatcorespunzator. Daca ipoteza nula este adevarata si mediana este Me∗, atunci S∗ este ovariabila binomiala S∗ ∼B(n, 0.5). Pe baza acestor statistici se calculeaza nivelul desemnificatie observat, Pv, care reprezinta probabilitatea de a obtine un rezultat cel putin lafel de extrem ca si cel observat, daca ipoteza nula este adevarata. Vom avea:

cazul unilateral: Pv = P(S≥ S∗); cazul bilateral: Pv = 2P(S≥ S∗),

unde S ∼B(n, 0.5). Daca valoarea Pv este mai mare decât α , atunci acceptam ipotezanula (nu avem motive sa o respingem). Altfel, acceptam ipoteza alternativa.Observatia 8.1 Daca volumul observatiilor este mare (e.g., n ≥ 30) si S∗ ∼B(n, 0.5),atunci statistica test este S∗ ∼N (n/2,

√n/2). În acest caz, testul pentru mediana se poate

face pe baza statisticii

z0 =(S∗−0.5)−n/2√

n/2,

unde S este statistica corespunzatoare de mai sus. Valoarea "−0.5" este corectia deaproximare a unei variabile discrete cu una continua. Decizia finala se ia astfel: respingemipoteza nula daca

z0 <−z1−α (pentru (H1)s), z0 > z1−α (pentru (H1)d), |z0|> z1−α

2(pentru (H1)).

Exemplu 8.1 Dorim sa testam preferintele clientilor dintr-o anumita pizzerie pentru pizzacu blat subtire sau gros. Sa spunem ca aceste preferinte sunt reprezentate în Tabelul 8.1.În acest tabel, fiecarei preferinte i se atribuie un semn, + pentru "blat gros" si − pentru

marime subtire gros gros gros subtire gros gros subtire gros grossemn − + + + − + + − + +

Tabela 8.1: Tabel cu preferinte pentru blatul de pizza.

"blat subtire". Dintr-o privire în tabel, se pare ca marea parte (70%) a clientilor preferablatul gros. Dorim sa testam semnificatia acestor date. Cu alte cuvinte, care este sansaobtinerii acestor rezultate daca, de fapt, nu exista vreo diferenta între preferinte? Sau, dacaam presupune ca preferintele pentru cele doua tipuri sunt împartite în mod egal, care suntsansele de a obtine un rezultat de genul prezentat în tabelul de mai sus?

Page 160: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

160 Capitolul 8. Teste neparametrice

R: Stabilim ipoteza nula

(H0) : preferintele pentru cele doua blaturi sunt 50%−50%;

versus ipoteza alternativa bilaterala

(H1) : exista diferente semnificative în preferintele pentru cele doua blaturi.

Pot fi considerate si teste unilaterale (stânga sau dreapta). Alegem pragul de semnificatieα = 0.05. Ca de obicei, presupunem ca ipoteza nula este adevarata si, atunci, sansaca cineva sa aleaga un blat subtire este p = 0.5. Daca notam cu X variabila aleatoarece reprezinta alegerea blatului, facuta de clientii care au comandat pizza, atunci X ∼B(10, 0.5) (aici avem o selectie de n = 10). Calculam P−valoarea, adica valoarea maximapentru pragul de semnificatie pentru care ipoteza nula nu poate fi respinsa. Aici, S< =3, S> = 7 si S 6= = 7. Probabilitatea critica este Pv = 2P(X ≥ 7) = 0.3438. Deoareceα < Pv, ipoteza nula nu poate fi respinsa la acest nivel de semnificatie.

8.1.1 Testul semnelor pentru date perechiVom numi date perechi un set de date bivariate (date ce contin doua valori, adica de forma(xi, yi)

ni=1) ce reprezinta observatii asupra aceleiasi caracteristici, între cele doua compo-

nente existând macar o legatura. Pentru aceste seturi de valori, ipoteza de independentaîntre seturile de valori (xi)

ni=1 si (yi)

ni=1 nu mai este satisfacuta.

Exemple:• masele corporale ale unor persoane inainte si dupa o anumita dieta (se doreste a

studia efectul dietei asupra masei corporale);• notele elevilor la testarea initiala la Matematica si notele acelorasi elevi la teza de

Matematica (se urmareste testarea progresului facut de elevi intr-un semestru);• starea sanatatii unor bolnavi înainte si dupa administrarea unui tratament (se urma-

reste testarea eficientei tratamentului);• salariile individuale pentru un numar de perechi sot - sotie (se urmareste testarea

diferentelor salariale între soti).Consideram X si Y doua variabile dependente intre ele. Pentru a compara mediile celordoua variabile nu se poate aplica testul t pentru diferenta mediilor, deoarece ipoteza deindependenta dintre X si Y este una de baza pentru aplicabilitatea testului t. Vom vedeamai tarziu (vezi testul t pentru date perechi) cum putem testa daca mediile sunt egale.Deocamdata, sa ne indreptam atentia asupra medianelor variabilelor.Presupunem ca (x1, y1), (x2, y2), . . ., (xn, yn) sunt datele perechi observate asupra varia-bilelor (X , Y ). In multe aplicatii se doreste a se determina cum este X fata de Y . Pentruaceasta, se considera diferentele di = xi− yi.Conditiile testului: Se presupune ca d1, d2, . . . , dn sunt independente si provin dintr-opopulatie continua, de mediana Me.Ipoteze:

(H0) : Me = 0 (diferentele dintre valorile perechi au mediana 0)(H1) : Me 6= 0.

Se pot considera si teste unilaterale, daca (H1)s : Me < 0 sau (H1)d : Me > 0.Ipotezele de mai sus pot fi testate folosind testul semnelor descris anterior.Atentie, acest test nu verifica daca medianele celor doua selectii, MeX si MeY , sunt egale!

Page 161: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8.2 Testul seriilor pentru caracterul aleator 161

8.2 Testul seriilor pentru caracterul aleatorTestul seriilor (en., runs test) este un test neparametric ce verifica ipoteza ca un sir de datebivariate este aleator generat (i.e., datele statistice constituie o selectie aleatoare dintr-unsir infinit de valori).Conditiile testului: Datele bivariate sunt independente.Ipotezele testului:

(H0) : valorile observate provin dintr-un sir aleator,

vs.(H1) : valorile observate nu provin dintr-un sir aleator.

Daca o anumita valoare a unui anumit sir de caractere este influentata de pozitia sa sau devalorile ce o preced, atunci selectia generata nu poate fi aleatoare.Definim notiunea de serie sau faza (en., run) ca fiind o succesiune a unuia sau mai multesimboluri de acelasi tip, care sunt precedate si urmate de simboluri de alt tip sau niciunsimbol. De exemplu:

001111010010 sau MFFFFFMMMF sau ++-+---++++--+--++-

Numarul de faze si lungimea lor pot fi folosite în determinarea gradului de stochasticitatea unui sir de simboluri. Prea putine sau prea multe faze, sau de lungimi excesiv de marisunt rare în serii cu adevarat aleatoare, de aceea ele pot servi drept criterii statistice pentrutestarea stochasticitatii. Aceste criterii sunt adiacente: prea putine faze implica faptul caunele faze sunt prea lungi (se observa o persistenta), prea multe faze implica faptul caunele faze sunt prea scurte (se observa o secventa in zigzag). Asadar, ne vom preocupadoar de numarul total de faze.Fie n1 si n2 numarul de semne +, respectiv, − din sir. Numarul total de semne esten = n1 +n2. Fie r1 si r2 numarul de faze ce corespund semnului +, respectiv, − din sir.Numarul total de faze este r = r1 + r2. Vom nota cu litere mari, R1, R2 sau R, variabilelealeatoare ale caror realizari sunt r1, r2, respectiv, r.Sa exemplificam aceste numere pentru sirurile considerate mai sus. Primul sir de n = 12cifre este constituit din r = 7 faze: r1 = 4 faze de "0" si r2 = 3 faze de "1"; n1 = n2 = 6.Al doilea sir este format din r = 4 faze, r1 = 2 de "M" si r2 = 2 de "F", iar ultimul sir den = 19 este constituit din r = 10 faze, cate r1 = r2 = 5 din fiecare "+" sau "-".Alegem ipoteza nula:

(H0) : sirul este aleator (fiecare aranjament de + si − este echiprobabil).

vs. ipoteza alternativa

(H1) : sirul nu este aleator.

Se pot considera si ipoteze alternative:

(H1)s : datele au o tendinta de se aduna ciorchine.

sau(H1)d : datele au o tendinta de se rasfira.

Page 162: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

162 Capitolul 8. Teste neparametrice

Putem gasi repartitiile vectorilor aleatori (R1, R2), R1, R2 sau R. Spre exemplu, pentru Ravem functia de probabilitate:

f (r) =

Cr/2−1n1−1 Cr/2−1

n2−1

Cn1n

, daca r = par;

[C(r−1)/2

n1−1 C(r−3)/2n2−1 +C(r−3)/2

n1−1 C(r−1)/2n2−1

]Cn1

n, daca r = impar.

Cazul I: Când n1 si n2 sunt mari (i.e., n1 > 12, n2 > 12). In acest caz, variabila aleatoarecorespunzatoare lui r are o repartitie aproape normala, R∼N (µ, σ), unde

µ = 2n1 n2

n+1, σ =

√2n1 n2 (2n1 n2−n)

n2(n−1)=

√(µ−1)(µ−2)

n−1.

Asadar,R−µ

σ∼N (0, 1).

Aceasta statistica poate fi utilizata în testarea ipotezei nule (H0). Pentru testul bilateral,vom admite ipoteza nula daca ∣∣∣∣r−µ

σ

∣∣∣∣≤ z1−α

2.

Altfel, se respinge ipoteza nula. Pentru testul unilateral, conditia de respingere a ipotezeinule este

r−µ

σ≤−z1−α

pentru test unilateral stanga

r−µ

σ≥ z1−α

pentru test unilateral dreapta

Cazul II: Când n1 si n2 sunt mici (n1 ≤ 12, n2 ≤ 12). In acest caz, valorile critice pentrur se gasesc intr-un tabel (vezi Tabelul 13.7). Astfel, pentru testul bilateral, regiunea careasigura acceptarea ipotezei nule este rα2,L < r < rα2,U.Pentru testul unilateral stanga, ipoteza nula va fi respinsa daca r < rα1,L.Pentru testul unilateral dreapta, ipoteza nula va fi respinsa daca r > rα1,U.

Testul seriilor poate fi folosit in:• testarea caracterului aleator a unei selectii de date, prin marcarea cu "+" a valorilor

ce sunt mai mari decat mediana si cu "−" ale celor ce sunt mai mici decat mediana.Valorile egale cu mediana sunt omise si n este ajustat in consecinta.

• testarea ipotezei ca doua esantioane sunt observatii independente ale aceleiasi repar-titii (testul Wald-Wolfowitz).

• testarea potrivirii unei functii cu un set de date, prin marcarea cu "+" a valorilorce sunt mai mari decat valoarea functiei si cu "−" ale celor ce sunt mai mici decatvaloarea functiei. Valorile egale cu valoarea functiei sunt omise si n este ajustat inconsecinta. Acest test nu tine cont de distante dintre date si functie, ci doar de semne,spre deosebire de un test χ2.

Page 163: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8.3 Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample runs test) 163

Exercitiu 8.1 Ratele de schimb valutare EUR/RON sunt inregistrate pentru 20 zile con-secutive din luna Octombrie 2014 si sunt comparate cu ratele de schimb medii istoriceinregistrate in ultimii 5 ani. Se noteaza cu "+" daca valoarea din 2014 este peste valoareamedie istorica si cu "−" daca este sub valoarea medie istorica. Obtinem sirul binar:

++−+−−−++++−−+−−++−+

La nivelul de semnificatie α = 0.05, testati ipoteza ca deviatia ratei din Octombrie 2014de la rata medie istorica este aleatoare sau nu.R: Presupunem ca simbolurile + constituie elementele de tip 1. Sunt n = 20 elemente, cun1 = 11 si n2 = 9, r = 11 serii, cu r1 = 6 si r2 = 5. Din Tabelul 13.7, observam ca valorilecritice sunt rα2,L = 8 si rα2,U = 17. Cum 8 < r = 11 < 17, concluzionam ca ipoteza nulanu poate fi respinsa la acest nivel de semnificatie.

8.3 Testul Wald-Wolfowitz (Wald-Wolfowitz two-sample runs test)Testul Wald1-Wolfowitz2 este o alternativa neparametrica a testului t pentru selectiiindependente. Este utilizat in testarea ipotezei ca doua esantioane sunt observatiiindependente ale aceleiasi repartitii. Reamintim, testul t pentru doua selectii decide dacadoua selectii independente provin din doua caracteristici ce au aceeasi medie. TestulWald-Wolfowitz poate depista chiar mai multe diferente dintre cele doua repartitii decatpoate depista testul t pentru doua selectii. Spre exemplu, testul W-W poate depistadiferentele dintre mediile sau dintre formele caracteristicilor din care provin cele douaseturi de observatii. Este eficient pentru un volum al selectiei cel putin moderat, e.g. celputin egal cu 10.

Conditiile testului: Datele observate sunt observatii aleatoare ale unor caracteristicicontinue independente.Presupunem ca avem doua seturi de date, xim

i=1 si y jnj=1.

Ipotezele testului:

(H0) : Cele doua seturi de date provin din aceeasi repartitie,

vs.(H1) : Cele doua seturi de date provin din repartitii diferite.

Pentru a testa ipoteza nula, datele observate se vor scrie împreuna, in ordine crescatoare,fiecare observatie fiind codata cu 1 sau 2, dupa cum provine din setul 1 sau 2 de date. TestulWald-Wolfowitz are la baza ipoteza nula ca fiecare valoare observata din sirul combinateste extrasa independent dintr-o aceeasi repartitie data. Statistica test este r = numarul defaze (runs) observate in sirul obtinut prin alipire. Daca aceasta statistica ar avea o valoarenumerica mica, atunci acest fapt indica un anumit trend in datele alipite (datele ce provindin acelasi set tind sa se adune in clustere), adica putin improbabil ca aceste date sa fiprovenit din aceeasi repartitie. Pe de alta parte, un numar mare pentru r este un indiciu cadatele sunt observatii aleatoare ale unei repartitii, fapt care va duce la acceptarea ipotezeinule.

1Abraham Wald (1902−1950) matematician ungur nascut în Cluj2Jacob Wolfowitz (1910−1981) matematician polonez-american

Page 164: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

164 Capitolul 8. Teste neparametrice

In cazul in care valori ale sirului x coincid cu valori ale sirului y, la codarea lor in sirulalipit se va cauta continuarea fazei deja incepute.Decizia se va lua pe baza unor valori tabelate (vezi Tabelul 13.8), astfel:

Daca r < rc, respingem ipoteza nula ; daca r > rc, acceptam ipoteza nula.

Pentru volume mai mari de 20, se poate folosi statistica R =r−µ

σ, unde µ este numarul

asteptat de faze si σ deviatia sa standard:

µ = 1+2n1n2

n1 +n2si σ =

√2n1n2(2n1n2−n1−n2)

(n1 +n2)2(n1 +n2−1).

Daca ipoteza nula este admisa, atunci statistica R urmeaza o repartitie normala N (0, 1).Pentru a lua decizia, procedam astfel:

Daca |R| ≥ z1−α

2, atunci respingem ipoteza nula. Altfel, o acceptam.

Exemplu 8.2 Datele de mai jos reprezinta procentajele obtinute de doua grupuri (baieti sifete) la un test de Matematica

Baiat 74 83 91 56 67 50 73 47 75 80Fata 79 80 55 49 88 95 50 77 83 90 88

La nivelul de semnificatie α = 0.05, sa se decida daca cele doua seturi de date provin dinaceeasi repartitie (adica, datele sunt omogene).R: Ipoteza nula este omogenitatea datelor, i.e.:

(H0) : Cele doua seturi de date provin din aceeasi repartitie,

vs.(H1) : Cele doua seturi de date provin din repartitii diferite.

Scriem datele in ordine crescatoare si le atasam codurile:

date 47 49 50 50 55 56 67 73 74 75 77 79 80 80 83 83 88 88 90 91 95cod b f f b f b b b b b f f f b b f f f f b f

Se observa ca valoarea 50 apare de doua ori, avand coduri diferite. In atribuirea coduriles-a urmarit ca primul cod corespunzator valorii 50 sa fie cel anterior (continuare de faza).Similar s-a procedat pentru valoarea 83.Numarul de faze este r = 10. Valoarea critica se citeste din Tabelul 13.8 pentru n1 = 10 sin2 = 11. Astfel, valoarea critica (la nivelul de semnificatie α = 0.05) este rc = 6. Cumr = 10 > 6, admitem ipoteza nula. Asadar, admitem ipoteza ca aceste punctaje provindintr-o aceeasi repartitie, la nivelul de semnificatie α = 0.05.

Altfel, daca am dori sa utilizam repartitia asimptotica in acest caz (nu este un caz in caren1 > 20 si n2 > 20, insa facem acest lucru pentru exemplificare), atunci gasim ca:

µ = 11.4762, σ = 2.2279, R =10−11.4762

2.2279=−0.6626, z0.975 = 1.96.

Cum |R|< 1.96, acceptam ipoteza nula la nivelul de semnificatie α = 0.05.

Page 165: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8.4 Testul Wilcoxon bazat pe ranguri cu semn (Signed-Rank Test) 165

8.4 Testul Wilcoxon bazat pe ranguri cu semn (Signed-Rank Test)Testeaza valoarea centrala a unui set de date. Este folosit ca o alternativa pentrutestul t pentru medie cand ipotezele acestuia nu sunt verificate. Astfel, testul signedrank al lui Wilcoxon este utilizat pentru verificarea daca un set de date provine dintr-odistributie de o anumita mediana, in cazul in care datele observate nu sunt neaparat normale.

Conditiile testului: Datele x1, x2, . . . , xn sunt observatii aleatoare si independente asupraunei caracteristici continue X a unei populatii, de mediana Me.Ipoteze statistice:

teste unilaterale:(H0) : Me = Me∗

(H1)s : Me < Me∗ [sau (H1)d : Me > Me∗]

test bilateral:(H0) : Me = Me∗

(H1) : Me 6= Me∗.

Pentru a efectua testul, procedam astfel: daca admitem ipoteza nula, atunci Me = Me∗.Ordonam urmatoarele valori in ordine crescatoare:

|x1−Me∗|, |x2−Me∗|, . . . , |xn−Me∗|. (8.4.1)

Determinam rangurile asociate acestor valori. Statistica test va fi S∗ = suma rangurilorasociate cu valorile pozitive pentru xi−Me∗.Regiunile care duc la respingerea ipotezei nule sunt, respectiv:

S∗ ≥ c1, pentru testul unilateral dreapta

S∗ ≤ c2 =n(n+1)

2− c1,

pentru testul unilateral stanga

S∗ ≤ n(n+1)2

− c sau S∗ ≥ c,

pentru testul bilateral

unde c, c1 si c2 sunt date in Tabelul 13.9.Exemplu 8.3 Un brutar doreste sa verifice daca o anumita masina de paine functioneazacorect. Aceasta este potrivita sa produca paini de 500g. Urmatorul set de date reprezintagramajele a 15 paini alese aleator, produse de aceasta masina:

504.4 490.8 497.5 493.2 502.5 495.0 505.9 498.2

501.6 497.3 492.0 504.3 499.2 493.5 505.8

Se presupune ca deviatiile de la mediana au aceeasi probabilitate de a fi pozitive saunegative si nu putem presupune normalitatea datelor. Totodata, avem prea putine observatiipentru a folosi o distributie normala asimptotica.Dorim sa utilizam testul rangurilor cu semn al lui Wilcoxon pentru a testa daca masinaeste calibrata corect. (α = 0.05)R: Ipoteza nula este

(H0) : Me = 500 vs (H1) : Me 6= 500.

Scadem 500 din toate datele si obtinem:

4.4 -9.2 -2.5 -6.8 2.5 -5.0 5.9 -1.8

1.6 -2.7 -8.0 4.3 -0.8 -6.5 5.8

Page 166: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

166 Capitolul 8. Teste neparametrice

Le ordonam valorile absolute in ordine crescatoare:modulul 0.8 1.6 1.8 2.5 2.5 2.7 4.3 4.4 5 5.8 5.9 6.5 6.8 8 9.2rangul 1 2 3 4.5 4.5 6 7 8 9 10 11 12 13 14 15semnul − + − − + − + + − + + − − − −

Statistica test este S∗ = 2+4.5+7+8+10+11 = 42.5. Folosind Tabelul 13.9, observamca pentru n = 15, daca ipoteza nula este acceptata, atunci:

P(S∗≥ 95)=P(S∗≤ 25)= 0.024, si astfel, P(S∗ ≥ 95

⋃S∗ ≤ 25

)= 0.048≈ 0.05.

Asadar testul bilateral va respinge ipoteza nula pentru S∗ ≥ 95 sau pentru S∗ ≤ 25. CumS∗ = 42.5, acceptam ipoteza nula la acest nivel de semnificatie.

8.5 Testul t pentru date perechiAcesta este un test parametric. Il mentionam aici doar pentru a face diferenta intre acesttest si alte teste neparametrice ce pot fi utilizate pentru datele perechi. Testul poate fiaplicat pentru perechi de date pentru care diferentele intre valorile perechi sunt normale.In cursurile anterioare am vazut cum putem testa daca mediile a doua variabile indepen-dente X si Y sunt egale pe baza observatiilor facute asupra acestor variabile, xii=1,m siy j j=1,n, unde m si n nu sunt neaparat egale. Exista insa situatii in care variabilele X si Ynu sunt independente intre ele. Spre exemplu, observatiile facute asupra aceluiasi grup deindivizi inainte si dupa un tratament. In astfel de situatii, testul t pentru diferenta mediilorstudiat anterior nu se mai poate aplica.Presupunem ca X si Y sunt doua variabile (posibil corelate) si ca (x1, y1), (x2, y2), . . .,(xn, yn) sunt datele perechi observate. Notam mediile teoretice ale acestor variabileprin: µX = E(X) si µY = E(Y ). In multe aplicatii se doreste a se determina cum este Xfata de Y . Pentru fiecare pereche, consideram di = xi− yi. Presupunem ca variabilelecorespunzatoare diferentelor, Dii=1,n, sunt normale, de media µD si deviatie standardσD. Evident, avem ca µD = µX − µY , insa σ2

D nu mai este neaparat egal cu σ2X +σ2

Y ,egalitatea avand loc doar in cazul independentei dintre variabilele X si Y .

Conditiile testului: diferentele di sunt aleatoare si repartitia din care au provenit di este unanormala.Ipoteze statistice:

teste unilaterale:(H0) : µD = µ0

(H1)s : µD < µ0 [sau (H1)d : µD > µ0]

test bilateral:(H0) : µD = µ0

(H1) : µD 6= µ0.

Pentru setul de date dii=1,n, notam cu

d =1n

n

∑i=1

di si sD =

√1

n−1

n

∑i=1

[di−d]2.

Statistica test este

t =d−µ0

sD/√

n.

Page 167: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8.6 Testul Wilcoxon pentru date perechi 167

Regiunile care duc la respingerea ipotezei nule sunt, respectiv:

t ≤−t1−α;n−1 pentru testul unilateral stangat ≥ t1−α;n−1 pentru testul unilateral dreapta

|t| ≥ t1−α

2 ;n−1 pentru testul bilateral

De asemenea, testul poate fi efectuat pe baza unei valori Pv, care poate fi calculata infiecare caz.

În MATLAB, testul t pentru date perechi poate fi accesat prin oricare dintre comenzile

[h, p, stats] = ttest(X,Y,'alpha',alpha,'tail', tail)

[h, p, stats] = ttest(D,'alpha',alpha,'tail', tail)

8.6 Testul Wilcoxon pentru date perechiEste varianta neparametrica a testului anterior. Acest test este utilizat cand ipoteza denormalitate a diferentelor nu este verificata.

Conditiile testului: repartitia diferentelor di este una continua si simetrica.In cazul in care observatiile pentru X si Y sunt continue si difera doar prin valorile medii,atunci repartitia diferentelor va fi continua si simetrica. Nu este necesar ca repartitiile luiX si Y sa fie simetrice.Acest test verifica ipoteza nula ca valoarea mediana MeD = MeX −MeY a diferentelor esteuna data.

Ipoteze statistice:

teste unilaterale:(H0) : MeD = Me∗

(H1)s : MeD < Me∗ [sau (H1)d : MeD > Me∗]

test bilateral:(H0) : MeD = Me∗

(H1) : MeD 6= Me∗.

Pentru a testa aceasta ipoteza pentru mediana MeD, se continua cu etapele testului WilcoxonSigned-Rank Test discutat anterior.

8.7 Testul Wilcoxon bazat pe suma rangurilor (Wilcoxon rank-sum test)(Wilcoxon3 Rank-Sum Test sau Mann-Whitney test)

Acest test este varianta neparametrica a testului t pentru compararea mediilor. Este utilizatin cazul in care ipotezele testului t nu sunt satisfacute (lipsa normalitatii a cel putin unuiset de date).Presupunem ca avem doua seturi independente de date continue, xim

i=1 si y jnj=1. Notam

cu MeX si MeY medianele teoretice corespunzatoare repartitiilor din care provin acestedate. Se presupune ca X si Y au aceeasi forma, singura diferenta posibila fiind valorile lor

3Frank Wilcoxon (1892−1965), chimist si statistician irlandez

Page 168: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

168 Capitolul 8. Teste neparametrice

medii. La nivelul de semnificatie α se doreste a se testa ipoteza nula

teste unilaterale:(H0) : MeD = Me∗

(H1)s : MeD < Me∗ [sau (H1)d : MeD > Me∗]

test bilateral:(H0) : MeD = Me∗

(H1) : MeD 6= Me∗.

Pentru a efectua testul, procedam astfel: daca admitem ipoteza nula, atunci MeD = Me∗.Presupunem ca m ≤ n (daca nu e adevarat, renotam selectiile). Ordonam urmatoarelevalori in ordine crescatoare:

x1−Me∗, x2−Me∗, . . . , xm−Me∗, y1−Me∗, y2−Me∗, . . . , yn−Me∗. (8.7.2)

Statistica test va fi S∗ = suma rangurilor asociate cu valorile (xi−Me∗) din sirul (8.7.2).Regiunile care duc la respingerea ipotezei nule sunt, respectiv:

S∗ ≥ c1, pentru testul unilateral dreaptaS∗ ≤ c2,

pentru testul unilateral stanga

S∗ ≥ c sau S∗ ≤ m(m+n+1)− c,pentru testul bilateral

unde c, c1 si c2 sunt date in tabelele 13.10 si 13.11.Exemplu 8.4 Pe baza datelor observate in Exercitiul 8.2, testati ipoteza ca procentajulmediu real obtinut de fete este mai mare decat cel obtinut de baieti, la nivelul de semnificatieα = 0.05.R: Datele sunt urmatoarele:

Baiat 74 83 91 56 67 50 73 47 75 80Fata 79 80 55 49 88 95 50 77 83 90 88

Notam cu xi procentajele baietilor si cu y j pe ale fetelor. Avem ca m = 10, n = 11. Ipotezanula este:

(H0) : Me1−Me2 = 0,

vs.(H1) : Me1−Me2 < 0.

Scriem datele in ordine crescatoare si le atasam codurile si rangurile:date 47 49 50 50 55 56 67 73 74 75 77 79 80 80 83 . . .

cod b f f b f b b b b b f f f b b . . .

rang 1 2 3.5 3.5 5 6 7 8 9 10 11 12 13.5 13.5 15.5 . . .

date . . . 83 88 88 90 91 95cod . . . f f f f b frang . . . 15.5 17 18 19 20 21

Statistica test este S∗ = 1+ 3.5+ 6+ 7+ 8+ 9+ 10+ 13.5+ 15.5+ 20 = 93.5. Pentrum = 10 si n = 11 gasim ca valoarea critica c2 (tabelul 13.11, n = 10, m = 11, la nivelul desemnificatie α = 0.05) este c2 = 86. Cum S∗ = 93.5 > 86, admitem ipoteza nula. Asadar,nu este o diferenta semnificativa intre punctajele mediane reale, la nivelul de semnificatieα = 0.05.

Page 169: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8.8 Teste neparametrice în MATLAB 169

8.8 Teste neparametrice în MATLAB

8.8.1 Testul semnelor în MATLAB

În MATLAB, testul semnelor poate fi realizat cu ajutorul functiei

[p, h] = signtest(x, m)

unde:• m este un numar real;• x este un sir de caractere sau vector, asupra caruia facem testul semnelor;• variabila de memorie h este rezultatul testului. Daca rezultatul afisat este h = 0,

atunci ipoteza nula, (H0): setul de date x provine dintr-o distributie continua demediana egala cu m, este admisa la acest nivel de semnificatie. Daca rezultatul afisateste h = 1, atunci ipoteza nula este respinsa. Se va admite astfel ipoteza alternativa(H1): setul de date x provine dintr-o distributie continua care nu are mediana egalacu m. Daca m nu apare, atunci se subîntelege ca m = 0.

• variabila de memorie p este P- valoarea, adica valoarea maxima pentru pragul desemnificatie α pentru care ipoteza nula este admisa. Deoarece aici α = 0.05 estesubînteles, pentru un p > 0.05 se afiseaza h = 0. Altfel, se afiseaza h = 1.

O varianta îmbunatatita a comenzii anterioare este urmatoarea:

[p, h, stats] = signtest(x, y,'alpha',alpha,'method',method)

Aici, în plus fata de precizarile de mai sus, mai adaugam ca:• Ipoteza nula este (H0): setul de date x− y provine dintr-o distributie continua de

mediana egala cu 0, cu ipoteza alternativa ca mediana lui x− y nu este 0;• variabila stats înmagazineaza urmatoarele date:

– zval - este valoarea statisticii Z pentru observatia considerata (apare doarpentru selectii de volum mare, n≥ 30);

– sign - este valoarea statisticii test;• alpha este nivelul de semnificatie;• method este metoda folosita în testare. Putem avea o metoda exacta (folosind

distributia binomiala a statisticii test), când method este 'exact', sau aproximativa(folosind distributia aproximativ normala a statisticii test) pentru 'approximate';

Exemplu 8.5 Pentru problema cu pizza, de mai sus, codul MATLAB ce genereaza testulsemnelor este:

x = [-1 1 1 1 -1 1 1 -1 1 1];

[p, h, stats] = signtest(x, 0)

Rezultatul testului este:

p = h = stats =

0.3438 0 sign: 3

Page 170: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

170 Capitolul 8. Teste neparametrice

Observatia 8.2 Revenim la Exercitiul 7.1 si urmarim testarea ipotezei nule folosindfunctia signtest.

Codul MATLAB este simplu:

x = [ones(59,1); zeros(41,1)];

[p, h, stats] = signtest(x,.5)

Obtinem rezultatele:

p = h = stats =

0.0891 0 zval: 1.7000

sign: 41

ceea ce confirma faptul ca ipoteza nula este admisa la nivelul α = 0.05.

8.8.2 Testul seriilor în MATLAB

Functia MATLAB ce simuleaza testul de verificare a stochasticitatii unui sir de caractere este

[h, p, stats] = runstest(x)

Acesta este un test ce verifica daca valorile ce compun sirul de caractere x apar în ordinealeatoare. Variabilele h, p si x sunt ca în testul signtest. Aici, variabila stats afiseazaurmatoarele: numarul de faze, lungimile fiecarei faze si valoarea statisticii pentru selectiaconsiderata.În urma rularii comenzii, se va afisa valoarea h = 0 daca ipoteza ca valorile apar în ordinealeatoare nu poate fi respinsa (este acceptata la nivelul de semnificatie α = 0.05) si h = 1

în caz contrar. De exemplu, rularea codului

x = '011010100010001001010101110010101001010101010010111';

[h, p, stats] = runstest(x)

afiseaza

h = p = stats =

1 0.0014 nruns: 38

n1: 24

n0: 27

z: 3.2899

Acest rezultat se traduce astfel: ipoteza ca sirul considerat este aleator generat este respinsala nivelul de semnificatie α = 0.05 (subînteles), P−valoarea este Pv = 0.0014 (asta

Page 171: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8.8 Teste neparametrice în MATLAB 171

însemnând ca doar pentru un nivel de semnificatie mai mic de Pv sirul poate fi considerataleator). Variabila de memorie stats afiseaza datele folosite în aplicarea testului.Comanda urmatoare

[h, p, stats] = runstest(x, v, alpha, tail)

afiseaza• decizia testului, ori h = 0 ori h = 1, cu semnificatia de mai sus;• v este valoarea de referinta a sirului de caractere. Sunt numarate valorile ce sunt mai

mici sau mai mari decât v, cele care sunt exact egale cu v nu sunt contabilizate;• alpha este nivelul de semnificatie;• tail poate fi una dintre urmatoarele ipoteze alternative:

– 'both', sirul nu este aleator (test bilateral). Aceasta optiune poate sa nu fiespecificata, deoarece se subîntelege implicit.

– 'left', daca valorile tind sa se adune în ciorchine (test unilateral stânga);– 'right', daca valorile tind sa se separe (test unilateral dreapta);

De exemplu, sa consideram urmatoarele comenzi:

y = 0:10; [h, p] = runstest(y,median(y),0.02,'left')

y = 0:10; [h, p] = runstest(y,median(y),0.02,'right')

y = 0:10; [h, p] = runstest(y,median(y),0.02,'both')

Rezultatele rularii lor sunt (în ordine):

h = 1 p = 0.0043

h = 0 p = 1

h = 1 p = 0.0087

8.8.3 Testele Wilcoxon in MATLAB

Functia MATLAB pentru testul Wilcoxon bazat pe rangurile cu semn este signrank.Modurile de apelare sunt:

[p,h,stats] = signrank(x,m,'alpha',alpha,'method',metoda,'tail',tail)

sau[p,h,stats] = signrank(x,y,'alpha',alpha,'method',metoda,'tail',tail),

unde x este vectorul format cu observatii, m este valoarea testata (pentru prima varianta)si x, y corespund vectorului de date perechi (pentru a doua varianta). Optiunea metodapoate fi una dintre 'exact' (implicit) si 'approximate'. Metoda exacta calculeazaregiunea critica pe baza tabelelor speciale, iar metoda aproximativa se va folosi pentruselectii de volum mare. Optiunea tail poate fi una dintre 'both' (implicit), 'left' sau'right'.Spre exemplu, pentru Exercitiul 8.3, apelam functia astfel: unde x este vectorul format cuobservatii, m este valoarea testata, metoda poate fi una dintre 'exact' si 'approximate'.

Page 172: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

172 Capitolul 8. Teste neparametrice

Metoda exacta calculeaza regiunea critica pe baza tabelelor speciale, iar metoda aproxi-mativa se va folosi pentru selectii de volum mare. Spre exemplu, pentru Exercitiul 8.3,apelam functia astfel:

g = [504.4 490.8 497.5 493.2 502.5 495.0 505.9 498.2 ...

501.6 497.3 492.0 504.3 499.2 493.5 505.8];

[p,h,stats] = signrank(g,500,'alpha', 0.05, 'method', 'exact')

% sau, simplu, [p,h,stats] = signrank(g,500)

Obtinem rezultatul:

p = h = stats =

0.3373 0 signedrank: 42.5000

Pe baza acestui rezultat, concluzionam ca ipoteza nula nu poate fi respinsa la nivelul desemnificatie α = 0.05.

Functia MATLAB pentru testul Wilcoxon bazat pe suma rangurilor este ranksum. Se poatefolosi astfel:

[p,h,stats] = ranksum(x,y,'alpha', alpha, 'method', metoda)

Spre exemplu, pentru Exercitiul 8.4, apelam functia astfel:

b = [74 83 91 56 67 50 73 47 75 80];

f = [79 80 55 49 88 95 50 77 83 90 88];

[p,h,stats] = ranksum(b,f, 'method', 'exact')

obtinandu-se:

p = h = stats =

0.2580 0 ranksum: 93.5000

8.9 Exercitii rezolvateExercitiu 8.2 Urmatoarele date reprezinta cotele apelor Dunarii (in cm) inregistrate înSulina în ultimele 60 de zile:

81 77 72 71 72 74 79 79 80 80 86 88 86 85 80 82 84 86 55 71 78

90 88 57 82 54 58 90 95 89 85 90 92 95 88 82 79 80 80 79 75 71

70 68 72 69 66 69 88 100 110 102 88 75 70 68 66 65 64 64

Page 173: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8.9 Exercitii rezolvate 173

La nivelul de semnificatie α = 0.05, testati ipoteza ca aceste valori sunt generate de unproces aleator, cu alternativa ca exista un trend in aceste valori.R: Metoda I: Formulam ipoteza nula:

(H0) : datele sunt generate aleator,

vs. ipoteza alternativa

(H1) : datele sunt nu generate aleator.

Folosind functia runstest din MATLAB,

[h, p, stats] = runstest(X, median(X), 0.05, 'both')

obtinem:

h = p = stats =

nruns: 14

1 1.0135e-005 n1: 30

n0: 30

z: -4.2969

Se observa ca ipoteza alternativa este admisa, insemnand prezenta unui trend.In fapt, daca in loc de optiunea 'both' alegem 'left', se va observa ca ipoteza alternativaeste admisa cu probabilitatea critica Pv = 5.0674e−6, indicand tendinta datelor spre grupare(clustering).Metoda a-II-a: Putem ajunge la acelasi rezultat si pe baza statisticii test. Aceasta este

z =r−µ

σ,

unde

r = 14, µ = 2n1 n2

n+1 = 31, σ =

√2n1 n2 (2n1 n2−n)

n2(n−1)= 3.84.

Gasim ca z =−4.2969 <−z1−α =−z0.95 =−1.6449, deci acceptam ipoteza alternativaca datele au o tendinta spre grupare in clustere.Exercitiu 8.3 Testati la nivelul de semnificatie α = 0.04 ipoteza ca valoarea mediana acotelor apelor Dunarii din Exercitiul 8.2 este de 80cm sau o alta valoare.R: Metoda I: Formulam ipoteza nula:

(H0) : Me = 80,

vs. ipoteza alternativa(H1) : Me 6= 80.

Folosind functia signtest din MATLAB:

Page 174: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

174 Capitolul 8. Teste neparametrice

x = [81 77 72 71 72 74 79 79 80 80 86 88 86 85 80 82 84 86 55 71 78 ...

90 88 57 82 54 58 90 95 89 85 90 92 95 88 82 79 80 80 79 75 71 ...

70 68 72 69 66 69 88 100 110 102 88 75 70 68 66 65 64 64];

[p,h,stats] = signtest(x, 80, 'alpha', 0.04)

Rezultatul este:

h = p = stats =

0 0.5901 sign: 25

Metoda a-II-a: Altfel, daca Me = 80, atunci numaram cate observatii avem sub medianasi peste mediana. Valorile egale cu mediana sunt eliminate din analiza. Obtinem:

n = 55, S< = 30, S> = 25, S∗ = S6= = maxS<, S>= 30.

Daca S∼B(55,0.5), atunci

Pv = 2P(S > S∗) = 2[1−P(S≤ 29)] = 2*(1-binocdf(29,55,0.5))= 0.5901.

Cum α = 0.04 < 0.5901 = Pv, acceptam ipoteza nula.Exercitiu 8.4 Intr-un studiu de piata, sunt comparate doua tipuri de oferte O1 si O2 pentruun anumit produs. Pentru a alua o decizie, au fost intrebate 50 de persoane care dintrecele doua oferte le prefera. Astfel 30 de persoane au declarat ca prefera O1, 16 au preferatoferta O2 si restul nu s-au putut decide. La nivelul de semnificatie α = 0.05, sa se decidadaca este o diferenta semnificativa intre cele doua oferte.R: Formulam ipoteza nula:

(H0) : Ofertele O1 si O2 sunt egal preferate,

vs. ipoteza alternativa

(H1) : Oferta O1 este preferata ofertei O2.

Utilizam testul semnelor pentru date perechi. Consideram diferentele intre cele doua ofertepentru grupul test. Vom avea 30 de valori "+" si 16 valori "−". Opiniile celor 4 persoaneindecise sunt ignorate. Vom avea:

n = 46, S< = 16, S> = 30.

Daca S∼B(46,0.5), atunci

Pv = P(S > S>) = P(S > 30) = 1−P(S≤ 29) = 1-binocdf(29,46,0.5)= 0.0270.

Cum α = 0.05 > 0.0270 = Pv, respingem ipoteza nula. Asadar, concluzionam ca ofertaO1 este preferata (semnificativ) ofertei O2, la nivelul de semnificatie α = 0.05.În MATLAB, folosim comanda signtest:

Page 175: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

8.10 Exercitii propuse 175

x = [ones(1,30),-1*ones(1,16)]

[p,h] = signtest(x); Pv = p/2

if (Pv > 0.05)

disp('Ofertele O1 si O2 sunt egal preferate')

else

disp('oferta O1 este preferata (semnificativ) ofertei O2')

end

Rulând codul MATLAB, obtinem:

Pv = 0.027038; oferta O1 este preferata (semnificativ) ofertei O2

8.10 Exercitii propuseExercitiu 8.5 Testati daca functiile MATLAB rand si randn genereaza numere (pseudo-)aleatoare.Exercitiu 8.6 Testati daca sirul de numere din progresia geometrica

2 4 8 16 32 64 128 256 512 1024 ...

sunt numere aleator generate.Exercitiu 8.7 Un oficial al serviciului de ambulanta afirma ca timpul mediu de raspuns laun apel 112 este de 20 de minute. Dintre toate apelurile primite în 2008, se alege o selectieîntâmplatoare de 300 de apeluri la 112, dintre care, pentru 178 dintre acestea timpul deraspuns a depasit 20 de minute, restul fiind sub aceasta valoare.(a) Am putea verifica declaratia oficialului folosind un test parametric, pe baza acesteiselectii?(b) Aceeasi cerinta ca la (a), folosind un test sau teste neparametrice (fara a folosi functiiimplementate în MATLAB pentru teste statistice).(c) Folositi teste implementate în MATLAB ca alternative pentru punctul (b).Exercitiu 8.8 O anumita firma doreste sa angajeze personal masculin si feminin respectândcriteriul egalitatii în drepturi pentru ambele sexe. Stiind ca sexele ultimelor persoaneangajate sunt dupa cum urmeaza

FMMFMFMFMFMMFFFMMMFMFMFMFMFMMMFFMFMFFFMFMFMFMMMFMF

sa se determine daca angajarile în acesta firma sunt facute aleator. Dar preferential? Se valua α = 0.05.Exercitiu 8.9 Conducerea unui liceu investigheaza daca situatia scolara a elevilor transfe-rati in acest liceu s-a imbunatatit in urma tranferului. Tabelul de mai jos contine mediilegenerale ale unui grup de 15 elevi in anul dinainte de transfer si in primul an de dupa

Page 176: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

176 Capitolul 8. Teste neparametrice

transfer. Verificati daca transferul a fost benefic pentru elevi, folosind trei teste: testul tpentru date perechi, testul semnelor si testul Wilcoxon (signed-rank test) (α = 0.05).

Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15before 8.1 9.2 9.5 8.40 8.85 7.63 7.35 8.83 6.90 9.12 7.86 8.32 8.45 6.87 8.15after 8.4 7.9 8.8 9.05 9.15 7.87 8.25 8.70 7.14 8.78 7.95 8.55 7.75 7.05 8.15

Exercitiu 8.10 Tabelul de mai jos contine calificativele obtinute de un elev de clasa I la oselectie de 9 teste din clasa I, care au fost reluate la inceputul clasei a doua a-II-a.

Discipline A B C D E F G H Iclasa I B FB FB B B FB S B FB

clasa a II-a S I B FB FB B B S B

La nivelul de semnificatie α = 0.05, testati ipoteza ca rezultatele elevului s-au imbunatatitin clasa a II-a. Folositi, eventual, mai multe teste statistice.Exercitiu 8.11 Tabelul de mai jos contine mediile obtinute de un elev de clasa a V-a la 10discipline din cele doua semestre scolare.

Discipline A B C D E F G H I Jsemestrul I 6 9 7 8 8 9 9 9 7 10

semestrul al II-a 7 9 8 9 8 9 8 10 8 10

Folosind un test potrivit, testati ipoteza ca rezultatele elevului s-au îmbunatatit în semestrulal doilea (α = 0.04). Folositi, eventual, mai multe teste statistice.Exercitiu 8.12 Se testeaza eficacitatea unui anumit medicament în reducerea tensiuniiarteriale pe un grup format din 12 pacienti. Datele de mai jos reprezita masuratorileobservate înainte si dupa administrarea medicamentului.

Pacientul P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12

inainte 86 89 87 78 98 95 79 95 87 90 89 93dupa 87 85 85 79 92 95 78 92 85 86 87 88

Folosind un test potrivit, testati ipoteza nula ”medicamentul nu are efect” versus ipotezaalternativa ”medicamentul este eficient” (α = 0.05) în fiecare dintre urmatoarele cazuri:(a) ambele seturi de date sunt considerate a fi observatii ale unor caracteristici normale;(b) datele nu sunt neaparat normale.

Page 177: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

9. Teste de reesantionare

. [In God we trust.

. All others must bring data.]

Testele de reesantionare sunt metode statistice de estimare a unor parametri sau pentrurealizarea unor teste statistice, bazate pe generarea de subselectii de date pe computer. Ingeneral, aceste metode pot fi utilizate doar cu ajutorul unui computer. Marele lor avantajeste ca pot fi utilizate atunci cand testele clasice (Z, t, F etc.) nu pot fi aplicate.Testele clasice sunt uneori prea restritive. Una dintre cerintele importante pentru testeleclasice este normalitatea datelor. Daca aceasta conditie nu este indeplinita, pentru a putearealiza un test clasic ar fi necesara considerarea unui volum suficient de mare de date. Dacanici aceasta conditie nu este indeplinita, atunci folosirea metodelor clasice in estimareaparametrilor sau in verificara ipotezelor statistice este inoportuna. In plus, exista multiparametri ai populatiei pentru care nu exista statistici potrivite, ce pot fi folosite in estimareaunor parametri sau pentru validarea ipotezelor statistice. Exemple de astfel de parametrisunt: cuantilele, cotele, unii coeficienti de corelatie etc. Testele neparametrice sau cele dereesantionare pot fi metodele alternative care pot scoate un statistician din impas.Dintre metodele de reesantionare amintim: testele de permutari, bootstrapping, metodajackknife sau metodele Monte Carlo. Testele de permutari (sau metode de randomizare)sunt metode de reesantionare efectuate fara repetitie folosite in a testa anumite ipotezestatistice. In general, sunt utilizate pentru a testa ipoteze de tipul "lipsa de efect". Metodade bootstrap (sau bootstrapping) este o metoda de reesantionare efectuata cu repetitie, inspecial utilizate pentru a determina intervale de incredere pentru parametrii unei populatii.Metodele Monte Carlo folosesc esantioane repetate din populatii cu parametri cunoscutipentru a determina senzitivitate metodelor statistice. Metoda jackknife (sau jackknifing)este o metoda similara cu bootstrapping, folosita in estimarea dispersiei sau a deplasariiunui estimator. Este bazata pe eliminarea sistematica a unei date observate din setul de

Page 178: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

178 Capitolul 9. Teste de reesantionare

date si obtinerea de estimari pe baza datelor ramase.Avantaje ale metodelor de reesantionare:

• ipoteze mai putin restrictive. De exemplu, nu este necesara ipoteza de normalitatesau ca volumul selectiei sa fie mare.

• acuratete mai mare. Testele de permutari si anumite metode bootstrap au acuratetemai mare decat a testelor clasice.

• grad larg de aplicabilitate. Pot fi utilizate pentru testarea multor ipoteze statistice sinu necesita utilizarea unor statistici speciale.

• usurinta in utilizareIn continuare, vom discuta doar doua dintre aceste metode, si anume testele de permutari simetoda bootstrapping. De asemenea, vom prezenta metoda Monte Carlo si câteva aplicatiiale sale.

9.1 Teste de permutari(en., permutation tests sau randomization tests)

Sunt teste de reesantionare bazate pe generarea de date fara repetitie, folosite pentru testareaunor ipoteze statistice. De exemplu, pot fi folosite pentru a testa egalitatea mediilor, pentruegalitatea dispersiilor, pentru egalitatea proportiilor a doua populatii, sau pentru comparareadatelor perechi. De asemenea, pot fi utilizate in compararea corelatilor dintre doua variabilecantitative. Aceste teste sunt utilizate atunci cand testele clasice corespunzatoare nu potfi aplicate (ori datele nu sunt normale, ori avem prea putine date). Etapele unui test depermutari sunt:

• Se alege o statistica ce masoara efectul studiat;• Construim repartitia de selectie a acestei statistici pentru cazul in care ipoteza nula

este valida (i.e., nu exista niciun efect observat).• Localizam valoarea observata a statisticii in aceasta repartitie si calculam valoarea Pv

(probabilitatea de a observa un rezultat cel putin la fel de extrem ca si cel observat,sau probabilitatea de a respinge ipoteza nula in cazul in care ea este adevarata).

Ipoteza nula pentru acest test este:(H0) : Efectul studiat nu este prezent pentru populatia (populatiile) observata (e).Ipoteza alternativa este orice ipoteza care se opune ipotezei nule.Se pun in comun toate valorile observate si apoi se va face o reesantionare (o rearanjare fararepetitie) a datelor, care sa fie in concordanta cu ipoteza nula. Pentru fiecare configuratiea datelor se va calcula statistica de interes S (cea care masoara efectul studiat). In cazultestarii egalitatii a doua medii, aceasta statistica este diferenta mediilor de selectie. Sanotam cu S∗ valoarea statisticii de interes pentru configuratia observata.Pentru un test bilateral, valoarea critica a testului, Pv, este egala cu raportul dintre numarulde diferente absolute cel putin egale cu |S∗| si numarul total de diferente. Pentru un testunilateral dreapta, valoarea critica a testului, Pv, este egala cu raportul dintre numarul dediferente cel putin egale cu S∗ si numarul total de diferente. Pentru un test unilateral stanga,valoarea critica a testului, Pv, este egala cu raportul dintre numarul de diferente cel multegale cu S∗ si numarul total de diferente.Decizia finala se va lua astfel: daca α ≥ Pv, atunci respingem ipoteza nula. In caz contrar,ipoteza nula va fi acceptata.Pentru exemplificare, consideram urmatorul exercitiu demonstrativ.

Page 179: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

9.1 Teste de permutari 179

Exemplu 9.1 Datele urmatoare reprezinta punctajele a 5 elevi (baieti si fete) la un anumittest de Matematica: 53, 75, 80, 67, 78, unde primele 3 valori sunt punctajele baietilorsi ultimele doua sunt punctajele fetelor. Se doreste ca, pe baza acestor valori, sa se testezedaca exista diferente semnificative intre valorile medii ale punctajele baietilor si ale fetelor(la un nivel de semnificatie α = 0.05). Desigur, acest exemplu este unul demonstrativ; inpractica pot fi mai multe valori de fiecare parte.Ipoteza nula este urmatoarea:(H0) : Nu este nicio diferenta intre punctajele medii pentru baieti si fete.Altfel spus, avem de testat ipoteza:

(H0) : µb = µ f vs. (H1) : µb 6= µ f ,

unde µb si µ f sunt mediile procentajelor la baieti (variabila o notam cu b) si, respectiv, lafete (variabila este notata aici cu f ).Daca ipoteza nula ar fi adevarata, atunci acest set de date sunt observatii aleatoare asupraunei aceleasi repartitii. In acest caz, oricum am alege 3 valori (din cele 5) care sa corespundabaietilor si, respectiv, 2 valori pentru fete, mediile µb si µ f nu se vor modifica. In consecinta,ne vom uita la toate combinatiile posibile pentru fiecare grup. Pentru fiecare combinatie inparte, calculam diferenta valorilor, obtinand astfel un set de C3

5 = 10 diferente.In general, daca avem doua seturi de date, unul de volum m si celalalt de volum n, atunciputem forma Cm

m+n combinatii, deci vom determina un set de Cmm+n diferente.

Statistica de interes, |S|, care va determina diferenta dintre cele doua medii, este valoareaabsoluta a diferentei mediilor de selectie. Pentru exemplul nostru, aceasta este |S|= |b− f |.Localizam acum valoarea lui |S| pentru configuratia data, notata aici prin |S∗|. Valoareacritica Pv este egala cu raportul dintre numarul de diferente cel putin egale cu |S∗| sinumarul total de diferente.Dupa cum se poate observa din Tabelul 9.1, statistica observata este |S∗| = 3.17. Inultima coloana din tabel exista 9 valori cel putin egale cu |S∗| (inclusiv valoarea absolutaobservata), de unde gasim ca

Pv =card|S| ≥ |S∗|

Cmm+n

=9

10= 0.9.

La nivelul de semnificatie α = 0.05 < 0.9 = Pv, nu avem motive sa respingem ipotezanula.

baieti b fete f S = b− f |S|= |b− f |53, 75, 80 69.33 67, 78 72.50 -3.17 3.1753, 75, 67 65 80, 78 79 -14 1453, 75, 78 68.67 67, 80 73.50 -4.83 4.8353, 67, 80 66.67 75, 78 76.50 -9.83 9.8353, 78, 80 70.33 67, 75 71 -0.67 0.6753, 67, 78 66 75, 80 77.50 -11.50 11.5080, 75, 67 74 53, 78 65.50 8.50 8.5080, 75, 78 77.67 53, 67 60 17.67 17.6780, 67, 78 75 53, 75 64 11 1175, 67, 78 73.33 53, 80 66.50 6.83 6.83

Tabela 9.1: Tabel cu toate combinatiile posibile.

Page 180: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

180 Capitolul 9. Teste de reesantionare

Un test de permutari este un test exact. In cazul in care numarul Cmm+n este foarte mare,

atunci este practic de a considera doar o selectie aleatoare (cu repetitie) dintre toate valorile.In cazul in care m si n (volumele celor doua seturi de date) sunt suficient de mari, atunci arfi oportuna folosirea testului t, care este un test mai puternic (in sensul ca va avea o eroarede speta a doua, β , mai mica pentru un α fixat). Testul de permutari poate fi folosit cusucces atunci cand ipotezele testului t nu sunt satisfacute, oferind valori bune pentru Pvchiar daca datele observate sunt asimetrice.

9.2 BootstrappingAceasta metoda foloseste datele de selectie pentru a estima parametrii relevanti ai uneipopulatii statistice. Metoda foloseste reesantionarea cu repetitie a datelor observate. Poatefi folosita cu succes in estimarea erorii unui estimator, σ

θ, in cazul in care intervalele

de incredere clasice nu sunt aplicabile. De asemenea, exista diversi parametri pentrucare nu exista metode clasice de a-i estima, fie prin estimatori punctuali sau cu intervalede incredere. Exemplu de astfel de parametri: cuantile, coeficienti de corelatie, deviatiietc. Aceasta metoda poate da rezultate foarte bune si in cazul unor statistici test neliniarecomplicate, care nu pot fi estimate prin alte metode traditionale. In practica, aceasta metodapoate functiona doar cu ajutorul unui computer, din cauza ca poate aparea un volum foartemare de date.Avem un set de date observate, x1, x2, . . . , xn, pe baza carora dorim sa estimam unparametru θ al populatiei din care provin aceste date. In metoda de bootstrap, aceste datevor fi privite ca fiind o populatie statistica, din care vom extrage diverse esantioane devolum n. Pe baza acestor esantioane vom determina intervale de incredere pentru θ .Etapele metodei bootstrapping (prezentate aici pentru cazul în care θ = µ , media populatieidin care provine selectia initiala) sunt:

• Reesalonam cu repetitie valorile observate, obtinand un set de date reesalonate devolum n: x∗1, x∗2, . . . , x∗n.

• Repetam pasul anterior de un numar r de ori, unde r ≤ nn. Vom obtine selectiile debootstrap:

x∗b1, x∗b2, . . . , x∗bn, b = 1, 2, . . . , r.

Aici, numarul B = nn este numarul maxim de reesalonari cu repetitie de volum n pecare le putem obtine. In cazul in care B nu este un numar foarte mare (astfel incatcomputerul sa poata face reesalonarile in timp util), atunci putem lua r = B.

• Pentru fiecare b = 1, 2, . . . , r, calculam un estimator pentru parametrul θ , notat aicicu θ ∗b . Vom calcula

θ∗b =

1n

n

∑i=1

x∗bi, θ∗=

1r

r

∑b=1

θ∗b (media selectiei de bootstrap)

si un estimator pentru eroarea standard a selectiei de bootstrap,

sθ=

√1

r−1

r

∑b=1

(θ ∗b − θ

∗)2.

Page 181: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

9.2 Bootstrapping 181

• In cazul in care r = B, atunci x∗n = x si estimatorul pentru eroarea standard devine:

sx∗ =

√√√√ 1B

B

∑b=1

(x∗b− x

)2.

• Atunci, un interval de incredere pentru medie la nivelul de confidenta α este[x− z1−α

2sx∗, x+ z1−α

2sx∗].

Consideram urmatorul exemplu demonstrativ.Exemplu 9.2 Urmatoarele date reprezinta salariile (in mii de RON) pentru 4 perechi sot-sotie dintr-un anumit oras:

(2.4, 1.9), (1.7, 1.8), (3.2, 3.6), (4.0, 3.4).

La nivelul de semnificatie α = 0.05, dorim sa determinam un interval de incredere pentrudiferenta salariilor intre sot si sotie. Notam cu H si W variabilele salariu pentru sot,respectiv, sotie.Pentru datele observate nu avem garantia ca ele ar fi observatii asupra unor repartitii nor-male si nici nu sunt suficient de multe. Asadar, ipotezele de lucru pentru determinarea unuiinterval de incredere pentru medie clasic (folosind statisticile Z sau t) nu sunt satisfacute.Totusi, pentru a putea face ulterior o comparatie, vom scrie un interval de incredere folosindstatistica Student t(n). Intervalul obtinut nu va fi unul legitim (care sa poata fi folosit inestimarea diferentei).

Nr. crt. H W di = hi−wi

1. 2.4 1.9 0.52. 1.7 1.8 -0.13. 3.2 3.6 -0.44. 4.0 3.4 0.6

Tabela 9.2: Tabel cu salarii pentru perechi sot-sotie.

Pentru setul de date dii=1,4 = 0.5,−0.1,−0.4, 0.6, calculam media si deviatia stan-dard:

d = 0.15 si sd = 0.4796.

Daca ipotezele de normalitate are fi valide, atunci un interval de incredere pentru diferentamedilor ar fi: [

d− t1−α

2 ;n−1sd√

4, d + t1−α

2 ;n−1sd√

4

]= [−0.6131, 0.9131].

Insa acest interval nu poate fi considerat in practica. Vom determina un interval de increderebazandu-ne pe metoda bootstrapping. Tabelul 9.3 contine r = 7 selectii de bootstrap pentrupopulatia 0.5,−0.1,−0.4, 0.6.

Page 182: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

182 Capitolul 9. Teste de reesantionare

b d∗b1, d∗b2, d∗b3, d∗b4 d∗b

1. 0.5, 0.5, −0.1, −0.1 0.22. 0.5, −0.1, −0.1, −0.4 -0.0253. 0.5, −0.1, −0.1, 0.6 0.2254. 0.5, −0.1, −0.4, 0.6 0.155. −0.1, −0.1, −0.1, −0.1 -0.16. −0.4, −0.4, −0.4, 0.6 -0.157. −0.4, −0.4, 0.6, 0.6 0.1

Tabela 9.3: Tabel cu 7 reesantionari pentru metoda bootstrapping.

In acest caz, B = 44 = 256, d = 0.15 si

d∗=

17

7

∑i=1

d∗b = 0.1 (media selectiei de bootstrap)

si

sd∗ =

√√√√16

7

∑i=1

(d∗b−d

∗)2= 0.1199.

Un interval de incredere la nivelul de semnificatie α = 0.05 este[d− z1−α

2sd∗, d + z1−α

2sd∗]= [−0.1350, 0.3350].

Acesta poate fi considerat ca fiind un interval de incredere legitim pentru diferenta salariilor.In acest caz, acest interval este chiar de lungime mai mica decat intervalul obtinut anterior.

x = [0.5 -0.1 -0.4 0.6]; % data

r = 200; n = 4;

[b1, b2] = bootstrp(r, 'mean', x);

xb = mean(x); xs = mean(b1); % sample mean and bootstrap mean

s = std(x); ss = std(b1); % standard deviations

t = tinv(0.975,3); z = norminv(0.975); % quantiles

[xb - t*s/ sqrt(n), xb + t*s/ sqrt(n)] % C.I. using t-test

[xs - z*ss, xs + z*ss] % C.I. using bootstrap

9.3 Metoda Monte CarloMetoda Monte Carlo este o metoda de simulare statistica, ce produce solutii aproximativepentru o mare varietate de probleme matematice prin efectuarea de experimente statistic peun computer. Se poate aplica atât problemelor cu deterministe, cât si celor probabilistice sieste folositoare în obtinerea de solutii numerice pentru probleme care sunt prea dificile îna fi rezolvate analitic. Este o metoda folosita de secole, dar a capatat statutul de metodanumerica din anii 1940. În 1946, S. Ulam1 a devenit primul matematician care a dat

1Stanislaw Marcin Ulam (1909−1984), matematician de origine poloneza, nascut în Lvov, Ucraina

Page 183: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

9.3 Metoda Monte Carlo 183

un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatulMonaco, unde se practica foarte mult jocurile de noroc, în special datorita jocului de ruleta(ruleta = un generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis2 aadus contributii importante metodei.Are la baza generarea de numere aleatoare convenabile si observarea faptului ca o partedintre acestea verifica o proprietate sau anumite proprietati. În general, orice metoda careare la baza generarea de numere aleatoare în vederea determinarii rezultatului unui calculeste numita o metoda Monte Carlo. Orice eveniment fizic care poate fi vazut ca un processtochastic este un candidat în a fi modelat prin metoda MC.

Integrarea folosind metoda Monte Carlo

Dorim sa folosim metode Monte Carlo pentru evaluarea integralei

I =∫ b

af (x)dx. (9.3.1)

În general, pentru a evalua numeric integrala, metoda Monte Carlo nu este prima alegere,însa este foarte utila în cazul în care integrala este dificil (sau imposibil) de evaluat. Aceastametoda devine mai eficienta decât alte metode de aproximare când dimensiunea spatiului emare.Daca dorim aplicarea metodei MC, atunci avem de ales una din urmatoarele variante:

Varianta 1 (poate fi aplicata doar pentru f ≥ 0. Daca f si valori negative, dar estemarginita inferior, atunci putem utiliza o translatie, astfel încât sa avem de integrat ofunctie nenegativa) Încadram graficul functiei f într-un dreptunghi

D = [a, b]× [0, d],

unde d > sup[a,b]

f . Evaluam integrala folosindu-ne de calculul probabilitatii evenimentului A,

ca un punct ales la întâmplare în interiorul dreptunghiului D sa se afle sub graficul functieif (x). Facem urmatoarea experienta aleatoare: alegem în mod uniform (comanda rand neofera aceasta posibilitate în MATLAB) un punct din interiorul dreptunghiului si testam dacaacest punct se afla sub graficul lui f (x). Repetam experienta de un numar N (mare) de orisi contabilizam numarul de aparitii f (N) ale punctului sub grafic. Pentru un numar marede experiente, probabilitatea ca un punct generat aleator în interiorul dreptunghiului sa seafle sub graficul functiei va fi aproximata de frecventa relativa a realizarii evenimentului,adica

P' f (N)

N.

Pe de alta parte, probabilitatea teoretica este

P =I

aria dreptunghi,

de unde aproximarea

I ' aria dreptunghi · f (N)

N. (9.3.2)

2Nicholas Constantine Metropolis (1915−1999), fizician grec

Page 184: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

184 Capitolul 9. Teste de reesantionare

Totusi, aceasta metoda nu e foarte eficienta, deoarece N trebuie sa fie foarte mare pentru aavea o precizie buna.Exemplu 9.3 Utilizând metoda Monte Carlo, sa se evalueze integrala

I =5∫−2

e−x2dx.

R: Generam 106 puncte aleatoare în interiorul patratului [−2, 5]× [0, 1] si verificamcare dintre acestea se afla sub graficul functiei f (x) = e−x2

, x ∈ [0, 1]. Urmatoarea functieMATLAB calculeaza integrala dorita:

function I = integrala(N) % functia integrala.m

x = 7*rand(N,1)-2; y = rand(N,1); % genereaza N v.a. in [−2, 5]× [0, 1]f = find(y < exp(-x.^2)); % numar punctele de sub graficul lui e−x2

I = 7* length(f)/N; % formula (9.3.2)

O rulare a functiei, integrala(1e6), ne furnizeaza rezultatul I = 1.7675.Putem, de asemenea, folosi o functie MATLAB potrivita pentru calcularea integralei:

I = quadl(@(x)exp(-x.^2),-2,5) % I = 1.7683

Varianta 2 Putem rescrie integrala în forma

I = (b−a)∫ b

af (x)h(x)dx, (9.3.3)

unde

h(x) =

1b−a

, daca x ∈ [a, b],

0 , altfel.

Functia h(x) definita mai sus este densitatea de repartitie a unei v.a. X ∼U [a, b], iar relatia(9.3.1) se rescrie

I = (b−a)E( f (X)). (9.3.4)

Folosind legea slaba a numerelor mari, putem aproxima I prin:

I ' b−aN

N

∑k=1

f (Xk), (9.3.5)

unde Xk sunt numere aleatoare ce urmeaza repartitia U [a, b].

Putem generaliza aceasta metoda pentru calculul integralelor de tipul∫V

f (x)dx, unde V ⊂ Rn.

Page 185: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

9.3 Metoda Monte Carlo 185

Exemplu 9.4 Sa se evalueze integrala din Exemplul (9.3) folosind formula (9.3.5).R: Codul MATLAB este urmatorul:

x = 7*rand(1e6,1)-2; % genereaza 106 numere aleatoare U (−2, 5)g = exp(-x.^2); % g(x) = e−x2

I = 7*mean(g) % 7*media lui g(x)

sau, restrâns, putem apela urmatoarea comanda:

estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2))) % I ≈ 1.7671

Exemplu 9.5 Evaluând integrala

I =1∫

0

ex dx

printr-o metoda Monte Carlo sa se estimeze valoarea numarului transcendent e. (e = I+1).R:

estimate = mean(exp(rand(10^6,1))) + 1 % e ≈ 2.7183

Page 186: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

186 Capitolul 9. Teste de reesantionare

Recapitulare (teste statistice) (o singura selectie)

Test pentru media unei populatii ipoteza nula este (H0) : µ = µ0

Consideram un set de observatii aleatoare x1, x2, . . . , xn asupra caracteristicii de interes.• Daca X are o repartitie normala iar deviatia standard σ este cunoscuta a priori, vom

utiliza testul Z pentru medie. Testul poate fi facut pentru orice volum al selectiei(n ∈ N∗).

• Daca volumul n al selectiei este suficient de mare (e.g., n≥ 30), atunci putem aplicatestul Z fara a mai fi nevoie sa presupunem ca X are o repartitie normala.

• În practica, exista putine cazuri în care σ este cunoscut a priori. În cazul în care neste mare iar σ este necunoscut, înca mai putem folosi testul Z pentru medie dacaînlocuim statistica

Z =X−µ0

σ√n∼N (0, 1), n ∈ N∗, cu Z =

X−µ0s√n∼N (0, 1), n≥ 30.

• Daca selectia considerata este de volum mic (n < 30), σ este necunoscut si carac-teristica X este normal repartizata, atunci folosim testul t pentru medie. Aici seutilizeaza statistica

t=X−µ0

s√n∼ t(n−1) pentru n≥ 2,

• Daca n este mic si X nu urmeaza repartitia normala, atunci vom folosi testeneparametrice pentru a testa media (mediana) unei populatii. Spre exemplu, putemfolosi testul semnelor (sign test), Wilcoxon signed-rank test sau bootstrapping.

Test pentru dispersia unei populatii ipoteza nula este (H0) : σ2 = σ20

Consideram un set de observatii aleatoare x1, x2, . . . , xn asupra caracteristicii de interes.• Daca X are o repartitie normala, vom utiliza testul χ2 pentru dispersie, folosind

statistica

χ2 =

1

σ20

n

∑i=1

(xi−µ)2 ∼ χ2(n), (n ∈ N∗) daca media µ este cunoscuta a priori;

1σ2

0

n

∑i=1

(xi− x)2 ∼ χ2(n−1), (n≥ 2) daca media µ este necunoscuta a priori.

• Daca datele nu sunt normale si volumul este mic, putem folosi teste neparametrice,e.g., bootstrapping sau testul Barlett.

Test pentru proportia unei populatii ipoteza nula este (H0) : p = p0

Consideram un set de observatii aleatoare x1, x2, . . . , xn asupra caracteristicii de interes.• Daca volumul selectiei este mare n≥ 30, atunci folosim testul bazat pe statistica

Z =p− p0√p0(1−p0)

n

∼N (0, 1) pentru n≥ 30.

• Daca n este mic, n < 30, atunci folosim testul bazat pe repartitia binomiala.

Page 187: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

9.3 Metoda Monte Carlo 187

Recapitulare (teste statistice) (doua selectii)

Test pentru egalitatea mediilor ipoteza nula este (H0) : µX = µY

Consideram doua seturi de date independente, xii=1,m si y j j=1,n.• Daca X si Y au repartitie normala iar deviatiile standard σX si σY sunt cunoscute a

priori, vom utiliza testul Z pentru diferenta mediilor. Testul poate fi efectuat pentruoricare m, n.

• Daca volumul n al selectiei este suficient de mare (e.g., m ≥ 30, n ≥ 30), atunciputem aplica testul Z fara a mai fi nevoie sa presupunem ca X si Y sunt normalrepartizate.

• În practica, exista putine cazuri în care deviatiile standard sunt cunoscute a priori.Daca macar o selectie este de volum mic (m, n < 30) si caracteristicile X si Ysunt normal repartizate, atunci folosim testul t pentru diferenta mediilor. Totusi,pentru acuratetea testului, va trebui sa efectuam mai întâi un test pentru egalitateadispersiilor. În functie de rezultatul testului din urma, alegem testul t potrivit(respectiv, statistica potrivita):

t =

X−Y√s2Xm +

s2Yn

, daca σX 6= σY

X−Y√(m−1)s2

X+(n−1)s2Y

√m+n−2

1m+ 1

n, daca σX = σY

• Daca volumele sunt mici si caracteristicile nu urmeaza repartitia normala, atuncivom folosi teste neparametrice pentru a testa diferentele între valorile centrale(mediane) ale caracteristicilor. Spre exemplu, putem folosi unul dintre testele:testul Kolmogorov-Smirnov, testul Wald-Wolfowitz, Wilcoxon rank-sum test, test depermutari sau bootstrapping.

Test pentru egalitatea dispersiilor ipoteza nula este (H0) : σ2X = σ2

Y

Consideram doua seturi de date independente, xii=1,m si y j j=1,n.• Daca X si Y urmeaza repartitii normale, vom utiliza testul F pentru dispersie, folosind

statistica potrivita:

F =

σ2

Yσ2

X

d2X

d2Y, daca µX si µY cunoscute a priori

σ2Y

σ2X

s2X

s2Y, daca µX si µY necunoscute a priori

• Daca datele nu sunt normale si volumul este mic, putem folosi teste neparametrice,e.g. bootstrapping sau testul Barlett.

(d2X =

1m−1

m

∑i=1

[xi−µX ]2, d2

Y =1

n−1

n

∑j=1

[y j−µY ]2, s2

X =1

m−1

m

∑i=1

[xi−X ]2, s2Y =

1n−1

n

∑j=1

[y j−Y ]2)

Test pentru egalitatea proportiilor ipoteza nula este (H0) : pX = pY

Consideram doua seturi de date independente, xii=1,m si y j j=1,n.

Page 188: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

188 Capitolul 9. Teste de reesantionare

• Daca m, n≥ 30, iar m · pX , m ·(1− pX), n · pY , n ·(1− pY )≥ 5, atunci folosim testulbazat pe statistica

Z =pX − pY√

p∗(1− p∗)( 1

m + 1n

) ∼N (0, 1), unde p∗ =n1 p1 +n2 p2

n1 +n2

• Daca volumul pentru cel putin o selectiei este mic, atunci putem folosi teste nepara-metrice, e.g., Wilcoxon signed-rank test, test de permutari sau bootstrapping.

Figura 9.1: Teste parametrice si neparametrice.

Page 189: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

9.4 Exercitii rezolvate 189

9.4 Exercitii rezolvate

Exercitiu 9.1 (aproximarea lui π folosind jocul de darts)În ce consta jocul? Sa presupunem ca suntem la nivelul începator. Avem de aruncat osageata ascutita, ce poate penetra cu usurinta lemnul, spre o tabla patrata din lemn, îninteriorul caruia se afla desenat un cerc circumscris patratului. Daca sageata se înfinge îninteriorul discului atunci ati câstigat un punct, daca nu - nu câstigati nimic. Repetam joculde un numar N de ori si contabilizam la sfârsit numarul de puncte acumulate, sa zicem caacest numar este νN .Sa presupunem ca sunteti un jucator slab de darts (asta implica faptul ca orice punct de petabla are aceeasi sansa de a fi tintit), dar nu asa de slab încât sa nu nimeriti tabla. Cu altecuvinte, presupunem ca de fiecare data când aruncati sageata, ea se înfinge în tabla.Se cere sa se aproximeze valoarea lui π pe baza jocului de mai sus si sa se scrie un programîn MATLAB care sa simuleze experimentul.R: Sa notam cu A evenimentul ca sageata sa se înfinga chiar în interiorul discului. În cazulîn care numarul de aruncari N e foarte mare, atunci probabilitatea evenimentului A, P(A),

este bine aproximata de limita sirului frecventelor relative, adica limn→∞

νN

N.

Pe de alta parte, P(A) = aria discaria perete =

π

4 . Asadar, putem aproxima π prin

π ' 4νN

N(pentru N 1). (9.4.6)

Functia MATLAB care aproximeaza pe π este prezentata mai jos. Metoda care a stat labaza aproximarii lui π este o metoda Monte Carlo.

function Pi = darts(N) % numar de aruncari

theta = linspace(0,2*pi,N); % genereaza vectorul theta

x = rand(N,1); y = rand(N,1); % (x,y) - intepaturi

X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta);% cerc in polar

plot(x,y,'b+',X,Y,'r-'); % deseneaza cercul si punctele

S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese

Prob = S/N; % frecventa relativa

approxpi = 4*Prob; % aproximarea lui pi

axis([0 1 0 1]); % deseneaza axele

title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);

O simpla rulare a functiei, darts(2000), genereaza Figura 9.2.

Page 190: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

190 Capitolul 9. Teste de reesantionare

Figura 9.2: Simularea jocului de darts.

Exercitiu 9.2 Într-o clasa sunt 30 de elevi. Calculati probabilitatea ca macar doi dintre eisa serbeze ziua de nastere în aceaasi zi a anului. Folositi o metoda Monte Carlo pentru aaproxima aceasta probabilitate.R: [1] Metoda teoretica: Notam cu A evenimentul ca macar doi elevi din clasa saserbeze ziua de nastere in aceeasi zi a anului. Atunci, A este evenimentul ca sa nuexista elevi din clasa care sa serbeze ziua de nastere in aceeasi zi a anului. Avem ca:P(A) = 1−P(A). Calculam mai intai probabilitatea evenimentului contrar, A. Spatiulselectiilor, Ω, este

Ω = E = (e1, e2, . . . , e30), ek ∈ 1, 365, |Ω|= 36530

A = E ∈Ω, ei 6= e j, |A|= A30365

Obtinem ca:

P(A) = 1−P(A) = 1− A30365

36530 = 0.7063.

In MATLAB, scriem:

p = 1 - factorial(30)*nchoosek(365,30)/(365)^(30)

[2] Metoda Monte Carlo: Generam un numar suficient de mare (N = 106) de vectoriformati din 30 de valori (fiecare vector reprezita o variabila uniform discreta U (365), cucomanda unidrnd(365,30,1e6)) din multimea zilelor anului, 1, 2, . . . , 365. Obtinemo matrice M cu 30 de linii si 106 coloane. Fiecare coloana reprezinta o posibila clasa de 30de elevi. Dorim sa observam in cate astfel de clase exista macar doi elevi care serbeazaziua de nastere in aceeasi zi a anului. Pentru aceasta, va trebui sa verificam pe cate coloaneavem dubluri de valori. Daca notam cu νN numarul de dubluri, atunci putem aproximaprobabilitatea cautata prin P(A) ∼= νN

N .

Page 191: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

9.4 Exercitii rezolvate 191

Totusi, este mai usor sa numaram cate coloane nu contin dubluri, ceea ce va conduce lacalcularea probabilitatii evenimentului contrar. Pentru aceasta, procedam astfel: ordonamcrescator valorile pe coloane (comanda sort), apoi facem diferentele componentelorconsecutive ale elementelor de pe fiecare coloana a matricei M. Daca ar exista macar odublura pe o coloana, atunci ar aparea macar un 0 in vectorul diferentelor. Comanda allverifica daca exista macar o componenta zero pe fiecare coloana, atribuind valoarea 1 incaz ca nu exista si 0 in cazul in care exista. Insumam aceste valori, obtinand astfel numarulcazurilor in care nu exista dubluri ale zilelor de nastere, i.e., numarul de clase in care nuam gasit doi copii ce serbeaza aceeasi zi de nastere. Pe scurt, scriem povestea de mai susastfel:

p = 1 - sum(all(diff(sort(unidrnd(365,30,1e6)))))/1e6

obtinand aproximarea p = 0.7065.Exercitiu 9.3 Utilizati metoda Monte Carlo pentru a gasi aproximari pentru urmatoareleintegrale:

(a)∫ 1

0

√x+ 3√

xdx, (b)∫ 3

−2

41+ x2 dx, (c)

∫π

0sin(√

x)dx.

R: Folosind metoda MC:

x = rand(1e6,1); f = sqrt(x+x.^(1/3)); I_a = mean(f) % I_a = 1.0930

y = 5*rand(1e6,1)-2; f = 4./(1+y.^2); I_b = 5*mean(f) % I_b = 9.4217

z = pi*rand(1e6,1); f = sin(sqrt(z)); I_c = pi*mean(f) % I_c = 2.6693

ori, folosind functia quadl din MATLAB:

I_a = quadl(@(x)sqrt(x+x.^(1/3)),0,1) % I_a = 1.0931

I_b = quadl(@(y)4./(1+y.^2),-2,3) % I_b = 9.4248

I_c = quadl(@(z)sin(sqrt(z)),0,pi) % I_c = 2.6695

(d)∫ 1

0

∫ 1

−1

√4− x2− y2 dydx.

Folosind metoda MC:

Page 192: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

192 Capitolul 9. Teste de reesantionare

x = rand(1e6,1); y = 2*rand(1e6,1)-1; f = sqrt(4-x.^2-y.^2);

I_c = 2*mean(f) % I_c = 3.6439

ori, folosind functia dblquad din MATLAB:

I_c = dblquad(@(x,y)sqrt(4-x.^2-y.^2),0,1,-1,1) % I_c = 3.6439

Exercitiu 9.4 Folosind o metoda Monte Carlo, aproximati integrala tripla (valoarea exactaeste 8π

9 )∫∫∫V

z2√

x2 + y2 + z2 dxdydz, unde V = (x, y, z)∈R3; 0≤ z≤√

4− x2− y2, 0≤ x≤ y

Solutie: Se observa ca 0 ≤ x, y, z ≤ 2. Generam aleator N valori (x, y, z) în [0, 2]×[0, 2]× [0, 2]. Verificam apoi daca valorile generate se afla în domeniul V . Aproximamintegrala prin ∫∫∫

V

f (x, y, z)dxdydz≈ vol(V )mean( f (x,y,z)|V ).

N = 5e6; x = 2*rand(N,1); y = 2*rand(N,1); z = 2*rand(N,1);

V = (x.^2+y.^2<=4 & x<=y & z<=sqrt(4-x.^2-y.^2)); % domeniul V

I = 2^3*mean(z.^2.*sqrt(x.^2+y.^2+z.^2).*V) % I = 2.7963

8*pi/9 % verificare

ans = 2.7925

Exercitiu 9.5 Un bat de lungime 30cm este rupt la întâmplare în trei parti, prin alegerea laîntâmplare (în mod uniform) a doua puncte de ruptura. Folosind o metoda Monte Carlo,aproximati probabilitatea ca, folosind cele trei bucati obtinute, sa putem forma un triunghi.(probabilitatea exacta este P = 0.25).R: Punctele de ruptura alese aleator sunt x1 si x2. Laturile unui posibil triunghi sunta, b, c. Conditia de a forma un triunghi cu ele este ca suma oricaror doua sa fie mai maredecât cealalta.

N=5e6; x=sort(30*rand(2,N)); % alegem aleator x1 si x2 si le ordonam

a = x(1,:); b = x(2,:)-x(1,:); c = 30-(a+b); % laturile triunghiului

f = (a+b > c & a+c > b & b+c > a); % conditia de triunghi

fN = sum(f); P = fN/N % probabilitatea

Page 193: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

9.5 Exercitii propuse 193

Figura 9.3: Batul de lungime 30cm este rupt în trei parti

9.5 Exercitii propuseExercitiu 9.6 (paradoxul de la St. Petersburg)Sa presupunem ca într-un cazino se desfasoara urmatorul joc cu un singur jucator, pecare-l numim J. O moneda ideala este aruncata iar, daca apare fata cu stema (S), atunci Jprimeste £2 din partea casei, iar jocul continua. Daca la a doua aruncare apare tot stema,atunci J primeste £4 si jocul continua mai departe, pana când la o aruncare apare cealaltafata, caz în care jocul se opreste. La fiecare noua aparitie a fetei S, suma pe care J o avease dubleaza. Daca notam cu X variabila aleatoare ce reprezinta suma câstigata de J, atuncitabloul sau de distributie este:

X =

(2 22 23 . . . 2n . . .12

122

123 . . . 1

2n . . .

)Sa se simuleze în MATLAB acest joc, precizând la final suma câstigata de J.(a) Care este suma medie câstigata de J la acest joc, daca exista?(b) Aceeasi cerinta ca la (a), în cazul în care suma câstigata la un joc este

√X .

Exercitiu 9.7 Folosind generarea de numere aleatoare în MATLAB, calculati aria regiuniidin plan pentru care −1≤ x≤ 1 si 0≤ y≤ x3.Exercitiu 9.8 Folosind o metoda Monte Carlo, aproximati probabilitatea ca suma punctelorobtinute la aruncarea de patru ori a unui zar ideal sa fie 13. (probabilitatea exacta esteP = 35

324 ).Exercitiu 9.9 La un anumit concurs, fiecare dintre cei trei arbitri acorda puncte în modindependent, între 0 si 10. Folosind o metoda Monte Carlo, aproximati probabilitatea casuma punctelor obtinute sa fie cel putin 21.Exercitiu 9.10 Timpul mediu de functionare al unui bec este o variabila aleatoareN (2000h, 50h). Alegem la intamplare un bec de acest tip. Care este probabilitateaca el sa functioneze mai mult de 2500h? Folositi o metoda Monte Carlo de aproximare aprobabilitatii.Exercitiu 9.11 Utilizati metoda Monte Carlo pentru a gasi aproximari pentru urmatoareleintegrale:

(a)∫ 5

2ln(ln(x))dx, (b)

∫ 3

−52maxx,1−x dx, (c)

∫ 2π

0sin(x2)dx.

Exercitiu 9.12 Folosind o metoda Monte Carlo,(a) aflati volumul tetraedrului marginit de planele x = 0, y = 0, z = 0 si x+ y+ z = 4.(valoarea exacta este 32/3)(b) aproximati integrala tripla (valoarea exacta este 0).∫

π

0

∫π

0

∫π

0cos(x+ y+ z) dxdydz.

Exercitiu 9.13 Tabelul de mai jos contine mediile generale obtinute de 7 elevi de liceucare au fost transferati de la un liceu la altul, in anul inainte de transfer si in anul de dupatransfer.

Page 194: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

194 Capitolul 9. Teste de reesantionare

Elevi A B C D E F Ginainte 6.73 9.65 7.58 8.84 8.73 7.45 9.80dupa 7.12 9.22 8.33 9.05 8.42 8.56 9.25

Considerati variabila ce reprezinta diferenta mediilor.(a) Determinati media de selectie si deviatia standard.(b) Folosind bootstrapping, determinati un interval de încredere pentru diferenta mediilor.(c) Folosind intervalul determinat la (b), testati ipoteza ca nu este nicio diferenta întremedii.Exercitiu 9.14Un anumit medicament pentru tratarea hipertensiunii ar-teriale este testat pe trei voluntari. Rezultatele inainte sidupa administrarea medicamentului sunt cele din tabelulalaturat.

pacientul P1 P2 P3

inainte 137 158 162dupa 112 145 140

Folosind un test de permutari, testati ipoteza ca administrarea medicamentului este benefica.Care ar fi rezultatul daca am presupune normalitatea datelor? Ce alt test mai putem folosipentru a testa ipoteza.

Page 195: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

10. Corelatie si regresie

[Science report: the divorce rate in Maine, US is highly correlated to the consumption of margarine..Statistician: Well, margarine will not end my marriage, as correlation does not imply causation.]

10.1 IntroducereÎn acest capitol vom discuta masuri si tehnici de determinare a legaturii între doua saumai multe variabile aleatoare. Pentru lecturi suplimentare, se pot consulta materialele[weisberg], [schaum1], [schaum2].Primele metode utilizate în studiul relatiilor dintre doua sau mai multe variabile au aparutde la începutul secolului al XIX-lea, în lucrarile lui Legendre1 si Gauss2, în ce privestemetoda celor mai mici patrate pentru aproximarea orbitelor astrelor în jurul Soarelui. Un altmare om de stiinta al timpului, Francis Galton3, a studiat gradul de asemanare între copii siparinti, atât la oameni, cât si la plante, observând ca înaltimea medie a descendentilor estelegata liniar de înaltimea ascendentilor. Este primul care a utilizat conceptele de corelatiesi regresie ( (lat.) regressio - întoarcere). Astfel, a descoperit ca din parinti a carorînaltime este mai mica decât media colectivitatii provin (în general) copii cu o înaltimesuperioara lor si, vice-versa, din parinti cu înaltimi peste media colectivitatii provin (îngeneral) copii cu o înaltime inferioara lor. Astfel, a concluzionat ca înaltimea copiilor ceprovin din parinti înalti tinde sa "regreseze" spre înaltimea medie a populatiei. Din lucrarilelui Galton s-a inspirat un student de-al sau, Karl Pearson, care a continuat ideile lui Galtonsi a introdus coeficientul (empiric) de corelatie ce îi poarta numele. Acest coeficient a fostprima masura importanta introdusa care cuantifica taria legaturii dintre doua variabile aleunei populatii statistice.

1Adrien-Marie Legendre (1752−1833), matematician francez2Johann Carl Friedrich Gauss (1777−1855), matematician si fizician german3Sir Francis Galton (1822−1911), om de stiinta britanic

Page 196: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

196 Capitolul 10. Corelatie si regresie

Un ingredient fundamental în studiul acestor doua concepte este diagrama prin puncte,numita diagrama scatter plot. În probleme de regresie în care apare o singura variabilaraspuns (variabila care este prezisa) si o singura variabila predictor (variabila pe bazacareia facem predictia), diagrama scatter plot (raspuns vs. predictor) este punctul deplecare pentru studiul regresiei. O diagrama scatter plot ar trebui reprezentata pentru oriceproblema de analiza regresionala, deoarece aceasta ne va da o prima idee despre ce tip deregresie vom folosi. Un exemplu de astfel de diagrama este reprezentat în Figura 10.1,în care am reprezentat coeficientul de inteligenta (IQ) a 200 de perechi sot-sotie. Fiecarecruciulita din diagrama reprezinta IQ-ul pentru o pereche sot-sotie.

Figura 10.1: Scatter plot pentru IQ în familie.

10.2 Corelatie si coeficient de corelatieCorelatia este un termen statistic folosit pentru a defini interdependenta sau legatura întredoua sau mai multe variabile aleatoare. Totodata, corelatia este si o metoda statistica dedescriere si analiza a legaturilor de tip statistic între doua sau mai multe variabile.Daca X , Y sunt doua variabile aleatoare ce admit medie, atunci corelatia sau covarianta(teoretica) dintre X si Y se defineste prin:

cov(X , Y ) = E [(X−E(X)) · (Y −E(Y ))] = E(X ·Y )−E(X) ·E(Y ).

Observatia 10.1 (i) Din punct de vedere teoretic, daca X si Y sunt variabile aleatoareindependente, atunci cov(X , Y ) = 0.Reciproca nu este, în general, adevarata. De exemplu, daca X ∼ U (−1, 1) si Y = X2,atunci

cov(X , Y ) = E(X ·Y )−E(X) ·E(Y ) = E(X3)−E(X) ·E(X2)

=∫ 1

−1x3 dx−

(∫ 1

−1xdx)(∫ 1

−1x2 dx

)= 0,

însa X si Y = X2 sunt dependente.(ii) În cazul în care X si Y sunt, în plus, variabile aleatoare normal repartizate, atunci

Page 197: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

10.2 Corelatie si coeficient de corelatie 197

independenta variabilelor aleatoare X si Y este echivalenta cu necorelarea lor (i.e.,cov(X , Y ) = 0).O relatie liniara între doua variabile este acea relatie ce poate fi reprezentata cel mai bineprintr-o linie. Corelatia detecteaza doar dependente liniare între doua variabile aleatoare.Putem avea o corelatie pozitiva, însemnând ca X si Y cresc sau descresc împreuna, sau ocorelatie negativa, însemnând ca X si Y se modifica în directii opuse.O masura a corelatiei dintre doua variabile este coeficientul de corelatie. Acesta este foarteutilizat în stiinte ca fiind o masura a dependentei liniare între doua variabile. Din punct devedere teoretic, definim coeficientul de corelatie a doua variabile aleatoare X si Y prin:

ρX,Y =cov(X , Y )

σX ·σY= cov(X , Y ),

unde X si Y sunt variabilele aleatoare standardizate iar σX =(E(X−X)2)1/2 si σY =(

E(Y −Y )2)1/2 sunt deviatiile standard corespunzatoare variabilelor X , respectiv Y .

Propozitie 10.2.1 Proprietati ale coeficientului de corelatie:(a) Coeficientul de corelatie este simetric, i.e., ρX,Y = ρY,X.(b) Daca X si Y sunt independente, atunci

ρX,Y = 0.

(c) −1≤ ρX,Y ≤ 1, pentru orice v.a. X si Y .(d) Daca Y = aX +b (a, b ∈ R, a 6= 0), atunci

ρX,Y =

+1, daca a > 0;−1, daca a < 0.

(e) Daca a, b, c, d ∈ R, a, c > 0, atunci ρaX+b,cY+d = ρX,Y.

Magnitudinea (valoarea absoluta) coeficientului de corelatie ρX,Y determina taria relatieiliniare dintre variabilele aleatoare X si Y . Daca ρX,Y = 1, atunci X si Y sunt perfect pozitivcorelate, iar daca ρX,Y = −1, variabilele X si Y vor fi perfect negativ corelate. Dacareprezentam grafic perechile ordonate (x, y), ele se vor afla pe o dreapta de panta pozitiva,daca ρX,Y = 1, si negativa pentru ρX,Y =−1.Corelarea nu implica o cauzalitate. Cu alte cuvinte, doar faptul ca variabilele X si Y suntcorelate nu implica faptul ca X ar cauza pe Y sau invers.În practica, pentru a stabili daca exista sau nu vreo legatura între doua variabile aleatoare,se fac observatii asupra acestora, urmând apoi a cuantifica relatia dintre observatii.Fie (xk, yk), k ∈ 1, 2, . . . , n un set de date bidimensionale, ce reprezinta observatii asupravectorului aleator (X , Y ). O masura a legaturii dintre xkk si ykk este coeficientul decorelatie empiric introdus de K. Pearson (în literatura de specialitate mai este cunoscut sisub denumirea de coeficientul r):

r =

n

∑k=1

(xk− x)(yk− y)√n

∑k=1

(xk− x)2

√n

∑k=1

(yk− y)2

(10.2.1)

=cove(x, y)

sx · sy, (10.2.2)

Page 198: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

198 Capitolul 10. Corelatie si regresie

unde

cove(x, y)=1

n−1

n

∑k=1

(xk−x)(yk−y), sx =

√1

n−1

n

∑k=1

(xk− x)2, sy =

√1

n−1

n

∑k=1

(yk− y)2

sunt covarianta (corelatia) empirica si deviatiile standard empirice pentru X si Y .Spre exemplu, pentru selectiile

x = [0.49 -0.45 0.39 0.05 -0.49 0.24 0.72 0.15 0.13 -1.01];

y = [1.31 1.20 -2.58 -2.09 0.39 -0.86 -1.23 2.64 -0.90 -1.22];

coeficientul r al lui Pearson ester =−0.0905.

Asemeni coeficientului de corelatie teoretic, ρX,Y, coeficientul r al lui Pearson ia valori doar înintervalul [−1, 1]. Cazurile limita pentru r sunt r = 1 sau r = −1, cazuri în care putem trageconcluzia ca variabilele X si Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 10.2).Pentru valori ale lui r între −1 si 1, nu putem vorbi de gradul de corelare între X si Y fara a efectuaun test statistic asupra valorii coeficientulul teoretic de corelatie, ρ . De multe ori însa, putem afirmaca avem o corelatie pozitiva daca r este apropiat de valoarea 1 (e.g., r = 0.85, caz în care norul dedate are panta ascendenta) si avem o corelatie negativa daca r este apropiat de valoarea −1 (e.g.,r =−0.98, caz în care norul de date are panta descendenta).Rezultatul r = −0.0905 de mai sus ar putea sugera faptul ca cele doua selectii sunt observatiiobtinute din doua variabile aleatoare necorelate (i.e., ρ = 0), fapt ce va trebui confirmat folosind untest statistic în care testam ipoteza nula ρ = 0, cu ipoteza alternativa ρ 6= 0.

Figura 10.2: Scatter plots si coeficienti de corelatie.

10.2.1 Test statistic pentru coeficientul de corelatiePresupunem ca avem un set de date bidimensionale (xk, yk), k ∈ 1, 2, . . . , n asupra variabileloraleatoare normale X , Y , si am calculat r, obtinând o valoare r0 apropiata de 0. Plecând doar dela acesta informatie, nu putem extrapola si decide gradul de corelare între X si Y . Pentru aceasta,vom construi un test statistic, care va decide daca valoarea reala a lui ρ (coeficientul teoretic decorelatie) este 0 sau semnificativ diferita de 0.

Page 199: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

10.2 Corelatie si coeficient de corelatie 199

Consideram ipoteza nula

(H0) ρX,Y = 0 (variabilele aleatoare nu sunt corelate)

vs. ipoteza alternativa

(H1) ρX,Y 6= 0 (variabilele aleatoare sunt corelate)

Alegem un nivel de semnificatie α << 1 (e.g., α = 0.05) si consideram statistica

T = r

√n−21− r2 ∼ t(n−2).

Calculez valoarea statisticii T pentru r = r0 (o notam cu T0) si, de asemenea, calculam cuantilat1− α

2 ;n−2, de ordin 1− α

2 a repartitiei t cu (n−2) grade de libertate.Decizia finala este urmatoarea:

|T0|< t1− α

2 ;n−2 , atunci ipoteza (H0) este acceptata;|T0| ≥ t1− α

2 ;n−2 , atunci ipoteza (H0) este respinsa.

Observatia 10.2 (i) Coeficientul lui Pearson, r, este un numar adimensional ce stabileste doardaca exista o legatura liniara între doua seturi de date statistice. Totodata, în definirea acestuicoeficient se presupune ca datele statistice urmeaza o repartitie normala. De multe ori, în practica,doar coeficientul r sigur nu poate fi edificator asupra tariei legaturii între doua seturi de datestatistice, ba chiar poate genera informatii false în cazul în care cele doua seturi date nu depindliniar unul de celalalt. De aceea, si alti coeficienti pentru determinarea corelatiei sunt luati înconsideratie, cum ar fi:

• r2, coeficientul de determinare (notat în Statistica prin R2), care stabileste care este procentuldin variatia uneia dintre datele statistice ce determina (sau explica) pe celelalte date. Deexemplu, un coeficient de determinare R2 = 0.42 semnifica faptul ca variabila independentaexplica doar 42% din variatia variabilei dependente. În Statistica, acest coeficient este definitîn mai multe moduri, unele nu tocmai într-un mod echivalent;

• coeficientul lui Spearman4, coeficientul lui Kendall5 etc. (acestea nu presupun ca datelestatistice sunt normale)

(ii) Se poate testa, de asemenea, ipoteza nula

(H0) : ρX,Y = ρ0, cu ρ0 6= 0,

însa aceasta nu este foarte des întâlnita în practica.În acest sens, se poate utiliza statistica

Z =12

ln(

1+ r1− r

)∼ N

(12

ln(

1+ρ0

1−ρ0

),

1√n−3

).

(iii) Corelatia a doua variabile aleatoare nu implica o cauzalitate. Cu alte cuvinte, exista o corelatieîntre vârsta si înaltime la copii, însa niciuna dintre aceastea nu o cauzeaza pe cealalta. Corelatiapoate fi luata în evidenta pentru o posibila relatie cauzala, însa nu este determinanta si nu poatepreciza relatia cauzala, daca aceasta exista.(iv) Volumul selectiei este un factor foarte important în testarea ipotezei ca doua variabile aleatoaresunt necorelate. Spre exemplu, o relatie poate fi puternica (având un r nu foarte aproape de 0), însanu semnificativa, daca valoarea lui n nu este suficient de mare. Invers, o relatie poate fi slaba (un raproape de 0), dar semnificativa. Exemplul (10.1) poate fi edificator.

4Charles Edward Spearman (1863−1945), psiholog britanic5Sir Maurice George Kendall (1907−1983), statistician britanic

Page 200: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

200 Capitolul 10. Corelatie si regresie

Exemplu 10.1 Sa presupunem ca dorim sa stabilim daca exista vreo legatura între vârsta uneipersoane si coeficientul sau de inteligenta. Pe baza a doua seturi de datele asupra acestor caracteris-tici, de volum n = 10, gasim un coeficient de corelatie empiric r = 0.62. Se cere:(a) Este aceasta legatura puternica?(b) Este aceasta legatura semnificativa?R: (a) Calculam coeficientul de determinare, R2, si gasim R2 = 0.3844. Asta semnifica faptul cadoar 38.44% din variatia coeficientului de inteligenta este explicata de vârsta.(b) Aplicam testul pentru coeficientul de corelatie la un nivel de semnificatie α = 0.05. Ipotezanula este

(H0) Nu exista o corelatie semnificativa între vârsta si IQ.

Statistica considerata va avea 8 grade de libertate, T0 = 0.62√

81−0.3844 = 2.2351 < 2.3060 =

t0.975;8, de unde concluzionam ca ipoteza nula ρ = 0 este admisa (i.e., nu sunt dovezi suficientepentru ca ipoteza sa poate fi respinsa la acest nivel de semnificatie).(v) Se poate testa si ipoteza ca doi coeficienti de corelatie ce corespund fiecare la câte doua selectiidifera semnificativ unul de celalalt. Presupunem ca avem de testat ipoteza

(H0) : ρ1 = ρ2,

vs. ipoteza alternativa(H1) : ρ1 6= ρ2.

Presupunem ca volumele selectiilor folosite în testare sunt n1 si n2 si ca r1, r2 sunt coeficientii decorelatie empirici calculati. Pentru a testa ipoteza de mai sus, se foloseste faptul ca variabilele

Zi =12

ln(

1+ ri

1− ri

), i = 1, 2.

au o distributie asimptotica normala N(

12 ln(

1+ρi1−ρi

), 1√

n−3

). Atunci, distributia asimptotica a

statisticii Z = Z1−Z2 este

Z ∼ N

(µZ1−µZ2 ,

√1

n1−3+

1n2−3

),

cu µZi =12 ln(

1+ρi1−ρi

), i = 1, 2. Statistica test va fi

Z =Z1−Z2− (µZ1−µZ2)√

1n1−3 +

1n2−3

∼ N (0, 1) ,

Daca |z| ≤ z1− α

2, acceptam ipoteza (H0), altfel o respingem.

10.3 Coeficientul de corelatie SpearmanÎn cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes,coeficientul de corelatie Pearson nu mai poate fi calculat. De asemenea, daca datele nu satisfacipoteza de normalitate, folosirea coeficientului Pearson in testarea corelatiei dintre valori poate fipusa sub semnul întrebarii. O alternativa neparametrica a coeficientului Pearson este coeficientul decorelatie Spearman, sau coeficientul de corelatie a rangurilor. Acest coeficient poate fi calculat atâtpentru date calitative, cât si pentru date cantitative. Pentru a calcula acest coeficient, fiecarui atributsau fiecarei valori a caracteristicii i se desemneaza un rang. Coeficientul de corelatie Spearman

Page 201: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

10.4 Coeficientul de corelatie Kendall 201

este coeficientul de corelatie Pearson pentru aceste ranguri. Coeficientul lui Spearman este utilizatîn depistarea (daca este cazul) a unei relatii monotone între doua variabile (fie ea liniara sau nu).Acest coeficient este mai putin senzitiv la valorile extreme (outliers) ale seturilor de date, în sensulca valori foarte mari sau foarte mici comparativ cu altele nu influenteaza valoarea coeficientuluiSpearman.În general, daca (xi, yi)i=1,n este un set de date bidimensionale, ale caror ranguri corespunzatoaresunt (x∗i , y∗i )i=1,n, atunci coeficientul de corelatie Spearman (notat aici cu rS) este

rS =

n

∑k=1

(x∗k− x∗)(y∗k− y∗)√n

∑k=1

(x∗k− x∗)2

√n

∑k=1

(y∗k− y∗)2

. (10.3.3)

La fel ca si coeficientul lui Pearson, coeficientul Spearman ia valori reale în intervalul [−1, 1];valoarea 1 însemnând corelatie pozitiva perfecta a rangurilor, iar valoarea −1 însemnând corelatienegativa perfecta a rangurilor.În cazul în care avem n perechi de observatii si nu exista valori egale pentru rangurile aceleiasivariabile, atunci formula alternativa pentru calcului lui rS este:

rS = 1−6

n

∑i=1

d2i

n(n2−1), (10.3.4)

unde di = x∗i − y∗i , i.e., diferenta dintre rangurile corespunzatoare pentru pozitia i. Vezi exemplele(10.1) si (10.2).Se poate, de asemenea, testa semnificatia valorii obtinute, rS. Testul este acelasi ca in cazulsemnificatiei coeficientului Pearson, cu deosebirea ca r este inlocuit cu rS.

10.4 Coeficientul de corelatie KendallÎn Statistica, coeficientul de corelatie Kendall (denumit sit coeficientul τ al lui Kendall), este ostatistica folosita pentru a masura asocierea ordinala între doua cantitati masurate. Un test τ este ovarianta neparametrica a testului Pearson, bazata pe coeficientul τ .Coeficientul de corelatie Kendall este o masura a corelatiei rangurilor, adica a similaritatii oronariidintre doua seturi de date.Consideram (xi, yi)n

i=1 este un set de date bidimensionale, ca fiind observatii asupra unor variabilealeatoare X si Y . Vom spune ca perechile (xi,yi) si (x j,y j) (i< j) sunt în concordanta, daca rangurilecorespunzatoare sunt în concordanta, i.e., daca xi > x j si yi > y j în acelasi timp, sau xi < x j siyi < y j în acelasi timp. Cele doua perechi se numesc discordante daca xi > x j si yi < y j sau dacaxi < x j si yi > y j. Daca xi = x j sau yi = y j, atunci perechile nu sunt nici în concordanta, nici îndiscordanta.Coeficientul de corelatie Kendall este definit prin:

τ =(numarul perechilor concordante)− (numarul perechilor discordante)

C2n

=2

n(n−1) ∑i< j

sign(xi− x j)sign(yi− y j).

Daca τ = 1, atunci avem o concordanta perfecta între cele doua ordonari, iar daca τ =−1, atunciavem o discordanta perfecta între cele doua ordonari. Daca X si Y sunt independente, ne asteptamca τ sa fie apropiat de zero.

Page 202: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

202 Capitolul 10. Corelatie si regresie

Coeficientul τ al lui Kendall este adesea folosit ca test statistic pentru a testa daca variabilele Xxsi Y pot fi considerate statistic dependente. Ipoteza nula este ca X si Y sunt independente, iarpentru acceptarea acestei ipoteze ne asteptam la valori ale lui τ apropiate de 0. Acest test estenon-parametric, deoarece nu se bazeaza pe nicio presupunere relativ la distributiile lui X , Y saudistributia comuna (X ,Y ).

10.5 Functii MATLAB specifice corelatieiFie X si Y doi vectori de acelasi tip. Urmatoarele functii din MATLAB sunt utile pentru analizacorelatiei:

• scatter(X,Y) reprezinta grafic valorile lui Y vs. valorile lui X;• R = corrcoef(X,Y) calculeaza coeficientul de corelatie între X si Y. Rezultatul este afisat

sub forma:>> ans =

1.0000 ρ

ρ 1.0000

unde 1.0000 este coeficientul de corelatie dintre X si X, respectiv Y si Y, iar ρ este coeficientulcautat.

• cov(X,Y) pentru matricea de covarianta empirica dintre X si Y (formula (3.3.2));Functia cov(X,Y,1) este tot matrice de covarianta, însa în acest caz formula folosita continefactorul n−1 în fata sumei.

• Functia

[r, Pv] = corr(X,Y,'param',val1,'param2',val2,...)

calculeaza coeficientul de corelatie dorit (r) si valoarea Pv asociata testului de semnificatie alui r. Aici, X si Y sunt doi vectori coloana de acelasi tip. Daca Pv > α , atunci ipoteza nula

(H0) ρ = 0

este admisa la nivelul de semnificatie α , altfel este respinsa.Parametrii functiei pot fi:

– ’type’, cu valorile posibile: ’Pearson’ (mod implicit), ’Kendall’ sau ’Spearman’;– ‘tail’, cu valorile posibile: ‘both’, ‘left’ sau ‘right’;– ‘alpha’, cu valorile posibile în intervalui (0, 1).

Daca X si Y sunt matrice cu acelasi numar de linii, atunci functia calculeaza coeficientii decorelatie corespunzatori pentru orice pereche de coloane din cele doua matrice.

10.6 Exercitii rezolvateExercitiu 10.1 Doi degustatori de vinuri (denumiti D1 si D2) au fost rugati sa testeze 9 soiuri devin si sa le claseze în ordinea preferintelor. Sa notam mostrele testate cu A, B, C, D, E, F si G.Preferintele acestora sunt cele din Tabelul 10.1, în ordinea descrescatoare a preferintelor. Tabelul10.2 contine rangurile preferintelor celor doi degustatori, iar Figura 10.3 reprezinta grafic rangurile(diagrama scatter plot).

Page 203: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

10.6 Exercitii rezolvate 203

Mostra A B C D E F G H ID1 E B A G C H F D ID2 B E C G A H D I F

Tabela 10.1: Preferintele degustatorilor de vin.

Mostra rang D1 rang D2

A 3 5B 2 1C 5 3D 8 7E 1 2F 7 9G 4 4H 6 6I 9 8

Tabela 10.2: Tabel cu rangurile preferintelor.

Din diagrama scatter plot se observa o corelatie pozitiva între ranguri, ceea ce implica o oarecareconcordanta între preferintele celor doi degustatori. Coeficientul de corelatie Spearman va atribui ovaloare numerica acestei concordante, aceasta fiind rS = 0.8667.

D1 = [3 2 5 8 1 7 4 6 9]; D2 = [5 1 3 7 2 9 4 6 8];

rS = corr(D1,D2,'type','Spearman')

Tema! Utilizati testul semnelor pentru a testa ipoteza ca preferintele celor doi degustatori nu suntsemnificativ diferite (α = 0.05).

Figura 10.3: Scatter plot pentru ranguri.

Exista cazuri (în special pentru date cantitative) când valorile caracteristicii se repeta, asa încâtpentru valori egale desemnam acelasi rang. În aceste cazuri nu mai putem utiliza formula (10.3.4)pentru calculul coeficientului Spearman, ci va trebui sa utilizam formula (10.3.3) (vezi exemplulurmator).

Exercitiu 10.2 Datele din Tabelul 10.3 reprezinta numarul de accidente rutiere (A) si numarul dedecese (D) înregistrate într-un anumit oras, în primele 6 luni ale anului. Rangurile corespunzatoarevalorilor sunt prezentate în Tabelul 10.4. Datele au fost introduse în tabel în ordinea inversa anumarului de accidente. De notat ca, deoarece numarul de decese înregistrate în luna Mai este egalcu numarul de decese din Aprilie, rangul pentru fiecare dintre cele doua luni este media celor doua

Page 204: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

204 Capitolul 10. Corelatie si regresie

pozitii în care s-ar afla. Folosind formula (10.3.3), calculam coeficientul de corelatie Spearman.Acesta este rS = 0.8117.

X = [27 24 15 11 17 12; 8 6 5 3 3 2]';

rS = corr(X(:,1),X(:,2),'type','Spearman')

Luna Ian. Feb. Mar. Apr. Mai Iun.A 27 24 15 11 17 12D 8 6 5 3 3 2

Tabela 10.3: Evenimente rutiere în primele 6luni.

Luna A rang A D rang D

Ian. 27 6 8 6Feb. 24 5 6 5Mai 17 4 3 2+3

2 = 2.5Mar. 15 3 5 4Iun. 12 2 2 1Apr. 11 1 3 2+3

2 = 2.5

Tabela 10.4: Tabel cu rangurile pentruaccidente.

10.7 Exercitii propuseExercitiu 10.3 Datele din tabelul urmator reprezinta o selectie de observatii asupra variabilei X .

X 0 1 2 3 4 5 6 7 8 9 10Y 21 7

(a) Daca pentru variabilele X si Y coeficientul de corelatie teoretic Spearman este −1, completatiîn tabel un set de valori pentru Y .(b) Aceeasi cerinta în cazul în care coeficientul de corelatie teoretic Pearson este −1.

Exercitiu 10.4 Tabelul de mai jos contine calificativele obtinute de un elev de clasa I la o selectiede 9 teste din clasa I, care au fost reluate la inceputul clasei a doua a-II-a.

Discipline A B C D E F G H Iclasa I S FB FB B B FB S B FB

clasa a II-a B I B FB FB B B S B

(a) Calculati coeficientul de corelatie Spearman si semnificatia lui pentru calificativele obtinute înclasa I si cele din clasa a II-a.(b) La nivelul de semnificatie α = 0.05, testati ipoteza ca rezultatele elevului s-au îmbunatatit înclasa a II-aExercitiu 10.5 Se masoara viteza unei masini în primele 10 secunde dupa ce a început sa accele-reze. Datele sunt înregistrate în tabelul de mai jos.

t 0 1 2 3 4 5 6 7 8 9 10v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9

Folosind un test statistic, verificati daca t (timp) si v (viteza) sunt liniar corelate (α = 0.04).Exercitiu 10.6 S-a realizat un studiu pentru a afla daca exista vreo relatie între masa corporala(M) si presiunea sanguina (P) la oameni. Urmatorul set de date a fost obtinut dintr-un studiu clinic,alegând 10 persoane la întâmplare.

Page 205: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

10.7 Exercitii propuse 205

M 78 86 72 82 80 86 84 89 68 71P 140 160 134 144 180 176 174 178 128 132

(a) Calculati indicele de corelatie Pearson si determinati semnificatia acestuia (α = 0.05).(b) Calculati indicele de corelatie Spearman dintre M si P.Exercitiu 10.7Tabelul de mai jos contine mediile obtinute de un elev de clasa a V-a la toate disciplinele scolare,pentru fiecare dintre cele doua semestre.

Discipline A B C D E F G H I Jsemestrul I 6 9 7 8 8 9 9 9 7 10

semestrul al II-a 7 9 8 9 8 9 8 10 8 10

(a) Calculati coeficientul de corelatie Pearson si testati semnificatia valorii obtinute. (α = 0.04)(b) Calculati coeficientul de corelatie Spearman.(c) Folosind un test potrivit, testati ipoteza ca rezultatele elevului s-au îmbunatatit în semestrul aldoilea. (α = 0.04)

Exercitiu 10.8 (a) Determinati coeficientul de corelatie Pearson pen-tru setul alaturat de date, reprezentate prin punctele albastre (fara P).(b) Determinati coeficientul de corelatie Pearson pentru datele din fi-gura, incluzând punctul P(103,103). Cum explicati fenomenul observat?(c) Aceleasi cerinte ca la (a) si (b), dar pentru coeficientul Spearman.

Exercitiu 10.9 Un numar de studenti ce au frecventatun anumit curs au fost solicitati sa îsi exprime parerea înlegatura cu dificultatea si atractivitatea notiunilor prezen-tate. Pentru fiecare variabila, ei au avut de ales numereîntregi dintr-o scara de la 1 la 5, unde 1 reprezinta clasacea mai de jos de dificultate (respectiv atractivitate) iar5 nivelul maxim. Datele sunt prezentate în tabelul defrecvente alaturat.

Di f icultatea−→Utilitatea ↓ 1 2 3 4 5

1 0 0 3 4 62 0 0 4 4 73 0 4 5 6 54 3 5 4 1 05 5 3 1 1 0

Sunt cele doua opinii corelate? Calculati coeficientul de corelatie Pearson. Este semnificativ?(α = 0.05)Exercitiu 10.10 Pentru datele de mai jos

X 0 1 2 3 4 5 6 7 8 9 10Y −0.2 1.2 4.21 9.15 15.6 24.3 35.9 48.31 62.95 80 95

determinati coeficientii de corelatie Pearson, Spearman si Kendall. Care dintre ei este semnificativla nivelul α = 0.04?

Page 206: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘
Page 207: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11. Regresie

. [Prediction through regression is like driving blindfolded,

. guided by a co-pilot looking only at the rear window]

11.1 Punerea problemeiRegresia este o metoda statistica utilizata pentru descrierea naturii relatiei între variabile. Defapt, regresia stabileste modul prin care o variabila depinde de alta variabila, sau de alte variabile.Analiza regresionala cuprinde tehnici de modelare si analiza a relatiei dintre o variabila dependenta(variabila raspuns) si una sau mai multe variabile independente (variabile stimul). De asemenea,raspunde la întrebari legate de predictia valorilor viitoare ale variabilei raspuns pornind de la ovariabila data sau mai multe. În unele cazuri se poate preciza care dintre variabilele de plecaresunt importante în prezicerea variabilei raspuns. Se numeste variabila independenta o variabila cepoate fi manipulata (numita si variabila predictor, stimul sau variabila comandata), iar o variabiladependenta (sau variabila prezisa) este variabila care dorim sa o prezicem, adica o variabilacarei rezultat depinde de observatiile facute asupra variabilelor independente. Principiul dupacare se poate obtine variabila dependenta în functie de variabilele independente este asemanatorprincipiului de lucru al unei cutii negre (black box) (vezi Figura 11.1). În aceasta cutie intra (suntînregistrate) informatiile x1, x2, . . . , xm, care sunt prelucrate (în timpul prelucrarii apar anumitiparametri, β1, β2, . . . , βk), iar rezultatul final este înregistrat într-o singura variabila raspuns, y.De exemplu, se doreste a se stabili o relatie între valoarea pensiei (y) în functie de numarul deani lucrati (x1) si salariul avut de-alungul carierei (x2). Variabilele independente sunt masurateexact, fara erori. În timpul prelucrarii datelor sau dupa aceasta pot apara distorsiuni în sistem, decare putem tine cont daca introducem un parametru ce sa cuantifice eroarea ce poate aparea laobservarea variabilei y. Se stabileste astfel o legatura între o variabila dependenta, y, si una sau maimulte variabile independente, x1, x2, . . . , xm, care, în cele mai multe cazuri, are forma matematicagenerala

y = f (x1, x2, . . . , xm; β1, β2, . . . , βk)+ ε, (11.1.1)

unde β1, β2, . . . , βk sunt parametri reali necunoscuti a priori (denumiti parametri de regresie) si

Page 208: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

208 Capitolul 11. Regresie

ε este o perturbatie aleatoare. În cele mai multe aplicatii, ε este o eroare de masura, consideratamodelata printr-o variabila aleatoare normala de medie zero. Functia f se numeste functie deregresie. Daca aceasta nu este cunoscuta a priori, atunci poate fi greu de determinat iar utilizatorulanalizei regresionale va trebui sa o intuiasca sau sa o aproximeze utilizând metode de tip trial anderror (prin încercari). Daca avem doar o variabila independenta (un singur x), atunci spunem caavem o regresie simpla. Regresia multipla face referire la situatia în care avem multe variabileindependente.

Figura 11.1: Black box.

Daca observarea variabilei dependente s-ar face fara vreo eroare, atunci relatia (11.1.1) ar deveni(cazul ideal):

y = f (x1, x2, . . . .., xm, β1, β2, . . . , βk). (11.1.2)

Forma vectoriala a dependentei (11.1.1) este:

y = f (x, β )+ ε. (11.1.3)

Pentru a o analiza completa a regresiei (11.1.1), va trebui sa intuim forma functiei f si apoi sadeterminam (aproximam) valorile parametrilor de regresie. În acest scop, un experimentalist vaface un numar suficient de observatii (experimente statistice), în urma carora va aproxima acestevalori. Daca notam cu n numarul de experimente efectuate, atunci le putem contabiliza pe acesteaîn urmatorul sistem stochastic de ecuatii:

yi = f (x, β )+ εi, i = 1, 2, . . . , n. (11.1.4)

În ipoteze uzuale, εi sunt variabile aleatoare identic repartizate N (0, σ), independente stochasticdoua câte doua (σ > 0). Astfel, sistemul (11.1.4) cu n ecuatii stochastice algebrice are necunoscuteleβ j j=1,2, ...,n si σ , în total k+1 necunoscute.În cazul în care numarul de experimente este mai mic decât numarul parametrilor ce trebuieaproximati (n≤ k), atunci nu avem suficiente informatii pentru a determina aproximarile. Dacan = k+1, atunci problema se reduce la a rezolva n ecuatii cu n necunoscute. În cel de-al treilea cazposibil, n > k+1, atunci avem un sistem cu valori nedeterminate.În functie de forma functiei de regresie f , putem avea:

• regresie liniara simpla, în cazul în care avem doar o variabila independenta si

f (x, β ) = β0 +β1x.

• regresie liniara multipla, daca

f (x, β ) = β0 +β1x1 +β2x2 + . . .+βmxm.

• regresie liniara multipla cu interactiuni daca (cazul a doua variabile)

f (x, β ) = β0 +β1x1 +β2x2 +β11x21 +β12x1x2 +β22x2

2.

Folosind urmatoarele notatii, putem reduce regresia anterioara la una simpla multipla:

x21 = x3, x1x2 = x4, x2

2 = x5.

Page 209: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.2 Regresie liniara simpla 209

• regresie polinomiala, daca

f (x, β ) = β0 +β1x+β2x2 +β3x3 + . . .+βkxk.

Vom avea regresie patratica pentru k = 2, regresie cubica pentru k = 3 etc.• regresie exponentiala, când

f (x, β ) = β0 eβ1 x.

• regresie logaritmica, dacaf (x, β ) = β0 · logβ1

x.

• regresie logistica

f (x, β ) =eβ0+β1x

1+ eβ0+β1x .

Modelele determinate de aceste functii se vor numi modele de regresie (curbe, suprafete etc). Deremarcat faptul ca primele patru modele sunt liniare în parametri, pe când ultimele nu sunt liniareîn parametri.În cadrul analizei regresionale, se cunosc datele de intrare, xii, si cautam sa estimam parametrii deregresie β j j si deviatia standard a erorilor, σ . Daca functia de regresie f este cunoscuta (intuita),atunci metode statistice folosite pentru estimarea necunoscutelor sunt: metoda verosimilitatiimaxime, metoda celor mai mici patrate si metoda lui Bayes. Daca f este necunoscuta, metode ceduc la estimarea necunoscutelor sunt: metoda celor mai mici patrate sau metoda minimax.

11.2 Regresie liniara simplaEste cel mai simplu tip de regresie, în care avem o singura variabila independenta, x, si variabiladependenta y. Sa presupunem ca ni se da familia de date bidimensionale (xi, yi)i=1,2, ...,n. Re-prezentam grafic aceste date într-un sistem x0y (de exemplu, vezi Figura 11.2 (a)) si observam odependenta aproape liniara a lui y de x. Daca valoarea coeficientului de corelatie liniara, r, esteaproape de 1 sau −1 (indicând o corelatie liniara strânsa), atunci se pune problema stabilirii uneirelatii numerice exacte între x si y de forma

y = β0 +β1x. (11.2.5)

O astfel de dreapta o vom numi dreapta de regresie a lui y în raport cu x. Pentru un set de datebidimensionale ca mai sus, putem reprezenta aceasta dreapta ca în Figura 11.2 (b).

Figura 11.2: Aproximarea unui nor de date prin dreapta de regresie.

Page 210: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

210 Capitolul 11. Regresie

Exemplu 11.1 Te hotarasti sa cumperi masina favorita, ce se vinde acum la pretul de 12500 EUR.La semnarea contractului de vânzare-cumparare, platesti suma initiala de 15000 RON si apoi ratelunare de 650 RON, timp de 5 ani. Daca notam cu X numarul lunilor pâna la ultima rata si cu Ysuma totala platita pe masina, atunci între X si Y exista relatia:

Y = 15000+650X .

În acest exemplu, relatia între X si Y este una perfect liniara. O relatie perfect liniara între datelebidimensionale (xi, yi)i=1,2, ...,n reprezentate în Figura 11.2 ar însemna ca toate acestea s-ar aflape dreapta de regresie, ceea ce nu se întâmpla. De cele mai multe ori, datele reale nu urmeazao astfel de relatie perfecta (spre exemplu, rata lunara poate fi una variabila, în functie de rata deschimb EUR-RON), caz în care parametrii din dependenta liniara trebuie a fi estimati.Asadar, va trebui sa tinem cont si de eventualele perturbatii din sistem. Putem presupune astfel cadependenta lui y de x este de forma

y = β0 +β1x+ ε, (11.2.6)

cu ε o variabila aleatoare repartizata N (0, σ).Plecând de la xi, yii, telul nostru este sa gasim o dreapta ce se apropie cel mai mult (într-un sensbine precizat) de aceste date statistice. Cu alte cuvinte, va trebui sa estimam valorile parametrilorde regresie β0 si β1. Procedam dupa cum urmeaza.Înlocuind datele bidimensionale în (11.2.6), avem urmatorul sistem:

yi = β0 +β1xi + εi, i = 1, 2, . . . , n, (11.2.7)

undeεi ∼N (0, σ), ∀i si εi sunt independente stochastic.

Deoareceεi = yi− (β0 +β1xi), i = 1, 2, . . . , n,

putem interpreta εi ca fiind erorile de aproximare a valorilor observate (yi) cu cele prezise de dreaptade regresie (adica de valorile β0 +β1xi).Tinând cont ca εi ∼N (0, σ) si β0, β1 sunt valori deterministe, din (11.2.7) rezulta ca:

yi ∼N (β0 +β1xi, σ), pentru fiecare i,

de unde, probabilitatea ca într-o singura masuratoare a xi sa obtinem raspunsul yi este

Pi =1

σ√

2πexp(−(yi−β0−β1xi)

2

2σ2

).

Deoarece εii sunt independente stochastic, probabilitatea ca în cele n observatii independente saobtinem vectorul de valori (y1, y2, , . . . , yn) este (functia de verosimilitate):

L(β0, β1, σ) =n

∏i=1

Pi =1

σn(2π)n/2 exp

(−

n

∑i=1

(yi−β0−β1xi)2

2σ2

).

Avem de estimat urmatoarele cantitati: β0, β1 si σ . Pentru aceasta, vom folosi metoda verosimilitatiimaxime. Urmarim sa gasim acele valori ale parametrilor β0, β1 si σ care maximizeaza functia deverosimilitate. Asadar, problema de maximizare este urmatoarea:

maxβ0,β1,σ

L(β0, β1, σ).

Page 211: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.2 Regresie liniara simpla 211

Conditiile de extrem (impuse pentru lnL) sunt:

∂ lnL∂β0

=1

2σ2

n

∑i=1

(yi−β0−β1xi) = 0;

∂ lnL∂β1

=1

2σ2

n

∑i=1

xi(yi−β0−β1xi) = 0;

∂ lnL∂σ

= − nσ+

1σ2

n

∑i=1

(yi−β0−β1xi)2 = 0.

Rezolvând primele doua ecuatii în raport cu β0 si β1, obtinem estimatiile:

β1 =sxy

sxxsi β0 = y− β1 x, (11.2.8)

unde,

x =1n

n

∑i=1

xi, y =1n

n

∑i=1

yi, sxx =1

n−1

n

∑i=1

(xi− x)2, sxy =1

n−1

n

∑i=1

(xi− x)(yi− y).

Astfel, gasim ca dreapta de regresie a lui y în raport cu x este aproximata de dreapta:

y = y− β1 x+sxy

sxxx, (11.2.9)

sau, altfel scrisa,

y = y+sxy

sxx(x− x). (11.2.10)

Figura 11.3: Estimarea dreptei de regresie.

Din ultima conditie de extrem, gasim ca o estimatie pentru dispersia σ2 este:

σ2 =

1n

n

∑i=1

(yi− β0− β1xi)2. (11.2.11)

Însa, estimatia pentru σ2 data prin formula (11.2.11) este una deplasata. În practica, în locul acesteiestimatii se utilizeaza urmatoarea estimatie nedeplasata:

σ2 =1

n−2

n

∑i=1

(yi− β0− β1xi)2. (11.2.12)

Page 212: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

212 Capitolul 11. Regresie

Observatia 11.1 [1] Terminologie:• dreapta de regresie, y = β0 +β1 x, este dreapta ce determina dependenta liniara a lui y de

valorile lui x, pentru întreaga populatie de date (daca aceasta exista);• aproximarea dreptei de regresie (en., fitting line), y = β0 + β1 x, este dreapta care se apropie

cel mai mult (în sensul metodei celor mai mici patrate) de datele experimentale (de selectie)xi, yii. Aceasta dreapta este o aproximare a dreptei de regresie;

• valorile yi se numesc valori observate, iar valorile yi = β0+ β1 xi, i = 1, 2, . . . , n se numescvalori prezise (i = 1, 2, . . . , n);

• valorile εi = yi− yi = yi− β0− β1xi se numesc reziduuri. Un reziduu masoara deviatia unuipunct observat de la valoarea prezisa de estimarea dreptei de regresie (dreapta de fitare);

• suma patratelor erorilor,n

∑i=1

ε2i =

n

∑i=1

(yi− β0− β1xi)2, se noteaza de obicei prin SSE (sum of

squared errors);

• eroarea medie patratica sau reziduala este MSE=SSE

n−2(mean squared error). Dupa cum se

poate observa din relatia (11.2.12), MSE= σ2 este un estimator pentru dispersia erorilor, σ2.• radacina patrata a MSE este σ si se numeste eroarea standard a regresiei;• se poate demonstra ca

SSE

σ2 = (n−2)σ2

σ2 ∼ χ2(n−2).

cu autorul acestei relatii se pot gasi intervale de încredere pentru valoarea reala a lui σ2.În formula (11.2.12), (n−2) reprezinta numarul gradelor de libertate ale variabilei SSE.

[2] Estimatia dispersiei este o masura a gradului de împrastiere a punctelor (x, y) în jurul drepteide regresie. Mai subliniem faptul ca valorile din formulele (11.2.8) si (11.2.12) sunt doar estimatiiale parametrilor necunoscuti si nu valorile lor exacte. Pentru panta β1 avem urmatoarele formuleechivalente:

β1 =sxy

sxx=

cove(x,y)s2

x= rxy

sy

sx,

unde

cove(x,y) =1

n−1

n

∑i=1

(xi− x)(yi− y), sx =

√1

n−1

n

∑i=1

(xi− x)2,

sy =

√1

n−1

n

∑i=1

(yi− y)2, rxy =cove(x, y)

sxsy.

[3] Daca deviatia standard σ ar fi cunoscuta a priori, atunci putem estima parametrii β0 si β1 înurmatorul mod. Estimam acesti doi parametri prin acele valori ce realizeaza minimumul sumeipatratelor erorilor SSE. Vom avea astfel problema de minimizare (metoda celor mai mici patrate):

minβ0,β1

n

∑i=1

(yi−β0−β1xi)2.

Notând cu F(β0, β1) =n

∑i=1

(yi−β0−β1xi)2, conditiile de extrem sunt:

∂F∂β0

= −2n

∑i=1

(yi−β0−β1xi) = 0;

∂F∂β1

= −2n

∑i=1

xi(yi−β0−β1xi) = 0.

Page 213: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.2 Regresie liniara simpla 213

Rezolvând acest sistem de ecuatii algebrice în raport cu β0 si β1, gasim solutiile β0 si, respectiv,β1 de mai sus. Aceasta dovedeste ca, în cazul în care erorile sunt identic normal repartizate siindependente stochastic, metoda verosimilitatii maxime este, în fapt, totuna cu metoda celor maimici patrate.

11.2.1 Intervale de încredere pentru parametrii de regresieEstimatiile pentru parametrii de regresie β0 si β1 depind de observatiile folosite. Pentru a decidedaca valorile calculate pe baza datelor experimentale xi, yii pot fi considerate valorile potrivitepentru întreaga populatie, se vor utiliza testari statistice. Mai jos, vom prezenta teste statistice cuprivire la testarea valorilor ambilor parametri, β0 si β1, însa cel mai uzual test este testul pentruverificarea valorii pantei dreptei de regresie, β1.Se poate dovedi (vezi [stoleriu]) ca β0 si β1 sunt estimatori nedeplasati pentru β0 si, respectiv, β1.Adica:

E(β1) = β1 si E(β0) = β0.

Dispersiile acestor estimatori sunt:

Var(

β1

)=

σ2

sxxsi Var

(β0

)= σ

2(

1n+

x2

sxx

). (11.2.13)

Mai mult, estimatorii β0 si β1 sunt repartizati normal:

β1 ∼N

(β1,

σ√sxx

)si β0 ∼N

β0, σ

√1n+

x2

sxx

.

Tinând cont ca estimatorii β0 si β1 sunt nedeplasati, de relatiile (11.2.13), si de estimatorul σ2

pentru σ2, se poate demonstra ca:

β1−β1√σ2

sxx

∼ t(n−2) siβ0−β0

σ

√1n +

x2

sxx

∼ t(n−2). (11.2.14)

Aici, am notat prin σ cantitatea:

σ =

√1

n−2

n

∑i=1

(yi− β0− β1xi

)2.

Putem folosi aceste statistici pentru a determina intervale de încredere pentru β1 si β0. Un intervalde încredere pentru β1 la nivelul de semnificatie α este:β1− t1− α

2 ;n−2

√σ2

sxx, β1 + t1− α

2 ;n−2

√σ2

sxx

. (11.2.15)

Un interval de încredere pentru β0 la nivelul de semnificatie α este:β0− t1− α

2 ;n−2 σ

√1n+

x2

sxx, β0 + t1− α

2 ;n−2 σ

√1n+

x2

sxx

. (11.2.16)

Page 214: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

214 Capitolul 11. Regresie

Observatia 11.2 În general, dispersia σ2 a erorilor de regresie nu este cunoscuta a priori. Încazul în care aceasta este cunoscuta, atunci în loc de (11.2.14) am avea:

β1−β1√σ2

sxx

∼N (0, 1), siβ0−β0

σ

√1n +

x2

sxx

∼N (0, 1). (11.2.17)

În acest caz, intervalele de încredere pentru β0 si β1 vor fi similare cu cele din relatiile (11.2.16)si (11.2.15), cu diferenta ca t1− α

2 ;n−2 este înlocuit prin z1− α

2. Oricum, pentru n suficient de mare,

valorile t1− α

2 ;n−2 si z1− α

2sunt foarte apropiate.

11.2.2 Test statistic pentru β1 (panta dreptei de regresie)Prezentam aici testul ce verifica daca β1 ia o valoare data β10 sau nu, la un nivel de semnificatie α .Acest test este mai des folosit decat testul pentru β0. Dispersia erorilor de regresie este necunoscuta.Testam

(H0) : β1 = β10 versus (H1) : β1 6= β10.

Consideram statistica

T =β1−β1√

σ2

sxx

,

care urmeaza repartitia t(n−2). Etapele testului sunt urmatoarele:• Calculam valoarea observata

T0 =β1−β10√

σ2

sxx

.

• Calculam cuantila de ordin 1− α

2 pentru repartitia t cu (n−2) grade de libertate, t1− α

2 ;n−2;• Daca

|T0|< t1− α

2 ;n−2, atunci acceptam ipoteza (H0);

Daca|T0| ≥ t1− α

2 ;n−2, atunci acceptam ipoteza (H1);

Observatia 11.3 (1) O ipoteza alternativa poate fi considerata si una dintre urmatoarele:

(H1)s : β1 < β10, (H1)d : β1 > β10.

(2) Testul cel mai popular pentru β1 este pentru ipoteza nula (H0) : β1 = 0 (i.e., β10 = 0). Ipotezaalternativa β1 6= 0 reprezinta faptul ca între x si y exista o dependenta liniara. Cu alte cuvinte, testul

(H0) : β1 = 0 vs. (H1) : β1 6= 0

verifica semnificatia pantei dreptei de regresie. Daca ipoteza nula este respinsa, atunci panta drepteieste semnificativa (i.e., semnificativ diferita de zero).

11.2.3 Test statistic pentru β0

Mai jos prezentam testul ce verifica daca β0 ia o valoare data β ∗0 sau nu, la un nivel de semnificatieα . Dispersia erorilor de regresie este necunoscuta.Testam

(H0) : β0 = β∗0 versus (H1) : β0 6= β

∗0 .

Consideram statistica

T =β0−β0

σ

√1n +

x2

sxx

∼ t(n−2),

care urmeaza repartitia t(n−2). Etapele testului sunt urmatoarele:

Page 215: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.3 Predictie prin regresie 215

• Calculam valoarea observata

T0 =β0−β ∗0

σ

√1n +

x2

sxx

∼ t(n−2).

• Calculam cuantila de ordin 1− α

2 pentru repartitia t cu (n−2) grade de libertate, t1− α

2 ;n−2;• Daca

|T0|< t1− α

2 ;n−2, atunci acceptam ipoteza (H0);

|T0| ≥ t1− α

2 ;n−2, atunci acceptam ipoteza (H1);

Observatia 11.4 De asemenea, exista teste unilaterale si pentru testarea valorii lui β0.În cazul în care σ2 este cunoscut a priori atunci, gratie relatiilor (11.2.17), putem utiliza testul Zpentru testarea ipotezelor de mai sus, atât pentru β0, cât si pentru β1.

11.3 Predictie prin regresieÎn anumite cazuri, putem folosi regresia în predictia unor valori ale variabilei dependente. Deexemplu, putem prezice temperatura într-un anumit oras plecând de la observatiile temperaturilor dinorasele învecinate. Regresia poate fi utilizata pentru predictie dupa cum urmeaza. Sa presupunemca datele pe care le detinem, (xi, yi)i=1,2, ...,n, pot fi modelate de o dreapta de regresie de forma(11.2.5). Dat fiind o valoarea xp ce nu se afla printre valorile xi, dar este o valoare cuprinsa întrevalorile extreme ale variabilei independente, xmin si xmax, dorim sa prezicem valoarea raspuns,

yp = β0 +β1 xp + εp.

Daca β0 si β1 sunt estimatiile pentru parametrii de regresie β0, respectiv, β1, atunci valoarea prezisapentru yp pentru un xp observat va fi o valoare yp de pe dreapta de regresie, data de formula:

yp = β0 + β1 xp. (11.3.18)

Se poate demonstra ca statistica Yp asociata acestei valori urmeaza o repartitie normala,

Yp ∼N

β0 + β1 xp, σ

√1+

1n+

(xp− x)2

sxx

.

O predictie pentru intervalul de încredere corespunzator lui y pentru un xp dat, la nivelul desemnificatie α (xp ∈ [xmin, xmax]) este:yp− t1− α

2 ;n−2 σ

√1+

1n+

(xp− x)2

sxx, yp + t1− α

2 ;n−2 σ

√1+

1n+

(xp− x)2

sxx

. (11.3.19)

Observatia 11.5 (1) De notat faptul ca este foarte important ca xp sa fie o valoare cuprinsa întrexmin si xmax. Daca se foloseste formula (11.3.18) si pentru valori ale lui x în afara range-ului valorilorpredictor pentru x, atunci erorile de de aproximarea a lui y cu yp pot fi foarte mari. De exemplu,daca în Figura 11.4 (a) am folosi doar primele 9 pentru a construi un model de regresie, atunciacesta poate fi utilizat doar pentru predictia valorilor variabilei y pentru orice x în acest range, i.e.x ∈ [0, 10]. Daca, folosind dreapta de regresie gasita anterior, am încerca o predictie pentru x = 19,atunci am gasi ca y(19) ≈ 10, pe când valoarea observata este y(19) ≈ 6.5, ceea ce determina oeroare foarte mare de aproximare. Mai mult, daca tinem cont si de urmatoarele valori observate

Page 216: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

216 Capitolul 11. Regresie

Figura 11.4: Predictie prin extrapolare.

(vezi Figura 11.4(b)), atunci curba de regresie pare sa nu fie o dreapta. Pentru estimarea de valoriviitoare ale variabilei dependente folosind valori ale variabilelor independente ce ies din range seutilizeaza termenul de prognoza (en., forecasting). Aceasta este folosita des în analiza seriilor detimp.(2) Valoarea prezisa yp nu este una stabilita cu exactitate, ci este doar o medie asteptata a valorilorlui y pentru un xp dat. În cazul în care R2 = 1 (coeficientul de determinare), atunci valoarea pentru yva fi prezisa fara eroare, deoarece toate punctele se afla pe dreapta de regresie. În general, punctelebidimensionale (x, y) se afla împrastiate în jurul dreptei de regresie.(3) Valoarea yp este determinata doar pe baza selectiei date, de aceea, pentru a verifica daca aceastavaloare poate fi extrapolata la întreaga populatie este nevoie de inferenta statistica (test statistic).Prezentam, în continuare, un test ce compara valoarea yp cu o constanta data.Testam

(H0) yp = y0 versus (H1) yp 6= y0.

Etapele testului sunt urmatoarele:• Estimam yp utilizând formula (11.3.18).• Consideram statistica

T =yp− y

σ

√1+

1n+

(xp− x)2

sxx

∼ t(n−2);

• Calculez valoarea T0 =yp− y0

σ

√1+

1n+

(xp− x)2

sxx

;

• Daca|T0|< t1− α

2 ;n−2, atunci acceptam ipoteza (H0);

Daca|T0| ≥ t1− α

2 ;n−2, atunci acceptam ipoteza (H1);

(4) În concluzie, regresia este o unealta dibace pentru predictie. Unii economisti au utilizat-o cu

succes si au prezis chiar 10(!) dintre ultimele... 2 recesiuni!

Page 217: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.4 Validitatea modelului de regresie liniara simpla 217

Observatia 11.6 Pâna acum am vazut cum putem estima valoarea lui y folosind pe x. În unelecazuri, putem inversa rolurile lui x si y, si putem vorbi astfel de regresie a lui x în raport cu y. Deexemplu, în Exercitiul 11.1 am putea estima notele la Probabilitati în functie de notele la Statistica.Formulele obtinute pentru dreapta de regresie a lui x în raport cu y sunt cele gasite anterior pentrudreapta de regresie a lui y în raport cu x, în care rolurile lui x si y sunt inversate.

11.4 Validitatea modelului de regresie liniara simplaPresupunem ca X si Y sunt doua variabile de interes, pentru care se doreste a determina o relatieliniara de forma

Y = β0 +β1X + ε.

Pentru a determina oportunitatea unei astfel de legaturi, se culeg date relativ la aceste variabile.Consideram ca aceste observatii sunt (xi, yi)i=1,2, ...,n. Pe baza acestor date se poate aproximadreapta de regresie liniara (daca exista) astfel:

Y = β0 + β1X , unde: β1 =sxy

sxxsi β0 = y− β1x,

x =1n

n

∑i=1

xi, y =1n

n

∑i=1

yi, sxx =n

∑i=1

(xi− x)2, sxy =n

∑i=1

(xi− x)(yi− y).

Pentru a verifica daca modelul de regresie liniara este unul valid, se pot folosi mai multe metode,dintre care amintim cele mai uzuale:

• coeficientul de determinare R2. Acest coeficient se calculeaza folosind urmatoarea formula:

R2 = 1− SSE

SST, (11.4.20)

unde

SSE=n

∑i=1

(yi− y)2 =n

∑i=1

(yi− β0− β1xi)2, SST=

n

∑i=1

(yi− y)2.

Aici, SST reprezinta suma totala a patratelor the total sum of squares. În analiza regresionala,coeficientul R2 este o statistica folosita în a determina cât de bine pot fi estimate valorile luiy pe baza modelului de regresie. Valorile lui R2 sunt între 0 si 1 si, pentru a avea un modeldestul de bun, ar fi necesar un coeficient de determinare aproape de 1. Totusi, este posibil caR2 sa aiba valori mai mari ca 1 în cazul în care modelul de regresie nu este unul liniar. Încazul regresiei liniare simple, R2 = r2, adica patratul coeficientului de corelatie Pearson.

• grafice:– yi vs. xi: Din aceasta figura (scatter plot) ne putem da seama de oportunitatea mo-

delarii datelor observate folosind un model de regresie liniara simpla. Aceasta figuraar trebui facuta înainte de aproximarea dreptei de regresie. Pentru a putea utiliza unmodel de regresie liniara simpla, valorile reprezentate ar trebui sa fie apropiate de oanumita dreapta (vezi Figura 11.6).

– grafic ce indica normalitatea reziduurilor εi : Acesta poate fi realizat in MATLAB cuajutorul comenzii normplot. Acest grafic reprezinta probabilitatile de normalitateale erorilor versus cuantilele de la N (0, 1). Daca modelul este valid, atunci valorilereprezentate in figura vor fi cat mai apropiate de prima bisectoare (e.g., vezi al doileagrafic din Figura 11.10).

Page 218: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

218 Capitolul 11. Regresie

– yi vs. yi: Daca modelul este valid, atunci valorile reprezentate in figura vor fi catmai apropiate de prima bisectoare (e.g., vezi primul grafic din Figura 11.10).

– εi vs. xi: Daca modelul este valid, atunci valorile reprezentate in figura nu ar aveanicio tendinta clara (e.g., vezi ultimul grafic din Figura 11.10).

– εi vs. yi: Daca modelul este valid, atunci valorile reprezentate in figura nu ar aveanicio tendinta clara (e.g., vezi ultimul grafic din Figura 11.10).

– In graficele anterioare, in loc de reziduurile εi, pot fi realizate grafice pentru reziduurilestandardizate,

εi∗=

εi

sεi

=εi

σ

√1+

1n+

x2

sxx

.

• test de utilitate a modelului: Se testeaza ipoteza (H0) : β1 = 0 vs. ipoteza (H1) : β1 6= 0.Dupa cum am vazut mai sus, acceptarea ipotezei alternative indica faptul ca modelul liniarsimplu este valid.

• test pentru semnificatia parametrilor modelului: Putem testa o valoare anume a pan-tei dreptei de regresie folosind ipoteza nula (H0) : β1 = β10 vs. ipoteza alternativa(H1) : β1 6= β10. Panta dreptei de regresie este importanta în a determina magnitudineavariatiei variabilei raspuns la o variatie de o unitate a variabilei stimul. În unele programespecifice analizei statistice (e.g., SPSS), rezultatul testului este reprezentat de o valoare sigpe care softul o afiseaza. Aceasta valoare este, in fapt, valoarea critica Pv (probabilitatea de arespinge ipoteza nula cand aceasta este adevarata). La un nivel de semnificatie α dorit deutilizator, ipoteza nula va fi respinsa daca sig < α . Daca ipoteza nula este respinsa, atuncivaloarea testata (β10) este semnificativa si poate fi utilizata in calculele ulterioare. Dacasig > α , atunci valoarea β10 este nesemnificativa si acceptam ipoteza ca, in realitate, β1 = 0,ceea ce indica faptul ca modelul de regresie liniara simpla nu este potrivit pentru dateleobservate.

Ce este de facut daca modelul de regresie liniara simpla nu este unul valid?

• Este posibil ca Y sa nu depinda liniar de X . Acest fapt poate fi observat de la inceput, dindiagrama scatter plot ce reprezinta yi vs. xi. Pentru modele neliniare, se poate incerca otransformare a variabilelor X si Y astfel incat modelul liniar pentru variabilele transformatesa fie unul aplicabil (nu merge intotdeauna). Spre exemplu, vezi Exercitiul 11.3, in care amdeterminat o regresie liniara intre variabilele ln(Y ) si X .

• Se poate intampla ca reziduurie εi sa prezinte o dependinta clara de xi (fapt ce poate fi observatdintr-o reprezentare εi vs. xi), asadar aplicabilitatea modelului de regresie liniara esteinoportuna. Faptul ca εi nu au toate o aceeasi dispersie σ2 se numeste heteroscedasticitate(proprietate opusa homoscedasticitatii).

• Daca reziduurile nu sunt normale (se observa din diagrama normplot(εi), eventual, se poateapela la un test de normalitate), modelul liniar de regresie nu este oportun.

• Exista posibilitatea ca datele observate (xi, yi)i=1,2, ...,n sa contina valori aberante (outliers).Este important de a intelege aceste valori si, in caz ca nu sunt semnificative, pot fi sterse dinsetul de date care este supus analizei de regresie.

• In multe cazuri, o singura variabila predictor (X) nu poate explica de una singura variabilaY , cazuri in care se apeleaza la o regresie multipla (se iau in considerare si alte variabilepredictor).

Page 219: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.5 Regresie liniara multipla 219

11.5 Regresie liniara multiplaRegresia multipla ia in considerare cel putin doi predictori pentru a determina valorile unei variabilede interes Y . In continuare, vom considera cazul unui numar de k predictori independenti, notati X1,X2, . . ., Xk.Pentru o variabila de interes Y se doreste a determina o relatie liniara (un hiperplan) de forma

Y = β0 +β1X1 +β2X2 + . . .+βkXk + ε, (11.5.21)

unde β j ( j = 1, 2, . . . , n) sunt niste constante reale, ε ∼N (0, σ) (eroarea). Pentru un j fixat,coeficientul β j reprezinta variatia in variabila Y rezultata in urma variatiei predictorului X j cu ounitate, in timp ce ceilalti predictori sunt mentinuti la valori fixate.Pentru a determina oportunitatea unei astfel de legaturi, se culeg date relativ la aceste variabile.Fie aceste observatii (x1i, x2i, . . . , xki, yi)i=1,2, ...,n, unde x ji denota observatia de rang i pentruvariabila X j, pentru fiecare j = 1, 2, . . . , k si i = 1, 2, . . . , n. Pentru un model bun de regresie estenecesar un numar suficient de mare de observatii. Volumul de observatii n ar trebui sa fie mai mare(uneori mult mai mare) decât numarul de parametri ce urmeaza a fi estimati (k+2 parametri, βi siσ ). Pe baza acestor date se poate aproxima suprafata de regresie liniara (daca exista, prin metodacelor mai mici patrate sau prin metoda verosimilitatii maxime) astfel:

Y = β0 + β1X1 + β2X2 + . . .+ βkXk, (11.5.22)

unde β j ( j = 1, 2, . . . , n) sunt estimatori pentru parametrii reali β j.Similar cu cazul regresiei liniare simple, vom avea:

• (Hiper)suprafatay = β0 + β1x1 + β2x2 + . . .+ βkxk

este aproximarea suprafetei de regresie, (en., fitting surface), este suprafata care se apropiecel mai mult (în sensul metodei celor mai mici patrate) de datele experimentale. Aceastasuprafata este o aproximare a suprafetei de regresie;

• valorile yi se numesc valori observate, iar valorile yi = β0 + β1x1i + β2x2i + . . .+ βkxki, i =1, 2, . . . , n, se numesc valori prezise (i = 1, 2, . . . , n);

• valorile εi = yi− yi se numesc reziduuri. Un reziduu masoara deviatia unui punct observat dela valoarea prezisa de estimarea hipersuprafetei de regresie. Se presupune ca aceste reziduurisunt independente intre ele si sunt repartizate N (0, σ);

• suma patratelor erorilor,

n

∑i=1

ε2i =

n

∑i=1

(yi− y)2 =n

∑i=1

(yi− β0− β1x1i− β2x2i− . . .− βkxki)2,

se noteaza de obicei prin SSE (sum of squared errors);

• eroarea medie patratica sau reziduala este MSE=SSE

n− k−1(mean squared error).

• statistica MSE= σ2 este un estimator pentru dispersia erorilor, σ2.• radacina patrata a MSE este σ si se numeste eroarea standard a regresiei;• se poate demonstra ca

SSE

σ2 = (n− k−1)σ2

σ2 ∼ χ2(n− k−1).

cu autorul acestei relatii se pot gasi intervale de încredere pentru valoarea reala a lui σ2.În formula (11.2.12), (n− k−1) reprezinta numarul gradelor de libertate ale variabilei SSE.

Page 220: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

220 Capitolul 11. Regresie

In Figura 11.5 sunt afisate rezultatele unui model de regresie multipla prin care se doreste a seexplica nota unui student la examenul de Algebra pe baza rezultatelor la trei teste anterioareexamenului. Asadar, aici predictorii sunt rezultatele la teste, T1, T2, si T3 si variabila prezisaeste nota la examen. Tabelul afiseaza estimarile parametrilor β0, β1, β2 si β3, deviatiile standardcorespunzatoare acestor estimatori, statisticile test pentru semnificatiile valorilor obtinute si valorilecritice Pv = sig pentru fiecare parametru. Inspectand valorile pentru sig, observam ca, la nivelulde semnificatie α = 0.05, valoarea afisata pentru β0 (constanta) nu este semnificativa, pe candcelelalte trei valori sunt semnificative.

Figura 11.5: Exemplu de rezultate pentru un model de regresie multipla cu 3 predictori.

11.5.1 Test statistic pentru semnificatia coeficientilor de regresie multipla, βi

Mai jos prezentam testul ce verifica daca βi (i este un indice fixat între 1 si k) este semnificativ, laun nivel de semnificatie α .Testam

(H0) : βi = 0 versus (H1) : βi 6= 0.

Consideram statistica

T =βi

sβi

∼ t(n− k−1),

Etapele testului sunt urmatoarele:• Calculam valoarea observata a statisticii T ,

T0 =βi

sβi

, unde sβi=

√σ2

∑ni=1(xki− xk)2 .

• Calculam cuantila de ordin 1− α

2 pentru repartitia t cu (n− k− 1) grade de libertate,t1− α

2 ;n−k−1;• Daca

|T0|< t1− α

2 ;n−k−1, atunci acceptam ipoteza (H0);

|T0| ≥ t1− α

2 ;n−2k−1, atunci acceptam ipoteza (H1);

11.6 Validitatea modelului de regresie liniara multiplaPentru a verifica daca modelul de regresie liniara multipla este unul valid, se pot folosi mai multemetode, printre care amintim cele mai uzuale:

Page 221: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.6 Validitatea modelului de regresie liniara multipla 221

• coeficientul de determinare R2. Acest coeficient se calculeaza folosind urmatoarea for-mula:

R2 = 1− SSE

SST, (11.6.23)

unde

SSE=n

∑i=1

(yi− β0− β1x1i− β2x2i− . . .− βkxki)2, SST=

n

∑i=1

(yi− y)2.

Aici, SST reprezinta suma totala a patratelor the total sum of squares. Valorile lui R2 suntîntre 0 si 1 si, pentru a avea un model destul de bun, ar fi necesar un coeficient de determinareaproape de 1.

• coeficientul ajustat de determinare, ad jR2. În cazul în care valorile prezise yi sunt obtinuteprin metoda celor mai mici patrate, statistica R2 este o functie crescatoare de numarul devariabile independente din model. Astfel, exista posibilitatea de a creste ilegitim valoarealui R2 prin adaugarea de noi variabile independente în analiza de regresie, fapt care nu duceneaparat la un model mai bun. Din acest motiv, au fost introdusi coeficienti suplimentari.Unul dintre acestia este coeficientul adj R2, care penalizeaza introducerea de noi variabileindependente în model.Acesta are formula

adjR2 = 1− MSE

MST= 1− (1−R2)

n−1n− k−1

= R2− (1−R2)k

n− k−1,

unde n este volumul datelor si k este numarul de variabile independente în modelul liniar(fara a considera constanta). Valoarea lui adj R2 este cel mult egala cu valoarea lui R2,atingând un maxim în cazul în care numarul de variabile explicative (independente) esteoptim. Interpretarea coeficientului adj R2 este diferita de cea a lui R2. Coeficientul ajustateste o masura a gradului de potrivire a numarului de variabile independente pentru model.

• grafic ce indica normalitatea reziduurilor εi : Acesta poate fi realizat in MATLAB cu ajuto-rul comenzii normplot. Acest grafic reprezinta probabilitatile de normalitate ale erorilorversus cuantilele de la N (0, 1). Daca modelul este valid, atunci valorile reprezentate infigura vor fi cat mai apropiate de prima bisectoare (e.g., vezi al doilea grafic din Figura11.10).

• yi vs. yi: Daca modelul este valid, atunci valorile reprezentate in figura vor fi cat maiapropiate de prima bisectoare (e.g., vezi primul grafic din Figura 11.10).

• εi vs. yi: Daca modelul este valid, atunci valorile reprezentate in figura nu ar avea niciotendinta clara (e.g., vezi ultimul grafic din Figura 11.10).

• test de utilitate a modelului: Se testeaza ipoteza

(H0) : β1 = β2 = . . .= βk = 0 vs. ipoteza (H1) : macar un coeficient β j 6= 0.

Acceptarea ipotezei alternative indica faptul ca modelul liniar multiplu este valid. Statisticatest este:

F =R2/k

(1−R2)/(n− k−1)=

MSR

MSE,

unde

MSR=SSR

k, SSR= SST−SSE.

Pentru o valoare observata F0 ≥ f1− α

2 ;k,n−k−1, respingem ipoteza nula.

Page 222: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

222 Capitolul 11. Regresie

11.7 Alte tipuri de regresie• Regresie polinomiala

O regresie polinomiala simpla de ordin k este de forma:

Y = β0 +β1X +β2X2 + . . .+βkXk + ε. (11.7.24)

Folosind urmatoarele notatii, putem reduce regresia polinomiala la una simpla multipla

X1 = X , X2 = X2, . . . , Xk = Xk.

Interpretarile coeficientilor β j in cazul unei regresii polinomiale nu se mai potrivesc cu celeale coeficientilor din cazul regresiei multiple, fiind greu de determinat.

• Regresie multipla cu interactiuniO regresie multiple cu interactiuni de ordin 2 este de forma:

Y = β0 +β1X1 +β2X2 +β3X1X2 +β4X21 +β5X2

2 + ε. (11.7.25)

Folosind urmatoarele notatii, putem reduce regresia anterioara la una simpla multipla

X1X2 = X3, X21 = X4, X2

2 = X5.

11.8 Regresie logisticaDe multe ori în Statistica este nevoie de a obtine clasificari ale datelor în functie de valorileobservate pentru o anumita variabila raspuns. Spre exemplu:

– Preziceri ale sanselor unei anumite tumori sa devina maligna, sau sa ramâna benigna;– Predictii pentru urmatorul presedinte, bazate pe diverse masuratori politice, sociale

sau istorice;– Clasificarea unor plante în functie de anumite caracteristici (e.g., înaltime, flori, frunze

etc)– Prezicerea noii tari în care o anumita multinationala va deschide business, bazata pe

factori politici, economici sau de particularitatile companiei.– Prezicerea sanselor ca un e-mail care soseste într-un cont de e-mail sa fie spam sau nu.

Astfel, variabila raspuns poate lua un numar discret de valori (categorii). O clasificareeste gruparea datelor într-un numar discret de categorii, prin atribuirea unei valoriraspuns corespunzatoare. O problema statistica de clasificare consta în prezicerea valoriivariabilei raspuns nominale pe baza unor observatii asupra unui set de variabile independente.

Pentru început, sa presupunem ca variabila raspuns Y poate lua doar doua posibile valori.Astfel, Y este o variabila de tip Bernoulli, ce poate lua, spre exemplu, valorile 0 si 1, cuP(Y = 1) = p si P(Y = 0) = q = 1− p.Spre exemplu, variabila Y reprezinta decizia ca o anumita masina sa aiba nevoie de revizie.Valoarea Y = 0 reprezinta NU si Y = 1 reprezinta DA. Astfel, p reprezinta probabilitatea camasina sa necesite revizie. In general, aceasta probabilitate depinde de mai multi factori,spre exemplu: X1 = numarul de km parcursi, X2 = vechimea masinii, X3 = timpul scursde la ultima revizie. Pentru simplitate, sa ne limitam doar la acesti trei factori. Insa, esteclar, probabilitatea p nu poate depinde liniar de acesti factori, si nici alta forma de regresiestudiata pana acum nu poate fi aplicata. Motivul este simplu: daca am presupune ca

p = β0 +β1X1 +β2X2 +β3X3 + ε,

Page 223: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.8 Regresie logistica 223

atunci exista posibilitatea ca membrul din dreapta sa nu apartina intervalului [0, 1]. Inconsecinta, este nevoie de o noua dependenta a probabilitatii p de acesti predictori. Unexemplu potrivit este cel dat de functia logit, i.e., f (x) = ea+bx

1+ea+bx . Vom considera urmatorulmodel de regresie:

p =eβ0+β1X1+β2X2+β3X3

1+ eβ0+β1X1+β2X2+β3X3, (11.8.26)

numit regresie logistica multipla. Aici, p = p(X) = P(Y = 1 |X) este probabilitatea conditio-nata ca variabila raspuns Y sa ia valoarea 1, stiind ca am observat datele X= (X1, X2, . . . , Xn),iar 1− p = 1− p(X) = P(Y = 0 |X) este probabilitatea ca variabila raspuns Y sa ia valoarea1, stiind ca am observat datele X.. În cazul unei singure variabile independente, X , regresiase va numi regresie logistica. Din relatia (11.8.26), obtinem:

p1− p

= eβ0+β1X1+β2X2+β3X3 .

Expresiap

1− pse numeste cota de realizare a evenimentului. De exemplu, daca p = 0.25,

atunci cota este de 1 : 3 ca masina sa aiba nevoie de reparatii (i.e., o sansa din patru infavoarea reparatiilor).Prin logaritmare, gasim ca

ln(

p1− p

)= β0 +β1X1 +β2X2 +β3X3. (11.8.27)

Astfel, modelul poate fi privit ca un model de regresie liniara multipla. Coeficientii β suntusor de interpretat. Spre exemplu, daca în relatia (11.8.27) variabila X1 creste cu o unitate,mentinând celelalte doua variabile fixe, atunci logaritmul cotei se va modifica cu cantitateaβ1. Daca facem acelasi lucru în relatia (11.8.26), atunci o crestere cu o unitate a variabilei X1,tinând celelalte variabile fixe, va conduce la o modificare cu eβ1 a cotei pentru care Y = 1.Pe baza observatiilor se pot determina estimatori pentru parametri, iar pe baza acestorestimatori se estimeaza probabilitatea p. O metoda de estimare a parametrilor βi este metodaverosimilitatii maxime, pe care o vom prezenta mai jos în cazul particular a trei variabileindependente. Cazul mai general, a k variabile independente, poate fi scris imediat.

Metoda verosimilitatii maxime

Dat fiind un esantion (x1i, x2i, x3i, yi), i = 1, 2, . . . , n, notam cu p(xi) = P(yi = 1 |xi) . Pre-supunem ca

ln(

p(xi)

1− p(xi)

)= β0 +β1x1i +β2x2i +β3x3i, i = 1, 2, . . . , n,

echivalent cu

p(xi) =eβ0+β1x1i+β2x2i+β3x3i

1+ eβ0+β1x1i+β2x2i+β3x3i, i = 1, 2, . . . , n.

Deoarece Y ∼B(1, p(x)), functia de probabilitate pentru Bernoulli este

f (y; p(x)) = p(x)y · [1− p(x)]1−y, unde y ∈ 0, 1.

Astfel, presupunând independenta datelor observate, functia de verosimilitate corespunza-toare esantionului va fi

L (β ) =n

∏i=1

p(x)yi · [1− p(x)]1−yi .

Page 224: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

224 Capitolul 11. Regresie

Estimatorii parametrilor β1, β2 β3 obtinuti prin metoda verosimilitatii maxime sunt valorilepentru care se obtine maximumul acestei functii. Maximizarea aceste functii este echivalentacu maximixarea logaritmului sau. Astfel, estimatorii β sunt alesi astfel încât maximizeazafunctia

l(β ) =n

∑i=1

[yi ln p(xi)+(1− yi) ln(1− p(xi))]

=n

∑i=1

[yi ln

(p(xi)

1− p(xi)

)+ ln(1− p(xi))

]=

n

∑i=1

[yi (β0 +β1x1i +β2x2i +β3x3i)− ln(1+ eβ0+β1x1i+β2x2i+β3x3i)

].

Functia −l(β ) se mai numeste si functia cost. Daca am cauta punctele critice ale acesteifunctii prin anularea derivatelor partiale în raport cu β0, β1, β2 si β3 nu vom gasi solutiiexplicite. De aceea, pentru a maximiza aceasta functie se folosesc metode iterative numerice(e.g., bazate pe descresterea gradientului). Astfel, determinarea estimatorilor pentru para-metrii de regresie logistica este o munca mult mai dificila decât în cazul regresiei liniaremultiple, ce necesita implementarea de metode numerice potrivite pe un computer. AplicatiaMATLAB poate face acest lucru prin apelarea functiei mnrfit. Folosind aceasta functie,putem determina chiar si intervale de încredere pentru parametrii de regresie.Dupa determinarea estimatorilor parametrilor de regresie β , urmatorul pas este prezicerearezultatului pentru o noua data de intrare x = (x1, x2, x3). Vom avea:

p(x) =eβ0+β1x1+β2x2+β3x3

1+ eβ0+β1x1+β2x2+β3x3

Pe baza acestei estimari, putem prezice clasa asociata astfel:

y(x) =

1, daca p(x)≥ 0.5;

0, daca p(x)< 0.5,

sau, în mod echivalent,

y(x) =

1, daca β0 + β1x1 + β2x2 + β3x3 ≥ 0;0, daca β0 + β1x1 + β2x2 + β3x3 < 0.

Totodata, putem prezice si cota, folosind relatia logit(p(x)) = β0 + β1x1 + β2x2 + β3x3.Multimea

x = (x1, x2, x3) ∈ R3; β0 + β1x1 + β2x2 + β3x3 = 0

se numeste frontiera de decizie între clasele 0 si 1.

Regresie logistica multinomiala

Presupunem ca variabila nominala Y poate lua un set de κ ≥ 3 valori distincte (sau valorile luiY pot fi grupate în κ clase disjuncte), 1, 2, . . . , κ . În mod similar, presupunând ca logaritmul

Page 225: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.8 Regresie logistica 225

cotelor urmeaza un model linear de regresie multipla, putem scrie

ln(

P(Y = 1 |X)

P(Y = κ |X)

)= β10 +β11X1 +β12X2 +β13X3 = β

T1 X ;

ln(

P(Y = 2 |X)

P(Y = κ |X)

)= β20 +β11X1 +β22X2 +β23X3 = β

T2 X ;

. . .

ln(

P(Y = κ−1 |X)

P(Y = κ |X)

)= βκ−1,0 +βκ−1,1X1 +βκ−1,2X2 +βκ−1,3X3 = β

Tκ−1X .

De aici, obtinem ca

P(Y = 1 |X) =eβ10+β11X1+β12X2+β13X3

1+κ−1

∑j=1

eβ j0+β j1X1+β j2X2+β j3X3

=eβ T

1 X

1+κ−1

∑j=1

eβ Tj X

;

P(Y = 2 |X) =eβ20+β21X1+β22X2+β23X3

1+κ−1

∑j=1

eβ j0+β j1X1+β j2X2+β j3X3

=eβ T

2 X

1+κ−1

∑j=1

eβ Tj X

;

. . .

P(Y = κ−1 |X) =eβ0+β11X1+β12X2+β13X3

1+κ−1

∑j=1

eβ j0+β j1X1+β j2X2+β j3X3

=eβ T

κ−1X

1+κ−1

∑j=1

eβ Tj X

;

P(Y = κ |X) =1

1+κ−1

∑j=1

eβ j0+β j1X1+β j2X2+β j3X3

=1

1+κ−1

∑j=1

eβ Tj X

.

Functia pentru care f (z) j =ez j

1+∑κ−1k=1 ezk

, j = 1, 2, . . . , κ−1 se numeste functia softmax.

Este considerata a fi generalizarea functiei logit.Interpretarea coeficientilor este similara ca în cazul binomial. Estimarile coeficientilor sepot obtine prin metoda verosimilitatii maxime, folosind metode numerice pe un computer.Dupa determinarea estimatorilor parametrilor de regresie β , urmatorul pas este prezicerearezultatului pentru o noua data de intrare x = (x1, x2, x3). Vom avea:

p1(x) =eβ1

TX

1+κ−1

∑j=1

eβ jT

X

;

p2(x) =eβ2

TX

1+κ−1

∑j=1

eβ jT

X

;

. . . . . .

pκ−1(x) =eβ T

κ−1X

1+κ−1

∑j=1

eβ jT

X

;

pκ(x) =1

1+κ−1

∑j=1

eβ jT

X

.

Page 226: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

226 Capitolul 11. Regresie

Predictia claselor se poate face astfel:

Alege clasa j daca j = argmax j=1,κ p j(x).

În cuvinte, daca pentru datele observate x gasim o predictie p j(x) maxima, atunci variabilaraspuns Y va fi clasificata în clasa j.

11.9 Functii MATLAB specifice regresieiFie X si Y doi vectori de acelasi tip. Urmatoarele functii din MATLAB sunt utile pentru analizacorelatiei si regresiei:

• scatter(X,Y) reprezinta grafic valorile lui Y vs. valorile lui X;• b = regress(Y,X) afiseaza estimarea coeficientilor pentru care Y = bX . Aici, X este o

matrice n× k si Y un vector coloana n×1. Coloanele vectorului X corespund observatiilor(i.e., variabilelor independente).Daca X este un vector coloana de aceeasi dimensiune cu Y, atunci b este doar un scalar.Daca X este matrice, atunci putem folosi aceasta comanda pentru a estima coeficientiide regresie liniara multipla. Spre exemplu, sa presupunem ca se doreste estimareacoeficientilor de regresie liniara simpla, i.e., β0 si β1 pentru care y = β0 + β1 x, undepentru fiecare dintre x si y avem n observatii. În acest caz, k = 2. Fie X, respectiv, Yvectorii ce contin aceste observatii. Comanda MATLAB care estimeaza cei doi coeficienti este

B = regress(Y, [ones(n,1) X])

Comanda furnizeaza aproximari pentru parametrii β0 si β1 ce fac urmatoarea aproximare câtmai buna:

y1y2...yn

≈ β0

11...1

+ β1

x1x2...xn

.

• p = polyfit(X,Y,n) gaseste coeficientii unui polinom p(x) de grad n ale carui valori p(xi)se apropie cel mai mult de datele observate yi, în sensul celor mai mici patrate. MATLAB

va afisa în acest caz un vector linie de lungime n+1, continând coeficientii polinomiali înordinea descrescatoare a puterilor. Spre exemplu, daca

p(x) = βnxn +βn−1xn−1 + . . . +β2x2 +β1x+β0,

atunci MATLAB va afisaβn, βn−1, . . . , β2, β1, β0.

• Y = polyval(p,X) afiseaza valorile unui polinom p(x) pentru valorile din vectorul X .Polinomul p(x) este dat prin coeficientii sai, ordonati în ordine descrescatoare a puterilor.De exemplu, daca p(x) = 3x2 +2x+4 si dorim sa evaluam acest polinom pentru trei valori,−3, 1 si 5, atunci scriem în MATLAB:

p = [3 2 4]; polyval(p,[-3 1 5])

obtinând rezultatul:ans = 37 5 69

• Functia MATLAB

Page 227: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.9 Functii MATLAB specifice regresiei 227

LM = fitlm(X,Y, modelspec)

determina un model de regresie liniara (simpla sau multipla), unde vectorul coloana Y

este variabila explicata (raspuns) si coloanele din matricea X sunt variabilele explicative(predictori, stimuli). LM este modelul de regresie obtinut. Optiunea modelspec continespecificatiile modelului. Spre exemplu, poate contine o formula pentru modelul de regresie.Daca avem doua variabile independente, x1” si x2” si dorim un model cu interactiuni, putemscrie

LM = fitlm(X,Y, `x1 + x2 + x1*x2'),

iar daca nu dorim termen liber (intercept), atunci vom scrie

LM = fitlm(X,Y, `x1 + x2 + x1*x2 - 1').

Daca nu apare, atunci functia va determina un model liniar.• Functia coefCI(LM, α) determina intervale de încredere pentru parametrii din modelul LM

la nivelul de semnificatie α .• Functia [p,F,d] = coefTest(LM) testeaza semnificatia parametrilor modelului LM,

afisând cate un Pv pentru fiecare dintre ei, si utilitatea modelului, prin statistica F. Deasemenea, d este numarul gradelor de libertate.

• Pentru regresia logistica multipla folosim comanda MATLAB mnrfit în forma

[B,dev,stats] = mnrfit(X,Y,Name,Value)

unde:– variabilele de intrare sunt: X este matricea ce contine valorile variabilelor stimul

(predictorii sunt coloanele matricei), Y este variabila raspuns, iar Name,Value suntperechi de argumente suplimentare. Folosind aceste argumente, putem obtine un modelnominal, ordinal, ierarhic, sau chiar schimba functia logit.

– variabilele de iesire sunt: B − coeficientii de regresie (începând cu termenul liber),dev − suma tuturor deviatiilor reziduurilor, iar stats contine diverse informatii, cumar fi:

* se − estimarile erorilor standard pentru coeficientii de regresie B,* dfe − gradele de libertate,* p − p-value,* coeffcorr − matricea de covarianta estimata pentru B.

Page 228: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

228 Capitolul 11. Regresie

11.10 Exercitii rezolvateExercitiu 11.1 Dorim sa determinam daca exista vreo corelatie între notele la examenul deProbabilitati si cele de la Statistica obtinute de studentii unui an de studiu. În acest sens, au fostobservate notele obtinute de 10 studenti la aceste doua discipline si au fost trecute în Tabelul 11.1de mai jos. Se cere:(a) Stabiliti daca exista o legatura puternica între aceste note (r si r2);(b) Determinati dreapta de regresie a notelor de la Statistica în raport cu notele la Probabilitati sidesenati-o în acelasi sistem de axe ca si notele obtinute (scatter plot). Determinati semnificatiapantei dreptei de regresie.(c) Testati daca exista sau nu vreo corelatie între notele de la Statistica si Probabilitati.

Student A B C D E F G H I JProbabilitati 82 36 72 58 70 48 44 94 60 40

Statistica 84 42 50 64 68 54 46 80 60 32

Tabela 11.1: Notele la Statistica si Probabilitati

R: Metoda I:(a) Calculam r cu formula (10.2.1). Functia Matlab pentru coeficientul Pearson este corrcoef. Încodul MATLAB de mai jos l-am calculat pe r folosind aceasta functie, dar si în doua alte modalitati,folosind formula (10.2.2) sau scriind desfasurat expresia lui r.(b) Coeficientii de regresie se pot obtine în 3 moduri, fie folosind functia MATLAB polyfit, carerealizeaza fitarea datelor cu un polinom, în cazul liniar fiind un polinom de forma S(P) = β0 +β1 P.O alta varianta de calcul a coeficientilor β0 si β1 este simpla implementare în MATLAB a formulelorpentru acestia. A treia varianta este folosirea functiei regress din MATLAB.Reprezentarea grafica a datelor poate fi realizata folosind ori functia plot, ori functia "scatter",ambele functii predefinite din MATLAB. Graficul este cel din Figura 11.6.

P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32];

mp = mean(P); ms = mean(S);

%%%~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~

CC = corrcoef(P,S); r = CC(1,2)

%%%~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~

% C = cov(P,S)/(std(P)*std(S)); r = C(1,2);

% r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2));

%%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~

B = polyfit(P,S,1)

%%%~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~

% b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp;

% B = regress(S',[P;ones(10,1)']');

%%%~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~

x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-')

% scatter(P,S) % varianta pentru scatter plot

%%%~~~~~~~~~~~~~~~~~~~ Testul pentru ρ = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2));quant = tinv(1-alpha/2,n-2);

if (abs(T0) < quant)

disp('P si S nu sunt corelate')

else

Page 229: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.10 Exercitii rezolvate 229

disp('P si S sunt corelate')

end

Rulând codul de mai sus, obtinem:r = B = P si S sunt corelate

0.8247 0.7553 10.3816

Metoda a II - a:

Altfel, putem utiliza functia specifica pentru regresie, fitlm astfel

LM = filtlm(P,S)

Vom obtine:

Linear regression model:

y ~ 1 + x1

Estimated Coefficients:

Estimate SE tStat pValue

________ ______ _______ _________

(Intercept) 10.382 11.543 0.89936 0.39472

x1 0.75527 0.1831 4.1249 0.0033218

Number of observations: 10, Error degrees of freedom: 8

Root Mean Squared Error: 10.5

R-squared: 0.68, Adjusted R-Squared 0.64

F-statistic vs. constant model: 17, p-value = 0.00332

Urmatoarea comanda testeaza utilitatea modeluluide regresie (Pv si statistica test F pentru ipotezanula (H0) : β1 = 0):

[p, F, d] = coefTest(LM)

Se obtine:

p = F = d =

0.0033 17.0146 1

Figura 11.6: Notele si dreapta de regresie

Page 230: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

230 Capitolul 11. Regresie

Deci, concluzionam ca β1 este semnificativ la nivelul de semnificatie 0.05. Intervale deîncredere pentru parametri:

CI = coefCI(LM)

Gasim intervalele de încredere (pentru β0 si β1), la nivelul de semnificatie 0.05:

CI =

-16.2372 37.0004 (pentru β0)0.3330 1.1775 (pentru β1)

Exercitiu 11.2 Prognoza spune ca temperatura într-o anumita zona muntoasa descreste cucca. 6C la fiecare 1km câstigat în înaltime. Pentru o verificare, au fost masurate simultantemperaturile în 10 localitati diferite din acea zona, acestea fiind înregistrate în Tabelul 11.2.

hi 500 1000 1500 2000 2500 3000 3500 4000 4500 5000Ti 15 14 11 6 −1 2 0 −4 −8 −14

Tabela 11.2: Tabel cu temperaturi (Ti) la diverse altitudini (hi).Daca temperatura se presupune a fi o functie liniara (regresie liniara) de altitudine, se cere:(i) Sa se estimeze parametrii β0 si β1;(ii) Sa se testeze (α = 0.05) daca prognoza din enunt este adevarata (i.e., β1 =−0.006);(iii) Sa se gaseasca un interval de încredere pentru panta dreptei de regresie, β1;(iv) Cât de buna este aproximarea temperaturii cu o functie liniara de altitudine?(v) Estimati temperatura la altitudinea h = 2544. Gasiti, de asemenea, un interval de încrederepentru aceasta temperatura.

Figura 11.7: Diagrama de temperaturi în functie de altitudine, si dreapta de regresie.

R: Metoda I:(i) Estimam parametrii necunoscuti folosind formulele (11.2.8) sau folosind functia MATLAB

polyfit (vezi codul de mai jos).(ii) Pentru testarea ipotezei nule (H0) : β1 =−0.006 utilizam testul din Sectiunea 11.2.1.(iii) Un interval de încredere pentru β1 se poate calcula folosind formula (11.2.15).(iv) Pentru a decide cât de buna este aproximarea, calculam coeficientul de determinare, R2. Acestaeste R2 = 94.83, ceea ce înseamna ca temperatura reala este foarte aproape de cea prognozata.

Page 231: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.10 Exercitii rezolvate 231

(v) Utilizam formulele (11.3.18) si (11.3.19), pentru xp = 2544. (vezi rezultatele codului de maijos)Codul MATLAB este urmatorul:

h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000];

T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T);

%%%Calculez coeficientul de corelatie empiric si coeficientul de determinare

CC = corrcoef(h,T); r = CC(1,2)

R2 = r^2

%%%~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~

B = polyfit(h,T,1)

%%%~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~

% B = regress(T',[h;ones(10,1)']');

% b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh;

%%%~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~

x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-')

%%% Testul pentru panta dreptei de regresie, (H0) : β1 =−0.006alpha = 0.05; n = 10;

sigmahat = sqrt(sum((T-B(2)-B(1)*h).^2)/(n-2));sxx = sum((h-mean(h)).^2);

T0 = (B(1)+0.006)*sqrt(sxx)/sigmahat; quant = tinv(1-alpha/2,n-2);

if (abs(T0) < quant)

disp('ipoteza (H0) : β1 =−0.006 se accepta')

else

disp('ipoteza (H0) : β1 =−0.006 se respinge')

end

%%%Interval de incredere pentru β1CI = [B(1) - quant*sigmahat/sqrt(sxx), B(1) + quant*sigmahat/sqrt(sxx)]

hp = 2544; Tp = B(2) + B(1)*hp

CI_T = [Tp - quant*sigmahat*sqrt(1 + 1/n + (hp-mh)^2/sxx), ...

Tp + quant*sigmahat*sqrt(1 + 1/n + (hp-mh)^2/sxx)]

Rulând codul de mai sus, obtinem:r = R2 = B = CI =

-0.9738 0.9483 [-0.0061, 18.9333] [-0.0073, -0.005]

Tp = CI_T =

3.3610 [-2.1922, 8.9142]

ipoteza (H0) : β1 =−0.006 se accepta

Metoda a II- a:

Altfel, folosind comanda LM = fitlm(h, T), obtinem modelul

Linear regression model:

y ~ 1 + x1

Page 232: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

232 Capitolul 11. Regresie

Estimated Coefficients:

Estimate SE tStat pValue

__________ __________ _______ __________

(Intercept) 18.933 1.5671 12.082 2.0353e-06

x1 -0.0061212 0.00050511 -12.119 1.9889e-06

Number of observations: 10, Error degrees of freedom: 8

Root Mean Squared Error: 2.29

R-squared: 0.948, Adjusted R-Squared 0.942

F-statistic vs. constant model: 147, p-value = 1.99e-06

Urmatoarea comanda testeaza utilitatea modelului de regresie (Pv si statistica test F):

[p, F, d] = coefTest(LM)

Se obtine (p≈ 0, deci modelul este util):

p = F = d =

1.9889e-06 146.8615 1

În fapt, acest test este pentru panta dreptei de regresie si deducem ca β1 6= 0.Exercitiu 11.3 Fie sirul de date:

x = 0.3 0.8 1.2 1.6 2.1 2.4 2.7

y = 3.52 4.53 5.58 6.62 8.27 10.18 11.80

Sa se studieze existenta unei dependente între x si y de forma y = aebx.

R: Calculam lny. Obtinem:

ln y = 1.2585 1.5107 1.7192 1.8901 2.1126 2.3204 2.4681

Calculam coeficientul de corelatie între x si lny si gasim ca r = 0.9988≈ 1, de unde banuim ca eposibil sa avem o regresie liniara între variabilele x si lny. Estimam coeficientii de regresie ai lui lnyfata de x si gasim: β0 = 1.1074, β1 = 0.4980. Aceasta poate fi realizata în MATLAB prin comanda

regress(log(y)',[ones(7,1), x']) sau polyfit(x, log(y), 1)

Asadar, lny = 1.1074+0.4980x, de unde y = e1.1074 e0.4980x ≈ 3ex/2. În Figura 11.8 am reprezentatgrafic datele observate si aproximarile lor.

Page 233: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.10 Exercitii rezolvate 233

Figura 11.8: Aproximarea datelor din Exercitiul 11.3

Exercitiu 11.4 Sa se determine daca exista vreo legatura liniara (multipla) intre nota obtinuta lateza de Matematica la Bacalaureat B si predictorii M = valoarea medie a mediilor la disciplinaMatematica obtinute in anii de liceu si T = media testelor de verificare sustinute ("simulari") inaintede Bacalaureat. In acest sens, consideram o selectie aleatoare de 7 elevi dintr-un anumit oras careau sustinut Bacalaureatul la Matematica. Valorile corespunzatoare pentru M, T, B sunt:

E1 E2 E3 E4 E5 E6 E7

M 10 9.12 8.25 7.85 6.13 6.73 7.88T 9.75 9.00 8.50 6.95 7.15 6.00 7.75B 9.90 8.63 8.31 7.19 6.83 6.40 7.67

Cerinte:(1) Determinati o estimare a suprafetei (planului) de regresie liniara multipla, B = β0+β1M+β2T .(2) Reprezentati in acelasi sistem de coordonate valorile observate si planul obtinut anterior.(3) Reprezentati grafic (a) valorile prezise vs. valorile observate, (b) probabilitatile de normalitatea reziduurilor si (c) reziduurile vs. valorile prezise la Bac. Comentati graficele obtinute.(4) Testati daca parametrii β1 si β2 sunt semnificativi la nivelul de semnificatie α = 0.1.(5) Comentati utilitatea modelului de regresie, calculand R2, ad jR2 sau folosind un test de utilitate.(6) Estimati nota la teza de Matematica la Bacalaureat pentru un elev ce are Mp = 8.50 si Tp = 7.65.R: Metoda I:(1) Pentru a estima coeficientii de regresie vom folosi comanda regress din MATLAB. Maiintai, punem predictorii M si T intr-o matrice X , care mai contine si o coloana cu elementul 1(coeficientul de regresii pentru aceasta coloana va fi β0).

n = 7; k = 2; alpha = 0.1;

B = [9.90 8.63 8.31 7.19 6.83 6.40 7.67];

T = [9.75 9.00 8.50 6.95 7.15 6.00 7.75];

M = [10 9.12 8.25 7.85 6.13 6.73 7.88]; X = [ones(1,7); M; T]';

b = regress(B',X); % coeficientii de regresie

Page 234: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

234 Capitolul 11. Regresie

Obtinem estimarea suprafetei (planului) de regresie:

B = 0.4323+0.3371M+0.5996T.

(2) Folosind comanda plot3, reprezentam datele observate (vezi Figura 11.9). Comanda mesheste folosita pentru a reprezenta planul de regresie pentru un grid creat de comanda meshgrid.

figure(1); plot3(M',T',B','r*'); hold on % reprezinta datele observate

x1 = linspace(6,10,50); x2 = linspace(6,10,50);

[m,t] = meshgrid(x1,x2); % creaza un grid

bac = b(1)+b(2)*m+b(3)*t; mesh(m',t',bac')% valorile lui B pentru grid

Bpred = b(1)+b(2)*M+b(3)*T; grid on % valorile prezise pt. B in Mi si Ti

xlabel('M'); ylabel('T'); zlabel('B');

Figura 11.9: Suprafata de regresie.

(3) Reziduurile sunt εi = Bi− Bi.

figure(2); z = 5:.1:10;

plot(B,Bpred,'*r', z,z,'-b') % valori prezise vs. valori observate

figure(3); rez = B-Bpred;

normplot(rez) % normalitatea reziduurilor

figure(4);

plot(Bpred,rez,'*') % reziduuri vs. yi

Se observa ca valorile reprezentate in Figura (a) urmeaza prima bisectoare, deci valorile prezisesunt apropiate de cele observate la Bac. In Figura (b), reziduurile vor fi normale daca punctele ce lereprezinta sunt apropiate de prima bisectoare. In Figura (c) se observa ca nu exista nicio tendinta innorul de date reprezentat, fapt care sugereaza ca reziduurile sunt valori aleatoare.(4) Codul de mai jos testeaza, pe rand, semnificatia coeficientului β1 si a coeficientului β2. Intestare, se foloseste statistica T . Se obtine ca ambii coeficienti sunt semnificativi la nivelul desemnificatie α = 0.1.

Page 235: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.10 Exercitii rezolvate 235

% ~~~~~~~~~~~~~~~~~~ Test for b1 ~~~~~~~~~~~~~~~~~~~~

SSE = sum((B-Bpred).^2); sig = sqrt(SSE/(n-k-1));

smm = sqrt(sum((M-mean(M)).^2));

T10 = b(2)/(sig/smm); Tc = tinv(1-alpha/2,n-k-1);

if (abs(T10) < Tc);

disp('b(2) nesemnificativ')

else

disp('b(2) semnificativ')

end

% ~~~~~~~~~~~~~~~~~~ Test for b2 ~~~~~~~~~~~~~~~~~~~~

stt = sqrt(sum((T-mean(T)).^2)); T20 = b(3)/(sig/stt);

if (abs(T20) < Tc);

disp('b(3) nesemnificativ')

else

disp('b(3) semnificativ')

end

(5) Coeficientul R2 ne va sugera cat de bun este modelul iar coeficientul ad jR2 ne va da o ideedespre numarul optim de variabile predictor. Obtinem: R2 = 0.9818 si ad jR2 = 0.9727, adica unmodel destul de bun, cu un numar optim de variabile predictor.

SST = sum((B-mean(B)).^2);

R2 = 1 - SSE/SST; adjR2 = 1- SSE*(n-1)/(SST*(n-k-1));

% ~~~~~~~~~~ Test de utilitate a modelului ~~~~~~~~~~

F0 = (R2/k)/((1-R2)/(n-k-1)); Fc = finv(1-alpha/2, k, n-k-1);

if (F0 < Fc);

disp('modelul nu este util')

else

disp('model util')

end

Testul de utilitate afiseaza model util, in sensul ca macar unul dinte coeficientii β1 si β2 estenenul.(6) Predictia dorita este Bp = 7.8848, obtinuta in urma liniei de cod de mai jos:

Mp = 8.50; Tp = 7.65; Bp = b(1)+b(2)*Mp+b(3)*Tp;

Page 236: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

236 Capitolul 11. Regresie

Figura 11.10: Grafice pentru validarea modelului de regresie liniara multipla.

Metoda a II- a:

Comanda LM = fitlm([M',T'],B') va produce:

LM =

Linear regression model:

y ~ 1 + x1 + x2

Estimated Coefficients:

Estimate SE tStat pValue

________ _______ _______ ________

(Intercept) 0.43231 0.51105 0.84592 0.44523

x1 0.3371 0.12981 2.5969 0.060245

x2 0.59963 0.13223 4.5349 0.010538

Number of observations: 7, Error degrees of freedom: 4

Root Mean Squared Error: 0.198

R-squared: 0.982, Adjusted R-Squared 0.973

F-statistic vs. constant model: 108, p-value = 0.000331

Urmatoarea comanda testeaza semnificatia parametrului lui T (aceasta poate fi dedusa si din casetaanterioara de rezultate):

[p, F, d] = coefTest(LM, [0 1 0])

Se obtine:

Page 237: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.10 Exercitii rezolvate 237

p = F = d =

0.0105 20.5652 1

Deoarece 0.0105 < 0.1, deducem ca β2 este semnificativ. Similar se poate proceda pentru coefi-cientul lui M.Pentru a stoca coeficientii polinomului de regresie în vectorul b, putem scrie

b = LM.Coefficients.Estimate

Exercitiu 11.5 Tabelul de mai jos contine o selectie de 9 calificative obtinute de doi elevi de clasaI la aceleasi teste scolare.

Test A B C D E F G H Ielev 1 B FB FB B B FB S I FBelev 2 S I B FB FB B B S B

(FB = "foarte bine", B = "bine", S = "suficient", I = "insuficient".)Dorim sa stabilim o posibila legatura între cele doua seturi de calificative. Calculati un coeficientde corelatie potrivit si semnificatia acestuia. Comentati rezultatul obtinut.R: Metoda I:Variabilele pentru care avem valorile din tabel sunt de tip calitativ. Pentru a determina coeficientulde corelatie Spearman, determinam mai intai rangurile observatiilor in fiecare set. Acestea sunt(ordonam crescator incepand cu I si terminand cu FB. Pentru valori egale, rangul atribuit este mediarangurilor valorilor egale):

Test A B C D E F G H Ielev 1 4 7.5 7.5 4 4 7.5 2 1 7.5elev 2 2.5 1 5.5 8.5 8.5 5.5 5.5 2.5 5.5

n = 9; alpha = 0.05;

rang1 = [4 7.5 7.5 4 4 7.5 2 1 7.5];

rang2 = [2.5 1 5.5 8.5 8.5 5.5 5.5 2.5 5.5];

R = corrcoef(rang1,rang2); rS = R(1,2); % rS este coef. Spearman

T0 = rS*sqrt((n-2)/(1-rS^2)); Tc = tinv(1-alpha/2,n-2);

if (abs(T0) < Tc)

disp('coeficientul de corelatie nu este semnificativ') % rhoS = 0

else

disp('coeficientul de corelatie este semnificativ') % rhoS <> 0

end

Rezultatul este:

rS = -0.0421 coeficientul de corelatie nu este semnificativ

Metoda a II - a:

Utilizam functia corr astfel:

Page 238: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

238 Capitolul 11. Regresie

[r, Pv] = corr(rang1',rang2','type', 'spearman')

Obtinem

r = Pv =

-0.0421 0.9476

Exercitiu 11.6 Conform fisei disciplinei Statistica Aplicata, numarul de ore pe care un studenttrebuie sa le aloce pentru studiu individual la aceasta disciplina este de 90. Tabelul urmator contineinformatii despre numarul de ore alocate pentru studiu individual si rezultatul la examen pentru unnumar de 30 de cursanti.

ore Rezultat ore Rezultat ore Rezultat ore Rezultat ore Rezultat45 Pass 53 Pass 31 Fail 64 Pass 51 Pass25 Fail 78 Pass 70 Pass 60 Pass 11 Fail61 Pass 13 Fail 52 Fail 12 Fail 82 Pass85 Pass 23 Fail 16 Fail 48 Fail 100 Pass43 Pass 2 Fail 14 Fail 68 Pass 8 Fail5 Fail 53 Pass 22 Fail 35 Fail 10 Fail

Folosind un model de regresie logistica, estimati sansele ca un cursant care a petrecut 50 de orestudiind la aceasta disciplina sa treaca examenul.R: În codul MATLAB de mai jos, h reprezinta numarul de ore de studiu, p este probabilitateacorespunzatoare de a trece examenul. Rulând codul, obtinem Figura 11.11 si predictiile: p(50) =0.7474 pentru probabilitatea si 2.9592 pentru cota ca un student ce aloca 50 de ore de studiu laaceasta materie sa treaca examenul. Cu alte cuvinte, sansele de reusita sunt de aproximativ 75%, cuo cota de aproximativ 4 : 1 pentru reusita (i.e., 3 sanse din 4).Estimatiile punctuale si intervalele de încredere pentru cei doi parametri sunt

β0 = 9.1427, β1 =−0.2046,

(β0, β0) = (0.2395, 18.0459), (β1, β1) = (−0.0181, −0.3910).

P-values pentru estimatori sunt Pv(β0) = 0.0441, Pv(β1) = 0.0316, de unde deducem ca ambiiparametri sunt semnificativi la nivelul de semnificatie α = 0.05.

h = [45 53 31 64 51 25 78 70 60 11 61 13 52 12 82 ...

85 23 16 48 100 43 2 14 68 8 5 53 22 35 10]';

p = [1 1 0 1 1 0 1 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 0 0 1 0 0 0]';

C = categorical(p);

[B,dev,stats] = mnrfit(h, C);

B % regression coefficients

x = [0:0.1:105]'; xPred = 1./(1+exp(B(2)*x+B(1)));

plot(h,p,'b*', x, xPred,'r-','Linewidth',2) % Plot the regression curve

xp = 50; Pp = 1./(1+exp(B(2)*xp+B(1))), Cota = Pp/(1-Pp)

Page 239: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.10 Exercitii rezolvate 239

% intervale de incredere

left = B - 1.96*stats.se, right = B + 1.96*stats.se

% P-values

Pv = stats.p

Figura 11.11: Grafic modelul de regresie logisticaExercitiu 11.7 Datele de mai jos reprezinta rezultatele la examen (p = 1 înseamna promovat sip = 0 înseamna picat) pentru un grup de 35 de studenti, în functie de numarul de ore de studiuindividual, h, si numarul de ore pe care studentul l-a petrecut la clasa, c. Dorim sa clasificamrezultatul la examen în functie de h si c.

h 45 53 31 64 51 25 78 70 60 11 61 13 52 12 82 85 23 16c 23 31 20 24 30 19 20 12 33 37 26 5 20 31 56 32 31 25p 1 1 0 1 1 0 1 1 1 0 1 0 0 0 1 1 0 1

h 48 86 43 2 14 68 8 5 53 22 35 10 45 53 31 64 51c 30 15 24 3 13 41 17 30 34 25 27 13 37 26 5 20 56p 0 1 1 0 0 1 0 0 1 0 0 0 1 1 0 1 1

R:

h = [45 53 31 64 51 25 78 70 60 11 61 13 52 12 82 ...

85 23 16 48 86 43 2 14 68 8 5 53 22 35 10 45 53 31 64 51]';

c = [23 31 20 24 30 19 20 12 33 37 26 5 20 31 56 ...

32 31 25 30 15 24 3 13 41 17 30 34 25 27 13 37 26 5 20 56]';

H = [h, c];

p = [1 1 0 1 1 0 1 1 1 0 1 0 0 0 1 1 0 1 0 1 1 0 0 1 0 0 1 0 0 0 1 1 0 1 1]';

scatter(h,c)

C = categorical(p);

[B,dev,stats] = mnrfit(H, C);

Page 240: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

240 Capitolul 11. Regresie

B

x = 0:1:105;

figure(1)

scatter(h,c,'*','Linewidth',3)

xlabel('ore de lucru individual (h)'); ylabel('ore la clasa (c)')

figure(2);

[u,v] = meshgrid(0:1:90,0:1:60)

hold on

plot(x, - B(1)/B(3) - B(2)/B(3)*x, 'g-','Linewidth',3)

axis([0 90 0 60])

X = [h c p];

b = find(X(:,3)>0.5); r = find(X(:,3)<0.5);

Y = X(b,1:2); Z = X(r,1:2);

scatter(Y(:,1),Y(:,2),'*b','Linewidth',4);

scatter(Z(:,1),Z(:,2),'*r','Linewidth',4);

hold off

figure(3)

[x,y]= meshgrid(0:1:90,0:1:60);

plot3(h,c,p,'*r','Linewidth',4); hold on

E = 1./(1+exp(B(1) + B(2)*x+B(3)*y))

xlabel('ore de lucru individual (h)'); ylabel('ore de clasa (c)')

zlabel('probabilitatea (p)')

mesh(x,y,E); grid on

Figura 11.12: Grafic pentru modelul de clasificare folosind regresia logistica

Page 241: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.11 Exercitii propuse 241

Figura 11.13: Grafic 3d pentru modelul de regresie logistica

11.11 Exercitii propuseExercitiu 11.1 Pentru datele din tabelul alaturat,

(a) testati daca ρ = 0 (coeficientul de corelatie teoretic).x −3 −2 −1 0 1 2y 9 4 1 0 1 4

(b) Este faptul ca x si y sunt legate prin relatia y = x2 în contradictie cu rezultatul de la punctul (a)(datele sunt perfect necorelate)?(c) Calculati coeficientul de corelatie Spearman si determinati semnificatia sa.Exercitiu 11.2 Suntem interesati în determinarea unei legaturi între înaltime si marimea la pantof.Datele din tabelul de mai jos reprezinta observatii asupra înaltimilor (H) si a marimilor la pantof(M) pentru 10 barbati, alesi la întâmplare.

H 1.75 1.70 1.80 1.65 1.83 1.73 1.86 1.65 1.68 1.82M 43 41.5 44 40.5 44.5 41 44.5 39.5 40 43.5

(a) Calculati coeficientul de corelatie Pearson dintre înaltime si marimea la pantof. Ce procent dinvalorile lui M sunt determinate de valorile lui H(b) Determinati o aproximare pentru dreapta de regresie a lui M fata de H.(c) Obtineti o predictie a marimii la pantof pentru un barbat cu înaltimea 1.78.

(d) La nivelul de semnificatie α = 0.05, testati ipoteza ca panta dreptei de regresie este34

.

Exercitiu 11.3 Fie sirul de date:

u = 1.0 1.5 2.0 2.5 3.0 3.5 4.0

v = 1.5 4.5 7.5 12.5 17.5 24.5 32.5

Sa se studieze existenta unei dependente între u si v de forma v = au2 +b.Exercitiu 11.4 În tabelul alaturat, se dau câte 5 valori pentru doua variabile x si y, unde y estevariabila independenta. Determinati o dreapta de regresie potrivita pentru a calcula(i) valoarea lui x când y = 2.5;(ii) valoarea lui y când x = 50;(iii) Putem prezice valoarea lui y pentru x = 75?

x 46 55 41 58 53y 1.7 2.1 1.5 2.9 1.9

Page 242: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

242 Capitolul 11. Regresie

Exercitiu 11.5 Se masoara viteza unei masini, v, în primele 10 secunde dupa aceasta a început saaccelereze. Aceste date sunt înregistrate în Tabelul 11.3.(a) Desenati diagrama scatter plot;(b) Determinati dreapta de regresie a lui v fata de t;(c) Calculati coeficientul de corelatie empirica si comentati asupra validitatii aproximarii datelorcu dreapta de regresie.

t 0 1 2 3 4 5 6 7 8 9 10v 0 3.1 6.9 9.9 12.7 16.1 19.8 21.2 22.8 24.3 25.9

Tabela 11.3: Viteza unei masini în primele 10 secunde dupa plecarea de pe loc

Exercitiu 11.6 Opinia generala este ca rata maxima (R) a batailor inimii unei persoane se poatedetermina dupa formula R = β0 +β1V , unde V este vârsta persoanei, calculata în ani. Cercetatoriicardiologi afirma ca acesti coeficienti ar fi: β0 = 220 si β1 =−1. Pentru o verificare empirica aacestei afirmatii, sunt alese la întâmplare 15 persoane de diverse vârste, care sunt supuse unui testpentru determinarea ratei maxime ale batailor inimii. Aceste rezultate sunt contabilizate în Tabelul11.4.(a) Calculati coeficientul de corelatie Pearson dintre vârsta si rata maxima a batailor inimii. Careeste semnificatia acestei valori?(b) Determinati dreapta de regresie a lui R fata de V si desenati-o în acelasi sistem de axe cu dateledin tabel.(c) Testati ipoteza (H0) : β1 =−1, vs. ipoteza alternativa (H1) : β1 6=−1, la nivelul de semnificatieα = 0.05.

Vârsta 15 23 25 35 17 34 54 50 45 42 19 42 20 39 37Rata max 207 186 187 180 200 175 169 183 156 183 199 174 198 183 178

Tabela 11.4: Tabel cu rata maxima a batailor inimii în functie de vârsta.

Exercitiu 11.7 Dreapta de regresie a variabilei y fata de variabila x este y = 2x−6. Determinaticonditiile în care dreapta de regresie a lui x fata de y este x = 0.5y+3.

A 3 1 4 12 11 3 5 2 9 6 4 6 7 6 14N 9.00 9.50 8.75 4.75 5.50 8.50 6.75 8.25 5.50 6.75 8.00 7.75 6.00 7.00 3.50

Tabela 11.5: Tabel cu absente si note la Statistica.

Exercitiu 11.8 Tabelul 11.5 contine numarul de absente (A) la Statistica si notele corespunzatoare(N) a 15 studenti.(a) Calculati coeficientul de corelatie Pearson. Care este semnificatia acestei valori referitor larelatia dintre absente si note?(b) Determinati dreapta de regresie a lui N fata de A si desenati-o în acelasi sistem de axe cu dateledin tabel.(c) Testati, la un nivel de semnificatie α = 0.05, daca exista dovezi suficiente pentru a afirma caîntre numarul de absente si notele obtinute exista o corelatie.Exercitiu 11.9 În Tabelul 11.6 datele reprezinta înaltimile (H) si masele corporale (M) a 10 fetedintr-o clasa a unui liceu. Suntem interesati în prezicerea masei corporale, stiind înaltimea uneieleve.(a) Desenati diagrama scatter plot a lui H versus M. Bazându-va pe aceasta diagrama, considerati

Page 243: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

11.11 Exercitii propuse 243

ca metoda regresiei liniare este potrivita în acest caz?(b) Calculati estimatii ale parametrilor (β0 si β1) de regresie liniara si reprezentati grafic dreapta deregresie liniara.(c) Obtineti o estimare nedeplasata pentru σ2.(d) Testati ipoteza nula (H0) : β1 = 0.9.

H 179.6 166.8 163.1 180.0 158.4 166.5 165.8 168.1 175.9 160.7M 61.2 48.2 46 64.4 46.3 54.7 51.4 55.3 65.3 47.9

Tabela 11.6: Înaltimea si masa corporala a 10 eleve dintr-o clasa.

Exercitiu 11.10 Un student ia cu împrumut o carte de la biblioteca si observa ca pagina de intereseste rupta pe alocuri. Totusi, poate citi textul din Figura 11.14. Ajutati-l sa reconstruiasca pasajul detext (i.e., determinati y si dreapta de regresie a lui x fata de y). De asemenea, calculati coeficientulempiric de corelatie r si comentati asupra aproximarii datelor de selectie prin dreptele mentionateîn text.

Figura 11.14: Fragment incomplet dintr-un text

Exercitiu 11.11 Dorim sa determinam o relatie între înaltimea H (în metri) si diametrul trunchiu-lui D (în metri) corespunzatoare castanilor dintr-o anumita specie asiatica. Pentru a obtine aceastarelatie, determinam mai întâi o regresie liniara între logaritmii variabilelor, adica între Y = ln(H) siX = ln(D), bazându-ne pe urmatoarele observatii:

X −1.61 −1.20 −0.97 −0.51 −0.42Y 2.22 2.27 2.38 2.60 2.65

(a) Ce procent dintre valorile lui Y pot fi explicate de valorile lui X?(b) Determinati o aproximare pentru dreapta de regresie liniara a lui Y versus X .(c) Care este repartitia erorilor de aproximare a datelor observate prin dreapta de regresie?(d) Folosind un interval de încredere, estimati înaltimea unui copac ce are diametrul trunchiului de0.7m.Exercitiu 11.12 Rezultatele din tabelul anterior reprezinta: H este numarul de ore pe saptamânapetrecute în fata televizorului, A este vârsta persoanei si E este numarul de ani petrecuti în scoala,pentru un mumar de 12 persoane alese aleator.

E 12 14 11 16 16 18 12 20 10 8 10 8A 41 31 27 30 25 23 58 28 44 60 50 68H 10 9 15 8 5 4 20 4 16 25 20 26

(a) Folosind un model de regresie liniara simpla, aproximati dreapta de regresie a lui H în functiede E.(b) Testati ipoteza ca panta dreptei de regresie de mai sus este −2. (α = 0.04)(c) Folosind un model de regresie multipla, aproximati suprafata de regresie a lui H în functie de Esi A.

Page 244: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

244 Capitolul 11. Regresie

Exercitiu 11.13 Suntem interesati de a determina în ce masura tensiunea arteriala (T) este influ-entata de indicele de masa corporala (I) si de numarul de ore de fitness pe saptamâna (N). Pentru astabili aceasta legatura, au fost selectati aleator 10 barbati de 50 de ani. Datele colectate sunt celedin tabelul de mai jos:

T 180 160 165 150 115 140 135 120 110 120I 34.7 33.0 32.9 30.4 28.9 26.5 25.9 22.4 20.1 18.4N 0 2 2 1 5 3 3 2 10 4

(a) Determinati o formula de calcul pentru tensiune folosind un model de regresie liniara multipla.(b) Calculati coeficientul de corelatie Pearson dintre variabilele I si N si testati semnificatia acestuia.(c) Construiti un model de regresie multipla de forma T= β0 +β1 I+β2 N+β3 I ·N, comentândutilitatea acestuia.(d) Pe baza valorilor R2 si adjR2, decideti care dintre cele doua modele explica cel mai binetensiunea T. Estimati pentru fiecare model tensiunea arteriala a unui barbat de 50 de ani ce areindicele de masa corporala 27 si face doua ore de fitness pe saptamâna.

Page 245: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12. ANOVA

. [Statistics teacher: What is ANOVA and what is does?

. Student: It’s a star bigger than a NOVA and much smaller than a SUPERNOVA

. It should brighten my day, but it doesn’t.

Prin ANOVA (en. ANalysis Of VAriance) se intelege o colectie de proceduri statistice construitepentru analiza simultana a parametrilor a cel putin doua populatii statistice, analiza care arela baza selectii independente extrase din populatiile studiate. De regula, se testeaza ipotezaca mediile teoretice ale acestor populatii sunt egale, cu alternativa ca macar o pereche demedii difera semnificativ. In ANOVA, caracteristicile (variabilele) studiate se numesc factoriiar populatiile sunt nivelurile factorilor. Analiza variantelor poate fi facuta:

• pentru un singur factor, caz in care vorbim de one-way ANOVA,• pentru doi factori, caz in care vorbim de two-way ANOVA,• pentru n≥ 3 factori, caz in care vorbim de n-way ANOVA.

Exemple de experimente care pot fi studiate cu ANOVA:

• un experiment care testeaza daca rezultatele la Bacalaureat sunt semnificativ diferitepentru diverse tipuri de licee din tara. Aici avem un singur factor, si anume numarulde promovati, si mai multe niveluri: licee cu profil Mate-Info, licee cu profil econo-mic, licee pedagogice, licee industriale etc. Se va aplica one-way ANOVA pentru averifica daca rezultatele medii la Bacalaureat sunt comparabile. In caz ca nu sunt, sepot identifica diferentele semnificative.

• un experiment care studiaza daca gradul de satisfactie personala a populatiei unei taridepinde de varsta sau de gen. Aici putem aplica two-way ANOVA. Avem doi factori:varsta si genul, primul factor avand diverse niveluri, e.g. tineri, varsta medie, batrani,iar al doilea factor are doua niveluri: barbati si femei. Un test two-way ANOVA vadetermina daca gradul de satisfactie depinde de varsta sau de gen. Mai mult, se poatedetermina daca exista vreo pereche de niveluri varsta-gen care, in combinatie, sa dearezultate semnificativ diferite de alte combinatii varsta-gen. In acest caz, vom spuneca cei doi factori interactioneaza intre ei.

Page 246: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

246 Capitolul 12. ANOVA

• un experiment care sa determine efectele a 7 tipuri de combustibil asupra eficienteiunui motor. Un test one-way ANOVA poate fi aplicat pentru a verifica daca cele 7tipuri de combustibil dau acelasi rezultat in ce priveste eficienta motorului. In caznegativ, se poate depista care tipuri de combustibil dau rezultate semnificativ diferite.

12.1 One-way ANOVAAcest pachet de programe compara mediile a doua sau mai multe populatii de interes.Notam cu m numarul populatiilor considerate in experiment. Nivelurile factorilor (i.e.,populatiile) se mai numesc si tratamente.Spre exemplu, se doreste a se testa egalitatea valorilor medii pentru notele obtinute deelevi la disciplinele "Limba Romana", ’Istorie" si "Matematica". Aici, factorul este notaobtinuta la o disciplina la Bacalaureat, nivelurile (tratamentele) sunt cele 3 discipline.Notam cu µi media teoretica a populatiei i (i = 1, 2, . . . , m), adica media reala atunci candtratamentul i este aplicat. Ipoteza nula este ca toate tratamentele au aceeasi medie teoretica,i.e.:

(H0) : µ1 = µ2 = . . .= µm

vs. ipoteza alternativa

(H1) : cel putin doua valori difera.

Ipoteza nula (H0) mai poate fi interpretata astfel: clasificarea pe tratamente în ce privestefactorul studiat nu este semnificativa sau mediile teoretice ale factorului studiat pentrucele m tratamente nu difera semnificativ.De obicei, datele statistice care urmeaza a fi procesate cu ANOVA sunt prezentate sub formaunui tabel (vezi Tabelul 12.1).

Treatment Data (xi j) Sample mean (xi·) Sample std. (si)

1 8.24; 8.46; 7.69; 7.83; 9.84; 7.15; 6.86; 8.70 8.0962 0.94252 8.44; 7.82; 8.12; 9.40; 9.10; 7.85; 5.28; 5.75 7.7200 1.47683 6.76; 6.17; 6.49; 5.79; 7.19; 6.38; 5.82; 8.05 6.5813 0.7543

Tabela 12.1: Date statistice pentru one-way ANOVA

In continuare, vom utiliza urmatoarele notatii:• ni, numarul de observatii pentru tratamentul de rang i, i = 1, 2, . . . , m. De asemenea,

notam cu N = n1 +n2 + . . .+nm;• xi j, observatia de rang j pentru tratamentul i, i = 1, 2, . . . , m, j = 1, 2, . . . , ni;• Xi j, variabila aleatoare corespunzatoare valorii xi j, i = 1, 2, . . . , m, j = 1, 2, . . . , ni;

• xi· =1ni

ni

∑j=1

xi j mediile si, respectiv, X i· =1ni

ni

∑j=1

Xi j, i = 1, 2, . . . , m, mediile de

selectie, pentru fiecare tratament;

• s2i =

1ni−1

ni

∑j=1

[xi j− xi·]2 dispersiile; S2i =

1ni−1

ni

∑j=1

[Xi j−X i·]2, i = 1, 2, . . . , m,

dispersiile de selectie, pentru fiecare tratament;

Page 247: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12.1 One-way ANOVA 247

• X =1m

m

∑i=1

[1ni

ni

∑j=1

Xi j

]=

1m

m

∑j=1

X i· , media generala de selectie (en.; grand mean)

x este media generala (en.; grand mean value).Ipoteze de lucru:

• selectiile pentru fiecare tratament sunt aleatoare. De obicei, se obtin selectii aleatoaresimple pentru fiecare tratament in parte.

• datele observate sunt (aproximativ) normal distribuite. Aceasta ipoteza poate fiverificata usor folosind o reprezentare grafica (e.g., normplot in MATLAB), inurmatorul mod. Dintre toate datele observate pentru tratamentul i scadem mediavalorilor observate pentru acest tratament, xi·, pentru fiecare i = 1, 2, . . . , m. Valorileobtinute (i.e., xi j− xi·, numite si reziduuri) le concatenam si le reprezentam graficvs. cuantilele de la repartitia normala standard (folosind normplot). Daca valorilereprezentate sunt apropiate de prima bisectoare, atunci putem admite ipoteza denormalitate (vezi Figura 12.1).Dupa cum se observa, nu testam normalitatea fiecarei selectii in parte, deoarecevolumele selectiilor considerate pentru ANOVA sunt tipic mici si nu ar fi relevante.Concatenand reziduurile pentru toate tratamentele, obtinem un volum acceptabil.

• erorile de aproximare satisfac ipoteza de homoscedasticitate, i.e. se presupune cadeviatiile standard pentru fiecare tratament sunt egale. Pentru a verifica acest fapt,se reprezinta grafic (cu functia scatter) valorile observate pentru oricare douaperechi de variabile. In Figura 12.2 avem doua astfel de reprezentari: una careprezinta proprietatea de homoscedasticitate, cealalta nu. Practic, putem admiteaceasta ipoteza daca cea mai mare deviatie standard de selectie nu este de douaori mai mare decat cea mai mica deviatie standard de selectie. Spre exemplu, inTabelul 12.1, cea mai mare deviatie standard este 1.4768 care este mai mica decat dedoua ori valoarea minima, 0.7543, deci putem admite ipoteza de homoscedasticitate.Alternativ, exista teste statistice specifice acestui test.

Figura 12.1: normplot pentru verificarea normalitatii reziduurilor.

Page 248: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

248 Capitolul 12. ANOVA

In analiza ANOVA se considera urmatoarele sume de patrate:

SSTr=m

∑i=1

ni

∑j=1

(X i·−X

)2− suma patratelor pt. tratamente; are m−1 grade de libertate

SSE=m

∑i=1

ni

∑j=1

(Xi j−X i·

)2=

m

∑i=1

(ni−1)S2i − suma patratelor erorilor; d f = N−m.

SST=m

∑i=1

ni

∑j=1

(Xi j−X

)2− suma totala a patratelor; d f = N−1.

MSTr=SSTr

m−1, MSE=

SSE

N−m, MST=

SST

N−1.

Figura 12.2: Grafice pentru verificarea homoscedasticitatii.

Se pot arata urmatoarele:

SSE

σ2 ∼ χ2(N−m); E

(SSE

σ2

)= N−m;

SSTr

σ2 ∼ χ2(m−1); E

(SSTr

σ2

)= m−1;

SSE

σ2 siSSTr

σ2 sunt independente.

SST= SSTr+SSE.

Din aceste relatii, putem deduce ca

E(SSTr

m−1

)= E

(SSE

N−m

)= σ

2 =⇒ E(MSTr) = E(MSE) = σ2.

Page 249: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12.1 One-way ANOVA 249

Astfel, daca ipoteza nula este adevarata, atunci exista doi estimatori nedeplasati pentru σ2,si anume: MSE si MSTr. Consideram statistica test

F =MSTr

MSE.

Daca ipoteza nula ar fi adevarata, atunci aceasta statistica ar avea o valoare apropiata de 1.Altfel, statistica ia valori departate de 1, mai mari ca 1. Sa notam cu F0 valoarea acesteistatistici pentru datele observate, cu ν1 = m−1, ν2 = N−m si cu fα;ν1ν2 cuantila de ordinα pentru repartitia Fisher cu (ν1, ν2) grade de libertate.Pentru a testa ipoteza nula (H0) (mediile teoretice pentru tratamente sunt toate egale)procedam astfel. Daca

F0 < f1−α;ν1,ν2 atunci admitem ipoteza nula (H0);F0 > f1−α;ν1,ν2 atunci respingem ipoteza nula (H0).

De regula, orice soft statistic ce are implementat ANOVA va da rezultatul final sub formaunui tabel, in general de forma Tabelului 12.2 (care apare in MATLAB).

Source of variation df SS MS F Prob>F

Columns m−1 SSTr MSTr= SSTr

m−1MSTr

MSEPv

Error N−m SSE MSE= SSE

N−m − −Total N−1 SST − − −

Tabela 12.2: Tabel cu rezultate pentru one-way ANOVA

In acest tabel, valoarea Pv este probabilitatea de a respinge ipoteza nula cand ea esteadevarata. Altfel spus, este probabilitatea ca, la o noua experienta, sa obtinem un rezultatcel putin la fel de extrem ca si cel deja observat. Aceasta explica si notatia Prob>F,transpusa matematic prin

Pv = P(S > F), unde S∼F (ν1, ν2) si F=MSTr

MSE.

Daca Pv < α , atunci ipoteza nula (H0) va fi respinsa. Altfel, o acceptam.Observatia 12.1 În cazul particular in care toate selectiile considerate au acelasi volum,i.e., ni = n, ∀i = 1, 2, . . . , m, atunci N = mn si N−m = m(n−1) etc.

Daca ipoteza nula (H0) este respinsa, atunci se poate realiza un test de verificare, care satesteze care dintre cele C2

m perechi de medii sunt diferite. Un test care realizeaza aceastaeste testul Tukey. Acest test detemina intervale de incredere pentru diferentele mediilorteoretice µi−µ j, pentru orice i < j. Acestea sunt:[

xi·− x j·−Q1−α;m,n−m

√MSE

m, xi·− x j·+Q1−α;m,n−m

√MSE

m

],

unde Qα;m,n−m sunt cuantilele repartitiei range standardizat,

Q =

maxk=1,nZk− min

k=1,nZk√

, unde Zkk=1,n ∼N (0, 1) independente, W ∼ χ2(ν).

Page 250: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

250 Capitolul 12. ANOVA

Daca intervalul de incredere pentru µi−µ j nu acopera valoarea 0, atunci decidem ca µisi µ j difera semnificativ. Daca intervalul de incredere acopera pe 0, atunci admitem caµi = µ j la nivelul de incredere α .

Observatia 12.2 Ipoteza nula din testul one-way ANOVA mai poate fi scrisa dupa cumurmeaza. Fiecare variabila Xi j este, de fapt, valoarea medie a tratamentului de rang i, lacare se adauga o eroare normala de medie zero. Pentru fiecare tratament in parte, erorilesunt considerate a fi independente. Scriem:

Xi j = µi + εi j, ∀i = 1, 2, . . . , m, j = 1, 2, . . . , ni, cu εi j ∼N (0, σ), independente.

Vectorul ε i = (εi1, εi2, . . . , εini) se numeste zgomot alb (en., white noise).

µ =1m

m

∑i=1

µi, αi = µi−µ (i = 1, 2, . . . , m).

Vom numi αi deplasarea de la media reala µ datorata tratamentului de rang i. Atunci,putem scrie:

Xi j = µ +αi + εi j, i = 1, 2, . . . , m, , j = 1, 2, . . . , ni.

Ipoteza nula poate fi scrisa astfel:

(H0) : α1 = α2 = . . .= αm = 0

vs. ipoteza alternativa(H1) : macar un αi este nenul.

12.2 Two-way ANOVATwo-way ANOVA este o colectie de proceduri statistice ce testeaza valorile unei variabileraspuns (dependenta) ce depinde de doi factori. Prezentarea de mai jos este construitaideile din [DB].Un exemplu de caz în care se foloseste two-way ANOVA este urmatorul: se doreste testareagradului de fericire a adultilor dintr-o anumita regiune (sau tara) in functie de varsta si gen.Un numar de adulti de ambele genuri si de diferite varste sunt rugati sa completeze cate unchestionar, care sa determine gradul de satisfactie personala (fericire) a fiecaruia. Aici,variabila raspuns este gradul de fericire, care este evaluata in functie de doi factori. Primulfactor este varsta, care poate fi impartita in mai multe categorii (niveluri), e.g., tineri,varsta medie, batrani. Al doilea factor este genul, care are doua niveluri: barbati si femei.

În continuare, vom considera ca A si B sunt cei doi factori, iar pentru fiecare factor in parteavem m, respectiv n niveluri. Fiecare combinatie (i, j), cu i = 1, 2, . . . , m, j = 1, 2, . . . , n,defineste un tratament. Notam prin Xi j variabila raspuns (dependenta) atunci când factorulA este tinut la nivelul i si factorul B la nivelul j, pentru orice i= 1, 2, . . . , m, j = 1, 2, . . . , n.Vom nota cu xi j o posibila valoare a acestei variabile, adica o posibila valoare pentrutratamentul (i, j). Pentru fiecare pereche de niveluri corespunzatoare celor doi factoriputem avea un numar Ki j ≥ 1 de observatii. In exemplul de mai sus, Ki j reprezintanumarul de subiecti de nivelul de varsta i si de nivelul gen j care au raspuns la chestionare.

Page 251: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12.2 Two-way ANOVA 251

Cazul Ki j = 1, ∀(i, j)

În cazul Ki j = 1, valorile observate le putem prezenta ca în tabelul de contingenta de maijos:

A\B 1 2 3 . . . n1 x11 x12 x13 . . . x1n

2 x21 x22 x23 . . . x2n... · · · · · · · · · ... · · ·m xm1 xm2 xm3 . . . xmn

In total, sunt mn valori, corespunzatoare celor mn celule (i, j). In continuare, vom folosiurmatoarele notatii:

• m, n sunt numerele de observatii pentru factorul A, respectiv, pentru factorul B;

• X i· =1n

n

∑j=1

Xi j, i = 1, 2, . . . , m, mediile de selectie pentru nivelurile factorului A;

• X · j =1m

m

∑j=1

Xi j, j = 1, 2, . . . , n, mediile de selectie pentru nivelurile factorului B;

• X =1

mn

m

∑i=1

n

∑j=1

Xi j =1m

m

∑j=1

Xi· =1n

n

∑j=1

X· j , media generala de selectie (en. grand

mean);

• De asemenea, vom nota prin xi· =1n

n

∑j=1

xi j, x· j =1m

m

∑j=1

xi j si x valorile corespun-

zatoare statisticilor de mai sus pentru datele observate.Ipoteze de lucru:

• selectiile pentru fiecare factor sunt aleatoare;• datele observate sunt aproximativ normal distribuite.

Modelul statistic de lucru este

Xi j = µi j +εi j, ∀i = 1, 2, . . . , m, j = 1, 2, . . . , n, cu εi j ∼N (0, σ), independente.

Se doreste ca acest model sa determine constantele necunoscute (parametrii). Insa, seobserva ca avem mn+ 1 parametri (µi j si σ ) si doar mn ecuatii. Pentru a putea rezolvaproblema, va trebui sa reducem din necunoscute. O idee ar fi sa folosim un model aditiv,scriind:

µi j = ai +b j, ∀i = 1, 2, . . . , m, j = 1, 2, . . . , n.

Astfel, vom avea doar m+ n+ 1 parametri de determinat. Pentru m ≥ 3 si n ≥ 2, avemsuficiente ecuatii pentru a determina parametrii. Exista o problema in ce priveste unicitateasolutiei, deoarece ai + c si b j− c (c ∈ R) sunt, de asemenea, solutii.Modelul de mai sus poate fi simplificat si mai mult, considerand in schimb urmatorulmodel:

Xi j = µ +αi +β j + εi j, undem

∑i=1

αi = 0,n

∑j=1

β j = 0.

Mai sus, µ reprezinta media reala generala (en., theoretical grand mean) in cazul in carevariabila raspuns nu ar depinde de niciunul dintre cei doi factori, αi reprezinta efectulfactorului A la nivelul i si β j reprezinta efectul factorului B la nivelul j.

Page 252: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

252 Capitolul 12. ANOVA

Se poate demonstra ca urmatorii estimatori sunt estimatori nedeplasati pentru parametriipe care ii estimeaza:

µ = X ; αi = X i·−X ; β j = X · j−X .

In cazul two-way ANOVA cu Ki j = 1, ∀(i, j), vom avea doua ipoteze nule: una referitoarela factorul A, cealalta se refera la factorul B. Ipoteza nula ce face referire la factorul Aspune ca diferitele niveluri ale lui A nu au niciun efect asupra variabilei raspuns. Similarpentru ipoteza nula ce face referire la B. Matematic, le scriem astfel:Ipoteze pentru factorul A:

(H0A) : α1 = α2 = . . .= αm = 0 vs. (H1A) : macar un αi este nenul.

Ipoteze pentru factorul B:

(H0B) : β1 = β2 = . . .= βn = 0 vs. (H1B) : macar un β j este nenul.

Pentru a testa aceste ipoteze, vom folosi urmatoarele statistici:

SST=m

∑i=1

n

∑j=1

(Xi j−X

)2− suma totala a patratelor; are mn−1 grade de libertate

SSA=m

∑i=1

n

∑j=1

(X i·−X

)2− suma patratelor coresp. lui A; are m−1 grade de libertate

SSB=m

∑i=1

n

∑j=1

(X · j−X

)2− suma patratelor coresp. lui B; are n−1 grade de libertate

SSE=m

∑i=1

n

∑j=1

(Xi j−X i·−X · j +X

)2− suma patratelor erorilor; (m−1)(n−1)

MST=SST

mn−1, MSA=

SSA

m−1, MSB=

SSB

n−1, MSE=

SSE

(m−1)(n−1).

Se pot arata urmatoarele:

SSA

σ2 ∼ χ2(m−1); E(MSA) = σ

2 +n

m−1

m

∑i=1

α2i ;

SSB

σ2 ∼ χ2(n−1); E(MSB) = σ

2 +m

n−1

n

∑j=1

β2j ;

SST= SSA+SSB+SSE; E(MSE) = σ2.

Daca ipoteza nula (H0A) este adevarata, atunci exista doi estimatori nedeplasati pentru σ2,si anume: MSE si MSA. Consideram statistica test

FA =MSA

MSE.

Daca ipoteza nula ar fi adevarata, atunci aceasta statistica ar avea o valoare apropiata de 1.Altfel, statistica ia valori departate de 1, mai mari ca 1. Sa notam cu F0A valoarea acestei

Page 253: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12.2 Two-way ANOVA 253

statistici pentru datele observate, cu ν1 = m−1, ν2 = (m−1)(n−1) si cu fα;ν1,ν2 cuantilade ordin α pentru repartitia Fisher cu (ν1, ν2) grade de libertate. Pentru a testa ipotezanula (H0A) procedam astfel:Daca

F0A < f1−α;ν1,ν2 atunci admitem ipoteza nula (H0A);F0A > f1−α;ν1,ν2 atunci respingem ipoteza nula (H0A).

Se procedeaza similar pentru testarea ipotezei (H0B), considerand statistica

FB =MSB

MSE.

Valoarea critica in acest caz este fα;ν1,ν2 , unde ν1 = n−1, ν2 = (m−1)(n−1).De regula, orice soft statistic ce are implementat two-way ANOVA va da rezultatul finalsub forma unui tabel, in general de forma Tabelului 12.3 (care apare in MATLAB).

Source of variation df SS MS F Prob>F

A m−1 SSA MSA= SSA

m−1 FA = MSA

MSEPvA

B n−1 SSB MSB= SSB

n−1 FB = MSB

MSEPvB

Error (m−1)(n−1) SSE MSE= SSE

(m−1)(n−1) − −Total mn−1 SST − − −

Tabela 12.3: Tabel cu rezultate pentru two-way ANOVA

In acest tabel, valoarea PvA este probabilitatea de a respinge ipoteza nula (H0A) cand eaeste adevarata. Altfel spus, este probabilitatea ca, la o noua experienta, sa obtinem unrezultat cel putin la fel de extrem ca si cel deja observat. Aceasta explica si notatia Prob>F,transpusa matematic prin

PvA = P(S > FA), unde S∼F (ν1, ν2) si FA =MSA

MSE.

Daca PvA < α , atunci ipoteza nula (H0A) va fi respinsa. Altfel, o acceptam.Similar se procedeaza pentru factorul B. Daca PvB < α , atunci ipoteza nula (H0B) va firespinsa. Altfel, o acceptam.

Cazul Ki j > 1 pentru macar o pereche (i, j)

Asadar, in fiecare celula (i, j) putem avea mai mult de o singura valoare. Vom consideraca mediile valorilor observate in fiecare celula (i, j) sunt:

µi j = µ +αi +β j + γi j, ∀i = 1, 2, . . . , m, j = 1, 2, . . . , n.

Aici, αi este efectul factorului A la nivelul i asupra variabilei raspuns; β j este efectulfactorului B la nivelul j; γi j este efectul interactiunii factorului A la nivelul i cu factorul Bla nivelul j. Fie

µ =1

mn

m

∑i=1

n

∑j=1

µi j; µ i· =1n

n

∑j=1

µi j; µ · j =1m

m

∑i=1

µi j

αi = µ i·−µ; β j = µ · j−µ; γi j = µi j− (µ +αi +β j).

Facem urmatoarele notatii specifice:

Page 254: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

254 Capitolul 12. ANOVA

• Presupunem ca pentru fiecare celula (i, j) avem Ki j ≥ 1 observatii, cu indicele desumare k.

• Fie κ =m

∑i=1

n

∑j=1

Ki j numarul total de observatii;

• Xi jk este valoarea de rang k observata in celula (i, j);

• X i j· =1

Ki j

Ki j

∑k=1

Xi jk este valoarea medie a datelor observate in fiecare celula (i, j);

• X i·· =1n

n

∑j=1

X i j· este media datelor observate pentru nivelul i al factorului A;

• X · j· =1m

m

∑i=1

X i j· este media datelor observate pentru nivelul j al factorului B;

• X =1m

m

∑i=1

X i·· =1n

n

∑j=1

X · j· este media tuturor datelor observate (en., grand mean);

• se va nota cu xi jk, xi j·, xi··, x· j·, x valori posibile ale statisticilor de mai sus.Consideram urmatorul model statistic relativ la Xi jk, variabila de rang k pentru celula (i, j):

Xi jk = µ +αi +β j + γi j + εi jk, ∀i = 1, 2, . . . , m, j = 1, 2, . . . , n, k = 1, Ki j.

In cazul two-way ANOVA cu macar un Ki j > 1, vom avea trei ipoteze nule: una referitoarela factorul A, cealalta se refera la factorul B si una referitoare la interactiunea dintre cei doifactori. De regula, prima ipoteza testata este cea referitoare la interactiune.Ipoteza nula corespunzatoare interactiunii spune ca nu exista nicio interactiune intre acestifactori relativ la variabila raspuns. Daca ipoteza nula este admisa, atunci se trece si laverificarea celorlalte doua ipoteze. Altfel, aceste verificari suplimentare nu isi mai aurostul.Ipoteza nula ce face referire la factorul A spune ca diferitele niveluri ale lui A nu au niciunefect asupra variabilei raspuns. Similar pentru ipoteza nula ce face referire la B.Matematic, scriem cele trei ipoteze astfel:Ipoteze pentru interactiune:

(H0AB) : γi j = 0, ∀(i, j) vs. (H1AB) : macar un γi j este nenul.

Ipoteze pentru factorul A:

(H0A) : α1 = α2 = . . .= αm = 0 vs. (H1A) : macar un αi este nenul.

Ipoteze pentru factorul B:

(H0B) : β1 = β2 = . . .= βn = 0 vs. (H1B) : macar un β j este nenul.

Pentru a testa aceste ipoteze, vom folosi urmatoarele statistici:

SST=m

∑i=1

n

∑j=1

Ki j

∑k=1

(Xi jk−X

)2

− suma totala a patratelor; are mnκ−1 grade de libertate

SSE=m

∑i=1

n

∑j=1

Ki j

∑k=1

(Xi jk−X i j·

)2− suma patratelor erorilor; d f = mn(κ−1)

Page 255: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12.2 Two-way ANOVA 255

SSA=m

∑i=1

n

∑j=1

Ki j

∑k=1

(X i··−X

)2

− suma patratelor coresp. lui A; are m−1 grade de libertate

SSB=m

∑i=1

n

∑j=1

Ki j

∑k=1

(X · j·−X

)2

− suma patratelor coresp. lui B; are n−1 grade de libertate

SSAB=m

∑i=1

n

∑j=1

Ki j

∑k=1

(X i j·−X i··−X · j·+X

)2

− suma patratelor erorilor; d f =(m−1)(n−1)

MST=SST

mnκ−1, MSE=

SSE

mn(κ−1), MSA=

SSA

m−1, MSB=

SSB

n−1, MSAB=

SSAB

(m−1)(n−1)

Se poate demonstra urmatoarea egalitate:

SST= SSE+SSA+SSB+SSAB.

Statisticile test si pragurile critice sunt:

FAB =MSAB

MSEpentru ipoteza nula (H0AB); fAB = f1−α;(m−1)(n−1),mn(κ−1);

FA =MSA

MSEpentru ipoteza nula (H0A); fA = f1−α;m−1,mn(κ−1);

FB =MSB

MSEpentru ipoteza nula (H0B); fB = f1−α;n−1,mn(κ−1).

Decizia, pentru fiecare ipoteza in parte, se ia astfel:Daca F∗ ≥ f∗, respingem ipoteza nula (H0∗) la nivelul de semnificatie α . Altfel, admitemipoteza nula (H0∗).Tabel cu rezultate:

Source of variation df SS MS F Prob>F

A m−1 SSA MSA= SSA

m−1 FA = MSA

MSEPvA

B n−1 SSB MSB= SSB

n−1 FB = MSB

MSEPvB

AB (m−1)(n−1) SSAB MSAB= SSAB

(m−1)(n−1) FAB = MSAB

MSEPvAB

Error mn(κ−1) SSE MSE= SSE

mn(κ−1) − −Total mnκ−1 SST − − −

Tabela 12.4: Tabel cu rezultate pentru two-way ANOVA in cazul Ki j > 1, pentru macar un (i, j)

Bazandu-ne pe o valoare Pv∗, putem lua astfel decizia referitor la ipoteza nula (H0∗):Daca α < Pv∗, atunci admitem ipoteza nula (H0∗) la nivelul de semnificatie α . Altfel, orespingem. Aici, Pv∗ mai poate fi calculat si astfel:

Pv∗ = P(S > F∗), unde S∼F (ν1, ν2) si F∗ =MS*

MSE.

Dupa cum am precizat mai sus, prima ipoteza testata este cea referitor la interactiuni,(H0AB). Daca aceasta este respinsa, atunci nu mai are sens testarea celorlalte doua ipotezeramase.

Page 256: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

256 Capitolul 12. ANOVA

12.3 Exercitii rezolvate12.3.1 Exemplu numeric pentru one-way ANOVA

Functia MATLAB anova1 efectueaza testul pentru egalitatea mediilor. Formatul functieieste:

[p,tabel,stats] = anova1(X)

unde X reprezinta matricea de date. Coloanele din matricea X reprezinta factorii; pentrufiecare factor se specifica m valori, unde m este numarul de linii din matrice. Valorileafisate sunt: p= valoarea Pv a testului, tabel si stats sunt, in ordine, un tabel cu detaliileanalizei variantelor si diverse alte statistici.In cazul in care ipoteza nula (verificata de anova1) este invalidata, atunci putem facetestul Tukey pentru a determina care perechi de medii difera. In MATLAB, acest test serealizeaza cu comanda multcompare. Aceasta afiseaza intervalele de incredere pentrudiferentele mediilor oricaror doua perechi de coloane si o reprezentare grafica a acestora.Forma functiei cea mai simplificata este: c = multcompare(stats), unde stats esterezultatul de la anova1.

Exercitiu 12.1 Tabelul de mai jos contine notele la Bacalaureat pentru o selectie aleatoarede 8 elevi dintr-un anumit oras care au sustinut Bacalaureatul la disciplinele "LimbaRomana", ’Istorie" si "Matematica".

Disciplina E1 E2 E3 E4 E5 E6 E7 E8

Rom 8.24 8.46 7.69 7.83 9.84 7.15 6.86 8.70Ist 8.44 7.82 8.12 9.40 9.10 7.85 5.28 5.75

Mat 6.76 6.17 6.49 5.79 7.19 6.38 5.82 8.05

Cerinte:(1) Folosind o reprezentare grafica, verificati normalitatea datelor.(2) La nivelul de semnificatie α = 0.05, testati ipoteza ca mediile teoretice la cele treidiscipline sunt toate egale, in doua moduri:.(a) folosind comanda anova1 din MATLAB; (b) folosind formulele si testul de la curs.(3) In cazul in care mediile nu sunt toate egale, determinati perechile de medii care diferasemnificativ.R: Matricea de date N este una de tip 8×3, unde pe fiecare coloana am introdus notelepentru fiecare disciplina in parte. In plus, D reprezinta etichetele pentru datele din matrice.Ipoteza nula este (H0) : µR = µI = µMDin ANOVA Table extragem informatia despre valoarea critica pentru probabilitate, Pv =′′Prob > F ′′. Deoarece Pv = 0.0313 < 0.05 = α , respingem ipoteza nula. Asadar, macardoua medii sunt semnificativ diferite.Al doilea grafic din Figura 12.3 reprezinta boxplots pentru notele la fiecare disciplina inparte. Se observa ca nu apar valori aberante (outliers).Figura urmatoare reprezinta intervalele de incredere (la nivelul de semnificatie considerat)pentru mediile teoretile la fiecare disciplina. Se observa ca intervalele de incredere pentrumediile la Romana si la Matematica nu se intersecteaza, asadar cele doua medii suntsemnificativ diferite. Celelelate doua perechi de medii sunt egale la nivelul de semnificatie0.05.

Page 257: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12.3 Exercitii rezolvate 257

N = [8.24 8.46 7.69 7.83 9.84 7.15 6.86 8.70; 8.44 7.82 8.12 9.40 ...

9.10 7.85 5.28 5.75; 6.76 6.17 6.49 5.79 7.19 6.38 5.82 8.05]';

D = 'Rom','Ist','Mat';

% (1) ~~~~~~~~~~~~~~ normplot(reziduuri) ~~~~~~~~~~~~~~~~~~~~~~~~~~~

Xp = mean(N); % mediile pe fiecare coloana

rez = N - [Xp;Xp;Xp;Xp;Xp;Xp;Xp;Xp]; % din nota scadem media disciplinei

R = N(:); % valorile matricei pe o singura coloana

figure(3); normplot(R) % verifica normalitatea reziduurilor

% (2a) ~~~~~~~~~~~~~~~~~~~~ anova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

[Pv,table,stats] = anova1(N,D) % tabelul si graficul sunt mai jos

% (3) ~~~~~~~~~~~~~~~~~~~ Tukey test ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

c = multcompare(stats) % graficul rezultat este atasat mai jos

Figura 12.3: Rezultatele produse de anova1 in MATLAB.

Figura 12.4: Compararea perechilor de medii in MATLAB.

Page 258: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

258 Capitolul 12. ANOVA

%%% ~~~~~~~~~~~~~~~~~~~~~~~~~~ rezultate ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%%

% p = %

% 0.0313 %

% table =

% 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F'

% 'Groups' [ 9.9561] [ 2] [4.9781] [4.1048] [0.0313]

% 'Error' [25.4677] [21] [1.2127] [] []

% 'Total' [35.4238] [23] [] [] []

% F = Fcrit = %

% 4.1048 3.4668 %

% medii inegale %

% Pv = %

% 0.0313 %

% ans = %

% 'Rom' 'Ist' [-1.0116] [0.3762] [1.7641] %

% 'Rom' 'Mat' [ 0.1271] [1.5150] [2.9029] %

% 'Ist' 'Mat' [-0.2491] [1.1387] [2.5266] %

%%% ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%%

% (2b) ~~~~~~~~~~~~~~~~~~~~ anova ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

n = 8; k = 3; alpha = 0.05;

Xp = mean(Note); Xpp = mean(mean(Note));

SSTr = n*sum((Xp - Xpp).^2);

Si2 = var(Note); SSE = (n-1)*sum(Si2); SST = SSTr + SSE;

MSTr = SSTr/(k-1); MSE = SSE/(k*(n-1));

F = MSTr/MSE; Fcrit = finv(1-alpha,k-1,k*(n-1));

if (F<Fcrit)

disp('medii egale')

else

disp('medii inegale')

end

Pv = 1 - fcdf(F,k-1,k*(n-1))

Page 259: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12.3 Exercitii rezolvate 259

12.3.2 Exemplu numeric pentru two-way ANOVA

Exercitiu 12.2 O companie producatoare de automobile are doua fabrici, fiecare fabricaproducand 3 tipuri de masini la clasa de 1.4cm3. In vederea testarii consumului decarburant, se face cate o selectie de 3 masini de la fiecare fabrica si din fiecare tip demasina. Consumul de carburant per 100km pentru masinile selectate este reprezentat maijos. Am notat cu F fabricile si cu T tipurile de masina.

7.5 7.45 7.857.3 7.4 7.97.1 7.3 7.67.6 7.35 7.657.3 7.25 7.55

︸︷︷︸T1

7.35 ︸︷︷︸T2

7.5 ︸︷︷︸T3

7.75

F1F2

Se cere:(a) Decideti daca exista dovezi statistice care sa ateste o dependenta a consumului decarburant de fabrica unde este produsa masina;(b) Decideti daca exista dovezi statistice care sa ateste o dependenta a consumului decarburant de tipul de masina produs.

R: Dupa cum se observa din matricea de date, avem doi factori: A = T−tipul si B =F−fabrica. Pentru analiza cei doi factori au fost alese cate 3 masini din fiecare tip, de lafiecare fabrica, adica avem cate 3 valori pentru fiecare pereche (T, F). Aceasta inseamna caKi j = K = 3, pentru orice i = 1, 2, j = 1, 2, 3. Vom utiliza functia anova2 din MATLAB.

clear all;

m = 2; n = 3; k = 3;

X = [7.50 7.45 7.85;

7.30 7.40 7.90;

7.10 7.30 7.60;

7.60 7.35 7.65;

7.30 7.25 7.55;

7.35 7.50 7.75];

[p,tbl,stats] = anova2(X,k)

c = multcompare(stats, 'alpha', 0.05) % valoarea implicita este 0.05,

dar poate fi schimbata

Rezultatele sunt urmatoarele:

Page 260: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

260 Capitolul 12. ANOVA

Figura 12.5: Tabel cu rezultate pentru testulanova2 în MATLAB

Figura 12.6: Compararea multipla a pere-chilor de medii în MATLAB

%%% ~~~~~~~~~~~~~~~~~~~~~~~~~ rezultate ~~~~~~~~~~~~~~~~~~~~~~~~~~%%%

% p = %

% 0.0014 0.8722 0.3516 %

% %

% tbl =

% 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F'

% 'Columns' [ 0.4908] [ 2] [ 0.2454] [11.9392] [0.0014]

% 'Rows' [5.5556e-004] [ 1] [5.5556e-004] [ 0.0270] [0.8722]

% 'Interaction' [ 0.0469] [ 2] [ 0.0235] [ 1.1419] [0.3516]

% 'Error' [ 0.2467] [12] [ 0.0206] [] []

% 'Total' [ 0.7850] [17] [] [] []

% stats = %

% source: 'anova2' %

% sigmasq: 0.0206 %

% colmeans: [7.3583 7.3750 7.7167] %

% coln: 6 %

% rowmeans: [7.4889 7.4778] %

% rown: 9 %

% inter: %

% pval: 0.3516 %

% df: 12 %

% c =

% 1.0000 2.0000 -0.2375 -0.0167 0.2042 %

% 1.0000 3.0000 -0.5792 -0.3583 -0.1375 %

% 2.0000 3.0000 -0.5625 -0.3417 -0.1208 %

%%% ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~%%%

Page 261: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

12.4 Probleme propuse 261

Valorile p reprezinta valorile Pv care determina semnificatia ipotezelor nule (H0A), (H0B)si, respectiv (H0AB).Ipoteza nula (H0AB) indica inexistenta de interactiuni semnificative intre cei doi factorisau, altfel spus, nu exista diferente semnificative intre tipurile de masina si fabrici in cepriveste consumul mediu de carburant la 100km.Deoarece p3 = 0.3516 > 0.05 = α , rezulta ca ipoteza (H0AB) este admisa, asadar alegereatipului de masina nu depinde de fabrica.Se observa ca p2 = 0.8722 > 0.05 = α , deci ipoteza (H0B) este admisa, insemnand faptulca nu exista diferente semnificative intre consumurile medii de carburant la 100km intremasinile produse de cele doua fabrici.Se observa ca p1 = 0.0014 < 0.05 = α , deci ipoteza (H0A) este respinsa, insemnand faptulca exista diferente semnificative intre consumurile medii de carburant la 100km intrecele trei tipuri de masini. Pentru a determina care dintre mediile pe coloane sunt diferite,folosim comanda multcompare din MATLAB.Din Figura 12.6 observam ca mediile pentru consumul la 100km ale primelor doua tipuride masina sunt egale, a treia medie fiind semnificativ diferita de ele.Matricea c afiseaza intervale de incredere si estimatori punctuali pentru diferentele me-diilor celor trei perechi de coloane. Dupa cum se observa, primul interval de incre-dere, (−0.2375, 0.2042) contine valoarea 0, deci putem concluziona ca aceste douamedii sunt egale la acest nivel de semnificatie. Celelalte doua intervale de incredere,(−0.5792,−0.1375) si (−0.5625,−0.1208) nu contin pe 0, deci mediile corespunzatoaresunt semnificativ diferite.

12.4 Probleme propuse

Exercitiu 12.1 Andrei a primit prin fax un raport referitor la încasarile obtinute saptamânatrecuta, obtinute din vânzarile anvelopelor pe care firma sa le are în stoc. Din pacate, faxulsau nu este prea bun si, din tot raportul, se pot distinge doar rezultate partiale ale unui testANOVA, unele valori fiind sterse.

Source of variation SS df MS F Prob>FGroups 7124.75 18f9 1j4g7r45 1.31584 104411Error T2.34713Y4145 26 1s7l4i5Total 12454.98 29

(a) Câte tipuri de anvelope are firma sa în stoc? Formulati ipotezele testului.(b) Completati valorile sterse din tabel. Care este rezultatul testului?

Exercitiu 12.2 O firma de computere doreste sa compare viteza de lucru pentru patrucompilatoare produse de aceasta firma. Fiecare dintre cele patru compilatoare a rulataceleasi 5 programe. Datele din tabelul de mai jos reprezinta timpii de compilare (exprimatiîn milisecunde) pentru fiecare dintre programe, rulate pe cele patru compilatoare.(a) Testati la nivelul de semnificatie de 5% daca exista diferente semnificative întreperformantele medii ale celor 4 compilatoare.

Page 262: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

262 Capitolul 12. ANOVA

Program

Compiler A B C D E

C1 29.21 26.18 30.91 25.14 26.16C2 28.25 26.02 30.18 25.16 25.14C3 28.20 26.22 30.52 25.20 25.26C4 28.62 25.56 30.09 25.02 25.46

(b) Difera semnificativ timpii medii decompilare de tipul de program rulat?Justificati.(c) Pentru care dintre compilatoare,timpul mediu de compilare difera sem-nificativ de cel al lui C4?

Exercitiu 12.3 Patru tratamente pentru o anumita eruptie cutanata au fost administratela 20 de pacienti alesi aleator. Datele din tabelul de mai jos reprezinta, pentru fiecaretratament în parte, numarul de zile scurse de la prima aparitie a eruptiei pâna la vindecare.

Tratament Numarul de zileA 5 8 7 7 8B 4 6 6 3 5C 6 4 6 5 4D 7 5 6 6 5

(a) Determinati daca exista diferente semnificativeîntre rezultatele medii ale celor 4 tratamente.(b) Precizati care dintre cele 4 tratamente diferasemnificativ.

Exercitiu 12.4 Patronul unui anumit call center a cerut informatii referitoare la timpulpetrecut de angajatii sai în discutii telefonice cu clientii. Acest call center este deschisnon-stop si angajatii lucreaza în mai multe schimburi. Pentru fiecare schimb, a fostales un esantion de 10 de angajati. Tabelul de mai jos a fost primit prin fax si reprezintarezultatul unui test ANOVA. Din pacate, unele informatii nu s-au transmis corect. Variabiladependenta este timpul (în secunde) petrecut de angajati cu fiecare client.Source of variation SS df MS F Prob>F

Groups 31524.87 18f9 1j4g7r45 1.31584 104411Error T2.34713Y4145 36 1s7l4i5Total 58562.75 39

(a) Câte schimburi exista la call center? Formulati ipotezele testului.(b) Completati valorile sterse din tabel. Care este rezultatul testului la încrederea de 95%?

Page 263: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13. Anexe

. [I am not an outlier;

. I just haven’t found my distribution yet!]

13.1 Scurta introducere în MATLAB

MATLAB este un pachet comercial de programe de înalta performanta produs de TheMathWorks, Inc., dedicat calculului numeric si reprezentarilor grafice în domeniul stiintelorsi ingineriei. Elementul de baza cu care opereaza MATLAB-ul este matricea (MATLAB

este acronim de la MATrix LABoratory). MATLAB este un software standard în mediileuniversitare, precum si în domeniul cercetarii si rezolvarii practice aproblemelor legatede procesarea semnalelor, identificarea sistemelor, calculul statistic, prelucrarea datelorexperimentale, matematici financiare, matematici aplicate în diverse domenii etc. Ceamai importanta caracteristica a MATLAB-ului este usurinta cu care poate fi extins. Laprogramele deja existente în MATLAB, utilizatorul poate adauga propriile sale coduri,dezvoltând aplicatii specifice domeniului în care lucreaza. MATLAB-ul include aplicatiispecifice, numite Toolbox-uri. Acestea sunt colectii extinse de functii MATLAB (fisiere M)care dezvolta mediul de programare de la o versiune la alta, pentru a rezolva probleme dindomenii variate. Structural, MATLAB-ul este realizat sub forma unui nucleu de baza, cuinterpretor propriu, în jurul caruia sunt construite toolbox-urile.Prezentam mai jos o scurta introducere în MATLAB a principalelor functii si comenzifolosite în aceasta lucrare. Pentru o tratare mai detaliata, puteti consulta un manual deutilizare sau [matlab]. Mai mentionam aici si lucrarea [blaga], unde puteti gasi diversemodalitati de implementare în MATLAB ale unor notiuni de Teoria Probabilitatilor siStatistica matematica.Folosind comanda demo din MATLAB, puteti urmari o demonstratie a principalelor facilitati

Page 264: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

264 Capitolul 13. Anexe

din MATLAB, cât si a pachetelor de functii (toolbox) de care ati putea fi interesati. Dintreacestea, amintim Statistics Toolbox, care este o colectie de functii folosite pentru analiza,modelarea si simularea datelor. Contine: analiza graficelor (GUI), diverse repartitiiprobabilistice (beta, binomiala, Poisson, χ2), generarea numerelor aleatoare, analizaregresionala, descrieri statistice.

• Comenzile MATLAB pot fi scrise în fisiere cu extensia .m, ce urmeaza apoi a ficompilate. Un fisier-m consta dintr-o succesiune de instructiuni, cu posibilitateaapelarii altor fisiere-M precum si a apelarii recursive. De asemenea, MATLAB poatefi folosit ca pe un mediu computational interactiv, caz în care fiecare linie esteprelucrata imediat. Odata introduse expresiile, acestea pot fi vizualizate sau evaluateimediat. De exemplu, introducând la linia de comanda

>> a = sqrt((sqrt(5)+1)/2)

MATLAB defineste o variabila de memorie a, careia îi atribuie valoareaa =

1.2720

• Variabilele sunt definite cu ajutorul operatorului de atribuire, =, si pot fi utilizatefara a declara de ce tip sunt. Valoarea unei variabile poate fi: o constanta, un sir decaractere, poate reiesi din calculul unei expresii sau al unei functii.

• Pentru a gasi informatii imediate despre vreo functie predefinita, comanda help vavine în ajutor. De exemplu,

>> help length

afiseaza urmatoarele:

LENGTH Length of vector.

LENGTH(X) returns the length of vector X. It is equivalent

to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.

See also numel.

• Comanda help poate fi utilizata doar daca se cunoaste exact numele functiei. Altfel,folosirea comenzii lookfor este recomandata. De exemplu, comanda

>> lookfor length

produce:

NAMELENGTHMAX Maximum length of MATLAB function or variable name.

VARARGIN Variable length input argument list.

VARARGOUT Variable length output argument list.

LENGTH Length of vector.

• MATLAB este un mediu computational orientat pe lucru cu vectori si matrice. Olinie de cod de forma

Page 265: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.1 Scurta introducere în MATLAB 265

>> v = [1,3,5,7,9] % sau v = [1 3 5 7 9]

defineste un vector linie ce are componentele 1, 3, 5, 7, 9. Aceasta poate fi realizatasi folosind comanda v = 1:2:9 adica afiseaza numerele de la 1 la 9, cu pasul 2.Pentru un vector coloana, folosim punct-virgula între elemente, adica

>> v = [1;3;5;7;9] % vector coloana

O alta varianta de a defini un vector este

>> v = linspace(x1,x2,n)

adica v este un vector linie cu n componente, la intervale egale între x1 si x2.• Definirea matricelor se poate face prin introducerea explicita a elementelor sale sau

prin instructiuni si functii. La definirea explicita, trebuie tinut cont de urmatoarele:elementele matricei sunt cuprinse între paranteze drepte ([ ]), elementele uneilinii trebuie separate prin spatii libere sau virgule, liniile se separa prin semnulpunct-virgula. De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

defineste matriceaA =

1 2 3

4 5 6

• Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j)

(elementele de coloana j) sau A(i,:) (elementele de linia i);• Functia MATLAB ones(m,n) defineste o matrice m×n, având toate componentele

egale cu 1. Functia zeros(m,n) defineste o matrice zero m× n. Functia eye(n)

defineste matricea unitate de ordin n.• Dupa cum vom vedea mai jos, MATLAB permite definirea unor functii foarte

complicate prin scrierea unui cod. Daca functia ce o avem de definit este una simpla,atunci avem varianta utilizarii comenzii inline. Spre exemplu, definim functiaf (x, y) = e5x sin3y:

>> f = inline('exp(5*x).*sin(3*y)')

f =

Inline function:

f(x,y) = exp(5*x).*sin(3*y)

Putem apoi calcula f (7, π) prin

>> f(7,pi)

0.5827

Page 266: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

266 Capitolul 13. Anexe

• Un program MATLAB poate fi scris sub forma fisierelor script sau a fisierelor detip functie. Ambele tipuri de fisiere sunt scrise în format ASCII. Aceste tipuri defisiere permit crearea unor noi functii, care le pot completa pe cele deja existente.Un fisier script este un fisier extern care contine o secventa de comenzi MATLAB.Prin apelarea numelui fisierului, se executa secventa MATLAB continuta în acesta.Dupa executia completa a unui fisier script, variabilele cu care acesta a operat ramânîn zona de memorie a aplicatiei. Fisierele script sunt folosite pentru rezolvarea unorprobleme care cer comenzi succesive atât de lungi, încât ar putea deveni greoaiepentru lucrul în mod interactiv, adica în modul linie de comanda.

Pentru a introduce date în MATLAB, putem copia datele direct într-un fisier MATLAB, prindefinirea unui vector sau a unei matrice de date. De exemplu, urmatoarele date au fostintroduse prin "copy-paste" în matricea data:

>> data = [ % atribuirea valorilor matricei data21.3 24.1 19.9 21.0 % prima linie a datelor copiate

18.4 20.5 17.5 23.2

22.1 16.6 23.5 19.7 % ultima linie a datelor copiate

]; % inchidem paranteza ce defineste matricea de date

Datele din MATLAB pot fi salvate astfel:

>> cd('c:\fisierul_de_lucru'); % alegem fisierul unde salvam datele

>> save Timpi_de_reactie data; % salveaza in fisierul Timpi_de_reactie.mat

Datele pot fi reîncarcate folosind comanda

load Timpi_de_reactie % incarca datele din fisier

Timpi_de_reactie % afiseaza datele incarcate

Fisierele functie

MATLAB creaza cadrul propice extinderii functiilor sale, prin posibilitatea crearii de noifisiere. Astfel, daca prima linie a fisierului .m contine cuvântul function, atunci fisierulrespectiv este declarat ca fiind fisier functie. Variabilele definite si manipulate în interiorulfisierului functie sunt localizate la nivelul acesteia. Prin urmare, la terminarea executieiunei functii, în memoria calculatorului nu ramân decât variabilele de iesire ale acesteia.Forma generala a primei linii a unui fisier este:

function[param_iesire] = nume_functie(param_intrare)

unde:

• function este este cuvântul care declara fisierul ca fisier functie;• nume_functie este numele functiei, care este totuna cu numele sub care se salveaza

fisierul;• param_iesire sunt parametrii de iesire;• param_intrare sunt parametrii de intrare.

Page 267: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.1 Scurta introducere în MATLAB 267

Comenzile si functiile care sunt utilizate de noua functie sunt înregistrate într-un fisier cuextensia .m.Exemplu 13.1 Fisierul medie.m calculeaza media aritmetica a sumei patratelor compo-nentelor unui vector X (alternativ, aceast lucru poate fi realizat prin comanda mean(X.^2)):

function m2 = medie(X)

n = length(X); m2 = sum(X.^2)/n;

MATLAB-ul include aplicatii specifice, numite Toolbox-uri. Acestea sunt colectii extinsede functii MATLAB (fisiere-m) care dezvolta mediul de programare de la o versiune la alta,pentru a rezolva probleme din domenii variate. Statistics Toolbox reprezinta o colectiede functii folosite pentru analiza, modelarea si simularea datelor si contine: generareade numere aleatoare; distributii, analiza grafica interactiva (GUI), analiza regresionala,descrieri statistice, teste statistice.În Tabelul 13.1 am adunat câteva comenzi utile în MATLAB.

Page 268: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

268 Capitolul 13. Anexe

% % permite adaugarea de comentarii in codhelp rand % help specific pentru functia randlookfor normal % cauta intrarile în MATLAB pentru normalX=[2 4 6 5 2 7 10] % vector linie cu 7 elementeX=[3; 1; 6.5 ;0 ;77] % vector coloana cu 5 elementeX = -10:2:10 % vector cu numerele intregi de la −10 la 10, din 2 în 2length(X) % lungimea vectorului Xt=0:0.01:3*pi % defineste o diviziune a [0, 3π] cu diviziunea 0.01X.^2 % ridica toate componentele vectorului X la puterea a douaX.*Y % produsul a doi vectoricumsum(X) % suma cumulata a elementelor vectorului Xcumprod(X) % produsul cumulativ al elementelor vectorului Xmin(X) % realizeaza minimum dintre componentele lui Xmax(X) % realizeaza maximum dintre componentele lu Xsort(X) % ordoneaza componentele lui X în ordine crescatoaresort(X, 'descend') % ordoneaza componentele lui X în ordine descrescatoareerf(X) % functia eroareexp(x) % calculeaza exponentiala ex

log(x) % calculeaza logaritmul natural ln(x)sqrt(x) % calculeaza radicalul ordinului doi dintr-un numarnum2str(x) % furnizeaza valoarea numerica a lui xfactorial(n) % n!A = ones(m,n) % A e matrice m×n, cu toate elementele 1B = zeros(m,n) % matrice m×n zeroI = eye(n) % matrice unitate, n×nA = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] % matrice 3×3size(A) % dimensiunea matricei Adet(A) % determinantul matricei Ainv(A) % inversa matricei AA' % transpusa matricei AA(:,7) % coloana a 7-a a matricei AA(1:20,1) % scoate primele 20 de linii ale lui Anchoosek(n,k) % combinari de n luate câte k1e5 % numarul 105

exp(1) % numarul ebar(X) sau barh(X) % reprezentarea prin barehist(X) % reprezentarea prin histogramehist3(x,y,z) % reprezentarea prin histograme 3-Dplot(X(1:5),'*m') % deseneaza primele 5 componente ale lui X , cu * magenta

plot(t,X,'-') % deseneaza graficul lui X versus t, cu linie continuaplot3(X,Y,Z) % deseneaza un grafic în 3-Dstairs(X) % deseneaza o functie scarasubplot(m,n,z) % împarte graficul în m×n zone & deseneaza în zona zsemilogx si semilogy % logaritmeaza valorile de pe abscia, resp., ordonatahold on % retine graficul pentru a realiza o noua figuraclf % sterge figuraclear all % sterge toate variabilele definitetitle('Graficul functiei') % adauga titlu figuriifind % gaseste indicii elementelor nenule ale unui vectorlegend % ataseaza o legenda la un grafic

Tabela 13.1: Functii MATLAB utile

Page 269: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.2 Repartitii probabilistice uzuale 269

13.2 Repartitii probabilistice uzuale13.2.1 Repartitii discrete

În paranteza, am notat numele cu care repartitia poate fi apelata în MATLAB.

(1) Repartiµia uniform discret , U (n) (unid)

Scriem ca X ∼U (n), daca valorile lui X sunt 1, 2, . . . , n, cu probabilitatile asociate

P(X = k) =1n, k = 1, 2, . . . , n.

Media si dispersia sunt: E(X) =n+1

2, Var(X) =

n2−112

.

D.p.d.v. practic, repartitia uniforma reprezinta observarea unui rezultat elementar în urmaunui experiment aleator cu un numar finit de cazuri posibile echiprobabile. Spre exemplu:

• fata care apare la aruncarea unei monede ideale este o v.a. repartizata U (2);• numarul de puncte care apar la aruncarea unui zar ideal este o v.a. repartizata U (6).

(2) Repartiµia Bernoulli1, B(1, p) (bino)

O variabila aleatoare Bernoulli (scriem X ∼ B(1, p)) poate lua doar doua valori,formalizate matematic prin X = 1 (succes) sau X = 0 (insucces), cu probabilitatileP(X = 1) = p si P(X = 0) = 1− p. Uneori, se foloseste notatia q = 1− p.Media si dispersia sunt: E(X) = p, Var(X) = p(1− p).D.p.d.v. practic, o variabila B(1, p) reprezinta numarul de succese obtinute într-o singuraproba a unui experiment de tip Bernoulli (are doua variante de realizare: succes sau esec).Spre exemplu, numarul de steme aparute la aruncarea unei unei monede corecte poate fimodelat ca fiind o v.a. B(1, 0.5).

(3) Repartiµia binomial , B(n, p): (bino)

Este un model matematic pentru schema bilei revenite (schema extragerilor cu repeti-tie). Scriem ca X ∼B(n, p) (n > 0, p ∈ (0, 1)), daca valorile posibile ale lui X sunt0, 1, . . . , n, cu probabilitatile asociate

P(X = k) =Ckn pk(1− p)n−k, k = 0, 1, . . . , n.

Daca (Xk)k=1,n ∼B(1, p) sunt independente stochastic, atunci X =n

∑k=1

Xk ∼B(n, p).

Media si dispersia sunt: E(X) =n

∑k=1

E(Xk) = np, Var(X) =n

∑k=0

Var(Xk) = np(1− p).

D.p.d.v. practic, o variabila B(n, p) reprezinta numarul de succese obtinute în n repetitiiindependente ale unui experiment de tip Bernoulii (are doua variante de realizare: successau esec). Spre exemplu, numarul de steme aparute în 15 aruncari ale unei monede corectepoate fi modelat ca o v.a. binomiala B(15, 0.5).

1Jacob Bernoulli (1654−1705), matematician elvetian

Page 270: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

270 Capitolul 13. Anexe

(4) Repartiµia hipergeometric , H (n, a, b) (hyge)

Este un model matematic pentru schema bilei nerevenite (schema extragerilor fara repetitie).Scriem ca X ∼H (n, a, b) (n, a, b > 0) daca

P(X = k) =Ck

aCn−kb

Cna+b

, pentru orice k ce satisface max(0, n−b)≤ k ≤min(a, n).

Observatia 13.1 (i) Daca (Xk)k=0,n ∼ B(1, n) sunt variabile aleatoare dependentestochastic, atunci

X =n

∑i=1

Xi ∼H (n, a, b).

Media si dispersia sunt: E(X) =n

∑k=0

E(Xk) = np, Var(X) = np(1− p)a+b−na+b−1

.

În cazul schemei bilei nerevenite, nu mai putem scrie egalitate între Var(X) sin

∑k=0

Var(Xk),

deoarece (Xk)k nu sunt independente stochastic.

(ii) Pentru N = a+b n, putem face aproximareaa+b−na+b−1

≈ a+b−na+b

= 1− nN

, de

unde

Var(X)≈ np(1− p)(

1− nN

). (13.2.1)

Observam ca repartitiile binomiala si hipergeometrica au aceeasi medie, însa dispersiiledifera prin termenul N−n

N−1 . În cazul în care numarul de bile este mult mai mare decâtnumarul de extrageri (N n), atunci acest termen devine aproximativ

(1− n

N

). În plus,

daca N este foarte mare, atunci trecând N→ ∞ în (13.2.1), gasim ca si dispersiile celordoua repartitii coincid. Cu alte cuvinte, când numarul de bile din urna este foarte mare, numai conteaza daca extragerea bilelor se face cu repetitie sau nu. Acest fapt îl vom utiliza înTeoria selectiei, când extragerile se fac dintr-o colectivitate de volum foarte mare.

(5) Repartiµia Poisson2, P(λ ) (poiss)

Valorile sale reprezinta numarul evenimentelor spontane (cu intensitatea λ ) realizate într-unanumit interval de timp. Pentru un λ > 0, spunem ca X ∼P(λ ) (legea evenimentelorrare) daca X ia valori naturale, cu probabilitatile

P(X = k) = e−λ λ k

k!, V k ∈ N.

Media si dispersia sunt: E(X) = λ , Var(X) = λ .

2Siméon-Denis Poisson (1781−1840), matematician si fizician francez, student al lui Laplace

Page 271: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.2 Repartitii probabilistice uzuale 271

(6) Repartiµia geometric , G eo(p) (geo)

Valorile sale reprezinta numarul de insuccese avute pâna la obtinerea primului succes,stiind probabilitatea de obtinere a unui succes la o singura proba este p.Spunem ca X ∼ G eo(p), (p ∈ (0, 1)) daca X ia valori în N, cu probabilitatile

P(X = k) = p(1− p)k, pentru orice k ∈ N, unde p≥ 0.

Media si dispersia sunt: E(X) =1− p

p; Var(X) =

1− pp2 .

Observatia 13.2 (1) Daca X ∼ G eo(p), atunci variabila aleatoare Y = X +1 reprezintaasteptarea pâna la primul succes.(2) Repartitia geometrica satisface asa-numita proprietate a lipsei de memorie, i.e.,

P(X > x+ y/ X > y) = P(X > x), ∀x,y≥ 0.

Este unica distributie discreta cu aceasta proprietate. Printre distributiile de tip continuu,doar distributia exponentiala satisface aceasta proprietate.

(7) Repartiµia binomial cu exponent negativ, BN (m, p) (nbin)

Valorile sale reprezinta numarul de insuccese obtinute înainte de a se realiza succesul derang m. În cazul particular m = 1, obtinem repartitia geometrica.Pentru m ≥ 1, p ∈ (0, 1), spunem ca X ∼ BN (m, p) daca X ia valorile m, m + 1,m+2, . . ., cu probabilitatile asociate

P(X = k) =Cm−1m+k−1 pm(1− p)k, ∀k ≥ m, p≥ 0.

Observatia 13.3 Daca (Xk)k=1,n ∼ G eo(p) sunt v.a. independente stochastic, atunci

X =n

∑k=1

Xk ∼BN (m, p).

Media si dispersia sunt:

E(X) =n

∑k=1

E(Xk) =m(1− p)

p, Var(X) =

n

∑k=1

Var(Xk) =m(1− p)

p2 .

13.2.2 Repartitii continue

(1) Repartiµia uniform , U (a, b) (unif)

Spunem ca variabila aleatoare de tip continuu X urmeaza o repartitie uniforma, scriemX ∼U (a, b) (a < b), daca functia sa de densitate este

f (x; a, b) = 1

b−a , daca x ∈ (a, b),0 , altfel.

Media si dispersia sunt: E(X) =a+b

2, D2(X) =

(b−a)2

12.

Page 272: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

272 Capitolul 13. Anexe

Exemplu: Alegerea la întâmplare a unei valori din intervalul (0, 1), astfel încât oricevaloare are aceeasi sansa de a fi aleasa, urmeaza o repartitie U (0, 1).

(2) Repartiµia normal , N (µ, σ) (norm)

Spunem ca X ∼N (µ, σ), daca X are densitatea:

f (x; µ, σ) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

Media si dispersia sunt: E(X) = µ si Var(X) = σ2.Se mai numeste si repartitia gaussiana. În cazul µ = 0 si σ2 = 1, densitatea de repartitiedevine:

f (x) =1√2π

e−x22 , x ∈ R. (13.2.2)

În acest caz spunem ca X urmeaza repartitia normala standard, N (0, 1).

Graficul densitatii de repartitie pentru repartitia normala este clopotul lui Gauss (veziFigura 13.1). Din grafic (pentru σ = 1), se observa ca majoritatea valorilor nenule alerepartitiei normale standard se afla în intervalul (µ−3σ , µ +3σ) = (−3, 3).

Daca X ∼ N (0, 1), atunci X = σX + µ ∼N (µ, σ). În mod similar, daca X ∼N (µ, σ), atunci X = X−µ

σ∼N (0, 1). Pen-

tru o v.a. N (0, 1) functia de repartitie estetabelata (valorile ei se gasesc în tabele) si areo notatie speciala, Θ(x). Ea e definita prin:

Θ(x) =1√2π

∫ x

−∞

e−y22 dy.

Functia de repartitie a lui X ∼N (µ, σ) estedata prin

F(x) = Θ(x−µ

σ), x ∈ R. Figura 13.1: Clopotul lui Gauss pentru

X ∼N (0, σ), (σ = 1, 2, 3)

Page 273: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.2 Repartitii probabilistice uzuale 273

(3) Repartiµia log-normal , logN (µ, σ) (logn)

Repartitia log-normala este foarte utila în Matematicile Financiare, reprezentând o repartitiede preturi viitoare pentru un activ financiar. Daca X ∼N (µ, σ), atunci Y = eX este o v.a.nenegativa, având densitatea de repartitie

f (x; µ, σ) =

1

xσ√

2πe−

(lnx−µ)2

2σ2 , daca x > 00 , daca x≤ 0

Asadar, Y ∼ logN (µ, σ) daca lnY ∼N (µ, σ).

Media si dispersia sunt: E(X) = eµ+σ2/2, Var(X) = e2µ+σ2(eσ2−1).

(4) Repartiµia exponenµial , exp(λ ) (exp)

Valorile sale sunt timpi realizati între doua valori spontane repartizate P(λ ). Spunem caX ∼ exp(λ ) (λ > 0) daca are densitatea de repartitie

f (x; λ ) =

λe−λx , daca x > 0,0 , daca x≤ 0

Media si dispersia sunt: E(X) =1λ

si Var(X) =1

λ 2 .Repartitia exponentiala satisface asa-numita proprietate a lipsei de memorie, i.e.,

P(X > x+ y/ X > y) = P(X > x), ∀x,y≥ 0.

Este unica distributie continua cu aceasta proprietate. Dintre repartitiile discrete, doarrepartitia geometrica mai satisface aceasta proprietate.

(5) Repartiµia Gamma, Γ(a, λ ) (gam)

O v.a. X este repartizata X ∼ Γ(a, λ ), unde a, λ > 0, daca densitatea sa de repartitie este:

f (x; a, λ ) =

λ a

Γ(a)xa−1e−λx , daca x > 0,

0 , daca x≤ 0.

Aici, Γ este functia lui Euler,

Γ : (0, ∞)→ (0, ∞), Γ(a) =∫

0xa−1e−xdx.

Media si dispersia sunt: E(X) =aλ, Var(X) =

aλ 2 .

Observatia 13.4 (i) Daca n = 1, atunci Γ(1, λ ) ≡ exp(λ ).(ii) Daca v.a. Xkk=1,n ∼ exp(λ ) sunt independente stochastic, atunci suma lor este

variabila aleatoaren

∑k=1

Xk ∼ Γ(n, λ ).

Page 274: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

274 Capitolul 13. Anexe

(6) Repartiµia Weibull3, Wbl(k, λ ) (wbl)

Aceasta repartitie este asemanatoare cu repartitia exponentiala (aceasta obtinându-se încazul particular k = 1) si poate modela repartitia marimii particulelor. Când k = 3.4,distributia Weibull este asemanatoare cu cea normala. Când k→ ∞, aceasta repartitie seapropie de functia lui Dirac.Vom spune ca X ∼Wbl(k, λ ) (k > 0, λ > 0) daca are densitatea de repartitie

f (x; k, λ ) =

( xλ

)k−1 e−(xλ)

k

, daca x≥ 00 , daca x < 0.

În practica, distributia Weibull este utilizata în analiza fiabilitatii, modelând numarul dedefectiuni în timp ale unui sistem/dipozitiv.Media si varianta sunt:

E(X) = λΓ

(1+

1k

), Var(X) = λ

2

(1+

2k

)−(

Γ

(1+

1k

))2].

(7) Repartiµia χ2, χ2(n) (chi2)

Vom spune ca X ∼ χ2(n) (se citeste repartitia hi-patrat cu n grade de libertate) dacadensitatea sa de repartitie este:

f (x; n) =

1

Γ( n2 )2

n2

xn2−1e−

x2 , daca x > 0,

0 , daca x≤ 0.

unde Γ este functia lui Euler. Graficul acestei repartitii (pentru diverse valori ale lui n) estereprezentat în Figura 13.2.Media si dispersia sunt: E(χ2) = n, Var(χ2) = 2n.

(a) Repartitia χ2(n) este, de fapt, repartitia Γ(n2 ,

12).

(b) Daca v.a. independente Xk ∼N (0,1), pentruk = 1, 2, . . . ,n, atunci

X21 +X2

2 + · · ·+X2n ∼ χ

2(n).

În cuvinte, suma patratelor a n erori distribuite nor-mal standard urmeaza o repartitie χ2(n). În particular,daca X ∼N (0,1), atunci X2 ∼ χ2(1).(c) Este foarte utilizata în testarea ipotezelor statis-tice (e.g., teste de concordanta). Figura 13.2: Repartitia χ2(n) pentru

patru valori ale lui n.

3Ernst Hjalmar Waloddi Weibull (1887−1979), matematician si inginer suedez

Page 275: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.2 Repartitii probabilistice uzuale 275

(8) Repartiµia Student (W. S. Gosset4), t(n) (t)

Spunem ca X ∼ t(n) (cu n grade de libertate) daca densitatea de repartitie este:

f (x; n) =Γ(n+1

2

)√

nπ Γ(n

2

) (1+x2

n

)− n+12

, x ∈ R.

Media si dispersia sunt: E(X) = 0, Var(X) =n

n−2.

Aceasta repartitie este foarte utilizata în testarea ipotezelor statistice (test pentru mediaunei populatii statistice).

(9) Repartiµia Fisher5, F (m, n) (f)

Spunem ca X ∼F (m, n) (cu m, n grade de libertate) daca densitatea de repartitie este:

f (x) =

(mn )

m2 Γ(m+n

2 )Γ(m

2 )Γ( n2)

xm2−1 (1+ m

n x)−m+n

2 , daca x > 0;

0 , daca x≤ 0.

Media si dispersia sunt: E(X) =n

n−2, Var(X) =

2n2(n+m−2)m(n−2)2(n−4)

.

Aceasta repartitie este foarte utilizata în testarea ipotezelor statistice (test pentrucompararea dispersiilor unor populatii statistice).

(10) Repartiµia Cauchy6, C (λ , µ) (fara corespondent în MATLAB)

Spunem ca X ∼ C (λ , µ) daca densitatea de repartitie este:

f (x; λ , µ) =λ

π[(x−µ)2 +λ 2], x ∈ R.

NU admite medie, dispersie sau momente!!!

. [Q: What’s the question the Cauchy distribution hates the most?

. A: Got a moment?]

4William Sealy Gosset (1876−1937), statistician britanic, care a publicat sub pseudonimul Student5Sir Ronald Aylmer Fisher (1890−1962), statistician, eugenist, biolog si genetician britanic6Augustin Louis Cauchy (1789−1857), matematician francez

Page 276: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

276 Capitolul 13. Anexe

13.3 Tabele de valori critice

Tabela 13.2: Cuantile pentru repartitia N (0, 1). Pentru un α , tabelul afiseaza cuantila zα pentrucare P(X ≤ zα) = α , unde X ∼N (0, 1). De remarcat faptul ca: z1−α =−zα .

Page 277: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.3 Tabele de valori critice 277

Tabela 13.3: Tabel cu valori ale functiei lui Laplace, Θ(x) =1

∫ x

−∞

e−t22 dt, x ∈ R.

Pentru a calcula Θ în valori negative, folosim faptul ca Θ(−x) = 1−Θ(x), ∀x > 0Pentru x <−3, Θ(x)≈ 0, iar pentru x > 3, Θ(x)≈ 1.

Page 278: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

278 Capitolul 13. Anexe

1 Table des quantiles de la v.a. Chi-Carre

Fournit les quantiles xp tels queP(X≤xp)= ppour X ∼ χ2

n

n / p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995n1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,882 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,603 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,844 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,865 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,756 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,557 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,288 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,959 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,5910 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,1911 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,7612 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,3013 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,8214 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,3215 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,8016 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,2717 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,7218 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,1619 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,5820 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,0021 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,4022 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,8023 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,1824 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,5625 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,9326 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,2927 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,6428 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,9929 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,3430 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,6740 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,7750 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,4960 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,9570 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,280 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,390 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2

1

Tabela 13.4: Cuantile pentru repartitia χ2(n). Pentru un α = p si un n, tabelul afiseaza cuantilaχ2

α,n pentru care P(X ≤ χ2α,n) = α , unde X ∼ χ2(n).

Page 279: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.3 Tabele de valori critice 279

Tabela 13.5: Cuantile pentru repartitia t(n). Pentru un α si un n≥ 1, tabelul afiseaza cuantila tα,n

pentru care P(X ≤ tα,n) = α , unde X ∼ t(n). Pentru 0 < α < 1, n≥ 1, avem ca tα,n =−t1−α,n.

Page 280: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

280 Capitolul 13. Anexe

Tabela 13.6: Cuantile pentru repartitia F (m, n). Pentru un α si un n, tabelul afiseaza cuantilafα,m, n pentru care P(X ≤ fα,m,n) = α , unde X ∼F (m, n). De asemenea, fα,m, n =

1f1−α,n, m

.

Page 281: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.3 Tabele de valori critice 281

Tabela 13.7: Valori critice pentru testul seriilor. Aici, α1 reprezinta nivelul de semnificatiepentru testul unilateral si α2 pentru testul bilateral.

Page 282: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

282 Capitolul 13. Anexe

Tabela 13.8: Valori critice pentru testul Wald-Wolfowitz, pentru nivelul de semnificatieα = 0.05.

Page 283: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.3 Tabele de valori critice 283

Tabela 13.9: Valori critice c si c1 pentru testul semnului rangurilor Wilcoxon, pentrunivelul de semnificatie. Aici, P(S∗ ≥ c1)≈ α si P(S∗ ≥ c)≈ α

2 cand (H0) este acceptata.

Page 284: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

284 Capitolul 13. Anexe

Tabela 13.10: Valori critice pentru testul semnului rangurilor Wilcoxon (caz bilateral).

Page 285: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

13.3 Tabele de valori critice 285

Tabela 13.11: Valori critice pentru testul semnului rangurilor Wilcoxon (caz unilateral).

Page 286: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘
Page 287: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

Bibliography

[1] Petru Blaga, Statistica. . . prin Matlab, Presa universitara clujeana, Cluj-Napoca,2002.

[2] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[3] David Brink, Statistics exercises, David Brink & Ventus Publishing ApS, 2008.

[4] Gheorghe Ciucu, Virgil Craiu, Teoria estimatiei si verificarea ipotezelor statistice,Editura Didactica si Pedagogica, Bucuresti, 1968.

[5] Steve Dobbs, Jane Miller, Statistics 1, Cambridge University Press, Cambridge 2000.

[6] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications(with CD-ROM), Duxbury Press, 2006.

[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Introduction to MathematicalStatistics, Prentice Hall, 6th edition, 2004.

[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Micaenciclopedie de statistica, Editura stiintifica si enciclopedica, Bucuresti, 1985.

[9] http://www.mathworks.com

[10] Gheorghe Mihoc, N. Micu, Teoria probabilitatilor si statistica matematica, Bucuresti,1980.

[11] Octavian Petrus, Probabilitati si Statistica matematica - Computer Applications, Iasi,2000.

[12] Sanford Weisberg, Applied Linear Regression, Wiley series in Probability and Statis-tics, 3rd ed., 2005.

Page 288: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

288 BIBLIOGRAPHY

[13] Larry J. Stephens, Theory and problems of Beginning Statistics, Schaum’s OutlineSeries, 2nd ed., The McGraw-Hill Companies, Inc., 1998.

[14] Dominick Salvatore, Derrick Reagle, Theory and problems of Statistics and Eco-nometrics, Schaum’s Outline Series, 2nd ed., The McGraw-Hill Companies, Inc.,2002.

[15] Iulian Stoleriu, Statistica prin MATLAB. MatrixRom, Bucuresti, 2010.

[16] Gábor Székely, Paradoxes in Probability Theory and Mathematical Statistics, (Ma-thematics and its Applications), Springer Verlag, 1987.

[17] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambri-dge University Press, 2001.

Page 289: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

Glosar

amplitudinea, 46amplitudinea de selectie, 65ANOVA, 241

bootstrapping, 176box-and-whisker plot, 48

caracteristica, 5cauzalitate, 193, 195clasa mediana, 50clasificare, 218clopotul lui Gauss, 268coeficient de aplatizare, 12, 47coeficient de asimetrie, 12, 47coeficient de corelatie, 14coeficient de corelatie, 46coeficient de corelatie empirica, 193coeficient de corelatie teoretic, 14, 193coeficientul de corelatie Kendall, 197coeficientul de corelatie Spearman, 196coeficientul de corelatie empiric, 44coeficientul de determinare, 195coeficientul de variatie , 46colectivitate statistica, 5corelatia, 13, 46, 192corelatia empirica, 194corelatia teoretica, 14, 192corelatie, 191

cota, 219covarianta, 13cuantile, 12

date continue, 6, 36date discrete, 6, 36date perechi, 156densitati de frecventa, 41deplasarea unui estimator, 80deviatia standard de selectie, 16deviatia standard, 46diagrama cuantila-cuantila, 44diagrama probabilitate-probabilitate, 44dispersia, 46dispersia de selectie, 15, 62dispersia teoretica, 61dispersia teoretica, 10distributie empirica de selectie, 37

eroare în medie patratica, 80estimatie, 79estimator, 79estimator consistent, 81estimator de verosimilitate maxima, 82estimator nedeplasat, 80estimator prin metoda momentelor, 84

factori, 241faza, 157

Page 290: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

290 GLOSAR

frecventa cumulata, 39frecventa absoluta, 37frecventa cumulata, 37frecventa relativa cumulata, 37frecventa relativa, 37, 179frontiera de decizie, 220frontierele unei clase, 43functia cost, 220functie de regresie, 204functia de probabilitate (de frecventa), 8functie de repartitie, 61functie de repartitie (cumulata), 9functie de repartitie de selectie, 16, 63functie de repartitie empirica, 46

histograma, 41homoscedasticitate, 243

inferenta, 61interval de încredere, 85ipoteza statistica, 107, 108

kurtosis, 12, 47

legea tare a numerelor mari, 17lipsa de memorie, 267, 269

media, 45media de selectie, 15, 61media teoretica, 61media teoretica, 10mediana de selectie, 65metoda Monte Carlo, 178modul, 13momente, 45momente centrate ale unei v.a., 11

nivel de semnificatie, 86, 108niveluri, 241

ogiva, 44

P-valoare, 108populatie statistica, 5predictie, 211probabilitate de risc, 86prognoza, 212

recensamânt, 6

regresie, 191, 203, 224regresie liniara multipla, 204regresie liniara simpla, 204, 205regresie logistica, 205, 218regresie logistica (simpla), 219regresie logistica multipla, 219regula celor 3σ , 11repartitia mediei de selectie, 67repartitia χ2, 270repartitia normala standard, 268repartitia range standardizat, 245riscul beneficiarului, 108riscul furnizorului, 108

scatter plot, 192selectie, 6selectii pentru caracteristici normale, 66serie de timpi, 37skewness, 12, 47softmax, 221statistica, 14, 15, 60, 61statistici de ordine, 64stem-and-leaf, 39stimuli, 203

tabel de contingenta, 134tabel de frecvente, 37tabele de valori critice, 272teorema limita centrala, 17test bilateral, 109test de concordanta, 125test de independenta, 133test de mediana, 154test de normalitate, 144test de permutari, 174test de reesantionare, 173test neparametric, 153test pentru dispersie, 112test pentru medie, 111test pentru proportie, 113test statistic, 109, 131test unilateral dreapta, 109test unilateral stânga, 109testarea stochasticitatii, 157testul χ2, 125, 130testul F , 114testul t pentru date perechi, 162

Page 291: Statistica Aplicat˘ a˘ Iulian Stoleriustoleriu/AppStats2019.pdf · 1. No¸tiuni recapitulative. Statistics is the art of never having to say that you are wrong 1.1Popula¸tie statistica˘

GLOSAR 291

testul exact al lui Fisher, 137testul K-S, 128, 129testul semnelor, 154, 156, 165testul seriilor, 157, 166testul Wald-Wolfowitz, 159testul Wilcoxon, 163, 167

UMVUE, 81

valori de selectie, 60variabila predictor , 192variabila raspuns, 192variabila aleatoare, 7variabila aleatoare standardizata, 11variabila dependenta, 203variabila independenta, 203variabila raspuns, 203variabile aleatoare de selectie, 60

zgomot alb, 246