58
C A P I T O L U L 9 Verificarea ipotezelor statistice. Ipoteze parametrice. Teste de concordanţă 9.1 Ipotezele statistice şi verificarea lor. Variabila aleatoare X este complet determinată numai atunci când se cunosc a) forma funcţiei de repartiţie F şi b) valorile parametrilor asociaţi acestei funcţii. Pentru cunoaşterea acestor două elemente de bază, se fac ipoteze, numite ipoteze statistice. O ipoteză statistică poate fi adevărată sau falsă. De aceea ipoteza trebuie verificată. Verificarea se face pe baza unei selecţii de volum n asupra variabilei X . Valoarea lui n este la dispoziţia utilizatorului. Mulţimea tuturor valorilor posibile ale lui X formează o populaţie. Selecţia se face din această populaţie sau se generează cu ajutorul calculatorului valori aleatoare (independente şi identic repartizate) asupra lui X 9.1.1 Tipuri de risc întâlnite la verificarea ipotezelor statistice. În general o ipoteză statistică se notează cu H . Ipoteza este formulată de către utilizatorul selecţiei. Ipoteza poate fi adevărată sau poate fi falsă, adică întotdeauna există riscul de a formula o ipoteză greşită. Prezentăm câteva definiţii foarte utile la verificarea ipotezelor statistice. Ipoteza care trebuie verificată se notează cu şi se numeşte ipoteza nulă. Ipoteza alternativă lui se numeşte ipoteza contrară şi se notează prin . Se numeşte test statistic (the test of goodness of fit) orice procedeu de verificare a unei ipoteze. Din cauza caracterului întâmplător ale selcţiei , există întotdeauna riscul de a lua o decizie greşită, adică există riscul să facem o eroare şi să respingem ipoteza , deşi în realitate

Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Embed Size (px)

DESCRIPTION

Verificarea Ipotezelor Statistice Teste de Conc Word NP

Citation preview

Page 1: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

C A P I T O L U L 9

Verificarea ipotezelor statistice.Ipoteze parametrice. Teste de concordanţă

9.1 Ipotezele statistice şi verificarea lor. Variabila aleatoare X este complet determinată numai atunci când se cunosc a) forma funcţiei de repartiţie F şi b) valorile parametrilor asociaţi acestei funcţii. Pentru cunoaşterea acestor două elemente de bază, se fac ipoteze, numite ipoteze statistice. O ipoteză statistică poate fi adevărată sau falsă. De aceea ipoteza trebuie verificată. Verificarea se face pe baza unei selecţii de volum n asupra variabilei X . Valoarea lui n este la dispoziţia utilizatorului. Mulţimea tuturor valorilor posibile ale lui X formează o populaţie. Selecţia se face din această populaţie sau se generează cu ajutorul calculatorului valori aleatoare (independente şi identic repartizate) asupra lui X

9.1.1 Tipuri de risc întâlnite la verificarea ipotezelor statistice. În general o ipoteză statistică se notează cu H . Ipoteza este formulată de către utilizatorul selecţiei. Ipoteza poate fi adevărată sau poate fi falsă, adică întotdeauna există riscul de a formula o ipoteză greşită. Prezentăm câteva definiţii foarte utile la verificarea ipotezelor statistice. Ipoteza care trebuie verificată se notează cu şi se numeşte ipoteza nulă. Ipoteza alternativă lui se numeşte ipoteza contrară şi se notează prin . Se numeşte test statistic (the test of goodness of fit) orice procedeu de verificare a unei ipoteze. Din cauza caracterului întâmplător ale selcţiei , există întotdeauna riscul de a lua o decizie greşită, adică există riscul să facem o eroare şi să respingem ipoteza , deşi în realitate ea este adevărată, sau să acceptăm ipoteza , deşi ea este falsă. Aceste riscuri sunt erori probabiliste legate de o ipoteză H şi se notează prin (eroare de genul întâi; se respinge ipoteza , când ea este adevărată); (eroare de genul doi; se acceptă ipoteza , când ea este falsă). Valoarea se numeşte prag sau nivel de semnificaţie. Valoarea se numeşte nivel de încredere. Valoarea de a nu face eroare de genul doi se numeşte puterea testului. Puterea este cu atât mai mare cu cât este mai mic. Cu o mare probabilitate trebuie să acceptăm ipoteza , când ea este adevărată. În aplicaţii numerice se recomandă următoarele nivele de semnificaţie : 0,001; 0,005; 0,025;0,05; 0,10; 0,20. Probabilităţile şi trebuie să fie foarte mici, dar nu există o regulă generală care să spună care valoare să fie mai mică. Doar consideraţiile practice pot genera o ierarhizare a mărimilor celor două tipuri de erori: se alege răul cel mai mic. De exemplu, a accepta un medicament toxic (eroare de genul doi) este mai gravă decât a respinge un medicament bun (eroare de genul întâi) [19; pag 153]. Ipoteza nulă poate fi de trei feluri a) Ipoteza unilaterală stângă ; ipoteza contrară ; b) Ipoteza unilaterală dreaptă ; ipoteza contrară ; c) Ipoteza bilaterală ; ipoteza contrară .

Page 2: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

9.1.2 Tipuri de teste întâlnite la verificarea ipotezelor statistice. Dacă ipoteza formulată este asupra valorii unui parametru sau , atunci testul se numeşte test parametric. Dacă ipoteza formulată este legată de forma funcţiei de repartiţie, atunci testul se numeşte test de concordanţă. Cele mai des folosite teste de concordanţă sunt testul Hi pătrat (al lui Karl Pearson) şi testul Kolmogorov. Prin aceste teste se verifică dacă există concordanţă între datele numerice furnizate de experienţă şi forma legii teoretice propusă (formulată) de utilizator. Cu alte cuvinte, funcţia ipotetică din ipoteza se compară cu funcţia de repartiţie a selecţiei de date folosite. Testele de verificare a ipotezelor statistice se aplică la variabile aleatoare discrete sau continue.

9.2 Descrierea algoritmică a testului Hi părtrat în cazul unidimensional. Descrierea este valabilă pentru X variabilă aleatoare continuă sau discretă. Micile diferenţe specifice vor fi menţionate la locul potrivit. 9.2.1 Descrierea generală a testului Hi pătrat, în cazul continuu şi în cazul discret. I. Notăm cu domeniul în care variabila aleatoare X ia valori. Pentru o problemă concretă acest domeniu este dat sau este calculat. II. Notăm cu L un număr natural (ales de utilizator) aşa încât domeniul are partiţia ; , unde punctele de diviziune pot fi echidistante, cu norma constantă, sau pot fi neechidistante, cu norma variabilă.

III. Se dau sau se calculează valorile (punctele) ; ale partiţiei.

IV. Utilizatorul alege un număr natural N şi selecţia . Cu ajutorul acestora determină frecvenţele absolute ale valorilor care cad în intervalul . V.a. Cazul specificat, cu parametrii cunoscuţi. Pentru funcţia de repartiţie F (continuă) propusă prin ipotrza se calculează probabilităţile condiţionate

; (am notat ).

V.b. Cazul nespecificat, cu parametrii necunoscuţi. Întăi se estimează parametri necunoscuţi şi notăm estimaţiile prin . Apoi, pentru variabilă aleatoare continuă se calculează probabilităţile condiţionate

; (am notat ).

În ambele cazuri trebuie şi .

VI.a. Cazul specificat. Pentru testul Hi pătrat se calculează statistica . Statistica T

este o variabilă aleatoare care depinde de datele de selecţie. Se ştie (H. Cramer, 1947; I. Văduva. 1970) că T este variabilă Hi pătrat cu L – 1 grade de libertate; .

VI.b. Cazul nespecificat. Pentru testul Hi pătrat se calculează statistica . Se ştie că

este variabilă Hi pătrat cu grade de libertate, unde .

VII. Se alege de către rezolvitor pragul de semnificaţie (riscul de tipul întâi). Din tabelul lui se alege -cuantila corespunzătoare, notată sau . VIII.a. Cazul specificat. Pasul de decizie.

Page 3: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Dacă (valoarea calculată este mai mică decât valoarea din tabelă) atunci ipoteza nulă

este acceptată, cu riscul .

Dacă (valoarea calculată este mai mare decât valoarea din tabelă ) atunci ipoteza nulă

este respinsă, cu riscul . VIII.b. Cazul nespecificat. Pasul de decizie. Dacă (valoarea calculată este mai mică decât valoarea din tabelă) atunci ipoteza nulă

este acceptată, cu riscul . Dacă (valoarea calculată este mai mare decât valoarea din tabelă ) atunci ipoteza nulă este respinsă, cu riscul . Observaţia 1. În cazul continuu, alegerea convenabilă a punctelor din diviziunea poate uşura calcularea probabilităţior condiţionate şi .

9.2.2 Descrierea generală a testului Hi pătrat, în cazul discret. În aplicaţii, cel mai des se întâlneşte cazul variabilei aleatoare discrete X . De aceea facem o prezentare a testului Hi pătrat în cazul discret. Ipoteza . Selecţia asupra variabilei aleatoare X are repartiţia: (urmează numele repartiţiei). Să se verifice ipoteza , cu pragul de semnificaţie .

Pasul 0. Notăm variabila aleatoare prin , unde legea de probabilitate are formă

cunoscută. Eventual se scrie forma lui şi .

Valorile numerice şi sunt cunoscute din datele problemei în care se formulează ipoteza .

Valorile se numesc frecvenţe absolute. Notăm suma tuturor frecvenţelor absolute.

Dacă valoarea parametrului este necunoscută, atunci la început se estimează cu ajutorul unei metode de verosimilitate maximă şi dispersie minimă. Exemplul 1. Datele de selecţie au repartiţie Poisson

; ; ; sau .

Se ştie că ; ; ; .

Exemplul 2. Datele de selecţie au repartiţie exponenţială discretizată

; ; ; ;

; ; ; ; .

Observaţia 2. În cazul tabelelor de contingenţă (problema 3) nu există parametru . Se formulează o ipoteză de alt tip decât cea definită printr-o lege de repartiţie. Pentru verificarea iporezei se aplică testul Hi pătrat, numit test neparametric. Continuăm descrierea testului Hi pătrat, în cazul parametric sau cel neparametric. Pasul 1. Pe baza ipotezei formulate se calculează Varianta 1. frecvenţele teoretice ; sau Varianta 2. probabilităţile teoretice ; .

Page 4: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Pasul 2. Se calculează şi se întocmeşte un tabel cu valorile

Varianta 1. ; ; ; ; ; .

Varianta 1. ; ; ; ; ; .

Pasul 3. Se calculează statistica T care corespunde datelor de selecţie şi ipotezei .

Varianta 1. (suma este extinsă asupra tuturor valorilor lui k ).

Varianta 2. (suma este extinsă asupra tuturor valorilor lui k ).

Variabila aleatoare T are repartiţie Hi pătrat. Pasul 4. Se determină numărul al gradelor de libetate pentru T , cu ajutorul formulei , unde s = numărul de vaori de selecţie . observaţii pentru care , iar = numărul de parametri estimaţi. . Observaţia 3. Practica celor care lucrează în domeniul statisticii recomandă ca în valoarea s să fie cuprinse numai valorile pentru care . În cazul tabelelor de contingenţă (problema 3) cu r linii şi c coloane, numărul gradelor de libertate se calculează cu formula . Pasul 5. După cunoaşterea numărului al gradelor de libertate, statistica T se notează . Pasul 6. În continuare se foloseşte pragul de semnificaţie ales . Din tabela repartiţiei Hi pătrat se ia valoarea (cuantila) corespunzătoare, notată sau . Pasul 7. Pasul de decizie. Dacă (valoarea calculată este mai mică decât valoarea din tabelă) atunci ipoteza nulă este acceptată, cu riscul . Dacă (valoarea calculată este mai mare decât valoarea din tabelă ) atunci ipoteza nulă este respinsă, cu riscul .

9.2.3 Generarea variabilelor aleatoare normale şi a vectorilor aleatori normali. În aplicaţii foarte des se verifică dacă un şi de date au repartiţie normală. Notăm variabila normală prin

şi vectorul normal prin . a) Variabilă aleatoare de tip . Întâi generăm N numere aleatoare X de tip . Notaţia N este de sine stătătoare, fără legătură cu semnificaţia din secţiunile anterioare. Pentru generare folosim, de exemplu, procedura , unde NI este un număr oarecare natural impar (odd) necesar la iniţializarea procedurii. Apoi construim N variabile , . Variabila are tipul , unde m şi sunt cunoscute. b) Vector aleator de tip . Vectorul şi matricea simetrică pozitiv definită de tip

sunt date. Se activează de n ori procedura şi se obţine vectorul , unde fiecare component este de tip . Astfel, vectorul Y are tipul , unde este vectorul nul, iar I este matricea unitate. Apoi construim vectorul , de forma ; ; T este operaţia de transpunere; C matrice de tipul .

Page 5: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Astfel, vectorul are repartiţie normală multidimensională , iar C este matrice inferior triunghiulară care se obţine unic din matrice cunoscută. Dacă notăm şi , atunci

; ;

; ;

, ; , .

Procedura RJNORM se află în secţiunea RAVAGE din Mathlib Library. În locul lui RJNORM se poate folosi procedura RNORM din Mathcad Library.

9.3 Testul Hi pătrat în cazul normal unidimensional Până acum funcţia F a fost orice funcţie de repartiţie. În continuare reprezintă repartiţia normală

, care are densitate de probabilitate

; .

, . În cazul specificat, parametrii sunt cunoscuţi. În cazul nespecificat, vectorul parametrilor este necunoscut şi trebuie estimat. În general, deviaţia standard măsoară riscul de producere a unui fenomen nedorit [6].

9.3.1 Determinarea coordonatelor punctelor din partiţia . Partiţia are puncte şi L intervale. Punem şi . Deci, mai avem de determinat punctele . Pentru calaritae uneori notăm . În general N este un număr foarte mare. De aceea luăm un număr natural din selecţia

. Pentru unele calcule folosim numai primele valori din selecţie. a) Se calculează numerele A şi B definite prin

, , (1)

b) Calculăm ; ; (2)

Toate intervalele au aceeaşi lungime h . c) Coordonatele punctelor au forma ; ; , i=2, L-2 .

9.3.2 Cazul nespecificat. Estimarea parametrilor şi calcularea probabilităţilor. . Estimăm parametrii m şi . Notăm cu mijlocul intervalului .

şi , .

Estimaţia lui m este ; estimaţia lui este . Folosim formulele

Page 6: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

(3)

(4)

Calcularea probabilităţilor şi . În cazul specificat calcularea probabilităţilor se face cu formula

, unde

, i=1, L. (5)

În cazul nespecificat se folosesc aceleaşi formule ca mai sus, dar cu în loc de m şi în loc de . Folosirea formulei (5) nu este foarte simplă. De aceea întâi cercetăm cazul şi . Pentru

formula (5) devine , i=1, L (6)

Pentru a calcula şi prin (5) folosim bibliotecile Mathcad sau Mathlib, unde găsim procesurile

(subprogramele) sau erf (z, val) , cu

(7)

Asemănarea dintre (6) şi (7) generează idea de a transforma variabila X de tipul în variabila U

de tipul , prin . Variabila U are tipul . Deci reducem formula (5) la (6) şi calculăm

(6) prin (7). Propoziţia 1. Formula (7) generază formula:

, (8)

Demonstraţie. . În (7) punem şi obţinem

. (End).

Consecinţa 1. Intervalele , pentru variabila X de tipul devin intervalele pentru variabila U de tipul prin translaţia

. (9)

Analog pentru cazul nespecificat . Discuţie. Relativ la numerele reale A şi B din formula (1) şi poziţia valorii medii m din funcţia lui Gauss exista trei posibilităţi: . În fiecare caz trebuie să calculăm probabilităţile .

Page 7: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Notăm , , . Atunci

(10)

(11)

unde sgn este funcţia semn signum. Consecinţa 2. Pentru şi există de asemanea trei posibilităţi ; ;

. Toate aceste posibilităţi generează valorile

; (12)

Consecinţa 3. (13)

În aplicaţii, formulele (11) şi (13) trebuie să dea acelaşi rezultat. Procedura (subrutina) erf poate fi activate din Mathcad.

9.3.3 Algoritmul Hi pătrat pentru repartiţia normală, în cazul specificat. Algoritmul care urmează este numit algoritmul NS (normal specificat). 1 Utilizatorul alege domeniul şi valorile numerice . Se alege din tabela Hi pătrat

valoarea numerică (cuantila) .

2 Se generează sau se dau valorile . 3 Se calculează cu formulale (1) şi (2). Observaţie. În loc să se calculeze A şi B prin (1), cu o bună aproximare se poate folosi regula celor 3 (din inegalitatea lui Cebâşev): . 4 Se calculează coordonatele şi se construiesc intervalele . 5 Se determină sau se dau frecvenţele absolute ale valorilor care cad în intervalul . Dacă

, atunci . 6 Se calculează punctele cu ajutorul formulei (9) şi se adaugă . 7 Se activează programul erf şi se calculează probabilităţile prin (10) şi (11). 8 Se activează programul erf şi se calculează probabilităţile prin (12).

9 Opţional. a) se verifică dacă sau valoarea este chiar 1.

b) se verifică dacă există concordanţă între rezultatele de la (11) şi (13).

10 Se calculează statistica .

11 Pasul de decizie. Se compară valoarea T cu valoarea din tabela Hi pătrat .

Dacă T < , atunci ipoteza se acceptă cu riscul .

Page 8: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Dacă T > , atunci ipoteza se respinge cu riscul .

9.3.4 Algoritmul Hi pătrat pentru repartiţia normală, în cazul nespecificat. Algoritmul care urmează este numit algoritmul NNS (normal nespecificat). 1 Utilizatorul alege domeniul şi valorile numerice . Se alege din tabela Hi pătrat

valoarea numerică (cuantila) = . Numărul gradelor de libertate este deoarece avem de estimat 2 parametri. 2.- 5. Paşii 2-5 sunt identici cu cei de la algoritmul NS. Observaţia 4. În loc să se calculeze A şi B prin (1), cu o bună aproximare se poate folosi regula celor 3 (din inegalitatea lui Cebâşev): .

6 Calculăm valorile şi estimăm valorile prin (3) şi (4).

7 Calculăm punctele prin (9) şi adăugăm .

8 Calculăm , . Activăm programul erf şi calculăm

prin formulele (10) şi (11). 9 Activăm programul erf şi calculăm probabilităţile prin formula (12).

10 Opţional. a) Verificăm dacă sau chiar valoerea 1.

b) Verificăm concordanţa dintre formulele (11) şi (13).

11 Calculăm statistica .

12 Pasul de decizie. Se compară valoarea T cu valoarea din tabela Hi pătrat .

Dacă T* < , atunci ipoteza se acceptă cu riscul .

Dacă T* > , atunci ipoteza se respinge cu riscul .

9.3.5 Exemple numerice pentru validarea algoritmului NS şi NNS. Algoritmul NS. Cazul speciticat. Folosim următoarele date de intrare: , N =1000, , L=30, m =0,0, , sau ,

p este probabilitatea ca ipoteza : datele au repartiţie normală, să fie acceptată. Rezultatele numerice obţinute prin calcul sunt

(min), (max), , ; ipoteza este acceptată.

Algoritmul NNS. Cazul nespeciticat. Folosim următoarele date de intrare:

Page 9: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

, N=1000, , L=30, sau ,

p este probabilitatea ca ipoteza : datele au repartiţie normală, să fie acceptată. Rezultatele numerice obţinute prin calcul sunt (min), (max),

(estimaţii)

, ; ipoteza este respinsă.

9.4 Testul Hi pătrat în cazul repartiţiei lognormale unidimensionale 9.4.1 Repartiţia lognormală. Proprietăţi. [16]. Variabila aleatoare continuă X are repartiţie lognormală cu parametrii m şi dacă densitatea ei de repartiţie are forma

, x>0, .

Parametrii au semnificaţia: m este logaritmul natural al valorii medii, iar este logaritmul natural al deviaţiei standard. Proprietăţi.

;

,

(graficul funcţiei f este asimetric) .

9.4.2 Algoritmul Hi pătrat pentru repartiţia lognormală în cazul nespecificat. Algoritmul care urmează este numit algoritmul logNNS. [16]. 1 Datele algoritmului. Domeniul valorilor este şi valorile , valoarea este aleasă

de către utilizator. Se ia din tabela valorilor Hi pătrat cuantila .

2 Se generează selecţia . 3 Se calculează valorile A, B, h prin (1) şi (2). 4 Se calculează coordonatele şi se construiesc intervalele . 5 Se dau sau se calculează frecvenţele absolute ale valorilor care cad în intervalul . Dacă

, atunci . 6 Se calculează valorile şi se estimează prin (3). Valoarea se estimează prin metoda Peck şi Trap method [6] , care este legată de durata medie de viaţă a unui semiconductor care lucrează la temperature t . 7. Se calculează punctele prin formula (14) Apoi adăugăm punctele .

Page 10: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

8 Se activează Mathcad cu programul erf şi se calculează probabilităţile . Pentru aceasta se folosesc formulele

;

.

9 Se calculează statistica .

10 Pasul de decizie. Se compară cu valoarea luată din tabela Hi pătrat. .

Dacă atunci se acceptă ipoteza cu riscul .

Dacă atunci se respinge ipoteza cu riscul .

9.5 Testul Hi pătrat în cazul normal multidimensional. Cazul specificat. Vectorul aleator , are repartiţie normală multidimensională dacă densitatea sa de

probabilitate este , unde

este vectorul valoare medie, iar este matrice simetrică pozitiv definită de tip , numită matricea de covarianţă a lui . Ipoteza testului Hi pătrat este : datele numerice din vectorul aleator are distribuţia . Dacă şi sunt cunoscute, atunci testul aparţine cazului specificat; dacă şi sunt necunoscute, atunci testul aparţine cazului nespecificat. 9.5.1 Înlocuirea ipotezei prin ipoteza echivalentă . În ambele cazuri descrierea testului Hi pătrat este similară cu testul Hi pătrat din cazul unidimensional, dar probabilităţile se calculează prin integrale multiple pe domeniile . Calcularea lui este foarte

dificilă şi de aceea ipoteza se înlocuieşte cu ipoteza . Pentru a formula noua ipoteză , facem căteva notaţii , ,

, (15)

, .

Prin aceasta reducem cazul multidimensional la cazul unidimensional. Se ştie că variabla Z este de tip cu n grade de libertate şi

, . Curba are maximul pentru valoarea . Graficul lui este foarte asimetric pentru

şi devine simetric . Atunci noua ipoteză are forma : variabila are distribuţia .

Page 11: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Prin folosirea ipotezei , domeniile devin intervalele pe axa reală, adică . ,

. Domeniul de variaţie al lui j va fi lămurit mai jos. Punctele reale pot fi date a priori de către urilizator sau pot fi calculate prin metode matematice.

9.5.2 Calcularea coordonatelor punctelor . Funcţia îşi atinge maximul pentru valoarea cunoscută . Prin aceasta putem corela valoarea

cu intervalele şi cu punctele . Un interval foarte important legat de valoarea este notat , unde c este un număr natural ; valoarea c este calculată prin etapele de mai jos. Întâi se ştie că L este ales de către utilizator aşa încât . Apoi pe axa reală se construiesc intervalele din ce în ce mai mici, situate în partea stângă a lui , aşa încât . În mod similar pe axa reală se construiesc intervalele din ce în ce mai mici, situate în partea dreaptă a lui , aşa încât . Poziţia intervalelor şi a punctelor are forma ........ ....... ...... ...... , , . Notăm prin lungimea intervalului ; . Calcularea coordonatelor punctelor se face în paşii care urmează. Pasul 1. Alegem numărul natural . Alegem un număr real pozitiv notat . Acest număr reprezintă raportul dintre numărul de intervale din partea stângă (S) a lui şi numărul de intervale situate în partea dreaptă (D) a lui . Recomandare: Dacă atunci ; Dacă atunci ; Dacă atunci . Valoarea c menţinată mai sus se calculează cu formula

sau +1 ,

unde este funcţia parte întreagă. La acest calcul folosim regula lui . Examplu: ; .

Probabilitatea pe intervalul trebuie să fie , .

Pasul 2. Se rezolvă ecuaţia şi obţinem . Valoarea este cea mai mică

lungime a intervalelor şi . Ca verificare, lungimea intervalelor este , (intervalele din partea stângă) , (intervalele din partea dreaptă) ... ... . Pasul 3. Calculăm coordonatele punctelor , (16) prin folosirea formulelor

, (partea stângă) (17)

Page 12: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

(18)

(partea dreaptă a lui ). Observaţia 5. Ca verificare obţinem

. Corect.

9.5.3 Calcularea frecvenţelor şi a probabilităţilor pe intervalele . Pentru vectorii de selecţie notăm

, , (19)

unde vectorul şi matricea pătrată sunt cunoscute din ipoteza nulă . Pentru numărul natural dat N şi cu ajutorul valorilor de selecţie , prin formula (19) calculăm frecvenţele absolute ale valorilor care cad în intervalul . Prin folosirea ipotezei şi a formulei (15) calculăm probabilităţile

, (În integrală am notat ; )

(20)

Pentru a efectua aceste calcule facem căteva artificii. În lucrarea [9] există subrutina (procedura) cu numele DQL32 prin care se calculează valoarea integralei

(care foloseşte formula cu 32 de noduri, a lui Gauss-Laguerre , în prcizie dublă).

Utilzăm această formulă în calculele care ne interesează.

Notăm şi . Atunci

(21)

Propoziţia 2. Integrala din formula (21) devine

(22)

Demonstraţie. Din obţinem .

Apoi generează

(End).

În continuare notăm (23) şi probabilităţile din (20) devin

Page 13: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

(continuare pe rândul următor )

, (24)

. Probabilitatea poate fi calculată prin două metode :

(25)

sau (26)

Observaţia 6. În programul de calculator elaborat de noi notăm valoarea din (26) prin PILS (un calcul suplimentar, pentru a valida corectitudinea programului) trebuie să arate că .

Altă verificare a programului este legată de integrala . Rezultatul trebuie să

fie 1 sau aproape 1.

Probabilităţile conţine factorul . Pentru calcularea valorii numerice se

foloseşte subrutina . Rezultatul calculului este notat (27)

9.5.4 Descrierea testului Hi pătrat normal multidimensional în cazul specificat. Prin acest test se verifică ipoteza de normalitate , unde sunt cunoscute.

1). Datele de intrare sunt: dimensiunea spaţiului din care fac parte vectorii aleatori; vectorul ; matricea de tipul ; numărul vectorilor de intrare ; se generează vectorii

aleatori ; L reprezintă numărul de intervale , with ; din experienţa statistică se recomandă ; ; ( reprezintă un număr foarte mare); ; pentru

riscul dat se ia valoarea cuantilei , notată .

2). Se calculează: matricea inversă ; numărul natural c de la pasul 1; ; coordonatele

prin formulele (17),(18); prin formula (27); valorile prin (19); frecvenţele absolute ; probabilitităţile , din (24); din (25) sau (26). 3). Se aclculează statistica

(28)

4). Se ia din tabelele Hi pătrat valoarea cuantilei (HI 2 valoare rezultată din tabelă în cazul specificat). 4) Pasul de decizie.

Page 14: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Dacă atunci ipoteza initială este acceptată cu riscul . Dacă atunci ipoteza initială se respinge.. Algoritmul descris mai sus are numele AlgoHI2NormMultdSC (cazul specificat).

9.5.5 Exemple numerice. Cazul specificat. Exemplul 1. , , ,

,

; ; ipoteza este acceptată.

Exemplul 2. , , ,

,

; ; este acceptată.

9.6 Testul Hi pătrat în cazul normal multidimensional. Cazul nespecificat. [16]. Fie o selecţie de volum N, unde N este un număr natural cu valoare mare. În cazul nespecificat vectorul M şi matricea sunt necunoscute. Estimăm pe , şi notăm estimaţiile respectiv prin . Pentru estimare folosim toţi cei N vectori sau numai o parte dinter ei. Notă prin un număr natural aşa încât sau . Atunci estimaţiile au forma

.

Matricea are tipul şi trebuie să fie simetrică şi pozitiv definită Ipoteza : . Vectorii au repartiţia normală . Numărul total de parametri necunoscuţi în vectorul şi matricea este

.

9.6.1 Înlocuirea ipotezei prin ipoteza echivalentă .

Pentru a evita dificultăţile de calcul pentru probabilităţile pe folosim un artificiu şi înlocium

ipoteza prin ipoteza echivalentă . Pentru acerasta introducem o nouă variabilâă aleatoare U

.

, .

Variabila U are distribuţia Fisher-Snedecor cu şi grade de libertate, notată , cu valoarea medie şi dispersia

Page 15: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

,

, .

Condiţia finală pentru este . Densitatea de probabilitate a distribuţiei Fisher-Snedecor este

= (29)

Curba îşi atinge maximul pentru

şi întotdeauna avem (30)

Noua ipoteză este

: variabila U are repartiţia Fisher-Snedecor .

9.6.2 Calcularea punctelor şi a frecvenţelor pe intervalele . Funcţia îşi atinge maximul pentru abscisa u data de (30). De aceea corelăm aceasta cu intervalele şi puncteles . Un interval foarte important legat de valoarea

este notat , este număr natural , Valoarea lui c este calculată mai jos:

sau +1.

Deoarece , atunci valoarea RAILR este aleasă aşa încât numărul de intervale din partea stângă (S) a lui să fie mult mai mic decât numărul de intervale din pareta dreaptă (D). Prin folosirea pasul 2 dintr-o secţiune anterioară se rezolvă ecuaţia

şi obţinem

Valoarea este cea mai mică lungime a intervaleleor şi . Atunci punctele se calculează cu ajutorul formulelor (16), (17), (18). Pentru selecţia notăm

, , (31)

unde vectorul şi matricea pătrată sunt cunoscute prin ipoteza . Pentru numărul natural dat N şi valorile de selecţie din (31) se calculează frecvenţele absolute al valorilor care cad în intervalul .

9.6.3 Calcularea probabilităţilor pe intervalele . Prin folosirea ipotezei şi a formulei (29) se calculează probabilităţile

Page 16: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

,

(32)

(33)

Pentru a calcula valoerea integralei din formula (32) folosim subrutina DQG23 din lucrarea [9]. Această

subrutină este în precizie dublă şi calculează integrala prin folosirea formulei Gauss-Laguerre

cu 32 de noduri. În cazul nostru este

(34)

Astfel , , unde , .

Prin subrutina din [9] se calculează valoarea care intră în factorul K.

9.6.4 Descrierea testului Hi pătrat normal multidimensional în cazul necpecificat. Se verifică ipoteza de normalitate . 1). Datele de intrare sunt : dimensiunea spaţiului care conţine vectorii aleatori; numărul total de vectori aleatori ; un număr natural ales de utilizatorr; se introduce sau se generează vectorii aleatori ; L reprezintă numărul de intervale , cu şi ; din experienţa statistică se recomandă ; ; (număr foarte mare); (valoare descrisă într-o

secţiune anterioară); riscul ; se ia din tabela cuantila , notată

(HI 2 rezultată din tabelă în cazul nespecificat). 2). Se calculează : şi apoi matricea ; se calculează numărul natural c prin pasul 1;

; coordonatele se calculează prin formulele (17),(18);

, ,

, prin formula (33);

prin formula (31); se calculează frecvenţele ; se calculează probabilităţile , prin (24) şi prin (25) sau (26). 3). Se calculează statistica

(35)

4). Se ia din tabele cuantila

5). Pasul de decizie.

Page 17: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Dacă atunci ipoteza se acceptă cu riscul . Dacă atunci ipoteza se respinge.. Algoritmul descris mai sus este numit AlgoHI2NormMultdUSC (cazul nespecificat).

9.6.5 Exemplu numeric în cazul nespecificat. Dare de intrare ; Valori estimate M , şi

Frecvenţele pe intervale sunt Probabilităţile au valorile ipoteza de normalitate este acceptată.

9.7 Testul de concordanţă al lui Kolmogorov. Andrei N. Kolmogorov (25.05.1903 – 20.10.1987; a purtat numele de familie al mamei sale Maria Kolmogorova, care a murit la naşterea sa; Kolmogorov - matematician rus; fondator al teoriei moderne a probabilităţilor; professor la Universitatea din Moscova; colaborator al matematicianului rus Nicolae Luzin). În unele lucrări testul lui Kolmogorov este numit testul lui Kolmogorov – Smirnov (Nicolae V. Smirnov). Fie variabila aleatoare X pentru care se formulează ipoteza nulă Testul lui Kolmogorov de verificare a ipotezei formulate se bazează pe funcţia de repartiţie teoretică

(cunoscută ca formă) şi pe funcţia de repartiţie empirică . Pasul 0. Dacă conţine unul sau mai mulţi parametri, întăi se determină aceşti parametri folosind o selecţie numerică de volum n asupra lui X .

Page 18: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Pasul 1. Folosind selecţia dată se determină frecvenţele absolute . Acestea sunt numere naturale. Notăm suma tuturoe frecvenţelor absolute prin Pasul 2. Caculăm valorile funcţiei empirice , care corespunde selecţiei date. Există două posibilităţi de calcul = (suma frecvenţelor absolute mai mici decât x ) / N sau = (suma frecvenţelor absolute din stânga lui x ) / N.

Exemplu. Exemplu. ; ; etc.

Pasul 3. Întocmim tabelul pentru funcţia de repartiţie empirică

Tabelul cu funcţia de repartiţie empirică. k 1 2 3 etc. etc. etc. Pasul 4. Calculăm valorile pentru funcţia de repartiţie teoretică cunoscută prin ipoteza . Exemplu. Dacă funcţia de repartiţie teoretică este (în cazul repartiţiei exponenţiale) atunci ; etc. Aranjăm rezulatatele sub forma etc. Pasul 5. Calculăm diferenţele sau distanţele = şi întocmim un tabel de sinteză pentru variabila aleatoare . Această variabilă aleatoare depinde esenţial de valorile de selecţie supra lui X.

Tabelul de sinteză. Tabelul distanţelor dintre repartiţia teoretică şi cea empirică. k 1 2 3 etc. etc. etc. etc. Pasul 6. Alegem valoarea maximă dintre toate distanţele = din tabelul distanţelor de mai sus. Pasul 7. Alegem un nivel de semnificaţie . Pasul 7. Din tabelul valorilor ecuaţiei lui Kolmogorov = alegem valoarea , care corespunde valorii cunoscute . Găsim . Funcţia are forma [19; pag 165]

= (funcţia lui Kolmogorov), iar ecuaţia are forma echivalentă

= ; este cunoscut, iar valoarea c este necunoscută.

Pasul 8. Calculăm statistica şi aplcăm regula de decizie :

Dacă valoarea calculată > max , atunci ipoteza nulă se acceptă ;

Dacă valoarea calculată < max , atunci ipoteza nulă se respinge.

Figura 1. Ilustrarea testului lui Kolmogorov.

Page 19: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Linia cu continuitate netedă repezintă funcţia de repartiţie teoretică. Linia cu continuitate în scară reprezintă funcţia de repartiţie empirică. Săgeata reprezintă distanţa pe verticală dintre ele. În testul lui Kolmogorov se alege distanţa maximă.

9.8 Probleme rezolvate pentru teste de concordanţă: Hi pătrat; Kolmogorov.

Problema 1. Repartiţie Poisson; testul Hi pătrat; repartiţie exponenţială; testul Kolmogorov. Pentru o mai bună organizare a activităţii unui magazin de servire a clienţilor se cercetează sosirile cumpărătorilor şi timpul de servire al unei personae. Se are în vedere o perioadă de 6 zile, aproximativ 3 ore pe zi, în perioada de vârf a activităţii. Timpul este împărţit în 200 de intervale consecutive, de câte 5 minute pentru fiecare interval. Se înregistrează numărul de cumpărători sosiţi în fiecare interval. Datele sunt aranjate ca în tabelul 1P1

Tabelul 1P1. Sosirile cumpărătorilor în fiecare interval. Intervalul nr 1 2 3 4 5 197 198 199 200 (nr. total N =200) Nr de sosiri 0 2 1 3 1 11 5 8 7 (este doar un exemplu de ilustrare)

Apoi s-a măsurat intervalul de timp de servire (în unităţi de timp u, unde, de exemplu u=1 minut) a 30 de cumpărători , luaţi la întâmplare şi s-a întocmit tabelul 2P1.

Tabelul 2P1. Intervalul de timp de servire. Intervalul de timp [0,5-1,0) [1,0-1,5) [1,5-2,0) [2,0-2,5) [2,5-3,0) Nr de cumpărători 18 8 2 1 1 (nr. total N =30)

Se formulează două ipoteze statistice, care trebuie testate (verificate). a) Să se verifice ipoteza : nr. k de sosiri ale cumpărătorilor (adică nr. k de clienţi) formează o variabilă aleatoare discretă X cu repartiţie Poisson. b) Să se verifice ipoteza (timp de servire): timpul de servire al cumpărătorilor formează o variabilă aleatoare continuă Y cu repartiţie exponenţială. Enunţul problemei este din [23; pag 100].

Page 20: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Soluţie. a) Datele culese în tabelul 1P1 sunt numărate sub formă de frecvenţe absolute (adică numărul de intervale cu acelaşi număr de clienţi sosiţi ) în număr de intervale. 1 0 clienţi în 1 interval 8 7 clienţi în 13 intervale 2 1 client în 16 intervale 9 8 clienţi în 6 intervale 3 2 clienţi în 31 intervale 10 20 clienţi în 1 interval 4 3 clienţi în 37 intervale 5 4 clienţi în 41 intervale 6 5 clienţi în 30 intervale 7 6 clienţi în 23 intervale

Se subînţelege că frecvenţele absolute sunt numere naturale. Notăm .

Variabila aleatoare X (cu 10 poziţii) ia valorile 0 1 2 3 4 7 8 20. Pentru uniformizatea naturală a valorilor lui X descompunem poziţia 10 în 3 poziţii astfel 10 9 clienţi în 1 interval 11 10 clienţi în 0 intervale 12 11 clienţi în 1 interval În noua variantă, variabila aleatoare discretă X are 12 poziţii şi are forma

; ;

Total intervale = 1+16+31+ +6+1+0+1=200=N intervale de câte 5 minute. Prima linie a lui X reprezintă numărul de clienţi cu valorile , . Volumul selecţiei este

. A doua linie a lui X reprezintă frecvenţele absolute ale numărului de sosiri pe intervale , notate

, . Exemplu: câte 3 clienţi au sosit în 31 de intervale; câte 7 clienţi au sosit în 13 intervale etc. Ipoteza nulă (sosiri clienţi) este lagată de repartiţia discretă Poisson, cu un parametru, , care are forma generală

; ; ; . În problema noastră .

Se ştie că ; . Pentru verificarea ipotezei aplicăm testul de concordanţă Hi pătrat. Forma repartiţiei este specificată (Poisson), dar valoarea parametrului este nespecificată, adică are valoare necunoscută.

Pasul 0. Întâi trebuie să estimăm parametrul , unde . Cum folosirea fiecărui interval de 5 minute are aceeaşi probabilitate, rescriem selecţia X sub forma

(suma probabilităţilor este 1).

Folosim media de selecţie de mai sus şi obţinem

; ; ;

Page 21: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Valoarea este cea mai probabilă valoare dintre valorile lui X . Pasul 1. Urmează să calculăn statistica T care corespunde datelor numerice ale variabilei X . Pentru aceasta calculăm frecvenţele teoretice bazate pe ipoteza nulă formulată.

; = ; = ; .

Metoda 1. Folosim formula teoretică = ; .

Metoda 2. Folosim formule de recurenţă. Deducem formulele de recurenţă. Ţinem cont că valoarea medie a generat valoarea

ca fiind cea mai probabilă. Formulele de recurenţă se împart în două categorii: pentru şi . Obţinem succesiv:

= ; = ; =

/ = ; = ; = pentru ; .

/ = ; = ; = pentru ; .

În ambele formule recurente (înapoi şi înainte) folosim valoarea = .

Metoda 1. Calculăm frecvenţele relative prin formula teoretică, pentru şi aranjăm valorile obţinute prin calcul în tabelul 3P1

Tabelul 3P1. Frecvenţele relative. k 0 1 2 3 4 5 6 7 8 9 10 11 3,66 14,66 29,28 39,04 39,04 31,23 20,82 11,9 5,95 2,64 1,06 0,38

Metoda 2. În cazul ; obţinem succesiv

; = ; ; = ; ; = etc.

În cazul ; obţinem succesiv

; = = ; ; = = etc.

Prin cele două metode rezultatele coincid. Metoda a doua este mai avantajoasă la calculele cu valori mari ale lui k .

Pasul 2. În continuare calculăm - , şi , pentru . Ultimele valori sunt

necesare la calcularea statisticii T , de tip Hi pătrat. Întotdeauna frecvenţele calculate teoretic sunt puse jos la numitor. De aceea ele trebuie să fie toate nenule. Aranjăm rezultatele în tabelul 4P1.

Tabelul 4.P1 Tabelul pătratelor diferenţelor pentru statistica Hi pătrat.

k 0 1 2 3 4 5 6 7 8 9 10 11

Page 22: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

1 16 31 37 41 30 23 13 6 1 0 1

3,66 14,66 29,28 39,04 39,04 31,23 20,82 11,9 5,95 2,64 1,06 0,38

-2,66 1,34 1,72 -2,04 1,96 -1,23 2,18 1,10 0,05 -1,64 -1,06 0,62

7,08 1,79 2,96 4,16 3,84 1,51 4,75 1,21 0,002 2,69 1,12 0,38

1,93 0,12 0,10 0,11 0,10 0,05 0,23 0,10 0,00 1,02 1,06 1,00

Proba de corectitudine pentru : suma tuturor valorilor trebuie să fie egală cu . Avem 3,66+14,66+29,28+…..+2,64+1,06+0,38=199,66 (corect).

Pasul 3.Statistica T . Calculăm valoarea numerică a statisticii T care însumează toate valorile de pe ultima

linie din tabelul 4, adică = 5,82, sau = 5,82 , unde = numărul gradelor de libertate

ale statisticii T . Pasul 4. Determinăm numărul gradelor de libertate pentru statistica T , cu formula , unde s = numărul de observaţii pentru care , iar = numărul de parametri estimaţi. În cazul problemei de faţă avem şi , deoarece am estimat un parametru notat . Deci , adică există 6 grade de libertate. Statistica are valoarea . Pasul 5. Alegem pragul de semnificaţie . Căutăm în tabela de valori a repartiţiei valoarea care corespunde lui şi , notată = = 12,592.

Deoarece < =12,592 (valoarea calculată este mai mică decât valoarea din

tabelă) rezultă că se acceptă ipoteza nulă (sosiri) pe care am formulat-o, adică sosirile clienţilor la cumpărături este o variabilă aleatoare X de tip Poisson, cu valoarea medie de clienţi într-un interval cu lungimea de 5 minute.

b) Verificăm ipoteza nulă (timp de servire). Pentru rezolvare vom folosi două metode diferite: testul Hi pătrat; testul Kolmogorov. În tabelul 2 înlocuim intervalele de timpi de servire prin media aritmetică a fiecărui interval. Obţinem tabelul 5P1.

Tabelul 5P1. Media aritmetică a intervalului de timp de servire. Timp de servire 0,75 1,25 1,75 2,25 2,75 Nr de cumpărători 18 8 2 1 1 (total N =30 de cumpărători).

Numărul de cumpărători serviţi în timpii de mai sus reprezintă frecvenţele absolute obţinute prin observaţii directe îm magazin : ; ; .

Page 23: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Dacă se face o reprezentare grafică a punctelor din tabelul 5 rezultă o curbă discretă care are forma funcţiei exponenţiale , cu descreştere asimptotică spre plus infinit. De aceea ipoteza (timp de servire) se referă la repartiţia exponenţială. Repartiţia este continuă, deoarece timpul de servire, notat , este continuu. Reamintim elementele de bază ale repartiţiei exponenţiale

; ; ; ; ; .

Variabila Y discretizată are forma selecţiei

;

reprezintă frecvenţele absolute; . O altă formă a selecţiei Y este

(suma probabilităţior este 1).

Forma repartiţiei este specificată (exponenţială), dar valoarea parametrului este nespecificată, adică are valoare necunoscută.

Pasul 0. Facem menţiunea că indiferent de tipul de test de concordanţă folosit, întâi trebuie să estimăm parametrul . Folosim media de selecţie (care este estimator de verosimilitate maximă, adică are dispersie

minimă). Deoarece , deducem şi obţinem succesiv

; ; ; .

Deci ; .

Metoda 1. Aplicăm testul de concordanţă Hi pătrat. Pasul 1. Urmează să calculăn statistica T care corespunde datelor numerice ale variabilei X . Pentru aceasta calculăm frecvenţele relative (teoretice) ; ; ; . = = = 13,49343 = = = 8,72152 = = = 5,45069 = = = 3,41015 = = = 2,13315.

Pasul 2. În continuare calculăm - , şi , pentru . Ultimele valori sunt

necesare la calcularea statisticii T , de tip Hi pătrat. Aranjăm rezultatele în tabelul 6P1.

Tabelul 6P1. Tabelul pătratelor diferenţelor pentru statistica Hi pătrat.

k 1 2 3 4 5 18 8 2 1 1

Page 24: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

13,49343 8,72152 5,45069 3,41015 2,13315 4,50667 - 0,72152 - 3,45069 - 2,41015 - 1,13315

20,31007 0,52059 11,90726 5,80882 1,28403

1,50518 0,05969 2,18454 1,70339 0,60194

Proba de corectitudine pentru : suma tuturor valorilor trebuie să fie egală cu . Avem 33,49343+8,72152+……+2,13315=31,2. Aproximaţia este bună.

Pasul 3.Statistica T . Calculăm valoarea numerică a statisticii T care însumează toate valorile de pe ultima linie din

tabelul 6, adică = 6,05475, sau = 6,05475 , unde = numărul gradelor de libertate

ale statisticii T . Pasul 4. Determinăm numărul gradelor de libertate pentru statistica T , cu formula , unde s = numărul de observaţii pentru care , iar = numărul de parametri estimaţi. În cazul problemei de faţă avem şi , deoarece am estimat un parametru notat . Deci , adică există 1 grad de libertate. Statistica are valoarea . Pasul 5. Alegem nivelul de semnificaţie . Căutăm în tabela de valori a repartiţiei valoarea care corespunde lui şi , notată = = 6,635. Pasul 6. Aplicăm regula de decizie. Deoarece < =6,635 (valoarea calculată este mai mică decât valoarea din

tabelă) rezultă că se acceptă ipoteza nulă (timp de servire) pe care am formulat-o, adică variabila aleatoare Y care reprezintă timpul de servire al unui cumpărător are o repartiţie exponenţială cu parametrul

. Timpul mediu în care este servit un cumpărător este =1,067 unităţi de timp, unde o

unitate de timp este u=1 minut.

Metoda 2. Aplicăm testul de concordanţă al lui Kolmogorov.

Reamintim elementele de bază ale repartiţiei exponenţiale

; ; ; ; ; .

Funcţia de repartiţie teoretică este . Variabila Y discretizată are forma selecţiei

;

reprezintă frecvenţele absolute; . Volumul selecţiei este . Testul lui Kolmogorov se bazează pe funcţia de repartiţie teoretică şi pe funcţia de repartiţie empirică .

Page 25: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Forma repartiţiei este specificată (exponenţială), dar valoarea parametrului este nespecificată, adică are valoare necunoscută.

Pasul 0. La metoda 1 am găsit valoarea parametrului . Pasul 1. Aflăm valorile funcţiei empirice , care corespunde selecţiei din tabelul 5 = (suma frecvenţelor absolute mai mici decât y ) / ( N =numărul total de sosiri sau clienţi etc.) sau = (suma frecvenţelor absolute din stânga lui y ) / ( N ). La noi .

Exemplu. ; ; ;

; . Rezultă tabelul 7P1.

Tabelul 7P1. Funcţia de repartiţie empirică. k 1 2 3 4 5 18 8 2 1 1 0,600 0,867 0,933 0,967 1,000 Pasul 2. Calculăm valorile funcţiei de repartiţie teoretică ; pentru fiecare din tabelul 5. = 0,5052 = 0,6904 = 0,8063 = 0,8788 = 0,9242 . Pasul 3. Calculăm diferenţele sau distanţele = şi întocmim tabelul 8.

Tabelul 8P1. Tabloul distanţelor dintre repartiţia teoretică şi cea empirică. k 1 2 3 4 5 0,600 0,867 0,933 0,967 1,000 0,5052 0,6904 0,8063 0,8788 0,9242 0,0948 0,1766 0,1267 0,0882 0,0758

Pasul 4. Alegem valoarea maximă dintre toate distanţele = din tabelul 8: max = = = 0,1766; . Pasul 5. Alegem nivelul de semnificaţie . Pasul 6. Din tabelul valorilor ecuaţiei lui Kolmogorov = alegem valoarea , care corespunde valorii cunoscute . Găsim = . Funcţia are forma [19; pag 165]

= (funcţia lui Kolmogorov), iar ecuaţia are forma echivalentă

= ; este cunoscut, iar valoarea c este necunoscută.

Pasul 7. Calculăm statistica şi aplcăm regula de decizie :

Page 26: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Dacă valoarea calculată > max , atunci ipoteza nulă se acceptă ;

Dacă valoarea calculată < max , atunci ipoteza nulă se respinge.

În cazul problemei de la enunţul b) obţinem = > max = 0,1766.

Ipoteza este acceptată, adică variabila aleatoare Y care reprezintă timpul de servire al unui cumpărător are repartiţie exponenţială , cu parametrul . Observaţia 7. Prin ambele metode, ipoteza nulă este acceptată cu acelaşi nivel de semnificaţie

. Observaţia 8. Dacă forma funcţiei de repartiţie din ipoteza este simplă din punctul de vedere al calculelor, cum este la repartiţia exponenţială , atunci repartiţia empirică de la testul lui Kolmogorov se calculează mai uşor dacât frecvenţele relative de la testul Hi pătrat şi deci testul lui Kolmogorov este mai avantajos.

Problema 2. Test Hi pătrat neparametric; se compară două mulţimi de date; teoretizarea insuccesului. Studentul S este superstiţios. El susţine că anumite săli din universitatea în care studiază îi poartă ghinion la examene şi de aceea ia numai note de 5 şi 6. Până la absolvire studentul S a dat 120 de examene, în 4 săli A, B, C, D. Studentul S a urmărit şi a notat câte examene a dat în fiecare sală. A rezultat tabelul1P2.

Tabelul 1P2. Datele observate (O) Sala de examen A B C D Situaţia observată (O) cu Numărul de examene 24 34 22 40 Total=N=120 de examene.

Decanatul universităţii susţine că nu există diferenţe semnificative între cele 4 săli. Studentul S susţine ipoteza contrară. Pentru lămurirea dilemei facem apel la metodele statistice. Formulăm ipoteza nulă pe care urmează să o verificăm. Ipoteza nulă : Nu există diferenţe semnificative între cele 4 săli de examen.

Soluţie. Aplicăm testul Hi pătrat. Pentru verificarea ipotezei formulate folosim testul Hi pătrat. Deoarece nu avem de estimat vreun parametru , testul este neparametric. Pasul 1. Calculăm frecvenţele teoretice. Tabelul 1P2 cu situaţia observată (O) a frecvenţelor absolute se completează cu situaţia probabilistică (P) a frecvenţelor teoretice, când, teoretic vorbind, studentul S putea să dea câte 30 de examene în fiecare sală, ca în tabelul 2P2, deoarece, conform ipotezei nu există diferenţe între săli.

Tabelul 2P2. Datele observate (O) şi datele estimate (P) Sala de examen A B C D Situaţia observată (O) cu Numărul de examene 24 34 22 40 Total=N=120 de examene. Situaţia estimată (P) cu Numărul de examene 30 30 30 30 Total=N=120 de examene.

Pasul 2. Calculăm direct statistica T cerută de testul Hi pătrat

Page 27: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

pentru cele 4 săli. Aranjăm calculele parţiale în tabelul 3P2

Tabelul 3P2. Tabel cu calcule parţiale pentru statistica Hi pătrat. Sala de examen A B C D Situaţia observată (O) 24 34 22 40 Total=N=120 de examene. Situaţia estimată (P) 30 30 30 30 Total=N=120 de examene. - 6 4 - 8 10

36 16 64 100

1,2 0,533 2,133 3,333

Rezultă T =7,199 . Pasul 3. Stabilim numărul gradelor de libertate. Folosim formula , unde s = numărul de observaţii pentru care , iar = numărul de parametri estimaţi. În cazul problemei de faţă avem şi , deoarece am estimat 0 parametrii. Deci , adică există 3 grade de libertate. Statistica are valoarea . Pasul 4. Alegem nivelul de semnificaţie şi căutăm în tabela de valori a repartiţiei valoarea care corespunde lui şi , notată = = 7,815. Pasul 5. Aplicăm regula de decizie Deoarece < =7,815 (valoarea calculată este mai mică decât valoarea din

tabelă) rezultă că se acceptă ipoteza nulă pe care am formulat-o, adică nu există diferenţe semnificative între cele 4 săli de examen. Deci studentul S poate da examen în orice sală, deoarece nu sala influenţează rezultatul la examen, ci pregătirea sa pentru examen.

Problema 3. Test Hi pătrat neparametric; se compară două mulţimi de date; analizarea rezultatelor la un sondaj de atitudine; tabel de contingenţă. Problema care urmează implică două grupe de date, rezultate dintr-un sondaj de atitudine. Într-o comunitate umană se formulează urmăroarea întrebare: sunteţi de accord ca tinerii să locuiască împreună înainte de căsătorie ?. La întrebare răspund 450 de persoane, dintre care 200 de persoane sunt religioase şi 250 de persoane sunt nereligioase. Răspunsurile sunt consemnate numeric în tabelul 1P3.

Tabelul 1P3. Frecvenţe absolute observate (O) la sondaj 1 2 3 Opţiunea Sunt de acord Mă abţin Nu sunt de acord Persoane religioase 30 46 124 Total1= 200 Persoane nereligioase 114 80 56 Total2= 250 Total parţial 144 126 180 Total= 450

Unii dintre respondenţi au făcut observaţia că nu trebuia făcută separare între persoane religioase şi nereligioase, deoarece între cele două grupe nu există diferenţe, în timp ce alţii sunt de accord cu separarea, deoarece, spun ei, există diferenţe.

Page 28: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

a) Pentru lămurirea dilemei facem apel la metodele statistice. Formulăm ipoteza nulă pe care urmează să o verificăm. Ipoteza nulă : nu există diferenţe între cele două grupe de persoane. b) Să se calculeze reziduul standardizat la fiecare tip de răspuns. Soluţie. a) Aplicăm testul Hi pătrat. Tabelul de contingenţă 1P3 are 2 linii şi 3 coloane, adică are tipul 2 x 3. Deoarece nu avem de estimat vreun parametru , testul este neparametric. Pasul 1. Calculăm frecvenţele teoretice. Tabelul 1P3 cu situaţia observată (O) a frecvenţelor absolute se completează cu situaţia probabilistică (P) a frecvenţelor teoretice, care se pot calcula pentru 450 de persoane, deoarece, conform ipotezei nu există diferenţe între cele două grupe. Rezultatele sunt trecute în tabelul 2P3.

1) La opţiunea: Sunt de accord au răspuns 144 de persoane. Procentul este sau 32%.

32% din respondenţii religioşi înseamnă 0,32 x 200= 64 de persoane 32% din respondenţii nereligioşi înseamnă 0,32 x 250= 80 de persoane

2) La opţiunea: Mă abţin au răspuns 126 de persoane. Procentul este sau 28%.

28% din respondenţii religioşi înseamnă 0,28 x 200= 56 de persoane 28% din respondenţii nereligioşi înseamnă 0,28 x 250= 70 de persoane

3) La opţiunea: Nu sunt de acord au răspuns 180 de persoane. Procentul este sau 40%.

40% din respondenţii religioşi înseamnă 0,40 x 200= 80 de persoane 40% din respondenţii nereligioşi înseamnă 0,40 x 250= 100 de persoane . Proba procentelor este 32% + 28% + 40% = 100% (corect) .

Tabelul 2P3. Frecvenţe absolute observate (O) şi frecvenţe teoretice (P) 1 2 3 Opţiunea Sunt de acord Mă abţin Nu sunt de acord Persoane religioase 30 46 124 Total1= 200 Frecvenţe teoretice 64 56 80 Total1= 200 Persoane nereligioase 114 80 56 Total2= 250 Frecvenţe teoretice 80 70 100 Total2= 250 Total parţial 144 126 180 Total= 450

Pasul 2. Deoarece, conform ipotezei nu există diferenţe între cele două grupe, unificăm datele şi obţinem talelul 3P3

Tabelul 3P3. Tabel unificat cu frecvenţe absolute şi frecvenţe teoretice. Opţiunea Sunt de acord Mă abţin Nu sunt de acord Sunt de acord Mă abţin Nu sunt de acord 30 46 124 114 80 56 450 64 56 80 80 70 100 450

Pasul 3. Calculăm datele parţiale necesare la statistica Hi pătrat şi le aranjăm în tabelul 4P3.

Page 29: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Tabelul 4P3. Tabel cu calcule parţiale pentru statistica Hi pătrat. 1 2 3 4 5 6 30 46 124 114 80 56 64 56 80 80 70 100 - 34 - 10 44 34 10 - 44

1156 100 1936 1156 100 1936

18,0625 1,7857 24,2 14,45 1,4286 19,36

Pasul 4. Calculăm statistica Hi pătrat = 79,2867 .

Pasul 5. Stabilim numărul gradelor de libertate. Pentru tabelul de contingenţă (tabelul 1P3), care are r linii (rows) şi c coloane (columns) numărul gradelor de libertate se calculează cu formula . în cazul problemei noastre obţinem ; exista grade de libertate. Deci statistica are valoarea . Pasul 6. Alegem nivelul de semnificaţie şi căutăm în tabela de valori a repartiţiei valoarea care corespunde lui şi , notată = = 9,210. Pasul 7. Aplicăm regula de decizie. Deoarece > =9,210 (valoarea calculată este mai mare decât valoarea din

tabelă) rezultă că nu se acceptă ipoteza nulă pe care am formulat-o, adică există diferenţe semnificative între cele 2 grupe de persoane religioase şi nereligioase. b) Reziduul standardizat este un indicator numeric care arată ce categorie a adus o contribuţie majoră la obţinerea unei difernţe semnificative la calcularea statisticii .

Reziduul standardizat se calculează cu formula = .

Dacă , atunci elementul k are un rol important la obţinerea unui semnificativ. În cazul problemei 3 calculăm reziduul standardizat din tabelul 4P3 şi aşezăm rezultatele în talelul 5P3.

Tabelul 5P3. Reziduul standardizat.

1 2 3 4 5 6 30 46 124 114 80 56 64 56 80 80 70 100 - 34 - 10 44 34 10 - 44 - 4,45 - 1,33 4,88 3,77 1,19 - 4,40

şi se referă la opţiunea de răspuns Sunt de acord. şi se referă la opţiunea de răspuns Nu sunt de acord. Aceste două răspunsuri au un rol important la obţinerea unui semnificativ. Observaţie. A) La tabelele de contingenţă de tip 2 x 2 (ca în problema 3) se recomandă ca numărul de respondenţi să fie N >20.

Page 30: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

B) Dacă tabelul de contingenţă este, de exemplu, de tip 3 x 3 atunci tabelul 3P3 se completează cu încă 3 coloane asemănătoare cu cele anterioare. Analog pentru tabele de contingenţă de alt tip.

Problema 4. [19; pag 164] Repartiţie Poisson; testul Hi pătrat. Pentru o mai bună organizare a activităţii la o staţie de pompare a apei, într-o perioadă de 100 de zile s-a înregistrat numărul k de avarii zilnice şi s-a obţinut următorul rezultat: 0 avarii în 8 zile ; 1 avarie în 28 zile ; 2 avarii în 31 zile 3 avarii în 18 zile ; 4 avarie în 9 zile ; 5 avarii în 6 zile . Formulăm ipoteza nulă pe care trbuie să o verificăm. Ipoteza nulă : Variabila aleatoare X care reprezintă numărul de avarii zilnice are repartiţie Poisson. Soluţie. Variabil aleatoare X are forma

; .

Linia 1 conţine numărul de avarii k ; linia 2 conţine frecvenţele absolute ; . Repartiţia discretă Poisson are forma

; ; ; . În problema noastră .

Se ştie că ; . Repartiţia Poisson are un parametru necunoscut. Verificăm ipoteza cu ajutorul testului Hi pătrat. Pasul 0. Întâi trebuie să estimăm parametrul . Folosim media de selecţie

; ; ; .

Pasul 1. Determinăm elementele necesare la calculare statisticii T, care corespunde datelor numerice ale variabilei X . Statistica T are două forme echivalente, bazate respectiv pe frecvenţele teoretice sau probabilităţile teoretice .

Varianta 1. , unde sunt frecvenţele absolute; sunt frecvenţele teoretice;

= ; ; , cu determinat.

Varianta 2. , unde = sunt probabilităţile teoretice, cu determinat.

Varianta 1. Calculăm frecvenţele teoretice bazate pe ipoteza nulă formulată.

; = ; = ; .

Metoda 1. Folosim formula teoretică ; = ; .

Punem datele în tabelul 1P4 Tabelul 1P4. Frecvenţele absolute şi frecvenţele teoretice. k 0 1 2 3 4 5 8 28 31 18 9 6 (suma=100) 12,25 25,725 27,0113 18,9079 9,9266 4,1692 (suma= 98).

Page 31: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

Proba frecvenţelor calculate : 12,25+25,725+…..+ 9,9266+4,1692= 98; aproximaţie bună. Metode 2. Se pot deduce şi folosi formule de recurenţă pentru . Varianta 2. Calculăm probabilităţile teoretice bazate pe ipoteza nulă formulată

= ; = ; ;

= ; = = .

Punem rezultatele ăn tabelul 2P4

Tabelul 2P4. Frecvenţele absolute şi probabilităţile teoretice. k 0 1 2 3 4 5 8 28 31 18 9 6 (suma=100) 0,1225 0,2525 0,270113 0,189079 0,099266 0,041692 (suma= 0,98). Proba probabilităţilor calculate : 0,1225+0,25725+…+ 0,099266+0,041692= 0,98; aproximaţie bună. Pasul 2. Calculăm statistica T , care corespunde datelor numerice ale variabilei X .

Varianta 1. , prin tabelul 3P4

Tabelul 3P4. Frecvenţele absolute şi frecvenţele teoretice. k 0 1 2 3 4 5 8 28 31 18 9 6 (suma=100) 12,25 25,725 27,0113 18,9079 9,9266 4,1692 (suma= 98). - 4,25 2,275 3,9887 - 0,9097 - 0,9266 1,8830

( 18,0625 5,1756 15,9097 0,8276 0,8586 3,5457

1,4745 0,2145 0,5890 0,0437 0,0865 0,8505

T (varianta 1) ; T = 4,49425 .

Varianta 2. , prin tabelul 4P4

Tabelul 4P4. Frecvenţele absolute şi probabilităţile teoretice. k 0 1 2 3 4 5 8 28 31 18 9 6 (suma=100) 12,25 25,725 27,0113 18,9079 9,9266 4,1692 (suma= 98). 0,1225 0,2525 0,270113 0,189079 0,099266 0,041692 (suma= 0,98). - 4,25 2,275 3,9887 - 0,9097 - 0,9266 1,8830 T (varianta 2) ; T = 4,485 .

Pasul 3. Calculăm numărul gradelor de libertate care corespunde datelor numerice ale variabilei X . , unde s = numărul de observaţi , iar = numărul de parametri estimaţi.

Page 32: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

În cazul problemei de faţă avem şi , deoarece am estimat un parametru notat . Deci , adică există 4 grade de libertate. Statistica are valoarea în varianta 1 de calcul.

Statistica are valoarea în varianta 2 de calcul. Pasul 4. Alegem nivelul de semnificaţie şi căutăm în tabela de valori a repartiţiei valoarea care corespunde lui şi , notată = = 9,488. Pasul 5. Aplicăm regula de decizie. Deoarece < =9,488 (valoarea calculată este mai mică decât valoarea din

tabelă) rezultă că se acceptă ipoteza nulă pe care am formulat-o, adică variabila aleatoare X care reprezintă numărul de avarii zilnice are repartiţie Poisson, cu parametrul ; = 2,1 şi = 2,1.

9.9 Program sursă C++ pentru testul Hi pătrat în cazul normal unidimensional. Cazul specificat.

9.9.1 Descrierea programului sursă [17]. // Program 23 Cpp Hi2 TEST Normal Unidimensional // Calculam: Amin, Bmax ; punctele a0 a1...aL; frecventele frequencies f1 f2…fL #include <iostream.h>; #include <conio.h>; #include <math.h>;

// Sectiunea 0:declaram variabilele si vectorii din programul C++ // Nel=nr de elemente pe fiecare linie din cele N1 valori de selecţie int i,j,k,N,N1,Nel,pai,restdate,L,fri[51],paiL1,restaiL1,paiL; int restfri,sumafri; float A, Amin, B, Bmax,xjsel[500],estmed,estdisp,fictiv,h; float a0,ainf,ai[51],ui[51],pi[51],vmed,sigm2,sigma;

void main () { // Inceputul programului cout<<endl; cout<<" Introduceti N=nr elementelor de selectie N(0,1) N= "; cin>>N; cout<<" Introduceti N1=nr de elemente din care se calculeza Amin, Bmax N1= "; cin>>N1; cout<<" Introduceti Nel=nr de elemente pe fiecare rand de date Nel="; cin>>Nel; cout<<endl;

// Sectiunea 1: Se introduc N valori de selectie notate xjsel de tip N(0,1) cout<<” Introduceti sau incarcati din fisier N vaori de selectie xjsel N(0,1) \n”;for(i=1;i<=N;i++) {cout<<” “;cin>>xjsel[i]; } cout<<endl;

Page 33: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

// Se tiparesc N1 date de intrare , existe Nel valori pe fiecare linie (rand) pai=floor(N1/Nel); // Instructiunea floor calduleaza Partea Intreaga cout<<" N1 valori xjsel N(0,1) cu Nel elementse pe fiecare rand: pai= "; cout<<pai; cout<<endl; for(k=1;k<=pai;k++) {cout<<endl; for(j=(k-1)*Nel+1;j<=k*Nel;j++) {cout<<" ";cout<<xjsel[j];cout<<" ";} } // Se tipareste randul incomplet de elemente xjsel N(0,1) cout<<endl; restdate=pai*Nel+1; for(j=restdate;j<=N1;j++) {cout<<" ";cout<<xjsel[j];cout<<" ";} cout<<endl;cout<<endl;

// Section 2:Estimeaza valoarea medie si dispersia pentru N1 date de tip N(0,1) estmed=0.0;estdisp=0.0; for (i=1;i<=N1;i++) {estmed=estmed+xjsel[i];} estmed=estmed/N1; cout<<" Valoarea medie estimată pentru N1 xjsel N(0,1) este estmed= "; cout<<estmed; cout<<endl; for(i=1;i<=N1;i++) {estdisp=estdisp+(xjsel[i]-estmed)*(xjsel[i]-estmed);} estdisp=estdisp/(N1-1); cout<<" Dispersia estimată pentru N1 xjsel N(0,1) este estdisp= "; cout<<estdisp; cout<<endl;cout<<endl;

// Transforma N date xjsel N(0,1) in N date normale N(vmed,sigm2) cout<<" Introduceti val medie vmed si dispersia sigm2propuse de utilizator the user \n"; cout<<" vmed= ";cin>>vmed; cout<<" sigm2= ";cin>>sigm2; for (j=1;j<=N;j++) {xjsel[j]=vmed+xjsel[j]*sqrt(sigm2);} cout<<endl; // Print N1 date transformate N(vmed,sigm2),Nel elemente pe fiacre rand pai=floor(N1/Nel); cout<<" N1 date transformate xjsel genereaza pai randuri: pai= "; cout<<pai; cout<<endl; for(k=1;k<=pai;k++) {cout<<endl; for(j=(k-1)*Nel+1;j<=k*Nel;j++) {cout<<" ";cout<<xjsel[j];cout<<" ";}

Page 34: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

} // Print randul incomplete din N1 date transformate N(vmed,sigm2) cout<<endl; restdate=pai*Nel+1; for(j=restdate;j<=N1;j++) {cout<<" ";cout<<xjsel[j];cout<<" ";} cout<<endl;cout<<endl;

// Sectiunea 3:Estimeaza valoarea medie si dispersia pentru N1 date N(vmed,sigm2) estmed=0.0;estdisp=0.0; for (i=1;i<=N1;i++) {estmed=estmed+xjsel[i];} estmed=estmed/N1; cout<<" Valoarea medie estimată pentru N1 xjse N(m,s) este estmed= "; cout<<estmed; cout<<endl; for(i=1;i<=N1;i++) {estdisp=estdisp+(xjsel[i]-estmed)*(xjsel[i]-estmed);} estdisp=estdisp/(N1-1); cout<<" Dispersia estimată pentru N1 xjsel N(m,s) este estdisp= "; cout<<estdisp; cout<<endl;cout<<endl; // Calculeaza A=Amin,B=Bmax pentru N1 date transformate xjsel N(vmed,sigm2) A=xjsel[1]; B=xjsel[1]; for(i=2;i<=N1;i++) {if(A-xjsel[i]>=0) A=xjsel[i]; else fictiv=1; // Variabil c este fictiva if(B-xjsel[i]<=0) B=xjsel[i]; else fictiv=1; } Amin=A; Bmax=B; cout<<" Minimum valoare este Amin= "; cout<<Amin;cout<<endl; cout<<" Maximum valoare este Bmax= "; cout<<Bmax;cout<<endl;cout<<endl; // Calculeaza pasul h de echidistanta cout<<" Introduceti L<=50, L=nr de intervale deltai L= ";cin>>L; cout<<endl; h=(B-A)/(L-2); cout<<" Valoarea pasului h este h= ";cout<<h;cout<<endl; cout<<endl;

// Section 4:Calculeaza si tipareste punctele ai:a0 a1...aL a0=-100000.0;ai[1]=Amin;ai[L-1]=Bmax;ainf=100000.0;ai[L]=ainf; // Verificare de control for(i=2;i<=L-2;i++) {ai[i]=Amin+(i-1)*h;}

Page 35: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

cout<<" Punctele a0 a1...aL-1 aL sunt scrise cate Nel elemente pe rand : \n"; cout<<endl; paiL1=floor((L-1)/Nel); cout<<" paiL1= "; cout<<paiL1; cout<<endl; cout<<endl; cout<<" a0= ";cout<<a0; for(k=1;k<=paiL1;k++) {cout<<endl; for(i=(k-1)*Nel+1;i<=k*Nel;i++) {cout<<" ";cout<<ai[i]; cout<<" ";} } // Print randul incomplet de puncte ai cout<<endl; restaiL1=paiL1*Nel+1; for(i=restaiL1;i<=L-1;i++) {cout<<" ";cout<<ai[i];cout<<" ";}cout<<endl; cout<<" aL= "; cout<<ai[L]; cout<<endl;cout<<endl;

// Section 5:Calculeaza si tipareste frecventele s f1...fL pentru N valori N(m,s) for(i=1;i<=L;i++) {fri[i]=0;} // La inceput se calculeaza f1 si fL for(j=1;j<=N;j++) {if(xjsel[j]<Amin) fri[1]=fri[1]+1; else fictiv=1; if (xjsel[j]>=Bmax) fri[L]=fri[L]+1; else fictiv=1;} // Calculeaza frecvaentele f2...fL-1 for (i=2;i<=L-1;i++) {for(j=1;j<=N;j++) if ((ai[i-1]<=xjsel[j])&(xjsel[j]<ai[i])) fri[i]=fri[i]+1; else fictiv=1;} // Print toate frecventele f1...fL cout<<" Frecventele f1...fL pentru N val xjsel sunt Nel valori pe rand ";cout<<endl; paiL=floor(L/Nel);cout<<" paiL= ";cout<<paiL;cout<<endl; cout<<endl; for(k=1;k<=paiL;k++) {cout<<endl; for (i=(k-1)*Nel+1;i<=k*Nel;i++) {cout<<" ";cout<<fri[i];cout<<" ";} } // Print randul incomplet de frecvente fi cout<<endl; restfri=paiL*Nel+1;

Page 36: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

for (i=restfri;i<=L;i++) {cout<<" ";cout<<fri[i];cout<<" ";}cout<<endl; // Verificare pentru frecvente f1+f2+...+fL=N sumafri=0; for(i=1;i<=L;i++) {sumafri=sumafri+fri[i];} cout<<" Verificare frecvente f1+f2+...+fL=N sumafri= "; cout<<sumafri; cout<<endl; cout<<endl;

// Section 6: Calculeaza punctele u1...uL-1 de forma ui=(ai- vmed)/sigma // Punctele u1...uL-1 sunt folosite la calcularea probabilitatilor sigma=sqrt(sigm2); ui[1]=(A-vmed)/sigma; ui[L-1]=(B-vmed)/sigma; for(i=2;i<=L-2;i++) {ui[i]=(ai[i]-vmed)/sigma;} // Print toate punctele u1...uL-1 cout<<" Punctele u1...uL-1 sunt cate Nel valori pe rand : \n"; paiL1=floor((L-1)/Nel); cout<<" paiL1= ";cout<<paiL1; cout<<endl<<endl; for(k=1;k<=paiL1;k++) {cout<<endl; for(i=(k-1)*Nel+1;i<=k*Nel;i++) {cout<<" ";cout<<ui[i];cout<<" ";} } // Print randul incomplet de elemente u1...uL-1 cout<<endl; restaiL1=paiL1*Nel+1; for(i=restaiL1;i<=L-1;i++) {cout<<" ";cout<<ui[i];cout<<" ";} cout<<endl;cout<<endl;cout<<endl;

getch(); } // Sfarsitul programului

9.9.2 Rezultate numerice obtinute cu programul C++ Programul C++ controleaza toti pasii algoritmului algorithm 1 si tipareste rezultatele (fara probabilitatil;e pi si statistica T) .

Introducetit N=nr de date de selectie de tip N(0,1) N=10 Introduceti N1=nr de puncte din care se calculeaza ,Bmax N1=9 Introduceti Nel=nr de elemente pe fiecare rand Nel=5

Introduceti sai incarcati din fisier N valori de selctie de tip N(0,1) N1 valori xjsel N(0,1) cu Nel elemente pe rand pai=1 0.0219 -1.781 -0.5625 -0.6318 -1.1258

Page 37: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

0.4843 0.2722 -0.7253 -2.3801

Valoera medie estimata pentru N1 valori xjsel N(0,1) este estmed=-0.714233

Dispersia estimată pentru N1 valori xjsel N(0,1) este estdisp= 0.882982

Introduceti val medie vmed si dispersia sigm2 propuse de utilizator vmed=0.0 sigm2=1.0

N1 valori transformate xjsel genereaza pai randuri : pai=1 0.0219 -1.781 -0.5625 -0.6318 -1.1258 0.4843 0.2722 -0.7253 -2.3801

Valoarea medie estimata pentru r N1 valori xjsel N(m,s) este estmed= -0.714233 Dispresie estemata pentru N1 valori xjsel N(m,s) este estdisp=0.882982

Valoarea Minimum este Amin=-2.3801 Valoerea Maximum este Bmax=0.4843 Introduceti L<=50, L=nr de intervale deltai L=14

Valoarea pasului h este h=0.2387 Punctele a0 a1 a2 … aL-1 scrise cata Nel valori pe rand

paiL1= 2

a0=-1000000 -2.3801 -2.1414 -1.9027 -1.664 -1.4253 -1.1866 -0.9479 -0.7092 -0.4705 -0.2318 0.0069 0.0.2456 0.4843 aL=100000

Freventele f1 f1…fL pentru N valori xjsel sunt Nel pe fiecare rand pail= 2 0 1 0 1 0 0 1 1 2 00 1 1 2

Verificare f1+f2+…+fL=N sumafri= 10

Puncte u1 … uL-1 sunt Nel pe fiecare rand -2.3801 -2.1414 -1.9027 -1.664 -1.4253

Page 38: Capitolul 9 Verificarea Ipotezelor Statistice Teste de Conc Word NP

-1.1866 -0.9479 -0.7092 -0.4705 -0.2318 0.0069 0.0.2456 0.4843.

9.10 Concluzii

Testele de verificarea ipotezelor statistice ( the tests of goodnes of fit) sunt foarte importante din punct de vedere teoretic şi practic. Cel mai important este testul Hi pătrat pentru repartiţia normală unidimensională sau multidimensională, în cazul specificat sau nespecificat. Acest test se foloseşte la estimarea parametrilor de încredere la funcţionarea unor dispositive tehnice, în probleme de risc sau toleranţă etc. Capitolul 9 prezintă patru algoritmi. Elaborarea programelor de calculator pentru aceşti algoritmi este foarte utilă în rezolvarea unor probleme tehnice sau economice.