23
”There are no problems, only solutions.” John Lennon 12 Testarea ipotezelor statistice Explorarea spatiului, o istorie a erorilor remediate Sonda Magellan, denumita si Sonda de Cartografiere a planetei Venus prin Unde Radar, a fost o sonda spat , ial˘ a robot avand o greutate de 1.035 kilograme, lansata de NASA la 4 mai 1989. A avut misiunea sa cartografieze suprafata planetei Venus prin tehnica radar s , i s˘ a masoare gravitatia planetei. A fost prima misiune interplanetara lansata de pe o navet˘ a spat , iala. 1

Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

  • Upload
    others

  • View
    11

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

”There are no problems, only solutions.”

John Lennon

12Testarea ipotezelor statistice

Explorarea spatiului, o istorie a erorilor remediate

Sonda Magellan, denumita si Sonda de Cartografiere a planetei Venus prinUnde Radar, a fost o sonda spat, iala robot avand o greutate de 1.035 kilograme,lansata de NASA la 4 mai 1989. A avut misiunea sa cartografieze suprafataplanetei Venus prin tehnica radar s, i sa masoare gravitatia planetei. A fostprima misiune interplanetara lansata de pe o naveta spat, iala.

1

Page 2: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

In 5 octombrie 1991 sonda Magellan a intrat in atmosfera lui Venus si ainceput sa identifice uluitoare noi forme de relief. Uniunea Astronomica Inter-nationala a propus ulterior o lista de nume, exclusiv feminine, acestor noi forme:Aphrodite Terra, Ishtar Terra, Lada Terra, Elena, Guinevere, Sedna. Numelepropuse corespund unor zeite, eroine reale sau personaje din sfera fictiunii. Sin-gurul nume barbatesc din geografia venusiana este Maxwell Montes (in onoarealui James Maxwell) si a fost dat unui lant muntos detectat inca de prin anii 60’cu ajutorul unor radare situate pe Pamant.

Sonda transmitea in paralel informatii despre temperatura 𝑇 (exprimata ingrade Kelvin), in functie de altitudinea ℎ la care se afla (km). La aproximativ30 km de sol NASA a pierdut controlul sondei ramanand astfel fara una dintrecele mai de pret informatii: temperatura la nivelul solului pe sufocanta planetaVenus. ”Houston, we’ve had a problem here” (again).

In momentul prelucrarii datelor, informatiile primite de la sonda au fostreprezentate sub forma unor puncte (ℎ𝑖, 𝑇𝑖), indicand altitudinea si temperaturain momentul 𝑖.

Vizualizand astfel datele a fost cau-tata o curba 𝑇 = 𝑓(ℎ) care sa apro-ximeze cel mai bine norul de puncteobtinut. Folosind tehnicile analizei re-gresive a fost gasita dreapta de ecuatie

𝑇 = 𝑓(ℎ) = 737, 5 − 8, 125 · ℎintrucat norul de puncte (ℎ𝑖, 𝑇𝑖) arataca cel din figura. In acest mod, con-siderand ℎ = 0, cercetatorii NASA auputut aproxima temperatura la nivelulsolului ca fiind 𝑇 ≈ 737.5∘K.

Aceasta valoare a fost ulterior verificata cu ocazia altor survolari ale pla-netei Venus. Valoarea medie acceptata astazi este de 737∘K, adica aproximativ464∘C. Caldut, ... spre racoare.

2

Page 3: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Analiza regresiva

Vom exemplifica in cele ce urmeaza metoda prin care putem sa gasim curbacare aproximeaza un nor de puncte (𝑥𝑖, 𝑦𝑖). Sa presupunem ca dorim sa gasimo relatie intre doua variabile 𝑥 si 𝑦 (temperatura si altitudinea in exemplulanterior) si in urma unor masuratori am obtinut datele:

(𝑥1, 𝑦1), (𝑥2, 𝑦2), . . . , (𝑥𝑛, 𝑦𝑛)

intelegand ca atunci cand variabila 𝑥 a avut valoarea 𝑥1 variabila 𝑦 a avutvaloarea corespunzatoare 𝑦1, etc. Daca reprezentam aceste puncte intr-un reper𝑂𝑥𝑦 ideea este sa gasim o functie 𝑓 , al carei grafic sa aproximeze cat mai binenorul de puncte obtinut. Daca vom fi gasit o astfel de functie vom putea saobtinem noi informatii despre dependenta 𝑥 → 𝑦, presupunand ca se pastreazatrendul observat prin masuratori.

Matematic vorbind, am dori sa gasim relatia dintre 𝑥 si 𝑦, adica 𝑦 = 𝑓(𝑥),astfel ca erorile dintre valoarea estimata de functia 𝑓 si cea inregistrata in prac-tica sa fie cat mai mica

𝐸 = 𝑑21 + 𝑑22 + . . . + 𝑑2𝑛 sa fie minima.

Mai jos sunt exemplificate aceste erori 𝑑𝑖 = |𝑓(𝑥𝑖)−𝑦𝑖| pentru o dependentafunctionala liniara 𝑓(𝑥) = 𝑎 + 𝑏𝑥 (Regresia liniara)

Sa presupunem ca punctele (𝑥1, 𝑦1), (𝑥2, 𝑦2), . . . , (𝑥𝑛, 𝑦𝑛) par a fi situatefoarte aproape de o dreapta. Vom nota ecuatia acestei drepte cu

𝑦 = 𝑓(𝑥) = 𝑎 + 𝑏𝑥.

3

Page 4: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Dorim sa gasim 𝑎, 𝑏 pentru care expresia

𝐸(𝑎, 𝑏) =

𝑛∑𝑖=1

(𝑦𝑖 − 𝑎− 𝑏𝑥𝑖)2

are o valoare minima. De fapt, reinterpretand problema in acest fel, cautampuncte (𝑎, 𝑏) care sa reprezinte un minim al functiei 𝐸. Stim ca este necesar caaceste puncte sa fie puncte critice, prin urmare (𝑎, 𝑏) se afla rezolvand ecuatiile⎧⎪⎨⎪⎩

𝜕𝐸𝜕𝑎 = −2

∑𝑛𝑖=1(𝑦𝑖 − 𝑎− 𝑏𝑥𝑖) = 0

𝜕𝐸𝜕𝑏 = −2

∑𝑛𝑖=1(𝑦𝑖 − 𝑎− 𝑏𝑥𝑖) · 𝑥𝑖 = 0

Sistemul de mai sus care conduce la⎧⎪⎪⎨⎪⎪⎩𝑎 + 𝑏 ·

𝑛∑𝑖=1

𝑥𝑖

𝑛 =

𝑛∑𝑖=1

𝑦𝑖

𝑛

𝑎 ·𝑛∑

𝑖=1𝑥𝑖

𝑛 + 𝑏 ·𝑛∑

𝑖=1𝑥2𝑖

𝑛 =

𝑛∑𝑖=1

𝑥𝑖𝑦𝑖

𝑛

care are solutiile

𝑏 =𝑛∑

𝑥𝑦 −∑

𝑥 ·∑

𝑦

𝑛∑

𝑥2 − (∑

𝑥)2

si

𝑎 =

𝑛∑𝑖=1

𝑦𝑖

𝑛− 𝑏

𝑛∑𝑖=1

𝑥𝑖

𝑛= 𝑌 − 𝑏��.

Regresia parabolica

∙ estimam norul de puncte printr-o parabola 𝑦 = 𝑓(𝑥) = 𝑎 + 𝑏𝑥 + 𝑐𝑥2

∙ impunand conditia data de metoda celor mai mici patrate se obtine sistemul⎧⎪⎨⎪⎩𝑎 · 𝑛 + 𝑏 ·

∑𝑥 + 𝑐 ·

∑𝑥2 =

∑𝑦

𝑎 ·∑

𝑥 + 𝑏 ·∑

𝑥2 + 𝑐 ·∑

𝑥3 =∑

𝑥𝑦

𝑎 ·∑

𝑥2 + 𝑏 ·∑

𝑥3 + 𝑐 ·∑

𝑥4 =∑

𝑥2𝑦

Regresia hiperbolica

∙ estimam norul de puncte printr-o hiperbola 𝑦 = 𝑓(𝑥) = 𝑎 + 𝑏𝑥

∙ impunand conditia data de metoda celor mai mici patrate se obtine sistemul{𝑎 · 𝑛 + 𝑏 ·

∑1𝑥 =

∑𝑦

𝑎 ·∑

1𝑥 + 𝑏 ·

∑1𝑥2 =

∑ 𝑦𝑥

Regresia exponentiala

∙ estimam norul de puncte printr-o curba 𝑦 = 𝑓(𝑥) = 𝑎 · 𝑏𝑥∙ se logaritmeaza relatia si obtinem

ln 𝑦 = ln 𝑎 + ln 𝑏 · 𝑥

4

Page 5: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

care are forma unui model de regresie liniara pentru datele (𝑥𝑖, ln 𝑦𝑖), 𝑖 = 1, 𝑛deci 𝑎 si 𝑏 se determina din

ln 𝑏 =𝑛∑

𝑥 ln 𝑦 −∑

𝑥 ·∑

ln 𝑦

𝑛∑

𝑥2 − (∑

𝑥)2

si

ln 𝑎 =

∑𝑛𝑖=1 ln 𝑦𝑖𝑛

− ln 𝑏 ·∑𝑛

𝑖=1 𝑥𝑖

𝑛.

prin intermediul formulelor 𝑎 = 𝑒ln 𝑎 si 𝑏 = 𝑒ln 𝑏

Estimarea parametrilor prin intervale de incredere

∙ intervalele de incredere sunt folosite cand vrem sa estimam un parametrual unei populatii folosind un esantion

∙ parametrul poate fi estimat printr-o singura valoare (estimare punctuala,ca in fisa seminarului trecut) dar de obicei e preferabil sa fie estimat printr-uninterval care va da unele indicii asupra gradului de incertitudine al estimarii

∙ folosim din nou notatia din seminarul trecut pentru acest parametru ne-cunoscut, si anume 𝜃.

∙ ne vom concentra pe estimari asupra mediei populatiei 𝜇, proportiei 𝑝 sidispersiei 𝜎2

∙ nivelul de incredere C al unui interval de incredere reprezinta probabilitateaca intervalul construit sa contina valoarea adevarata a parametrului

∙ acest nivel de incredere este ales a priori si valorile cele mai utilizate sunt0.90, 0.95, sau 0.99

∙ aceste nivele corespund procentajelor din aria curbei lui Gauss, data dedensitatea de probabilitate a unei variabile aleatoare normal standard distribuita

∙ nivelul de semnificatie (eroare) 𝛼 este definit prin 𝛼 = 1 − 𝐶 si reprezintamarimea riscului de eroare pe care cercetatorul este dispus sa il accepte

Reprezentare grafica

Un interval de incredere cu un nivel de incredere 𝐶 = 95% acopera 95% dincurba lui Gauss. Probabilitatea ca valoarea reala sa fie in afara acestui intervaleste mai mica de 0.05. Pentru ca aceasta curba este simetrica, jumatate de ariese afla in partea din stanga a curbei si cealalta jumatate in partea dreapta.

Dupa cum este ilustrat de mai jos, pentru un interval de incredere cu nivelulde incredere C, aria din fiecare extremitate a curbei este 1−𝐶

2 = 𝛼2 . Pentru un

nivel de incredere 95%, aria din fiecare extremitate este 𝛼/2 = 0.05/2 = 0.025.

5

Page 6: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Valoarea 𝑧⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca 𝑧⋆ este egala cu 𝛼

2 , este denumitavaloarea critica superioara a distributiei normale standard.

Spre exemplu, pentru 𝛼2 = 0.025, valoarea 𝑧* pentru care

Φ(−𝑧⋆) = 𝑃 (𝑍 > 𝑧⋆) = 0.025 sau Φ(𝑧⋆) = 𝑃 (𝑍 < 𝑧⋆) = 1 − 𝛼

2= 0.975

este egala cu 1.96 conform tabelului cu scorurile Z citit in sens invers. Cu altecuvinte, pentru 𝛼

2 = 0.025 se cauta in tabelul scorurilor Z fie acea valoare 𝑧⋆

pentru care se obtine 1 − 𝛼2 = 0.975, fie acea valoare −𝑧⋆ pentru care se obtine

𝛼2 = 0.025 si in ambele cazuri se gaseste 𝑧⋆ = 1.96. Se foloseste destul de desnotatia 𝑧⋆ = 𝑧1−𝛼

2pentru a evidentia legatura dintre valoarea critica si nivelul

de semnificatie 𝛼 dorit.

Estimarea mediei unei populatii

∙ estimarile mediei unei populatii prin intervale de incredere se bazeaza peurmatoarele doua teoreme

Medie necunoscuta si dispersie cunoscuta

Pentru o populatie cu media 𝜇 necunoscuta si dispersia 𝜎2 cunoscuta,un interval de incredere pentru media populatiei, construit pe baza unuiesantion de volum 𝑛, este(

��− 𝑧*𝜎√𝑛, �� + 𝑧*

𝜎√𝑛

)unde 𝑧* este valoarea critica corespunzatoare lui 1− 𝛼

2pentru distributia

normala standard, adica Φ(𝑧*) = 1 − 𝛼2 .

∙ cand dispersia 𝜎2 este necunoscuta aceasta este estimata de obicei prin 𝑠2,unde 𝑠 este deviatia standard de selectie

𝑠 =

⎯⎸⎸⎸⎷ 𝑛∑𝑖=1

(𝑥𝑖 − ��)2

𝑛− 1

6

Page 7: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

si 𝑛 este volumul selectiei.

Medie necunoscuta si dispersie necunoscuta

Pentru o populatie cu media necunoscuta 𝜇 si dispersia 𝜎2 necunoscuta,un inteval de incredere pentru media populatiei, construit pe baza unuiesantion de volum 𝑛, este(

��− 𝑡*𝑠√𝑛, �� + 𝑡*

𝑠√𝑛

)unde 𝑡* este valoarea critica corespunzatoare lui

𝛼

2pentru distributia 𝑡-

Student cu n-1 grade de libertate.

∙ se foloseste frecvent notatia 𝑡⋆ = 𝑡𝛼2 ,𝑛−1

∙ pasul final consta in interpretarea rezultatului: pe baza datelor detinutesuntem 𝐶% siguri ca adevarata medie a populatiei se afla intre valorile date deintervalul gasit, dar la o alta esantionare se va obtine o alta medie de selectie siatunci media populatiei va apartine cu o probabilitate 95% intervalului construitin jurul noii medii ��.

Remarca

Valorile critice 𝑧* si 𝑡* se pot gasi in tabelul valorilor critice z-t. Distributia 𝑡,sau distributia Student, este data de densitatea de probabilitate

𝑓(𝑡) =Γ(𝑛+1

2 )√𝑛𝜋Γ(𝑛

2 )

(1 +

𝑡2

𝑛

)−𝑛+12

unde 𝑛 este numarul de grade de libertate si Γ este functia lui Euler.

Presupunem ca un student care masoara temperatura de fierbere a unui an-umit lichid observa urmatoarele valori (exprimate in grade Celsius) 102.5,101.7, 103.1, 100.9, 100.5, si 102.2 pentru 6 esantioane diferite de lichid.Pe baza acestor dare el calculeaza media �� a esantionului ca fiind 101.82.Daca stie ca dispersia acestei proceduri este 1.44 grade, care este intervalulde incredere pentru media populatiei la un nivel de incredere de 95%?

Un exemplu si cateva comentarii

Cu alte cuvinte, studentul doreste sa estimeze adevarata valoare medie a tem-peraturii de fierbere a lichiduluui folosind rezultatele masuratorilor lui. Dacamasuratorile urmeaza o distributie normala atunci esantionul ca avea o distribu-

tie 𝒩(𝜇,

𝜎2

𝑛

). Intrucat volumul esantionului este 𝑛 = 6, eroarea standard a

estimatorului mediei esantionului este egala cu 𝜎√𝑛

= 1.2√6

= 0.49.

Valoarea critica 𝑧⋆ pentru un nivel de incredere de 95% este 𝑧⋆ = 1.96.Asadar un interval de incredere pentru media �� la un nivel de incredere 95%este

(101.82 − 1.96 · 0.49, 101.82 + 1.96 · 0.49) = (100.86, 102.78)

7

Page 8: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Vom face in continuare cateve comentarii legate de intervalele de incredere.Pe masura ce nivelul de incredere descreste, lungimea intervalului descreste Sapresupunem ca studentul era interesat de obtinerea unui nivel de incredere de90% pentru intervalul de incredere a temperaturii de fierbere. In acest caz,𝐶 = 0.90, si 𝛼

2 = 0.05. Valoarea critica 𝑧* pentru acest nivel este 1.645, deci unastfel de interval ca fi:

(101.82 − 1.645 · 0.49, 101.82 + 1.645 · 0.49) = (101.01, 102.63)

O crestere a volumului esantionului va determina o descrestere a lungimii in-tervalului de incredere atunci cand pastram nivelul de incredere cosntant. Marjade eroare 𝑒 a unui interval de incredere este definita ca fiind valoarea adunatasau scazuta la media esantionului, care determina lungimea intervalului

𝑒 = 𝑧⋆𝜎√𝑛

Sa presupunem ca in exemplul de mai sus studentul doreste sa aiba o marjade eroare egala cu 0.5 grade la un nivel de incredere de 95%. Facand calculelenecesare se obtine 𝑛 = (1.96 · 1.2/0.5)2 = 22.09. Asadar, pentru a obtine uninterval de incredere pentru temperatura medie de fierbere,cu 95% nivel de in-credere si lungimea de 1 grad, atunci studentul va avea de facut 23 masuratori.

Estimarea proportiei unei populatii

∙ pentru o populatie statistica, prin proportia 𝑝 a populatiei vom intelegeprocentul din intreaga colectivitate ce satisface o anumita proprietate

∙ prin proportie de selectie 𝑝 intelegem procentajul din valorile de selectiece satisfac acea proprietate

∙ sa presupunem ca am extras un esantion de volum 𝑛 dintr-o populatie siurmarim o caracteristica anume pe care doar 𝑥 valori o au, atunci 𝑝 = 𝑥

𝑛 esteproportia de selectie si va fi un estimator punctual pentru proportia caracteris-ticii in cadrul populatiei

∙ pentru n mare, adica 𝑛 ≥ 30, 𝑛𝑝 ≥ 5 si 𝑛(1 − 𝑝) ≥ 5, ne folosim deurmatorul rezultat pentru a construi un interval de incredere pentru proportiapopulatiei

Proportia pentru esantioane mari

Daca 𝑝 este proportia de selectie a unui esantion de volum 𝑛 mare, atunciun interval de incredere a proportiei p a populatiei, la un nivel de semni-ficatie 𝛼 (nivel de incredere 1 − 𝛼), este(

𝑝− 𝑧1−𝛼2

√𝑝(1 − 𝑝)

𝑛, 𝑝 + 𝑧1−𝛼

2

√𝑝(1 − 𝑝)

𝑛

)

∙ atunci cand stim volumul 𝑁 al populatiei si 𝑛 ≥ 0.05 · 𝑁 vom avea oestimare de tipul

(𝑝− 𝑧1−𝛼

2

√𝑝(1 − 𝑝)

𝑛·√

𝑁 − 𝑛

𝑁 − 1, 𝑝 + 𝑧1−𝛼

2

√𝑝(1 − 𝑝)

𝑛·√

𝑁 − 𝑛

𝑁 − 1

)

8

Page 9: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Estimarea dispersiei unei populatii

∙ punctul de plecare in estimarea dispersiei il reprezinta faptul ca daca𝑋1, 𝑋2, . . . , 𝑋𝑛 este o selectie aleatoare dintr-o populatie normal distribuita cu

media 𝜇 si dispersia 𝜎2 atunci variabila aleatoare (𝑛−1)𝑠2

𝜎2 are o distributie 𝜒2 cun-1 grade de libertate

Estimarea dispersiei

Daca 𝑠2 este dispersia de selectie rezultata din 𝑛 observatii ale unei carac-teristici corespunzatoare unei populatii normal distribuite cu dispersia 𝜎2

necunoscuta, atunci cu un nivel de incredere 1−𝛼 (sau nivel de seminifi-catie 𝛼) putem spune ca adevarata valoare a dispersiei se afla in intervalul(

(𝑛− 1)𝑠2

𝜒2𝛼2 ,𝑛−1

,(𝑛− 1)𝑠2

𝜒21−𝛼

2 ,𝑛−1

)

∙ valorile critice 𝜒2𝛼2 ,𝑛−1 si 𝜒2

1−𝛼2 ,𝑛−1 se pot alege din tabelul valorilor crit-

ice superioare 𝜒2𝛼,𝑛−1 fiind foarte atenti la legatura dintre nivelul de incredere,

nivelul de seminificatie si aceste valori critice

Unui grup de 30 de studenti ai unei facultati este supus unui test IQ. Dacagrupul a inregistrat o deviatie standard de 12.23 puncte, gasiti un intervalde incredere cu un nivel de incredere de 90% pentru adevarata dispersie ascorurilor inregistrate la testul IQ.

Exemplu ilustrativ

Nivelul de incredere se scrie 90% = 1 − 𝛼, deci 𝛼 = 0.10, iar din enunt aveminformatia 𝑠 = 12.23. Observam ca volumul selectiei este 𝑛 = 30 deci vom aveanevoie de valori critice ale distributiei 𝜒2 pentru 𝑛− 1 = 29 grade de libertate.Va trebui sa cautam in tabelul mai sus amintit valorile 𝜒2

𝛼2 ,𝑛−1 = 𝜒2

0.05,29 si

𝜒21−𝛼

2 ,𝑛−1 = 𝜒20.95,29. Se identifica apoi 𝜒2

0.05,29 = 17.708 si 𝜒20.95,29 = 42.557.

Asadar un interval 90% sigur pentru dispersia scorurilor IQ inregistrate la aceltest este

𝜎2 ∈(

29 · 12.232

42.557,

29 · 12.232

17.708

)

Testarea ipotezelor statistice

∙ in procesul decizional managerii emit ipoteze care apoi pot fi testate cuintrumentele statisticii matematice

∙ un test statistic examineaza doua ipoteze opuse legate de o populatie sta-tistica: ipoteza nula si ipoteza alternativa

∙ felul in care sunt construite depinde de ceea ce se incearca a se arata

9

Page 10: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Ipoteza nula 𝐻0

∙ ipoteza nula afirma ca un parametru al unei populatii statistice este egalcu o valoare fixa

∙ ipoteza nula este de obicei o afirmatie facuta de catre manageri pornindde la cercetarile si cunostintele anterioare.

Ipoteza alternativa 𝐻𝑎

∙ ipoteza alternativa afirma ca parametrul populatiei este diferit de cel pre-supus in ipoteza nula

∙ ipoteza alternativa este ceea ce s-ar putea sa crezi ca e adevarat sau sperisa se dovedeasca a fi adevarat

Eroare de tip I: respingerea pe baza testului a ipotezei nule, cand aceastaeste adevarata

Eroare de tip II: esecul in respingerea ipotezei nule, cand aceasta este falsa

Teste statistice pentru medie

∙ cele mai comune ipoteze sunt referitoare la media unei populatii statistice∙ testarea unor astfel de ipoteze, a determina daca media 𝜇 a unei populatii

este egala cu o anumita valoare tinta 𝜇0, presupune urmatorii pasi∙ ca si pana acum 𝛼 va fi nivelul de seminficatie iar valorile critice vor fi

obtinute din tabele=⇒ pentru un volum mare 𝑛 al esantionului sau 𝜎 cunoscuta

Testul bilateral

𝐻0 : 𝜇 = 𝜇0

𝐻𝑎 : 𝜇 = 𝜇0

∙ folosim testul z si calculam

𝑧𝑐𝑎𝑙𝑐 =��− 𝜇0

𝜎√𝑛

∙ regiunea critica/ regiunea de respingere, cand respingem 𝐻0, este datade

𝑧𝑐𝑎𝑙𝑐 < −𝑧1−𝛼2

sau 𝑧𝑐𝑎𝑙𝑐 > 𝑧1−𝛼2

∙ uneori suntem intersati de alte forme ale ipotezelor si dorim doar sa testamdaca media este mai mare decat o valoare presupusa 𝜇0

Testul unilateral la dreapta

𝐻0 : 𝜇 ≤ 𝜇0

𝐻𝑎 : 𝜇 > 𝜇0

∙ regiunea critica/ regiunea de respingere, cand respingem 𝐻0, este data de

10

Page 11: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

𝑧𝑐𝑎𝑙𝑐 > 𝑧1−𝛼

Testul unilateral la stanga

𝐻0 : 𝜇 ≥ 𝜇0

𝐻𝑎 : 𝜇 < 𝜇0

∙ regiunea critica, cand respingem 𝐻0, este data de

𝑧𝑐𝑎𝑙𝑐 < −𝑧1−𝛼

∙ o reprezentare grafica a regiunilor critice, cand acceptam 𝐻𝑎, este datamai jos

=⇒ pentru volumul 𝑛 < 30 al esantionului si 𝜎 necunoscuta vom folositestul t-Student

Testul bilateral

𝐻0 : 𝜇 = 𝜇0

𝐻𝑎 : 𝜇 = 𝜇0

∙ folosim testul Student-𝑡 si calculam

𝑡𝑐𝑎𝑙𝑐 =��− 𝜇0

𝑠√𝑛

∙ regiunea critica/ regiunea de respingere, cand respingem 𝐻0, si accep-tam 𝐻𝑎, este data de

𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼2 ,𝑛−1 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼

2 ,𝑛−1

∙ uneori suntem intersati de alte forme ale ipotezelor si dorim doar sa testamdaca media este mai mare decat o valoare presupusa 𝜇0

Testul unilateral la dreapta

𝐻0 : 𝜇 ≤ 𝜇0

𝐻𝑎 : 𝜇 > 𝜇0

∙ regiunea critica/ regiunea de respingere, cand respingem 𝐻0, este data de

11

Page 12: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−1

Testul unilateral la stanga

𝐻0 : 𝜇 ≥ 𝜇0

𝐻𝑎 : 𝜇 < 𝜇0

∙ regiunea critica, cand respingem 𝐻0, este data de

𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−1

∙ o reprezentare grafica a regiunilor critice in cele trei cazuri este prezentatamai jos, 𝐻𝑎 fiind acceptata daca 𝑡𝑐𝑎𝑙𝑐 se afla in regiunile respective

Testul pentru compararea mediilor

∙ vom compara doua caracteristici, corespunzatoare unor populatii diferite,modelate de variabile normal distribuite 𝑋 ∼ 𝒩 (𝜇1, 𝜎

21) si 𝑌 ∼ 𝒩 (𝜇2, 𝜎

22) cu

dispersiile 𝜎21 , 𝜎

22 cunoscute

∙ se realizeaza doua selecti de volum 𝑛1, respectiv 𝑛2, si se noteaza prin ��1,respectiv ��2, mediile celor doua selectii

Testul bilateral

𝐻0 : 𝜇1 = 𝜇2

𝐻𝑎 : 𝜇1 = 𝜇2

∙ se calculeaza

𝑧𝑐𝑎𝑙𝑐 =��1 − ��2√𝜎21

𝑛1+

𝜎22

𝑛2

∙ respingem 𝐻0 daca

𝑧𝑐𝑎𝑙𝑐 < −𝑧1−𝛼2

sau 𝑧𝑐𝑎𝑙𝑐 > 𝑧1−𝛼2

12

Page 13: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

∙ daca 𝜎21 si 𝜎2

2 sunt necunoscute si 𝑛 este suficient de mare, 𝑛 ≥ 30, atuncise inlocuiesc prin dispersiile de selectie 𝑠1 si 𝑠2

𝑧𝑐𝑎𝑙𝑐 =��1 − ��2√𝑠21𝑛1

+𝑠22𝑛2

Testul unilateral la dreapta

𝐻0 : 𝜇1 ≤ 𝜇2

𝐻𝑎 : 𝜇1 > 𝜇2

∙ respingem 𝐻0, si acceptam 𝐻𝑎, daca

𝑧𝑐𝑎𝑙𝑐 > 𝑧1−𝛼

Testul unilateral la stanga

𝐻0 : 𝜇1 ≥ 𝜇2

𝐻𝑎 : 𝜇1 < 𝜇2

∙ respingem 𝐻0, si acceptam 𝐻𝑎, daca

𝑧𝑐𝑎𝑙𝑐 < −𝑧1−𝛼

=⇒ atunci cand 𝜎21 = 𝜎2

2 sau 𝑛 este mic, se utilizeaza testul 𝑡-Student

Testul bilateral

𝐻0 : 𝜇1 = 𝜇2

𝐻𝑎 : 𝜇1 = 𝜇2

∙ se calculeaza

𝑡𝑐𝑎𝑙𝑐 =��1 − ��2

𝑠⋆√

1𝑛1

+ 1𝑛2

unde

𝑠⋆ =

√(𝑛1 − 1)𝑠21 + (𝑛2 − 1)𝑠22

𝑛1 + 𝑛2 − 2

∙ respingem 𝐻0 daca

𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼2 ,𝑛1+𝑛2−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼

2 ,𝑛1+𝑛2−2

∙ in cazurile unilaterale avem urmatoarele situatii

13

Page 14: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Testul unilateral la dreapta

𝐻0 : 𝜇1 ≤ 𝜇2

𝐻𝑎 : 𝜇1 > 𝜇2

∙ respingem 𝐻0, si acceptam 𝐻𝑎, daca

𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛1+𝑛2−2

Testul unilateral la stanga

𝐻0 : 𝜇1 ≥ 𝜇2

𝐻𝑎 : 𝜇1 < 𝜇2

∙ respingem 𝐻0, si acceptam 𝐻𝑎, daca

𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛1+𝑛2−2

Testul 𝜒2 pentru dispersia unei selectii

∙ ne vom referi la o caracteristica modelata prin 𝑋 ∼ 𝒩 (𝜇, 𝜎2) din care sealege o selectie de volum 𝑛

Testul bilateral

𝐻0 : 𝜎2 = 𝜎20

𝐻𝑎 : 𝜎2 = 𝜎20

∙ se calculeaza

𝜒2𝑐𝑎𝑙𝑐 =

(𝑛− 1)𝑠2

𝜎20

∙ respingem ipoteza 𝐻0 daca

𝜒2𝑐𝑎𝑙𝑐 < 𝜒2

1−𝛼2 ,𝑛−1 sau 𝜒2

𝑐𝑎𝑙𝑐 > 𝜒2𝛼2 ,𝑛−1

si vom accepta 𝐻𝑎

∙ celelalte doua situatii sunt prezentate mai jos

Testul unilateral la dreapta

𝐻0 : 𝜎2 ≤ 𝜎20

𝐻𝑎 : 𝜎2 > 𝜎20

14

Page 15: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

∙ respingem 𝐻0 daca

𝜒2𝑐𝑎𝑙𝑐 > 𝜒2

𝛼,𝑛−1

Testul unilateral la stanga

𝐻0 : 𝜎2 ≥ 𝜎20

𝐻𝑎 : 𝜎2 < 𝜎20

∙ respingem 𝐻0 daca

𝜒2𝑐𝑎𝑙𝑐 < 𝜒2

1−𝛼,𝑛−1

∙ mai jos aveti reprezentarea grafica a regiunilor critice

Testul 𝐹 pentru compararea dispersiilor

∙ uneori, in practica, suntem nevoiti sa comparam doua caracteristici, core-spunzatoare unor populatii diferite, modelate de variabile aleatoare normal dis-tribuite 𝑋 ∼ 𝒩 (𝜇1, 𝜎

21) si 𝑌 ∼ 𝒩 (𝜇2, 𝜎

22) cu dispersiile 𝜎2

1 , 𝜎22 necunoscute

Testul bilateral

𝐻0 : 𝜎21 = 𝜎2

2

𝐻𝑎 : 𝜎21 = 𝜎2

2

∙ se calculeaza raportul

𝐹𝑐𝑎𝑙𝑐 =𝑠21𝑠22

∙ se respinge ipoteza 𝐻0 daca

𝐹𝑐𝑎𝑙𝑐 <1

𝐹𝛼2 ,𝑛2−1,𝑛1−1

sau 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼2 ,𝑛1−1,𝑛2−1

Testul unilateral la dreapta

𝐻0 : 𝜎21 ≤ 𝜎2

2

𝐻𝑎 : 𝜎21 > 𝜎2

2

∙ regiunea de respingere, cand respingem 𝐻0, este data de

𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼,𝑛1−1,𝑛2−1

15

Page 16: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Testul unilateral la stanga

𝐻0 : 𝜎21 ≥ 𝜎2

2

𝐻𝑎 : 𝜎21 < 𝜎2

2

∙ respingem ipoteza 𝐻0 daca

𝐹𝑐𝑎𝑙𝑐 <1

𝐹𝛼,𝑛2−1,𝑛1−1

∙ valorile critice corespunzatoare distributiei 𝐹 se gasesc in tabele, citite cuatentie relativ la ordinea celor doua tipuri de grade de libertate

Probleme rezolvate

Problema 1. Dintr-o selectie de 200 de studenti ai unei sectii, cu 1235de studenti, 65% afirma ca obisnuiesc sa copieze la examene. Sa segaseasca un interval de incredere, pentru procentul de studenti ai respec-tivei sectii, care copiaza la examene, la nivelul de semnificatie 𝛼 = 0.05.

Solutie: Cunoastem valoarea exacta a numarului de indivizi ai populatieisupusa investigarii, 𝑁 = 1276. Mai mult se observa ca 𝑛 ≥ 0.5 ·𝑁 , caci 𝑛 = 200.Continuam sa traducem enuntul problemei si remarcam ca trebuie sa estimamproportia 𝑝 de studenti care copiaza, stiind 𝑝 = 65% proportia unei selectii. Uninterval de incredere pentru 𝑝 va fi

(𝑝− 𝑧1−𝛼

2

√𝑝(1 − 𝑝)

𝑛·√

𝑁 − 𝑛

𝑁 − 1, 𝑝 + 𝑧1−𝛼

2

√𝑝(1 − 𝑝)

𝑛·√

𝑁 − 𝑛

𝑁 − 1

)

Pentru nivelul de semnificatie 𝛼 = 0.05, valoarea critica 𝑧1−𝛼2

= 𝑧0.975 = 1.96conform tabelului (unde cautam 𝐶 = 1 − 𝛼 = 95%) sau conform tabelului cuscorurile z (unde cautam acel 𝑧 pentru care se obtine .9750)

In final gasim(0.65 − 1.96

√0.65(1 − 0.65)

200·√

1276 − 200

1276 − 1, 0.65 + 1.96

√0.65(1 − 0.65)

200·√

1276 − 200

1276 − 1

)

adica

(0.5893, 0.7107)

semnificand o proportie reala intre 58.93% si 71.07%.

16

Page 17: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Liebeck vs. McDonald’s

Datele din dreapta arata tempe-raturile de racire ale unei cestide cafea, care tocmai a fostpreparata. Temperatura la careajunge aparatul de cafea este 180de grade Fahrenheit (aproximativ82∘𝐶).

In anul 1992 o femeie a dat in judecata McDonald’s pentru ca au servitcafeaua la temperatura 180∘𝐹 si aceasta i-a cauzat arsuri serioase inmomentul in care a incercat sa o bea, cazul Liebeck vs. McDonald’s. Unexpert adus din partea acuzarii a sustinut la proces ca lichidele care seafla la aceasta temperatura pot cauza distrugerea totala a pielii umanein doua pana la sapte secunde. S-a stabilit ca daca ar fi fost servita la155∘𝐹 (68∘𝐶) s-ar fi racit la timp si ar fi fost evitat tot incidentul. Femeiaa primit in prima instanta o despagubire de 2.7 milioane de dolari. Caurmare a acestui caz faimos multe restaurante servesc acum cafeaua lao temperatura de aproximativ 155∘𝐹 . Cat de mult ar trebui sa astepterestaurantele din momentul in care cafeaua este turnata in ceasca dinaparat si pana cand ea poate fi servita, pentru a se asigura ca nu este maifierbinte de 155∘𝐹 ?

Solutie: Pe baza reprezentarii grafice a datelor, am fi indreptatiti sa cautamun model de regresie parabolic sau hiperbolic pentru aceasta problema, vezifigura de mai jos. Ideal ar fi sa aflam ambele tipuri de curbe de regresie si lafinal sa identificam care produce cea mai mica eroare 𝐸 prin metoda celor maimici patrate. In cele ce urmeaza vom cauta un model de regresie parabolic

𝑦 = 𝑓(𝑥) = 𝑎 + 𝑏𝑥 + 𝑐𝑥2

Impunand conditia data de metoda celor mai mici patrate se obtine sistemul⎧⎪⎨⎪⎩𝑎 · 𝑛 + 𝑏 ·

∑𝑥 + 𝑐 ·

∑𝑥2 =

∑𝑦

𝑎 ·∑

𝑥 + 𝑏 ·∑

𝑥2 + 𝑐 ·∑

𝑥3 =∑

𝑥𝑦

𝑎 ·∑

𝑥2 + 𝑏 ·∑

𝑥3 + 𝑐 ·∑

𝑥4 =∑

𝑥2𝑦

In cazul nostru 𝑛 = 14 iar 𝑥1 = 0, 𝑥2 = 5, 𝑥3 = 8, etc, precum si valorile𝑦1 = 179.5, 𝑦2 = 168.7, 𝑦3 = 158.1, etc. Pentru calculul sumelor care apar in

17

Page 18: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

sistemul de mai sus e ideal sa se lucreze cu aceste date reprezentate in tabele,precum in curs.

Cand avem multe date de manevrat ar fi ideal sa utilizam softuri matematicepentru a aproxima ecuatia curbei cautate. Pentru datele din problema se gaseste

𝑦 = 2.83576253 · 10−2 · 𝑥2 − 2.986526182 · 𝑥 + 180.1081173

cu o suma reziduala (vezi curs)

𝑆𝑆𝑒𝑟 = 28.0739498

si un coeficient de determinare

𝑅2 = 9.966830306 · 10−1

Pe baza modelulul obtinut putem estima timpul (min) scurs din momemtulprepararii pana in momentul in care cafeaua va ajunge la 155∘F, rezolvandecuatia 𝑓(𝑥) = 155 si se obtine 𝑥 ≈ 9 min si 30 sec.

Problema 2. Noua dintre studentii unei facultati cu profil sportiv au fostselectati pentru a da un test de alergare pe distanta mare. Masuratorilepentru acest grup au condus la un timp mediu de 12, 87 minute cu oabatere standard 𝑠 = 1, 3. Sa se aproximeze, cu o probabilitate de 90%,timpul mediu pe care studentii intregii facultati il vor inregistra pe aceadistanta .

Solutie: Deoarece nu se cunoaste dispersia populatiei iar esantionul are volu-mul mai mic dacat 30, intervalul de ıncredere este dat de formula(

𝑥− 𝑠√𝑛𝑡𝛼

2 ,𝑛−1, 𝑥 +𝑠√𝑛𝑡𝛼

2 ,𝑛−1

),

unde 𝑥 = 12, 87, 𝑠 = 1, 3, 𝑛 = 9, 𝛼 = 0, 10, iar 𝑡𝛼2 ,𝑛−1 este valoarea critica a

repartitiei Student (statisticianul William Sealy Gosset folosea acest pseudonim

18

Page 19: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

in articolele sale) cu 𝑛−1 grade de libertate. In cazul nostru, obtinem valoarea𝑡0.05,9−1 = 𝑡0.05,8 = 1, 860 conform tabelului z-t

Asadar, un interval de incredere va fi intervalul

(12.064, 13.676)

In concluzie suntem 90% siguri ca timpul mediu inregistrat de catre studentiirespectivei facultati, pe acea distanta, va fi in acest interval!

Problema 3. Se cerceteaza caracteristica 𝑋, ce reprezinta diametrulpieselor (in mm) produse de un strung. Presupunem ca valorile observateurmeaza o repartitie normala. Pentru o selectie de piese de volum 𝑛 = 11obtinem distributia empirica⎛⎝10.50 10.55 10.60 10.65

2 3 5 1

⎞⎠Sa se testeze la un nivel de semnificatie 𝛼 = 0.10 ipoteza ca dispersiadiametrelor pieselor este 0.003.

Solutie: In aceasta problema rezultatul celor 𝑛 = 11 observatii, asupra carac-teristicii 𝑋, este afisat intr-un mod neobisnuit. Un astfel de tablou nu reprezintatabloul de repartitie al unei variabile aleatoare intrucat linia a doua nu contineprobabilitatea valorilor din linia intai. In schimb linia a doua contine frecventeleabsolute ale valorilor (diametrele pieselor) inregistrate la acea esantionare, vezicurs. Vom numi un astfel de tablou serie statistica de frecvente absolute. Celeafisate in tablou se interpreteaza in felul urmator: sunt 2 piese cu diametrul10.50 mm, 3 piese cu diametrul 10.55 mm, etc.

Emitem ipoteza: dispersia diametrelor pieselor este 0.003, pe care o vomconsidera ipoteza nula

𝐻0 : 𝜎2 = 0.003 (deci 𝜎0 este 0.003)

automat vom avea ipoteza alternativa

𝐻𝑎 : 𝜎2 = 0.003

Folosim testul 𝜒2 si calculam

𝜒2𝑐𝑎𝑙𝑐 =

(𝑛− 1)𝑠2

𝜎20

=(11 − 1) · 0.0022

0.003= 7.2727

unde pentru dispersia de selectie 𝑠 am folosit formula

𝑠 =

⎯⎸⎸⎸⎷ 𝑛∑𝑖=1

(𝑥𝑖 − ��)2

𝑛− 1

Regiunea de acceptare a ipotezei nule este

𝜒21−𝛼

2 ,𝑛−1 ≤ 𝜒2𝑐𝑎𝑙𝑐 ≤ 𝜒2

𝛼2 ,𝑛−1

19

Page 20: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Din tabelul valorilor critice superioare 𝜒2𝛼,𝑛−1 gasim pentru 𝛼 = 0.10 cuan-

tilele𝜒21−𝛼

2 ,𝑛−1 = 𝜒21−0.05,11−1 = 𝜒2

0.95,10 = 3.940

si𝜒2

𝛼2 ,𝑛−1 = 𝜒2

0.05,11−1 = 𝜒20.05,10 = 18.307

si evident 𝜒2𝑐𝑎𝑙𝑐 ∈ [3.940, 18.307] prin urmare suntem nevoiti, pe baza testului

statistic utilizat, sa acceptam ipoteza 𝐻0.

Probleme propuse

Problema 1. Diagrama Herzsprung-Russell arata dependenta dintre magnitu-dinile absolute si temperaturile efective de la suprafata stelelor

Pentru un grup de stele, din sirul principal al diagramei, astronomii au inregis-trat cu ajutorul telescopului Keck urmatoarele date:

(+5, 5000∘𝐾), (+10, 3000∘𝐾), (0, 10000∘𝐾), (−5, 25000∘𝐾), (+6, 7500∘𝐾)

Cautati un model de regresie adecvat pentru aceste date.

Problema 2. Directorul de operatiuni al unei uzine ar dori sa estimeze timpulmediu de care are nevoie un muncitor pentru a asambla o noua componentaelectronica. Presupunem ca deviatia standard a timpului de asamblare este de3.6 minute.

20

Page 21: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

a) Dupa cronometrarea a 120 de muncitori, managerul observa ca timpul lormediu de asamblare a componentei este de 16.2 minute. Construiti un intervalde incredre cu un nivel de incredere de 95% pentru timpul mediu de asamblarea componentei.

b) Cati muncitori ar trebui sa fie implicati in studiul managerului pentru aobtine timpul mediu real de asamblare cu o eroare de ±15 seconde si un nivelde incredere de 95% ?

Problema 3. Pentru a asigura folosirea eficienta a unui server, este necesaraestimarea numarului mediu de useri simultani. Conform datelor disponibile me-dia si deviatia standard a numarului de utilizatori simultani, inregistrati in 100momente de timp aleator alese, este de 37.7, respectiv 9.2.

Construiti un interval de incredere, cu un nivel de incredere de 90%, pentrumedia utilizatorilor concurenti.

Problema 4. Un grup de consumatori, preocupati de procentajul mediu degrasime al unui anumit steakburger trimite la un laborator independent un esan-tion de 12 steakburgeri pentru analize. Procentajul de grasime gasit in fiecaresteakburger este dat mai jos:

21 18 19 16 18 24 22 19 24 14 18 15

Producatorul afirma ca procentajul mediu de grasime al unui steakburger esteaproximativ 20%. Presupunand ca procentajul de grasime este normal distribuitcu o deviatie standard de 3, testati ipoteza producatorului, la un nivel de sem-nificatie 𝛼 = 0.05.

Problema 5. Pe parcursul unei anumite saptamani, 13 copii s-au nascut la omaternitate. O parte a procedurii standard e reprezentata de masurarea lungimiiacestora. Mai jos aveti o lista a lungimilor masurate, exprimate in centimetri:

49 50 45 51 47 49 48 54 53 55 45 50 48

Presupunand ca lungimile la nastere ale bebelusilor sunt normal distribuite, tes-tati, la un nivel de semnificatie de 5%, ipoteza ca media lungimii la nastere aunui bebelus este de 50 cm.

Problema 6. Intr-un institut politehnic, s-a determinat ca dintr-o selectiealeatoare de 100 de studenti inscrisi, doar 67 au terminat studiile, obtinando diplomaa. Gasiti un interval de incredere care, cu o confidenta de 90%, sa de-termine procentul de studenti absolventi dintre toti studentii ce au fost inscrisi.

Problema 7 (E.2.3). Se considera esantioanele {8, 9, 3, 8, 10, 9, 7, 6, 5, 7} si re-spectiv {4, 9, 10, 7, 3, 2, 10, 2, 4, 4} obtinute de la doua populatii normale asupracaracteristicii 𝑋. Sa se verifice ipoteza statistica 𝑀1(𝑋) = 𝑀2(𝑋) la nivelul deeroare 𝛼 = 0.02. Se considera cuantila 𝑡𝛼

2 ,9 = 2.821.

Problema 8. Gasiti un interval de incredere (cu 𝛼 = 0.05) pentru deviatiastandard a continutului de nicotina pentru un anumit tip de tigari, stiind capentru o selectie de 25 de bucati, deviatia standard a continutului de nicotinaeste de 1.6 mg.

21

Page 22: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Problema 9 (E.2.6). Se considera esantioanele {3, 7, 3, 8, 3, 10, 7, 3, 1, 4} si re-spectiv {4, 4, 9, 9, 8, 1, 8, 10, 3, 3} obtinute de la doua populatii normale asupraunei caracteristici statistice 𝑋. Sa se verifice ipoteza 𝐷2

1(𝑋) = 𝐷22(𝑋) la nivelul

de eroare 𝛼 = 0.02. Se cunoaste cuantila 𝐹𝛼2 ,9,9 = 5.35.

Obs: Daca putem folosi tabelele cu valorile critice, atunci cuantilele nece-sare nu vor fi date in enuntul problemei

22

Page 23: Testarea ipotezelor statistice - WordPress.com...Valoarea ⋆, care reprezinta punctul de pe curba lui Gauss pentru care prob-abilitatea de a observa o valoare mai mare ca ⋆este

Bibliografie

[1] L. Maticiuc. Note de curs Introducere in statistica matematica, 2018.

[2] D. Montgomery and G. Runger. Applied Statistics and Probability forEngineers, Wiley, 2014.

[3] R. Negrea. Note de curs Matematici Speciale, 2020.

[4] I. Stoleriu. Note de curs Geostatistica, 2019.