33
SORANA D. BOLBOACĂ 10/31/2020 1 STATISTICA DESCRIPTIVĂ – INDICATORI SINTETICI Welcome to the Alzheimer's information support page...please enter your 17 digit password.

Noțiuni de statistică medicală - info.umfcluj.ro

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Noțiuni de statistică medicală - info.umfcluj.ro

SORANA D. BOLBOACĂ

10/31/2020 1

STATISTICA DESCRIPTIVĂ– INDICATORI SINTETICI

“Welcome to the Alzheimer's information support page...please enter your 17 digit password.”

Page 2: Noțiuni de statistică medicală - info.umfcluj.ro

DESPRE …

10/31/2020 2

STATISTICA DESCRIPTIVĂ

Proporția, rata și raportul

Parametrii de centralitate

Parametrii de dispersie

Parametrii de simetrie și boltire

Page 3: Noțiuni de statistică medicală - info.umfcluj.ro

o f = a:(a+b) sau a/(a+b)

o f∈(0, 1) sau f∈(0%, 100%)

o Alte exemple: Prevaleța, Incidența, Se, Sp, VPP, VPN, A (indicatori de evaluarea a testelor diagnostice)

La serviciul de urgență al unui spital județean au fost consultați 1200 într-o anumită perioadă de timp. 420 au fost internați, 200 fiind de gen feminin

o Care este proporția subiecților de sex masculin dintre subiecții spitalizați?

o 220/420 * 100 = 52%

10/31/2020 3

Proporția, rata și raportul

o Prevalențao Incidența

Page 4: Noțiuni de statistică medicală - info.umfcluj.ro

o Rata = riscul de apariție a unui eveniment în timp (ex. secundă/minut/oră/zi/săptămână/lună/an).

o Ex.: rata de morbiditate, rata de atac, rata de mortalitate, rata de natalitate, riscul atribuabil

10/31/2020 4

Proporția, rata și raportul

Cancer mamar+

Cancer mamar-

Total

Alăptare = Da 20 80 100

Alăptare =Nu 21 79 100

Total 41 159 200

o Riscul de cancer mamar la femeile care au alăptat = 20/100 = 0,20

o Riscul de cancer mamar la femeile care nu au alăptat = 21/100 = 0,21

o Riscul relativ = 0,20/0,21 = 0,95 → Femeile care au alăptat au un risc de a dezvolta cancer mamar cu 5% mai mic comparativ cu cele care nu au alăptat.

[0, ∞]o Riscul relativo Rata șansei

Page 5: Noțiuni de statistică medicală - info.umfcluj.ro

o Se aplică doar în cazul numerelor raționale pozitive a şi b unde b≠0

a:b sau a/b

10/31/2020 5

Proporția, rata și raportul

o Două din 10 persoane consultate într-o zi de un medic de familie au presiunea arterială sistolică (PAS) mai mare decât valoarea normală. Care este valoarea raportului PAS normal/ PAS patologic?

PAS normal/ PAS patologic = 8/2 = 4 → Avem un subiect cu valori patologice ale PAS la fiecare 4 indivizi cu valori PAS normale

Page 6: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 6

Parametrii de centralitate

o Statistica eșantionului = estimator punctual al parametrului populației

Media aritmetică

Mediana

Modulul

Media ponderată

Page 7: Noțiuni de statistică medicală - info.umfcluj.ro

o Media aritmetică

10/31/2020

7

+= n 1

2

Me X+

+

=

n n1

2 2

X X

Me2

Impar (3, 5, 7 …) Par (2, 4, …)

==

n

ii 1

X

Xn

Populație → parametru Eșantion → statistica

Parametrii de centralitate

o Modulul: cea mai frecventă observație a seriei

o Mediana

μ =σ𝑖=1𝑁 𝑋𝑖𝑁

Page 8: Noțiuni de statistică medicală - info.umfcluj.ro

Scorurile obținute la examenul practic de o grupă de 11 studenți:

4, 9, 5, 8, 6, 7, 9, 10, 8, 6, 5

o Media aritmetică = (4+9+5+8+6+7+9+10+8+6+5)/11 = 7

o Modulul: 5, 6, 8, 9 → serie multimodală

o Mediana: 4, 5, 5, 6, 6, 7, 8, 8, 9, 9, 10

o n (volumul eșantionului) = 11

o Me = X(n+1)/2 = X6 = 7

10/31/2020

8

Parametrii de centralitate

Page 9: Noțiuni de statistică medicală - info.umfcluj.ro

Scorurile obținute la examenul practic de o grupă de 12 studenți:

4, 9, 5, 8, 6, 4, 9, 10, 8, 6, 5, 4

o Media = (4+9+5+8+6+4+9+10+8+6+5+4)/12 = 6.5

o Modulul: 4 → serie unimodală

o Mediana: 4, 4, 4, 5, 5, 6, 6, 8, 8, 9, 9, 10

o n (volumul eșantionului) = 12

o Me = (Xn/2+ Xn/2+1)/2 = (X6 +X7)/2= (6+6)/2 = 6

10/31/2020

9

Parametrii de centralitate

Page 10: Noțiuni de statistică medicală - info.umfcluj.ro

Media ponderată

10/31/2020

10

=

=

=

n

i ii 1

X n

ii 1

W X

m

W

==

n

ii 1

X

Xn

Media aritmetică

Media artimetică este un caz special al mediei ponderate (Wi , ponderi egale).

Parametrii de centralitate

Page 11: Noțiuni de statistică medicală - info.umfcluj.ro

Valoarea centrală = (xmin+ xmax)/2

10/31/2020

11

Parametrii de centralitate

Page 12: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 12

Estimator Avantaj Dezavantaj

Media Utilizează toate datele

Ușor de aplicat

Influențată de valori extreme

Nereprezentativă dacă datele nu au o

distribuție simetrică

Mediana Nu e influențată de valori extreme

Neinfluențată de asimetria datelor

Ignoră majoritatea datelor din serie

Modulul Aplicabil și variabilelor calitative Ignoră majoritatea datelor din serie

Media

geometrică

Aplicabilă datelor asimetrice spre dreapta Adecvată dacă logaritmarea datelor

produce o distribuție normală

Media

ponderată

Cuantifică importanța relativă a fiecărei

observații

Ponderile trebuie să fie cunoscute sau

estimate

Parametrii de centralitate

Page 13: Noțiuni de statistică medicală - info.umfcluj.ro

o Dispersie relativ la parametrul de centralitate

o Datele sunt cu atât mai dispersate cu cât valorile seriei sunt mai diferite unele

față de altele

10/31/2020

13

Parametrii de dispersie

Care din cele două metode e mai precisă?

Page 14: Noțiuni de statistică medicală - info.umfcluj.ro

oDatele sunt cu atât mai dispersate cu cât valorile seriei sunt mai diferite

unele față de altele, respectiv față de valoarea centrală

10/31/2020

14

Parametrii de dispersie

AmplitudineaCvartile

PercentileVariația

Deviația standard

Coeficientul de variație

Eroarea standard

Page 15: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 15

Parametrii de dispersie: Amplitudinea

A = Xmax – Xmin

o Metoda 1: A = 221-144 = 77o Metoda 2: A = 205-195 = 10

o Consideră exclusiv valorile extremeo Nu oferă informații cu privire la distribuția

datelor între valorile extreme0

2

4

6

8

10

12

14

16

0 10 20 30 40 50 60 70 80 90 100

Fre

cvența

ab

solu

Scor

M F

Page 16: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 16

Parametrii de dispersie: cvartile

IC = Q3 – Q1

unde Q3 = cvartila 3 (percentila 75%), Q1 = cvartila 1 (percentila 25%)IC = intervalul cvartilic

Măsură a dispersiei pentru 50% din datele de mijloc.

Page 17: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 17

Variabila:

note la

examenul

practic

Me=[X12/2+X(12/2+1)]/2 = (X6+X7)/2 = (8+8)/2 = 8

Me=8

Ord

on

are

Q3

–Q

1=

9 –

5.5

= 3

.5

A =

10

–4

= 6

Formule Excel:

(Mediana) Me:

=MEDIAN(B1:B12)

(Intervalul dintre cvartila 3 şi 1) IC:

=QUARTILE(B1:B12,3)-QUARTILE(B1:B12,1)

(Amplitudinea) A:

=MAX(B1:B12)-MIN(B1:B12)

Parametrii de dispersie: cvartile

Page 18: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 18

Variabila: note la examenul practic

Me=8Q

3–

Q1

= 9

–5

.5 =

3.5

A =

10

–4

= 6

A: Diferenţa dintre nota maximă şi nota minimă a fost

de 6 puncte

Q1: 25% din studenţi au note ≤ 5.5Q3: 75% din studenţi au note ≤ 9IC: 50% din studenţi au note care nu diferă una faţă de alta cu mai

mult de 3,5 puncte

Parametrii de dispersie: cvartile

Page 19: Noțiuni de statistică medicală - info.umfcluj.ro

o Populație

10/31/2020 19

Parametrii de dispersie: variația și deviația standard

o Eșantion

σ2 =σ𝑖=1𝑁 (𝑥𝑖 − μ)2

𝑁𝑠2 =

σ𝑖=1𝑛 (𝑥𝑖 − ത𝑋)2

𝑛 − 1

σ = σ2 =σ𝑖=1𝑁 (𝑥𝑖 − μ)2

𝑁s = s2 =

σ𝑖=1𝑛 (𝑥𝑖 − ത𝑋)2

𝑛 − 1

Page 20: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 20

Parametrii de dispersie: media și deviația standard

o s ↓ ⟶ datele seriei au valori apropiate de ale mediei

o s ↑ ⟶ datele seriei sunt depărtate faţă de valoarea mediei

Page 22: Noțiuni de statistică medicală - info.umfcluj.ro

1. Care din grupurile de mai jos prezintă o compozie a culorilor mai diversă?

2. Care din grupurile de mai jos prezintă o variabilitate mai mare a orelor de utilizare?

10/31/2020 22

Parametrii de dispersie: Variabilitate vs. Diversitate

Grup 1➔ s = 15,81

Grup 2 ➔ s = 21,91

Page 23: Noțiuni de statistică medicală - info.umfcluj.ro

o Dispersie relativăo Nu are unitate de măsurăo Se calculează doar pentru variabilele cantitative de tip raţie care iau doar valori pozitiveo Compararea variabilităţii a două populaţii când unităţile de măsură sunt diferite (mg/dL

vs mmol/L – colesterol)

10/31/2020 23

Parametrii de dispersie: coeficientul de variație

𝐶𝑉(%) =𝑠

ത𝑋× 100 𝐶𝑄𝑉(%) =

𝑄3 − 𝑄1𝑄3 + 𝑄1

× 100

OmogenRelative omogen

Relativ eterogen

Eterogen

Page 24: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 24

o Se dorește evaluarea variabilității presiunii arteriale sistolice (PAS) comparativ cu cea a

indicelui de masă corporală (IMC). Datele aparținând la 10 subiecți sunt redate în

tabelul de mai jos:

o PAS: CV(%) = 36,58/144×100 = 25,40

o IMC: CV(%) = 3,8/25×100 = 15,20

Parametrii de dispersie: coeficientul de variație

1 2 3 4 5 6 7 8 9 10

PAS (mmHg) 220 182 100 130 120 100 140 160 120 160

IMC (kg/m2) 28 30 21 27 25 20 30 25 24 20

100 220

120

130

140

182

100

120

160

160

20

20

21

24

25

25

27

28 30

30

Page 25: Noțiuni de statistică medicală - info.umfcluj.ro

SEM (standard error of the mean)

o Indicator al acurateţii mediei: SEM = s/√n

oRelaţie invers proporţională dintre volumul eşantionului şi SEM

10/31/2020

25

Parametrii de dispersie: eroarea standard

25

Page 26: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020

26

Parametrii de dispersie

Estimator Avantaj Dezavantaj

Amplitudinea Ușor de calculat Utilizează doar datele a două observațiiInfluențată de valori extremeTinde să aibă valoare mai mare odată cu creșterea volumului eșantionului

IC Neafectată de valorile extremeIndependentă de volumul eșantionuluiAdecvată pentru date cu distribuție asimetrică

Dificil de calculatNeadecvată pentru eșantioane miciUtilizează doar două observații

Variația Utilizează toate datele seriei statistice Influențată de valorile extremeNeadecvată pentru datele asimetrice

Deviația standard

Utilizează toate datele seriei statisticeUnitatea de măsură este identică cu cea a datelor bruteSe interpretează ușor

Influențată de valorile extremeNeadecvată pentru datele asimetrice

CV Independent de unitățile de măsurăPermite compararea serilor statistice cu diferite unități de măsură

Media aproape de zero → CV se apropie de infinitfiind sensibil la modificări mici ale mediei

26

Page 27: Noțiuni de statistică medicală - info.umfcluj.ro

Intepretarea [Bulmer MG, Principles of Statistics, Dover, 1979] – aplicată populației

o Asimetria <−1 sau > +1 →

distribuție înalt asimetrică

o (-1; -0,5] sau [0,5; 1)→moderat

asimetrică

o (-0,5; 0,5) → aproximativ

simetrică

10/31/2020 27

Asimetrie < 0 Asimetrie > 0Asimetrie = 0

Parametrii de simetrie și boltire

Page 28: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020

28

Asimetrie negativă

Modulul > Mediana > Media

2

45

10 1011

8

0

2

4

6

8

10

12

14

4 5 6 7 8 9 10

Nu

măr

su

bie

cți

Scor durere (10 = durere insuportabilă)

Direcţie negativă

media

mediana

modulul

Parametrii de simetrie și boltire

22

33

15 1411

86

42

0

5

10

15

20

25

30

35

40

Nu

măr

su

bie

cți

Clase de venit (lei)

Direcţie pozitivă

media

mediana modulul

Asimetrie pozitivă

Modulul < Mediana < Media

Page 29: Noțiuni de statistică medicală - info.umfcluj.ro

o Distribuția normală are boltirea înjurul valorii 3.

o Excesul de boltire (funcția KURT) = (Boltire – 3)

o Distribuția normală: boltirea ≅ 3 (excesul de boltire ≅ 0) →mezocurtic

o Distribuția cu boltirea <3 (excesulde boltire < 0) 0) → platicurtică

o Distribuția cu boltirea >3 (excesulde boltire >0) 0) → leptocurtică

10/31/2020 29

Parametrii de simetrie și boltire

Page 30: Noțiuni de statistică medicală - info.umfcluj.ro

Examinarea simetriei unei distribuții cu ajutorul cvartilelor

o Q2-Q1 ≈ Q3-Q2 (≈ aproape egal) → distribuția este aproximativ simetrică

o Q2-Q1 ≠ Q3-Q2 → distribuția este asimetrică

10/31/2020 30

Parametrii de simetrie și boltire

o Q1 = 3,03

o Q2 = 3,43

o Q3= 4,15

2,80 2,97 3,05 3,25 3,40 3,45 3,80 4,10 4,30 4,40

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

Cum interpretăm acest rezultat?

Q2-Q1= 3,43 – 3,03 = 0,40

Q3-Q2 = 4,15 – 3,43 = 0,72

Page 31: Noțiuni de statistică medicală - info.umfcluj.ro

o Datele calitative se sumarizează ca:

o proporții, rate, rapoarte

o metrica de centralitate? modulul

o Datele de tip interval/rație se sumarizează ca

o medie ± deviație standard dacă urmează distribuția normală

o mediană și interval cvartilic dacă nu urmează distribuția normală (aplicat și pentru atele calitative scala ordinală)

o Dacă datele urmează distribuția normală, mă aștept ca

o media ≈ mediana ≈ modulul

o asimetria și boltirea ∈ (-0,5; +0,5)

10/31/2020 31

Page 32: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 32

Tip Scala de măsură Indicator centralitate Indicator dispersie

Calitativ Nominal Modulul

Ordinal MedianaModulul

Valoarea minimă și maximăAmplitudineaIntervalul cvartilic

Cantitativ Interval/rație MediaMedianaModulul

VariațiaDeviația standardAmplitudineIntervalul cvartilic

Page 33: Noțiuni de statistică medicală - info.umfcluj.ro

10/31/2020 33