Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
ΑΝΑΛΥΣΗ ∆Ε∆ΟΜΕΝΩΝ
8. Ανάλυση διασποράς(ANOVA)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 2
ΓενικάΕπέκταση της σύγκρισης µέσων τιµώνµεταβλητής ανάµεσα σε 2 δείγµατα (οµάδεςή στάθµες):Σύγκριση πολλών δειγµάτων (K>2) µαζίΣχέση ανάµεσα σε µια ποσοτική (εξαρτηµένη) µεταβλητή και σε µια κατηγορική (ανεξάρτητη)
ANOVA ως προς έναν παράγοντα (one-way ANOVA): Πώς επηρεάζει έναςπαράγοντας µια ποσοτική µεταβλητή;Πολυµεταβλητή ANOVA (multivariate ANOVA): Πώς επηρεάζουν πολλοίπαράγοντες µαζί µια ποσοτική µεταβλητή;
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 3
Ακαταλληλότητα του t-test
Γιατί δεν χρησιµοποιούµε πολλά t-tests γιασύγκριση όλων των δυνατών συνδυασµών;Π.χ. Σύγκριση 3 δειγµάτων (1, 2, 3)
t-tests: 1-2, 1-3, 2-3 µε σ.σ. (sig)=0.05 για τοκαθέναΣυνολική «εµπιστοσύνη» (πιθανότητα να µηνέχει γίνει λάθος σε κανένα test) = (0.95)3=0.857Πιθανότητα να έχει γίνει λάθος σε ένατουλάχιστο test = 1-0.857 = 0.143 > 0.05
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 4
∆ιόγκωση του σφάλµατος
Συµπέρασµα: Η πιθανότητασφάλµατος αυξάνεται δραµατικά µετον αριθµό των συγκρίσεωνΠ.χ. για 5 δείγµατα (10 συγκρίσεις) έχουµε πιθανότητα ενός τουλάχιστονσφάλµατος
1-(0.95)10=0.40 (!!)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 5
Τι ακριβώς ελέγχει η ANOVA;Η ANOVA ελέγχει την υπόθεση ότι όλες οιµέσες τιµές των οµάδων που ελέγχουµεείναι ίσεςΧρησιµοποιεί το F-statistic (F-ratio) για«οµαδικό» έλεγχο ύπαρξης διαφοράς∆εν µπορεί να µας πει ποιες ακριβώς οµάδεςδιαφέρουνΗ ύπαρξη έστω και µιας διαφοράςερµηνεύεται ότι ο παράγοντας (κατηγορικήµεταβλητή) επηρεάζει σηµαντικά τηνποσοτική µεταβλητή
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 6
Παράδειγµα(file: Viagra.sav)
Παράδειγµα: ΕπίδρασηViagra στη λίµπιντο –πείραµα σε 15 άτοµαΜεταβλητές:
dose: ο παράγοντας ελέγχου σε3 στάθµες (οµάδες): 1=placebo, 2=low dose, 3=high doselibido: µέτρηση της λίµπιντο σεδιάστηµα µιας εβδοµάδας (?)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 7
Περιγραφή των δεδοµένωνως προς την οµάδα
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 8
Case Summariesa
321145
2,201,3041,700
524235
3,201,3041,700
745365
5,001,5812,500
153,47
1,7673,124
12345
NMeanStd. DeviationVariance
Total
Placebo
12345
NMeanStd. DeviationVariance
Total
LowDose
12345
NMeanStd. DeviationVariance
Total
HighDose
NMeanStd. DeviationVariance
Total
DoseGroup
Libido
Limited to first 100 cases.a.
Στατιστικά οµάδων
Η µέση τιµή τηςεξαρτηµένηςµεταβλητήςβλέπουµε ότιαυξάνεται µε τηδόση
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 9
Γραφική παράσταση: Graphs -> Bar
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 10
Γραφική σύγκριση των µέσων τιµών των οµάδων
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 11
Η λογική της ANOVAΑν η επίδραση του παράγοντα δεν είναισηµαντική τότε η µεταβλητότητα µπορεί ναεξηγηθεί µόνο από τον γενικό µέσο όρο(grand mean)Αν η επίδραση του παράγοντα είναισηµαντική τότε οι διαφορές των µέσωντιµών των οµάδων (group means) από τονγενικό µέσο όρο (grand mean) πρέπει ναείναι µεγάλεςΟυσιαστικά υποθέτουµε ότι η επίδραση τουπαράγοντα είναι µετρήσιµη και µπορεί ναµοντελοποιηθεί
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 12
Σύγκριση των µετρήσεων µε τουςµέσους όρους κάθε οµάδας
Grand mean
mean for high
mean for low
mean for placebo
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 13
Έλεγχος της επίδρασης τουπαράγοντα (1/2)
Συνολικό άθροισµα τετραγώνων
Άθροισµα τετραγώνων του µοντέλου(του παράγοντα)
Άθροισµα τετραγώνων υπολοίπων
2)(∑ −= grandiT yySS
∑ −= 2)( grandkkM yynSS
∑ −=−= 2)( kikMTR yySSSSSS
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 14
Έλεγχος της επίδρασης τουπαράγοντα (2/2)
Μέσα τετράγωνα (Mean squares):
F-ratio:
Ερµηνεία: Το MSM παριστά τη συστηµατικήδιασπορά που οφείλεται στον παράγοντα ενώ τοMSR την τυχαία µη-συστηµατική. Αν το F είναι µεγάλο (>1) τότε έχουµε ένδειξηεπίδρασης του παράγοντα. Πρέπει sig.<0.05
1−==
KSS
dfSSMS M
M
MM KN
SSdfSSMS M
R
RM −
==
R
MMSMSF =
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 15
One-way ANOVA
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 16
Αποτέλεσµα
F>1 και sig<0.05 άρα το Viagra έχειαποτελέσµατα!
ANOVA
Libido
20,133 2 10,067 5,119 ,02523,600 12 1,96743,733 14
Between GroupsWithin GroupsTotal
Sum ofSquares df Mean Square F Sig.
SSM
MSR
SST
K-1
n-K
MSMF>1
sig<0.05 SSR
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 17
Συγκρίσεις ανάµεσα στις στάθµεςπαράγοντα
Το F-test µας λέει αν υπάρχουνδιαφορές ανάµεσα στις στάθµες ενόςπαράγοντα (και όχι ποιες διαφέρουν!)Για να εντοπίσουµε τις διαφορές(χωρίς να κάνουµε όλα τα t-tests):Εκτελούµε προκαθορισµένες συγκρίσεις(contrasts)Εκτελούµε ελέγχους (παρόµοιους µε το t-test) αλλά µε αυστηρότερη πιθανότητααποδοχής – post hoc tests
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 18
Συγκρίσεις (contrasts)
Στο παράδειγµα: Υπάρχει διαφορά οποιασδήποτε δόσης σεσχέση µε το placebo;Υπάρχει διαφορά ανάµεσα στην υψηλήκαι τη χαµηλή δόση;
Μεθοδολογία: Η διασπορά πουεξηγείται από τον παράγοντα (SSM) διασπάται σε συνιστώσες
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 19
∆ιάσπαση διασποράς για εκτέλεσησυγκρίσεων
Συνολική διασπορά SST
∆ιασπορά που εξηγείται απότον παράγοντα SSΜ
Ανεξήγητη διασπορά SSR
AN
OV
A
∆ιασποράLow + High Dose
∆ιασποράPlacebo
∆ιασποράLow Dose
∆ιασποράHigh Dose
1st co
ntra
st2n
d co
ntra
st
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 20
Ορισµός των συγκρίσεων µε βάρη
Για τον ορισµό των συγκρίσεωνδίνουµε «βάρη» στις στάθµες τουπαράγονταΤα βάρη (θετικά, αρνητικά ή 0) πρέπεινα έχουν άθροισµα 0Για την 1η σύγκριση: -2(placebo)+1(low dose)+1(high dose)
Για τη δεύτερη σύγκριση:0(placebo)-1(low dose)+1(high dose)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 21
Πολυωνυµικές συγκρίσεις(Polynomial contrasts)
Για διερεύνηση τάσεων στα δεδοµένα –εξετάζονται πολυώνυµα 1-4 βαθµούΓραµµική (linear): Οι µέσες τιµές των οµάδωναυξάνονται ανάλογαΤετραγωνική (quadratic)Κυβική (cubic)Τετάρτου βαθµού (quartic)
Έχει νόηµα να χρησιµοποιούνται όταν οιστάθµες του παράγοντα είναι διατεταγµένες(ordered)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 22
Post hoc testsΣύγκριση όλων των δυνατών διαφορών ανάµεσα στιςοµάδεςΓίνεται διόρθωση του σφάλµατος έτσι ώστε τοσυνολικό να είναι <0.05Στο SPSS:
Για ίσα δείγµατα και ίσες διασπορές REGWQ ή TukeyBonferroni: καλό αλλά συντηρητικόΜικρές διαφορές στα µεγέθη δειγµάτων: GabrielΜεγάλες διαφορές στα µεγέθη δειγµάτων: Hochberg’s GT2Για διασπορές άνισες: Games-HowellΓια σύγκριση µε control: Dunnett
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 23
Εφαρµογή στο SPSS: Contrasts Analyze->Compare Means->One-way ANOVA
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 24
Εφαρµογή στο SPSS: Post hoc
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 25
Εφαρµογή στο SPSS: Options
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 26
Αποτελέσµατα – Means plot
Φαίνεται ναυπάρχει µιαγραµµικήτάση
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 27
Αποτελέσµατα - DescriptivesDescriptives
Libido
5 2,20 1,304 ,583 ,58 3,82 1 45 3,20 1,304 ,583 1,58 4,82 2 55 5,00 1,581 ,707 3,04 6,96 3 7
15 3,47 1,767 ,456 2,49 4,45 1 7
PlaceboLow DoseHigh DoseTotal
N Mean Std. Deviation Std. Error Lower Bound Upper Bound
95% Confidence Interval forMean
Minimum Maximum
Στατιστικά µέτρα για κάθε οµάδα ξεχωριστά. ∆ίνονται και 95% δ.ε.των µέσων τιµών των αντίστοιχων πληθυσµών
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 28
Αποτελέσµατα - Levene’s test γιαισότητα διασπορών
Test of Homogeneity of Variances
Libido
,092 2 12 ,913
LeveneStatistic df1 df2 Sig.
Sig. = 0.913 >0.05 ⇒ ∆εν υπάρχεισηµαντική διαφορά ανάµεσα στιςδιασπορές των 3 οµάδων
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 29
Αποτελέσµατα - ANOVAANOVA
Libido
20,133 2 10,067 5,119 ,02519,600 1 19,600 9,966 ,008
,533 1 ,533 ,271 ,612
,533 1 ,533 ,271 ,61223,600 12 1,96743,733 14
(Combined)ContrastDeviation
Linear Term
ContrastQuadratic Term
BetweenGroups
Within GroupsTotal
Sum ofSquares df Mean Square F Sig.
SSM
SSR SST
MSM
MSR
sig<0.05
sig=0.025 ⇒ Η επίδραση τουπαράγοντα σηµαντική
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 30
Αποτελέσµατα – trend analysis
sig(linear)=0.008 <0.05 ⇒ Υπάρχει ισχυρή γραµµική τάσηsig(quadratic)=0.612>0.05 ⇒ ∆εν µπορεί να παρασταθεί ητάση από παραβολή (πολυώνυµο 2ου βαθµού)
ANOVA
Libido
20,133 2 10,067 5,119 ,02519,600 1 19,600 9,966 ,008
,533 1 ,533 ,271 ,612
,533 1 ,533 ,271 ,61223,600 12 1,96743,733 14
(Combined)ContrastDeviation
Linear Term
ContrastQuadratic Term
BetweenGroups
Within GroupsTotal
Sum ofSquares df Mean Square F Sig.
sig<0.05
sig>0.05
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 31
Αποτελέσµατα - Εναλλακτικά F-tests
Χρειάζονται µόνο στην περίπτωσηόπου οι διασπορές παρουσιάζουνδιαφορές. Εδώ δεν χρειάζονται!!
Robust Tests of Equality of Means
Libido
4,320 2 7,943 ,0545,119 2 11,574 ,026
WelchBrown-Forsythe
Statistica df1 df2 Sig.
Asymptotically F distributed.a.
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 32
Αποτελέσµατα - contrasts
contrast 1: sig=0.029<0.05 ⇒ Υπάρχει διαφορά ανάµεσα στο placebo και στο φάρµακοcontrast 2: Παρόλο που sig=0.065>0.05 υπάρχει ένδειξη διαφοράς (Αντο test ήταν µονόπλευρο το sig/2 < 0.05) ανάµεσα στις δύο δόσεις
Contrast Coefficients
-2 1 10 -1 1
Contrast12
Placebo Low Dose High DoseDose Group
Contrast Tests
3,80 1,536 2,474 12 ,0291,80 ,887 2,029 12 ,0653,80 1,483 2,562 8,740 ,031
1,80 ,917 1,964 7,720 ,086
Contrast1212
Assume equal variances
Does not assume equalvariances
Libido
Value ofContrast Std. Error t df Sig. (2-tailed)
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 33
Αποτελέσµατα - Post hocMultiple Comparisons
Dependent Variable: Libido
-1,000 ,887 ,516 -3,37 1,37-2,800* ,887 ,021 -5,17 -,431,000 ,887 ,516 -1,37 3,37
-1,800 ,887 ,147 -4,17 ,572,800* ,887 ,021 ,43 5,171,800 ,887 ,147 -,57 4,17
-1,000 ,825 ,479 -3,36 1,36-2,800* ,917 ,039 -5,44 -,161,000 ,825 ,479 -1,36 3,36
-1,800 ,917 ,185 -4,44 ,842,800* ,917 ,039 ,16 5,441,800 ,917 ,185 -,84 4,441,000 ,887 ,446 -1,22 3,222,800* ,887 ,015 ,58 5,02
(J) Dose GroupLow DoseHigh DosePlaceboHigh DosePlaceboLow DoseLow DoseHigh DosePlaceboHigh DosePlaceboLow DosePlaceboPlacebo
(I) Dose GroupPlacebo
Low Dose
High Dose
Placebo
Low Dose
High Dose
Low DoseHigh Dose
Tukey HSD
Games-Howell
Dunnett t (2-sided) a
MeanDifference
(I-J) Std. Error Sig. Lower Bound Upper Bound95% Confidence Interval
The mean difference is significant at the .05 level.*.
Dunnett t-tests treat one group as a control, and compare all other groups against it.a.
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 34
Συµπεράσµατα Post hoc
Tukey και Games-Howell: ∆είχνουνσηµαντική διαφορά µόνο ανάµεσα στοplacebo και στη high doseDunnett: Συγκρίνονται οι 2 δόσειςξεχωριστά µε το control. Μόνο ηµεγάλη έχει διαφοράΓενικά τα post hoc tests είναι αρκετάσυντηρητικά ως προς τον εντοπισµόδιαφορών
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 35
Αποτελέσµατα Post hoc – οµογενείςοµάδες
Με βάση τα tests οι οµάδες χωρίζονται σε οµογενή υποσύνολα. Εδώ(Placebo&Low) και (Low&High)Ερµηνεύεται όπως και πριν (υπάρχει διαφορά µόνο placebo – high)
Libido
5 2,205 3,20 3,205 5,00
,516 ,1475 2,205 3,20 3,205 5,00
,282 ,065
Dose GroupPlaceboLow DoseHigh DoseSig.PlaceboLow DoseHigh DoseSig.
Tukey HSDa
Ryan-Einot-Gabriel-Welsch Range
N 1 2Subset for alpha = .05
Means for groups in homogeneous subsets are displayed.Uses Harmonic Mean Sample Size = 5,000.a.
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 36
Συµπεράσµατα
Η 1-way ANOVA συγκρίνει πολλούςµέσους µαζίΑν έχουµε συγκεκριµένες υποθέσειςπριν το πείραµα εκτελούµε contrasts, διαφορετικά post hoc testsΓια την επιλογή του κατάλληλουελέγχου είναι σηµαντικός ο έλεγχοςγια την ισότητα των διασπορών
ΕΛΕΥΘΕΡΙΟΣ ΑΓΓΕΛΗΣ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΠΘ 37
Άσκηση
Στο αρχείο teach.sav υπάρχουν οιβαθµολογίες από 3 τάξεις µαθητών όπουέχουν εφαρµοστεί 3 διαφορετικές µέθοδοιεκµάθησης (τιµωρία, αδιαφορία, επιβράβευση)Να εκτελέσετε όλα τα βήµατα της ANOVA για να ελέγξετε αν η µέθοδος έχει κάποιαεπίδραση στη βαθµολογία και ποια είναι ηφύση της επίδρασης αυτής