Καλώς ήρθατε στις Οικονομικές Επιστήμες

Preview:

DESCRIPTION

Καλώς ήρθατε στις Οικονομικές Επιστήμες. Τι είναι η Οικονομετρία;. Γιατί μελετούμε Οικονομετρία;. Σπάνια στα οικονομικά ( και σε πολλούς άλλους τομείς χωρίς εργαστήρια !) έχουμε πειραματικά δεδομένα - PowerPoint PPT Presentation

Citation preview

1

Καλώς ήρθατε στις Οικονομικές ΕπιστήμεςΤι είναι η Οικονομετρία;

2

Γιατί μελετούμε Οικονομετρία;

Σπάνια στα οικονομικά (και σε πολλούς άλλους τομείς χωρίς εργαστήρια!) έχουμε πειραματικά δεδομένα

Ανάγκη χρήσης μη πειραματικών δεδομένων, ή δεδομένων παρατήρησης, για να εξάγουμε συμπεράσματα

Σημαντικό είναι το να μπορούμε να εφαρμόσουμε μία οικονομική θεωρία σε πραγματικά δεδομένα .

3

Γιατί μελετούμε την Οικονομετρία;

Μια εμπειρική ανάλυση χρησιμοποιεί δεδομένα για να ελέγξει μια θεωρία ή να εκτιμήσει μια σχέση

Μπορεί να ελεγχθεί ένα τυπικό μοντέλο οικονομίας

Θεωρητικά μπορούμε να φιλοδοξούμε για την επίδραση κάποιας αλλαγής μιας πολιτικής – μπορούμε να χρησιμοποιήσουμε την οικονομετρία για την αξιολόγηση ενός προγράμματος.

4

Τύποι δεδομένων – Διαστρωματικά

Τα διαστρωματικά δεδομένα αποτελούν ένα τυχαίο δείγμα.

Κάθε παρατήρηση είναι ένα νέο άτομο, εταιρία κλπ. με πληροφορίες για κάθε δεδομένη χρονική στιγμή.

Εάν τα δεδομένα δεν αποτελούν τυχαίο δείγμα , τότε παρουσιάζεται πρόβλημα στην επιλογή δείγματος.

5

Τύποι Δεδομένων–Ενοποιημένα (Πάνελ - Panel)

Μπορούμε να ενώσουμε τυχαία διαστρώματα και να τα επεξεργαστούμε όμοια σαν ένα κανονικό διάστρωμα. Θα χρειαστεί να υπολογίσουμε μόνο τις χρονικές διαφορές.

Μπορούμε να παρακολουθήσουμε τις ίδιες τυχαίες παρατηρήσεις με την πάροδο του χρόνου – γνωστές ως ενοποιημένα δεδομένα ή μακροχρόνια δεδομένα.

6

Τύποι δεδομένων – Χρονοσειρές

Τα δεδομένα χρονοσειρών έχουν μία διαφορετική παρατήρηση για κάθε χρονική περίοδο – π.χ. τιμές μετοχών

Αφού δεν αποτελούν ένα τυχαίο δείγμα, έχουμε να αντιμετωπίσουμε ένα διαφορετικό πρόβλημα.

Σημαντικά θέματα είναι η τάση και η εποχικότητα

7

Το Ερώτημα της Αιτιότητας

Απλά η καθιέρωση μιας σχέσης μεταξύ των μεταβλητών είναι σπανίως επαρκής.

Θέλουμε η επίδραση να θεωρηθεί αιτιώδης. Εάν πραγματικά ελέγξαμε αρκετές άλλες

μεταβλητές, τότε η εκτιμώμενη επίδραση, όταν όλες οι μεταβλητές παραμένουν σταθερές, μπορεί συχνά να θεωρηθεί ως αιτιώδης.

Όμως, μπορεί να είναι δύσκολο να καθορίσουμε την αιτιότητα.

8

Παράδειγμα: Η Απόδοση της Εκπαίδευσης

Ένα μοντέλου της επένδυσης του ανθρώπινου κεφαλαίου υποδηλώνει ότι η απόκτηση περεταίρω εκπαίδευσης θα πρέπει να οδηγήσει σε υψηλότερα κέρδη

Στην απλούστερη περίπτωση, αυτό σημαίνει μια εξίσωση όπως

uίέ 10

9

Παράδειγμα: (συνέχεια)

Η εκτίμηση του 1, είναι η απόδοση της εκπαίδευσης, μπορεί όμως να θεωρηθεί αιτιώδης;

Εφόσον ο όρος του σφάλματος, u, περιλαμβάνει άλλους παράγοντες που επηρεάζουν τα κέρδη, θέλουμε να ελέγξουμε για όσους περισσότερους μπορούμε.

Το γεγονός ότι βασικοί κάποιοι παράγοντες δεν παρατηρούνται παρουσιάζει πρόβλημα

10

Η Απόδοση της Εκπαίδευσης

11

Επανάληψη Πιθανοτήτων και Στατιστικής

Εμπειρικό κομμάτι: Το μέγεθος της τάξης και η απόδοση στην

εκπαίδευση

Ερώτηση πολιτικής: Ποια είναι η επίδραση σε αποτελέσματα

από τεστ (ή κάποιο άλλο μέτρο αποτελέσματος) αν

περιορίσουμε το μέγεθος της τάξης κατά ένα μαθητή; Κατά 8

φοιτητές ανά τάξη;

Πρέπει να χρησιμοποιήσουμε δεδομένα για να απαντήσουμε

(υπάρχει κάποιος τρόπος να απαντήσουμε αυτό χωρίς

δεδομένα;)

12

Επανάληψη Βασικών Ιδιοτήτων1 2

1

1

1 1

n

i ni

n

i

n n

i ii i

x x x x

c nc

cx c x

1

11

2

2

1 1

nn

ii in

i i ii

n n

i ii i

xx

y y

x x

ΔΕΝ ΙΣΧΥΕΙ

13

Επανάληψη Βασικών Ιδιοτήτων

Εύκολα Αποδεικνύεται ότι:

1

2 2 2

1 1

1 1 1 1

( ) 0

( )

( )( ) ( ) ( )

n

ii

n n

i ii i

n n n n

i i i i i i i ii i i i

x x

x x x nx

x x y y x y y x x y x y n x y

14

Προσδοκώμενη Τιμή & Διακύμανση

Προσδοκώμενη Τιμή για Διακριτές Μεταβλητές

1 1 2 21

1

( ) ( ) ( ) ( ) ( )

όπου ( ) ( )

Πιο γενικά: [ ( )] ( ) ( )

n

n n i ii

i i i

n

i ii

E X x f x x f x x f x x f x

f x P X x p

E g X g x f x

Προσδοκώμενη Τιμή για Συνεχή Μεταβλητές

Ορισμός: ( ) ( ) και πιο γενικά: [ ( )] ( ) ( ) E X xf x dx E g X g x f x dx

15

Ιδιότητες των Προσδοκώμενων Τιμών

1 1

1 1

1) E( ) , το είναι σταθερά

2) E( )= E( ) , και είναι σταθερές και είναι μεταβλητή

3) E( )= E( )

Ειδική περίπτωση για =1

E( )= E( )

4) Αν και είνα

n n

i i i ii i

i

n n

i ii i

c c c

aX b a X b a b X

a X a X

a

X X

X Y

ι ανεξάρτητες μεταβλητές

Ε(XY)=Ε(X)E(Y) ή

16

Διακύμανση & Τυπική Απόκλιση

2 2 2 2Var( ) E[( ) ] E( )X XX X XX X X

Συμβολισμός Ορισμός Ιδιότητα

Ιδιότητες Διακύμανσης

2

1) Var( ) 0, όπου είναι σταθερά

2) Var( ) Var( ), και είναι σταθερές και είναι μεταβλητή

c c

aX b a X a b X

Ορισμός Τυπικής Απόκλισης: sd( ) Var( )X X

Ιδιότητες Τυπικής Απόκλισης:

1) sd( ) 0, όπου είναι σταθερά

2) sd( ) sd( ), και είναι σταθερές και είναι μεταβλητή

c c

aX b a X a b X

17

Συνδιακύμανση

( , ) [( )( )] ( )XY X Y X YCov X Y E X Y E XY

Συμβολισμός Ορισμός Ιδιότητα

Ιδιότητες Συνδιακύμανσης

1 1 2 2 1 2

1 1 2 2

1) Αν και είναι ανεξάρτητες μεταβλητές, τότε ( , ) 0

2) COV( , ) COV( , ),

, , , σταθερές & , μεταβλητές

X Y Cov X Y

a X b a Y b a a X Y

a b a b X Y

18

Συντελεστής ΣυσχέτισηςΟρισμός:

Cov( , )Corr( , )

sd( )sd( )XY

XYX Y

X YX Y

X Y

Ιδιότητες Συντελεστής Συσχέτισης

1 1 2 2

1) 1 Corr( , ) 1

1) a) Αν και είναι ανεξάρτητες μεταβλητές, τότε Corr( , ) 0

b) Αν , με 0, τότε Corr( , ) 1

c) Αν , με 0, τότε Corr( , ) 1

2) α) Corr( , ) Corr( ,

X Y

X Y X Y

a bX b X Y

a bX b X Y

a X b a Y b X Y

1 1 2 2 1 2

1 1 2 2

1 1 2 2 1 2

),

, , , σταθερές με >0 & , μεταβλητές

b) Corr( , ) Corr( , ),

, , , σταθερές με <0 & , μεταβλητές

a b a b a X Y

a X b a Y b X Y

a b a b a X Y

19

Διακύμανση Αθροισμάτων Τυχαίων Μεταβλητών

2

1 1

Var( ) Var( ) 2 Cov( , )

είναι σταθερές και τυχαίες μεταβλητές για 1,2, , .

n n

i i i i i j i ji i i j

i i

a X a X a a X X

a X i n

Ειδικές Περιπτώσεις

2

1 1

1 1

Αν οι μεταβλητές είναι ανεξάρτητες τότε

Var( ) Var( )

Επιπλέον για 1

Var( ) Var( )

i

n n

i i i ii i

i

n n

i ii i

X

a X a X

a

X X

20

…συνέχεια…

1 2 1 2

1 2 1 2

Επιπλέον για 2

Var( ) Var( ) Var( )

Var( ) Var( ) Var( )

n

X X X X

X X X X

Ο γενικός τύπος για n=2 2 2

1 1 2 2 1 1 2 2 1 2 1 2Var( ) Var( ) Var( ) 2 Cov( , )a X a X a X a X a a X X

21

Συνδιακύμανση Αθροισμάτων Τυχαίων Μεταβλητών

1 1 2 2 1 1 2 2

1 1

Αν +c και Υ

είναι γραμμικοί συνδυασμοί τυχαίων μεταβλητών και

με σταθερούς συντελεστές όρους , , και τότε

Cov( , ) Cov( , )

n n m m

i j

i j

n m

i j i ji j

X a X a X a X bY b Y b Y d

X Y

a b c d

X Y a b X X

Ειδική περίπτωσηΟι , , , d, και είναι σταθερές και

οι , , και είναι τυχαίες μεταβλητές

Cov( , d )

Cov( , ) Cov( , ) Cov( , ) Cov( , )

a b c k m

X Y Z W

a bX cY kZ mW

bk X Z bm X W ck Y Z cm Y W

22

Δεδομένα με βαθμούς από ένα Τεστ της

California

Κάποιες περιφέρειες σχολείων (n = 420)

Μεταβλητές:

Βαθμοί από την 5η τάξη (Stanford-9 τεστ που συνδυάζει

μαθηματικά και ανάγνωση), μέσος όρος των περιφερειών

Η αναλογία (φοιτητές / δάσκαλο) = Φ/Δ = αριθμός

φοιτητών στην περιφέρεια διαιρούμενο με τον αριθμό των

δασκάλων ολικής απασχολήσεως

23

Πρώτη ματιά στα δεδομένα: (Ήδη γνωρίζουμε πώς να ερμηνεύσουμε αυτόν τον πίνακα)

Αυτός ο πίνακας δεν μας λέει τίποτα σχετικά για την σχέση μεταξύ των βαθμών από τα τεστ και την Φ/Δ.

24

Έχουν οι περιφέρειες με μικρότερες τάξεις καλύτερους βαθμούς στα τεστ;

Τι δείχνει αυτό το σχήμα;

25

Χρειαζόμαστε αριθμητική μαρτυρία – αλλά πως;

1. Συγκρίνεται μέσους όρους βαθμών σε περιφέρειες με

χαμηλή αναλογία Φ/Δ με αυτές με υψηλή αναλογία Φ/Δ

(«εκτιμητική»)

2. Έλεγξε την «μηδενική» υπόθεση ότι οι μέσες τιμές στους

δύο τύπους περιφερειών είναι ίσες, έναντι την

«εναλλακτική» υπόθεση ότι διαφέρουν («έλεγχος

υποθέσεων»)

3. Εκτιμήστε ένα διάστημα για την διαφορά των μέσων

τιμών, υψηλής έναντι χαμηλής αναλογίας Φ/Δ των

περιφερειών («διάστημα εμπιστοσύνης»)

26

Αρχική ανάλυση δεδομένων: Συγκρίνεται περιφέρειες με «μικρή αναλογία» (Φ/Δ < 20) και «μεγάλη αναλογία» (Φ/Δ ≥ 20) των τάξεων:

1. Εκτίμηση της = διαφορά μεταξύ τιμών από διαφορετικές ομάδες

2. Έλεγχος Υποθέσεων ότι = 0

3. Κατασκευή διαστήματος εμπιστοσύνης για

Μέγεθος Τάξης

Μέση Τιμή Τυπική Απόκλιση (s)

n

Μικρό 657.4 19.4 238

Μεγάλο 650.0 17.9 182

Y

27

1. Εκτιμητική

ή άY Y = 1

1 ήn

iiή

Yn

1

1 άn

iiά

Yn

= 657.4 – 650.0

= 7.4

Είναι αυτή η διαφορά πραγματικά μεγάλη (σημαντική);

Η τυπική απόκλιση στις περιφέρειες είναι = 19.1 Η διαφορά ανάμεσα στο 60ο και στο 75ο ποσοστημόριο της

κατανομής των βαθμών 667.6 – 659.4 = 8.2 Αυτή είναι μία μεγάλη διαφορά ώστε να θεωρηθεί σημαντική

για διάλογους αναδιάρθρωσης στα σχολεία, για τους γονείς, ή για μία επιτροπή των σχολείων;

28

2. Έλεγχος Υποθέσεων Έλεγχος για την διαφορά μέσων τιμών: υπολογίζουμε την t-

στατιστική,

2 2 ( )s s

n n

Y Y Y Yt

SE Y Y

(θυμάστε αυτό?)

όπου SE(Y – Y) είναι το «τυπικό σφάλμα» της Y – Y ,

όπου μικ και μεγ αναφέρονται σε «μικρή» και σε «μεγάλη»

αναλογία Φ/Δ περιφερειών, και 2 2

1

1( )

1

sn

s i sis

s Y Yn

(κλπ.)

29

Υπολογίστε τον Έλεγχο για την Διαφορά Μέσων Τιμών:

Μέγεθος Y sY n

μικρή 657.4 19.4 238

μεγάλη 650.0 17.9 182

2 2 2 219.4 17.9

238 182

657.4 650.0 7.4

1.83s s

n n

Y Yt

= 4.05

|t| > 1.96, έτσι απορρίπτουμε (με επίπεδο σημαντικότητας 5%)

την μηδενική υπόθεση ότι οι δύο μέσες τιμές είναι ίδιες.

30

3. Διάστημα Εμπιστοσύνης Ένα 95% διάστημα εμπιστοσύνης για την διαφορά μεταξύ δύο

μέσων τιμών είναι,

(Y – Y) 1.96 SE(Y – Y)

= 7.4 1.96 1.83 = (3.8, 11.0)

Δύο ισοδύναμες διαφορές:

1. Το 95% διάστημα εμπιστοσύνης για δεν περιλαμβάνει το

0;

2. Η υπόθεση ότι = 0 απορρίπτεται σε επίπεδο 5%.

31

Επανάληψη Στατιστικής Θεωρίας Γιατί Χρησιμοποιούμε για να Εκτιμήσουμε Y?

Τα βασικά εργαλεία των πιθανοτήτων για στατιστική συμπερασματολογία (a) Πληθυσμός, τυχαία μεταβλητή, και κατανομή (b) Ροπές της κατανομής (μέση τιμή, διακύμανση, τυπική

απόκλιση, συνδιακύμανση, συσχέτιση) (c) Δεσμευμένες κατανομές και δεσμευμένες μέσες τιμές (d) Η κατανομή ενός δείγματος με δεδομένα επιλεγμένα τυχαία

από έναν πληθυσμό: Y1,…, Yn

32

(a) Πληθυσμός, Τυχαία Μεταβλητή, και Κατανομή

Πληθυσμός

Η ομάδα ή συλλογή όλων των πιθανών οντοτήτων που μας

ενδιαφέρουν (περιφέρειες σχολείων)

Θα φανταζόμαστε τους πληθυσμούς ως απείρως μεγάλους

( είναι μία προσέγγιση του «πολύ μεγάλου»)

Τυχαία Μεταβλητή Y

Αριθμητική περίληψη ενός τυχαίου αποτελέσματος (ο μέσος

όρος βαθμών των περιφερειών, η αναλογία Φ/Δ περιφέρειας)

33

Κατανομή Πληθυσμού για την Y Οι πιθανότητες των διαφορετικών τιμών της Y που

λαμβάνουν χώρα στον πληθυσμό, π.χ. Pr[Y = 650] (όταν Y

είναι διακριτή)

ή: Οι πιθανότητες συνόλων αυτών των τιμών, π.χ.

Pr[640 Y 660] (όταν Y είναι συνεχής).

34

(b) Ροπές της κατανομής ενός πληθυσμού: μέση τιμή, διακύμανση, τυπική απόκλιση, συνδιακύμανση, συσχέτιση

Μέση τιμή = αναμενόμενη τιμή της Y

= E(Y)

= Y

= μακροχρόνια μέση τιμή της Y κάτω από επαναλαμβανόμενες

μετρήσεις της Y

Διακύμανση = E(Y – Y)2

= 2Y

= τετραγωνισμένο μέτρο απλώματος της κατανομής

τυπική απόκλιση = ύ = Y

35

Ροπές, συνέχεια

λοξότητα = 3

3

Y

Y

E Y

= μέτρο ασυμμετρίας της κατανομής λοξότητα = 0: η κατανομή είναι συμμετρική λοξότητα > (<) 0: η κατανομή έχει μακριά δεξιά (αριστερή)

ουρά

κύρτωσης = 4

4

Y

Y

E Y

= μέτρο της μάζας στις ουρές = μέτρο της πιθανότητας των μεγάλων τιμών κύρτωσης = 3: normal distribution λοξότητα > 3: βαριές ουρές («λεπτοκύρτωση»

36

37

Δύο Τυχαίες Μεταβλητές: από Κοινού

Κατανομές και Συνδιακύμανση Τυχαίες μεταβλητές X και Z έχουν μία από κοινού κατανομή Η συνδιακύμανση μεταξύ της X και της Z είναι

cov(X,Z) = E[(X – X)(Z – Z)] = XZ

Η συνδιακύμανση είναι ένα μέτρο της γραμμικής σχέσης ανάμεσα στην X και στην Z; Οι μονάδες της είναι οι μονάδες

της X της μονάδες της Z

cov(X,Z) > 0 σημαίνει μία θετική γραμμική σχέση ανάμεσα στην X και στην Z Εάν η X και η Z είναι ανεξάρτητα κατανεμημένα, τότε

cov(X,Z) = 0 (αλλά όχι και αντίστροφα!!) Η συνδιακύμανση της Χ με τον εαυτό της είναι ίση με την

διακύμανση της: cov(X,X) = E[(X – X)(X – X)] = E[(X – X)2] = 2

X

38Έτσι είναι η συσχέτιση…

Η συνδιακύμανση ανάμεσα στους βαθμούς

των τεστ και την αναλογία Φ/Δ είναι αρνητική:

39

Ο Συντελεστής Συσχέτισης Ορίζεται σε

Σχέση ως προς την Συνδιακύμανση:

corr(X,Z) = cov( , )

var( ) var( )XZ

X Z

X Z

X Z

= rXZ

–1 corr(X,Z) 1

corr(X,Z) = 1 σημαίνει τέλεια θετική γραμμική σχέση

corr(X,Z) = –1 σημαίνει τέλεια αρνητική γραμμική σχέση

corr(X,Z) = 0 σημαίνει μη γραμμική σχέση

40

Ο συντελεστής συσχέτισης μετράει γραμμική σχέση

41

(c) Δεσμευμένες Κατανομές και

Δεσμευμένες Μέσες Τιμές Δεσμευμένες Κατανομές

Η κατανομή του Y, δοθέντος τιμές από κάποια άλλη τυχαία μεταβλητή, X Π,χ: η κατανομή των βαθμών από τεστ, δοθέντος ότι STR < 20

Δεσμευμένες Αναμενόμενες Τιμές και Δεσμευμένες

Δεσμευμένη Μέση Τιμή = η μέση τιμή της δεσμευμένης κατανομής

= E(Y|X = x) (σημαντική έννοια και συμβολισμός) Δεσμευμένη Διακύμανση = η διακύμανση της δεσμευμένης

κατανομής Παράδειγμα: E(βαθμοί|Φ/Δ < 20) = η μέση τιμή των βαθμών

των περιφερειών με μικρές τάξεις Η διαφορά των μέσων είναι η διαφορά ανάμεσα στις μέσες τιμές δύο δεσμευμένων κατανομών:

42

Δεσμευμένες Μέσες Τιμές, συν. = E(Βαθμοί|STR < 20) – E(Βαθμοί|STR ≥ 20)

Άλλα παραδείγματα δεσμευμένων μέσων τιμών:

Οι μισθοί όλων των γυναικών εργατών (Y = μισθοί, X =

φύλλο)

Ο λόγος θνησιμότητα από αυτούς που συμμετείχαν σε ένα

πείραμα με μία νέα θεραπεία

(Y = # έζησαν / # απεβίωσαν; X = με θεραπεία / χωρίς

θεραπεία)

Εάν E(X|Z) = σταθερά, τότε corr(X,Z) = 0 (το αντίστροφο δεν

ισχύει αναγκαστικά)

Η δεσμευμένη μέση τιμή είναι ένας (πιθανά νέος) όρος για την

εξοικειωμένη ιδέα της ομαδικής μέσης τιμής

43

(d) Η Κατανομή ενός Δείγματος Δεδομένων Επιλεγμένο Τυχαία από έναν πληθυσμό: Y1,…,Yn

Θα υποθέσουμε απλή τυχαία δειγματοληψία

Επιλέξτε ένα άτομο (περιφέρεια, οντότητα) τυχαία από έναν

πληθυσμό

Τυχαιότητα και Δεδομένα

Πριν την επιλογή του δείγματος, η τιμή της Y είναι τυχαία

επειδή το επιλεγμένο άτομο είναι τυχαίο

Άπαξ και το άτομο επιλεχθεί και η τιμή της Y παρατηρηθεί,

τότε η Y είναι απλά ένας αριθμός – όχι τυχαίος

Το σύνολο των δεδομένων είναι (Y1, Y2,…, Yn), όπου Yi = η

τιμή της Y για το iο άτομο (περιφέρεια, οντότητα) του

δείγματος

44

Η Κατανομή των Y1,…, Yn κάτω από

Απλή Τυχαία Δειγματοληψία Αφού τα άτομα #1 και #2 επιλέγονται τυχαία, η τιμή της Y1

δεν περιέχει πληροφόρηση Y2. Έτσι: Y1 και Y2 είναι ανεξάρτητα κατανεμημένα Οι Y1 και Y2 προέρχονται από την ίδια κατανομή, δηλαδή,

Y1, Y2 είναι ισόνομα κατανεμημένα Δηλαδή, κάτω από απλή τυχαία δειγματοληψία, Y1 και Y2

είναι ανεξάρτητα και ισόνομα κατανεμημένα (α.ι.κ.). Πιο γενικά, από απλή τυχαία δειγματοληψία, {Yi},

i = 1,…, n, και α.ι.κ.

Αυτό το πλαίσιο επιτρέπει αυστηρές στατιστικές συμπερασματολογίες σχετικά με ροπές των κατανομών του πληθυσμού χρησιμοποιώντας ένα δείγμα δεδομένων από αυτόν τον πληθυσμό …

45

1. Τα βασικά εργαλεία των πιθανοτήτων για στατιστική συμπερασματολογία

2. Εκτιμητική 3. Έλεγχος Υποθέσεων 4. Διαστήματα Εμπιστοσύνης

Εκτιμητική Y είναι ο φυσικός εκτιμητής της μέσης τιμής. Αλλά:

(a) Ποιες είναι οι ιδιότητες του Y ;

(b) Γιατί θα πρέπει να χρησιμοποιήσουμε Y αντί κάποιου

άλλου εκτιμητή;

Y1 (η πρώτη παρατήρηση)

Ενδεχομένως άνισες σταθμίσεις – όχι απλά ο μέσος

όρος

διάμεσος(Y1,…, Yn)

Το αρχικό σημείο είναι η δειγματοληπτική κατανομή του Y …

46

(a) Δειγματοληπτική Κατανομή τουYY είναι μία τυχαία μεταβλητή, και οι ιδιότητες της καθορίζονται

από την δειγματοληπτική κατανομή Y

Τα άτομα στο δείγμα επιλέγονται τυχαία. Έτσι οι τιμές της (Y1,…, Yn) είναι τυχαίες Έτσι οι συναρτήσεις των (Y1,…, Yn), όπως η Y , είναι τυχαίες:

εάν είχαμε επιλέξει ένα άλλο τυχαίο, θα έπαιρναν διαφορετικές τιμές Η κατανομή της Y μέσω διαφορετικών πιθανών δειγμάτων

μεγέθους n καλείται η δειγματοληπτική κατανομή της Y . Η μέση τιμή και η διακύμανση της Y είναι η μεση τιμή και η

διακύμανση της δειγματοληπτικής κατανομής, E(Y ) και Var(Y ). Η έννοια της δειγματοληπτικής κατανομής υποστυλώνει όλη

την οικονομετρία.

47

Δειγματοληπτική Κατανομή του , συν. YΠαράδειγμα: Υποθέστε ότι η Y παίρνει τιμές 0 ή 1 (μία Bernoulli τυχαία μεταβλητή) με κατανομή πιθανότητας,

Pr[Y = 0] = .22, Pr(Y =1) = .78 Τότε

E(Y) = p1 + (1 – p)0 = p = .78 2Y = E[Y – E(Y)]2 = p(1 – p) [θυμάστε αυτό;]

= .78 (1–.78) = 0.1716

Η δειγματοληπτική κατανομή της Y εξαρτάται από το n. Θεωρήστε n = 2. Η δειγματοληπτική κατανομή της Y είναι,

Pr(Y = 0) = .222 = .0484 Pr(Y = ½) = 2.22.78 = .3432 Pr(Y = 1) = .782 = .6084

48

Η δειγματοληπτική κατανομή της όταν Y είναι Bernoulli (p = .78):

Y

49

Έννοιες τις οποίες θέλουμε να γνωρίζουμε

σχετικά με την δειγματοληπτική κατανομή: Ποια είναι η μέση τιμή της Y ?

Εάν E(Y ) = αληθινή = .78, τότε Y είναι αμερόπηπτος εκτιμήτρια της

Ποια είναι η διακύμανση της Y ; Πως η var(Y ) εξαρτάται από το n (ο γνωστός 1/n τύπος)

Πλησιάζει η Y την όταν το n είναι μεγάλο; Νόμος μεγάλων αριθμών: Y είναι συνεπής εκτιμήτρια

της Y – εμφανίζει το σχήμα της καμπάνας για n μεγάλο

…είναι αυτό γενικά αληθής; Πράγματι, Y – είναι προσεγγιστικά κανονική

κατανεμημένη για n μεγάλο (Κεντρικό Οριακό Θεώρημα)

50

Η Μέση Τιμή και η Διακύμανση της Δειγματοληπτικής Κατανομής της Y

Γενική περίπτωση – δηλαδή, για Yi α.ι.κ. από κάθε κατανομή, όχι μόνο Bernoulli:

Μέση τιμή: E(Y ) = E(1

1 n

ii

Yn ) =

1

1( )

n

ii

E Yn =

1

1 n

Yin

= Y

Διακύμανση: var(Y ) = E[Y – E(Y )]2

= E[Y – Y]2

= E2

1

1 n

i Yi

Yn

= E2

1

1( )

n

i Yi

Yn

51

έτσι var(Y ) = E2

1

1( )

n

i Yi

Yn

= 1 1

1 1( ) ( )

n n

i Y j Yi j

E Y Yn n

= 2

1 1

1( )( )

n n

i Y j Yi j

E Y Yn

= 2

1 1

1cov( , )

n n

i ji j

Y Yn

= 22

1

1 n

Yin

= 2Y

n

52

Η Μέση Τιμή και η Διακύμανση της Δειγματοληπτικής Κατανομής , συν.

E(Y ) = Y

var(Y ) = 2Y

n

Συνέπειες: 1. Y είναι μία αμερόληπτος εκτιμήτρια της Y (δηλαδή,

E(Y ) = Y) 2. var(Y ) είναι αντιστρόφως ανάλογη του n

το άπλωμα της δειγματοληπτικής κατανομής είναι ανάλογο του 1/ n Έτσι η δειγματοληπτική αβεβαιότητα συνδεόμενη με

την Y είναι ανάλογη με 1/ n (όσο μεγαλύτερα δείγματα, τόσο λιγότερη αβεβαιότητα, (ο νόμος της τετραγωνικής ρίζας)

Y

53

Η Δειγματοληπτική κατανομή της όταν το n είναι μεγάλο

Y

Για δείγματα μικρού μεγέθους, η κατανομή της Y είναι

πολύπλοκη, αλλά εάν το n είναι μεγάλο, η δειγματοληπτική

κατανομή είναι απλή!

1. Καθώς το n αυξάνει, η κατανομή της Y γίνεται πιο στενή και

κεντράρεται γύρω από το Y (ο νόμος των μεγάλων αριθμών)

2. Επιπλέον, η κατανομή της Y – Y γίνεται κανονική (το

Κεντρικό Οριακό Θεώρημα, Κ.Ο.Θ.)

54

Ο Νόμος των Μεγάλων Αριθμών: ΄Μία εκτιμήτρια είναι συνεπής εάν η πιθανότητα ότι αυτή πέφτει σε ένα διάστημα της αληθινής τιμής του πληθυσμού συγκλίνει στο 1 καθώς το μέγεθος του δείγματος αυξάνει.

Εάν (Υ1,…,Υν) είναι α.ι.κ. και 2Y \ , τότε Y είναι συνεπής

εκτιμήτρια της Υ, δηλαδή,

Pr[|Y – Y| < ] 1 as n

Συγκλίνει κατά πιθανότητα, Y p

Y

(«Y p

Y» σημαίνει: «Y συγκλίνει κατά πιθανότητα στο Y»).

(μαθηματικά: καθώς n , var(Y ) = 2Y

n

0, το οποίο

συνάγει ότι Pr[|Y – Y| < ] 1.)

55

Το Κεντρικό Οριακό Θεώρημα Εάν (Y1,…,Yn) είναι α.ι.κ. και 0 < 2

Y < , τότε όταν το n

είναι μεγάλο η κατανομή της Y προσεγγίζεται καλά από μία κανονική κατανομή.

Y ΄είναι προσεγγιστικά κατανεμημένη Ν(Υ, 2Y

n

) («κανονική

κατανομή με μέση τιμή Υ και διακύμανση 2Y /n»)

n (Y – Υ)/Υ είναι προσεγγιστικά κατανεμημένη Ν(0,1) (τυπική κανονική)

Δηλαδή, «τυποποιημένη» Y = ( )

var( )

Y E Y

Y

=

/Y

Y

Y

n

είναι

προσεγγιστικά κατανεμημένη καθώς N(0,1) Όσο μεγαλύτερο το ν, τόσο καλύτερη η προσέγγιση.

56

Η Δειγματοληπτική Κατανομή της όταν Y είναι Bernoulli, p = 0.78:

Y

57

Το ίδιο παράδειγμα: η δειγματοληπτική κατανομή της :( )

var( )

Y E Y

Y

58

Περίληψη: Η Δειγματοληπτική Κατανομή της Y

Για Y1,…,Yn α.ι.κ με 0 < 2Y < ,

Η ακριβή (πεπερασμένο δείγμα) η δειγματοληπτική κατανομή της Y έχει μέση τιμή Y («Y είναι μία αμερόληπτος εκτιμήτρια της Y») και διακύμανση 2

Y /n Εκτός από την μέση της τιμή και την διακύμανση, η ακριβή

κατανομή της Y είναι πολύπλοκη και εξαρτάται από την κατανομή του Υ (την κατανομή του πληθυσμού) Όταν το n είναι μεγάλο, η δειγματοληπτική κατανομή

απλοποιείται:

Y p

Y (Ο νόμος των μεγάλων αριθμών)

( )

var( )

Y E Y

Y

είναι προσεγγιστικά N(0,1) (Κ.Ο.Θ.)

59

(b) Γιατί Χρησιμοποιούμε για να Εκτιμήσουμε Y;

Y

Y είναι αμερόληπτος: E(Y ) = Y

Y είναι συνεπής: Y p

Y Y είναι η εκτιμήτρια των «ελαχίστων τετραγώνων» της Υ;

Y είναι η λύση της: 2

1

min ( )n

m ii

Y m

Έτσι, Y ελαχιστοποιεί το άθροισμα των τετραγώνων «υπολοίπων» προαιρετική απόδειξη

2

1

( )n

ii

dY m

dm

= 2

1

( )n

ii

dY m

dm

= 1

2 ( )n

ii

Y m

Άναθέτουμε την παράγωγο ίση με το 0 και συμβολίζουμε την

βελτιστη τιμή της m με m̂:

1

n

i

Y =

1

ˆn

i

m = ˆnm or m̂ =

1

1 n

ii

Yn = Y

60

Γιατί Χρησιμοποιούμε για να

Εκτιμήσουμε Y; συν.Y

Y έχει την μικρότερη διακύμανση από όλες τις άλλες

γραμμικές αμερόληπτες εκτιμήτριες: θεωρήστε την

εκτιμήτρια, 1

n

Y i ii

a Yn

, όπου {ai} είναι τέτοια ώστε ˆY

είναι αμερόληπτος, τότε var(Y ) var( ˆY )

Y δεν είναι η μόνη εκτιμήτρια της Y – μπορείτε να

σκεφτείτε μία περίπτωση στην οποία ενδεχομένως να θέλατε

να χρησιμοποιούσατε την διάμεσο αντί την μέση τιμή;

61

1. Τα βασικά εργαλεία των πιθανοτήτων για στατιστική συμπερασματολογία

2. Εκτιμητική 3. Έλεγχος Υποθέσεων 4. Διαστήματα Εμπιστοσύνης

Έλεγχος Υποθέσεων

΄Το πρόβλημα του έλεγχου υπόθεσης (για την μέση τιμή):

κάνουμε μία προβλεπτική απόφαση, βασισμένοι στην μαρτυρία

την οποία έχουμε, εάν η μηδενική υπόθεση είναι αληθής, ή στη

θέση ότι κάποια εναλλακτική υπόθεση αληθεύει. Δηλαδή,

ελέγχουμε

H0: E(Y) = Y,0 έναντι H1: E(Y) > Y,0 (μονόπλευρη, >)

H0: E(Y) = Y,0 έναντι H1: E(Y) < Y,0 (μονόπλευρη, <)

H0: E(Y) = Y,0 έναντι H1: E(Y) Y,0 (δίπλευρη)

62

Ορολογία για να ελέγξουμε στατιστικές υποθέσεις:

π-τιμή (p-value) = η πιθανότητα να επιλέξουμε ένα στατιστικό

στοιχείο (π.χ. Y ) το λιγότερο τόσο ακραίο στην μηδενική (π.χ.

,0 ) όσο η τιμή που προέκυψε από τα δεδομένα, υποθέτοντας

ότι η μηδενική υπόθεση αληθεύει.

Το επίπεδο σημαντικότητας του τεστ είναι μία προκαθορισμένη

πιθανότητα, ώστε να απορρίψουμε λανθασμένα την μηδενική,

όταν η μηδενική αληθεύει.

Υπολογίζοντας την π-τιμή βασισμένοι στην Y :

π-τιμή = 0 ,0 ,0Pr [| | | |]H Y YY Y

όπου Y είναι η τιμή που παρατηρούμε για την Y από το

υπάρχων δείγμα

63

Υπολογίζοντας την π-τιμή, συνέχεια ΄Για να υπολογίσουμε την π-τιμή, χρειαζόμαστε να

γνωρίζουμε την δειγματοληπτική κατανομή της Y , η οποία

είναι πολύπλοκη για μικρές τιμες του n.

Εάν n είναι μεγάλο, μπορούμε να χρησιμοποιήσουμε την

κανονική προσεγγιση (Κ.Ο.Θ.):

π-τιμή = 0 ,0 ,0Pr [| | | |]H Y YY Y ,

= 0

,0 ,0Pr [| | | |]/ /

Y YH

Y Y

Y Y

n n

= 0

,0 ,0Pr [| | | |]Y YH

Y Y

Y Y

την πιθανότητα (εμβαδόν) στις ουρές της Ν(0,1)

όπου Y = η τυπική απόκλιση της κατανομής της Y = Υ/ n .

64

Υπολογίζοντας την π-τιμή με γνωστή Y

Για μεγάλο n, π-τιμή = ή πιθανότητα ότι μία N(0,1) τυχαία

μεταβλητή πέφτει εκτός |( actY – Y,0)/ Y |

Στην πράξη, Y είναι άγνωστη – πρέπει να εκτιμηθεί

65

Υπολογίζοντας την π-τιμή με γνωστή Y

,0π-τιμή=2Y

π.χ., για 2Φ(-2.23)=2·0.0129=0.0258Το 0.0129 προκύπτει από πίνακα της κανονικής κατανομής -> το εμβαδόν κάτω από το σημείο -2.23

Συμπέρασμα: Αφού η π-τιμή είναι μικρότερη του 0.05 συμπεραίνουμε ότι υπάρχει στατιστική μαρτυρία να απορρίψουμε την μηδενική υπόθεση και να δεχτούμε την εναλλακτική Η1: μ≠μΥ,0

66

Εκτιμήτρια για την Διακύμανση του Y: 2Ys = 2

1

1( )

1

n

ii

Y Yn

= «δειγματοληπτική διακύμανση του Υ»

Πράγματι:

Εάν (Υ1,…,Υν) είναι α.ι.κ. και Ε(Υ4) \ , τότε 2Ys

p

2Y

Γιατί ισχύει ο νόμος των μεγάλων αριθμών;

Επειδή 2Ys είναι ένας δειγματοληπτικός μέσος.

Τεχνική σημείωση: υποθέτουμε E(Y4) < αφού εδώ ο

μέσος δεν είναι των Yi, αλλά των τετραγώνων.

67

Υπολογίζοντας την π-τιμή με εκτιμώμενη: 2Y

π-τιμή = 0 ,0 ,0Pr [| | | |]H Y YY Y ,

= 0

,0 ,0Pr [| | | |]/ /

Y YH

Y Y

Y Y

n n

0

,0 ,0Pr [| | | |]/ /

Y YH

Y Y

Y Y

s n s n

(μεγάλο n)

έτσι

π-τιμή = 0

Pr [| | | |]H t t ( 2Y εκτιμώμενη)

την πιθανότητα κάτω από τις ουρές της

κανονικής |tπραγ|

όπου t = ,0

/Y

Y

Y

s n

(το σύνηθες t-στατιστικό)

68

Υπολογίζοντας την π-τιμή με εκτιμώμενη:

,0

1

π-τιμή=2(Εμβαδό πανω απο το σημείο = ) /

από την κατανομή n

Yt

s n

t

2Y

π.χ., για t=1.92 και n=12 Από τον πίνακα της t κατανομής με 11 βαθμούς ελευθερίαςΤο σημείο 1.92 κυμαίνεται μεταξύ 1.796 και 2.201, στα οποία αντιστοιχούν τα εμβαδά 0.1 και 0.05. Επομένως η π-τιμή είναι μεταξύ 0.05 και 0.1 και συμπεραίνουμε Συμπέρασμα: Αφού η π-τιμή είναι μεγαλύτερη του 0.05 συμπεραίνουμε ότι δεν υπάρχει στατιστική μαρτυρά να απορρίψουμε την μηδενική υπόθεση Η0: μ=μΥ,0 με επίπεδο σημαντικότητας α=0.05, αλλά μπορεί να απορριφθεί η Η0 με επίπεδο σημαντικότητας α=0.1.

69

Ποια είναι η σύνδεση μεταξύ της π-τιμής και του επιπέδου σημαντικότητας; Το επίπεδο σημαντικότητας είναι προκαθορισμένο. Για

παράδειγμα, εάν το προκαθορισμένο επίπεδο σημαντικότητας

είναι 5%,

Απορρίπτουμε την μηδενική υπόθεση εάν |t| 1.96

Ισοδύναμα, απορρίπτουμε εάν p 0.05.

Η π-τιμή κάποιες φορές καλείται το περιθωριακό επίπεδο

σημαντικότητας.

Συχνά, είναι καλύτερα να χρησιμοποιούμε την π-τιμή και όχι

απλά αν μία υπόθεση απορρίπτεται ή όχι – η π-τιμή περιέχει

περισσότερη πληροφόρηση από μία «ναι/όχι» αναφορά

σχετικά με το αν η μηδενική υπόθεση απορρίπτεται

70

1. Τα βασικά εργαλεία των πιθανοτήτων για στατιστική συμπερασματολογία

2. Εκτιμητική 3. Έλεγχος Υποθέσεων 4. Διαστήματα Εμπιστοσύνης

Διαστήματα Εμπιστοσύνης

΄΄Ενα 95% διάστημα εμπιστοσύνης για Υ είναι ένα διάστημα

που περιέχει την αληθινή τιμη της Υ σε 95% επαναλαμβανόμενα

δείγματα.

Παρέκβαση: Τι είναι τυχαίο εδώ; Οι τιμές του Y1,…,Yn και έτσι όλες οι συναρτήσεις αυτών – συμπεριλαμβανομένου και του διαστήματος εμπιστοσύνης. Το διάστημα εμπιστοσύνης θα διαφέρει από ένα δείγμα σε άλλο. Ή παράμετρος του πληθυσμού, Υ, δεν είναι τυχαία, απλά δεν την γνωρίζουμε.

71

Διαστήματα Εμπιστοσύνης, συν. Ένα 95% διάστημα εμπιστοσύνης μπορεί πάντοτε να

κατασκευαστεί ως το σύνολο των τιμών της Y που δεν

απορρίπτονται από έναν έλεγχο υποθέσεων με 5% επίπεδο

σημαντικότητας.

{Y: /

Y

Y

Y

s n

1.96} = {Y: –1.96

/Y

Y

Y

s n

1.96}

= {Y: –1.96 Ys

n Y – Y 1.96 Ys

n}

= {Y (Y – 1.96 Ys

n , Y + 1.96 Ys

n)}

Το διάστημα εμπιστοσύνης βασίζεται σε αποτελέσματα για μεγάλα

ν Y είναι προσεγγιστικά κανονικά κατανεμημένο 2Ys

p

2Y .

72

Περίληψη: Από τις δύο υποθέσεις:

(1) Άπλή τυχαία δειγματοληψία από τον πληθυσμό, δηλαδη,

{Yi, i =1,…,n} είναι α.ι.κ.

(2) 0 < E(Y4) <

αναπτύξαμε για μεγάλα δείγματα (μεγάλο n):

Θεωρία για εκτίμηση (δειγματοληπτική κατανομή της Y )

Θεωρία για έλεγχο υποθέσεων (για μεγάλο n η κατανομή του

t-στατιστικού και ο υπολογισμός της π-τιμής)

Θεωρία για διαστήματα εμπιστοσύνης (κατασκευασμενο

αντιστέφοντας ένα τεστ στατιστικό)

Είναι οι υποθέσεις (1) & (2) εφικτοί στην πράξη; Απαντ.: Ναι

Recommended