REGRESYON VE KORELASYON ANALİZİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/11 regresyon.pdf · 11.2. YALIN (BASİT) REGRESYON Yalın regresyon ile açıklanmaya çalıılan

Prof Dr. Levent ŞENYAY XI - İstatistik II

1

11

REGRESYON

VE

KORELASYON

ANALİZİ

11.1. Doğrusal İlişkiler

11.2. Yalın (basit) Regresyon

11.2.1. En Küçük Kareler Metodu

a) Normal Denklemlerin Çözümü

b) Determinant metodu

c) Orjin Kaydırma

11.2.2. Regresyonun Standart Sapması

11.2.3. Regresyonun Duyarlılığı

11.2.4. Regresyon ile Tahmin

11.2.5. Belirleme Katsayısı

11.3. Korelasyon

11.4. Çoklu Regresyon Modelleri


2

11.1. Doğrusal İlişkiler:

2

0 1 2

1,2,...,

( )

i i i iy x x

i n

y f x

şeklinde belirtilen herhangi bir modelde y’ler bağımlı (dependent) ve x’ler ise bağımsız

(independent) değişken olarak adlandırılır. Böyle bir modelde 0 , 1 ve 2 ise

parametrelerdir.Değişkenler arasındaki ilişkiler çok çeşitli olabilir. İlişkileri doğrusal ya da

doğrusal olmamasına göre iki ana başlık altında toplamak yerinde olur. Değişkenler

açısından doğrusal bir ilişkide değişkenler toplamsal halde bulunmalıdır. Aksi, çarpım ya da

bölüm halinde bulunan modellere doğrusal olmayan model denir.Örneğin;

0 1i i iy x veya 0 1 1 2 2i i i iy x x modelleri doğrusaldır.

2

0 1 2i i i iy x x modeli ise değişkenler açısından doğrusal değildir.

Bu ilişkilerden başkaları;

i) Eğrisel ilişki

y = 0 + 1 x2 gibi

ii) Logaritmalı ilişki

y =logx

iii) Katlı ortak doğrusal (multicollinearity) ilişki

y = 0 + 1 x + 2 z

iv) Gecikmiş (lag) ilişki

ty = 0 + 1 xt-1

şeklinde belirlenebilir. Bu doğrusal olmayan modellerin bazıları bir takım transformasyonlar

aracılığı ile doğrusal hale getirilebilir, bazıları ise doğrusal hale getirilemezler.

Böyle bir ilişkide x’ler birer şans değişkeni değildir. Bağımlı değişken y’ler ise birer

şans değişkenidir. Ancak bağımsız değişkenler kendi aralarında da birbirilerinden tamamen

bağımsız olmayabilirler.Örneğin;

y

x1

x2


3

x1 ve x2 direk olarak y ile ilişkili olabilir ve y’yi açıklamayı çalışırlar ancak x1 ve x2

kendi aralarında da bir ilişki içerisinde olabilir. Bu durum aslında istenmeyen bir

haldir.Çünkü y’yi açıklamada x1 ve x2 arasındaki ilişkiden dolayı daha az bilgi verirler .

Bağımsız değişken bazen kesikli de olabilir .Hatta tek bir bağımsız değişken dahi kesikli

olabilir.

11.2. YALIN (BASİT) REGRESYON

Yalın regresyon ile açıklanmaya çalışılan basit doğrusal ilişkidir.ve;

y i = 0 + 1 xi + i

modeli ile belirlenir.Bu modelde i hata terimidir ve bir şans değişkenidir. Sadece y’yi etkiler

ve x ile hiçbir ilgisi yoktur. Bu bilgiler ışığı altında Regresyon’un tanımı:

Değişkenler ararsındaki bağıntının doğasını belirler. Regresyonda yapılan iş bağımsız

değişkenin değişim biçimine uyularak bağımlı değişkeni önceden belirlenmiş bir hata

payı içinde tahminlemektir.

i

xi

x

(Ağırlık)

y(boy)

yi

yi=

0 +1 xi + i

ˆiy


4

y donma

noktası

x

konsantrasyona b c

0

-250

Gerçek ilişki doğrusal olmadığı halde a ve b aralığı içinde ilişki doğrusal bir şekilde

mükemmelce ifade edilebilir ancak aynı doğru ile gibi bir noktayı açıklamaya çalışmak

büyük bir hatadır.

y

üretim

miktarı

yıllar

O

(-) a b

O gibi bir noktanın yorumu hatalı olacaktır.


5

y

x

1 birim

y i = 0 + 1 xi + i

Populasyonla ilgilidir.

Genellikle bilinmez, bulunmaya çalışılır.

0


6

tg = b1

yc

Örnekle ilgilidir.

Üzerinde çalışılan modelin, populasyon modeline yakın olması istenir.

xbby 10ˆ

yi

1btg (eğim)

x ile y arasında

90 ise + 1b pozitif bir ilişki,

90 ise - 1b negatif bir ilişki vardır.

1b = Bağımsız değişken 1 birim değiştiği zaman y bağımlı değişkenindeki değişme

miktarı(eğim)

Regresyonun Özellikleri

i)Bu doğru,bağımlı değişkeni (y nin dağılımını) en iyi temsil eden doğrudur.

ii)Regresyon doğrusundan düşey sapmaların toplamı sıfırdır.

0)( ci yy

iii)Regresyon doğrusundan düşey sapmaların kareleri toplamları minimumdur.

min)( 2 ci yy


7

11.2.1. REGRESYON PARAMETRE TAHMİNİNDE EN KÜÇÜK KARELER

METODU

Regresyon doğrusunun belirlenmesinde E.K.K. (Least Square Estimator, LSE)

metodunun seçilme nedeni;bu doğru belirlenirken yapılacak hataları minimum kılma

arzusundan kaynaklanır.Bunu;hataların toplamlarını veya mutlak toplamlarını minimum

yapmakla başlayarak araştırmak gerekir.

+2

*

*

*

-1

-1

1) 0)(

2) 4

3) 62

A B

C

*

*

*

*

*

-4

+3

+1

3) 262

+4

0

0

2) 4

3) 92

1) 0)( 8 e

4e

A,B ve C de görüldüğü gibi toplamları ya da mutlak toplamları sıfır veya minimum olan

sonsuz sayıda doğru saymak mümkün ancak hata kareleri toplamları minimum yapan sadece

ve sadece bir doğru vardır ve bu da en iyisidir.


8

0 1

0 1

2 2

0 1

0 1

0

0 1

1

1,..., ( )

( )

2 ( ) 0

2 ( ) 0

i i i

i i i

i i i

i i

i i i

Y X i n gözlem sayısı

Y X

S Y X

SY X

SX Y X

Bu kısmi türevlerin alınması bir analitik geometri yöntemidir. Minimum ve maksimum

noktalarının bulunmasında kullanılır.

0 1

0 1

1) ( ) 0Normaleşitlikler

2) ( ) 0

i i

i i i

Y b b X

X Y b b X

0

1 1

ˆ

ˆ

ob

b

i=1,2,......n

(1) (2)

1 0 1 1

2 0 1 2

0 1

0 1

n n

i i

Y b b X

Y b b X

Y b b X

Y nb b X

2

1 1 0 1 1 1

2

2 2 0 2 1 2

2

0 1

2

0 1

n n n n

i i i i

X Y b X b X

X Y b X b X

X Y b X b X

X Y b X b X

a) 0b ve 1b için normal denklemlerin çözümü:

0 1

2

0 1

(1)

(2)

i

i i

i i i i

XY nb b X

n

X Y b X b X

2

0 11 2

2 2

0 1

(1)

(2)

i iii i i i

i

i

i i i i i

X YXX Y X Y

b X b nbn nX

X Y b X b X Xn


9

0 1

0 1

0 1

0 1

1(1) i i

i i

Y nb b Xn

Y Xb b

n n

Y b b X

b Y b X

Şekilde 0b ve 1b hesaplanır ve buradan elde edilen değerler modelde yerine konacak

olursa:

0 1Y b b X

regresyon denklemi elde edilir.

b) DETERMİNANT METODU

0b ve 1b hesaplamak için alternatif bir yol

0 1

2

0 1

Normal Eşitlikleri i

i i i i

Y nb b X

X Y b X b X

2 2

02 2

2

( )

i i

i i i i i i i i

o

i ii

i i

Y X

X Y X Y X X X Yb b

X Xn X

X X

1 12 2

2

( )

i

i i i i i i i

i ii

i i

n Y

X X Y n X Y X Yb b

n X Xn X

X X


10

Şeklinde 0b ve 1b hesaplanabilir ve buradan elde edilen değerler modelde yerine

konulacak olursa ;

0 1y b b x

regresyon denklemi elde edilmiş olur.

c) ORJİN KAYDIRMA YÖNTEMİ

Daha önceden, (1) 0 1Y b b X denklemini elde edilmişti.

Regresyon denkleminin tahmini ise:

0 1Y b b X tir.

Bu iki denklem beraberce çözülürse;

0 1( )Y Y b X X

elde edilir.burada 0 hala denklemdedir.Ancak orjin kayması nedeni ile gizlenmiştir.

y Y Y ve x X X ile gösterilirse yukarıdaki model

1y b x haline gelir.

Burada hata karelerini minimum yapmak için aşağıdaki yol izlenir.

2

1

1

1

2

1

1 2

0

( )

2 ( ) 0

0

0

S y b x

dSx y b x

db

xy b x

xyb

x

b

Bu şekilde 1b kolayca elde edilir. Ancak orjini kaydırsak ta kaydırmasak ta doğrunun

eğimi değişmeyeceğinden istersek modele tekrar b0 ’ ı ekleyebiliriz.


11

Daha önce 0b için aşağıdaki eşitliği elde etmiştik.

0 1

0 1

Y b b X

b Y b X

Orjin kaydırma 0 x olacağından yani sadece x X X alınarak ve Y aynen bırakılarak

0 1

xb Y b

n

Yb 0 olur veya 0 1 2

Y xYb b

n x

şeklinde ifade edilir ve bu değerler modelde yerine konulacak olursa;

0 1Y b b x x X X

regresyon denklemi elde edilir.

Örnek: Firmanın 1993-1999 yılları arasındaki yıllık satışları aşağıda verildiği gibidir.

Bu verilere dayanarak regresyon (yalın regresyon) denkleminin tahminlenmesi

istenmektedir.(satışlar 1000 br olarak)

1992X X

a n=7

Yıllar Satışlar (Y) X X Y 2X 1993 15 1 15 1

1994 18 2 36 4

1995 25 3 75 9

1996 30 4 120 16

1997 40 5 200 25

1998 60 6 360 36

1999 82 7 574 49

270 28 1380 140

Yukarıdaki verilerin y= b0+b1x modeline uyum sağlanması isteniyor.

Paremetrelerin E.K.K.tahminlerini elde etmek için

I.YOL


12

0 1

2

0 1

0 1

0 1

0 1

0 1

1 0

(1)

(2)

270 7 28

1380 28 140

1080 28 112

1380 28 140

10.7 4.2

i i

i i i i

Y nb b X

X Y b X b X

b b

b b

b b

b b

b b

Y = - 4.2 +10.7 X

II.YOL

1 2 2

2

0 1

(28)(270)1380

7 10.7( ) (28)

1407

270 28(10.7) 4.2

7 7

X YXY

nbX

Xn

b Y b X

III.YOL Determinant metodu ile parametre tahminlerinin hesaplaması ise ;

2

0 2 2 2

270(140) 28(1380) 304.2

7( ) 7(140) (28)

Y X X XYb

n X X

1 2 2 2

7(1380) 28(270) 7510.7

7( ) 7(140) (28)

n XY X Yb

n X X

30 75

4.2 10.77 7

Y X X şeklinde elde edilir.

IV. YOL En kısa yol olan orjin kaydırma ile parametre tahmini ise;

Y = - 4.2 +10.7 X

şeklinde regresyon

denklemi elde edilir.


13

1 2

xYb

x

ve 0

Yb

n

formüller ile olmaktadır.Ancak burada orjin kaydırmayı yapabilmek için x=X- X

farklarını almak gerekmektedir.

Orjini kaydırma yönteminde bir farklı yaklaşım 0x olması nedeniyle

(1)..........0 1Y nb b x

normal eşitlikler

(2)..........0xY b x 2

1b x

(1) nolu denklemden n

Yb

0 ve (2) nolu denklemden b1 =

2x

xY olacaktır.

X Yıllar Y 4x X xY x 2 Y 2

1 1993 15 -3 -45 9 225

2 1994 18 -2 -36 4 324

3 1995 25 -1 -25 1 625

4 1996 30 0 0 0 900

5 1997 40 1 40 1 1600

6 1998 60 2 120 4 3600

7 1999 82 3 246 9 6724

TOPLAM 270 300 28 13998

284

7X

0

27038.5

7

Yb Y

n

1 2

300 7510.7

28 7

xYb

x

Y = 38.5 + 10.7 x şeklinde elde edilir.


14

tg = b1 =10.7

Y

X

Y

38.5

- 4.2

Y=-4.2+10.7X

Y=38,5+10,7x

x=0x

0 43 5 6

1 2-1-2

2

Bu şekilde elde edilen modelden yapılacak tahminler aşağıdaki şekilde olacaktır.

İlk olarak 30 75

7 7Y X modeli de yapılacak tahminler ele alınacak olursa,

a) 2001 yılı satışları ne olacaktır?

Y2001=-4.2+10.7(9)=92.1

b) Hangi yıl 100 birim satar?

100 = -4.2 + 10.7 X 1 yıl 12 ay

xX= 9.7 0.7 yıl X ay

X=8.4 ay

2001 yılı 8 inci ayın ortalarında .

veya benzer şekilde

Y=38.5+10.7x modeli de yapılacak aynı tahminler de aynı sonucu verecektir.

a) 2001 yılı satışları ne olacaktır? Y=38.5+10.7(5)=92 br.

b) Hangi yıl 100 birim satar?

100=38.5+10.7 x


15

x=5.7 (2001 yılı 8 inci ayı ortaları)

Not: Eğer orjin kaydırma yönteminde yıl sayısı (x) çift ise, x’ler şu şekilde hesaplanır.

x yıllar

1970 01.01.1970 ---------- -0.5 1970

- 01.06.1970 ------ 0 0 kullanılmaz

1971 01.01.1971 ---------- +0.5 1971

11.2.2.. Regresyonun Standart Sapması

Y

X X

Y

Y

Y

YY

Y

Y0 1Y b b X

Y

ˆY Y

2 2ˆ( ) ( )

ˆ ˆ2 1

yx y

Y Y Y YS

n n


16

=2

0 1ˆ

2YX

Y b Y b XY

n

(b) eğimin standart hatası

2 2

2 2 2

2

2 2

ˆ ˆˆ

( ) ( )

( )( )

YX YXb

n

X X n X X

XX X X

n

1 1

0 1

1 1

1 1 1

: 0

: 0

0

ˆ ˆb b

H

H

b bt

b’nin güven aralığı 11 / 2, 2

ˆn bb t

11.2.3. REGRESYONUN DUYARLILIĞI

Tahminlenen regresyon modelinin değişkenler arasındaki ilişkiyi açıklama derecesi

regresyonun duyarlılığıdır. Buna dayalı tahminlerin de hassasiyeti incelenmiş olur. Bu amaçla

gözlenen değerler (y) ile, bunların regresyon doğrusu kullanılarak elde edilen tahminleri )ˆ(y

arasındaki fark incelenir.


17

Y

X

Y

Yi

Y

Xi

0 1 1 1ˆ ( )Y b b X b b

0 1Y b b X

0 1 1 1ˆ ( )Y b b X b b

GKT

HKT

RKT

iY

2 2 2

2 2 2

ˆ ˆ ˆ( ) ( )

ˆ ˆ( ) ( ) ( )

ˆ ˆ( ) ( ) ( )

Y Y Y Y Y Y Y Y Y Y

Y Y Y Y Y Y

Y Y Y Y Y Y

GKT RKT HKT

G.K.T. :Ortalama etrafındaki kareler toplamı

H.K.T. : Regresyondan sapmalar kareler toplamı

HKT=GKT-RKT

Basit Doğrusal Regresyon Modeli için Varyans Analiz Tablosu

2 2

2 2 2

1 . . .

GKT RKT

Y XY b X H K T

n n


18

2

Varyasyon Kaynağı s.d . . . . /

Regresyon 11

( )2

1

K T K O KT sd F

RKORKTp RKT RKOHKO

HKTHata n p HKT HKO Sn

Genel n GKT

0:

0:

11

10

H

H

,1,n pF

0:

0:

1

00

H

H

0 0

0 0 0

b b

b bt

S S

0

2

2

2

2( )

b

XS S

Xn X

n

0:

0:

11

10

H

H

1 1

1 1 1

b b

b bt

S S

, 22

nt

1

2

2

2( )

b

SS

XX

n

Not : 2,1,2,

2

n

nFt

11.2.4. REGRESYON İLE TAHMİNİ

X’in Belli Bir Değeri İçin Y Değerinin Ortalamasının Tahmini:

0 1ˆk kY b b X

Bu tahminin varyansı ; 2

2 2

2

2

( )1ˆ ˆ( )( )

k

k k

X XV Y S S Y

n XX

n

kX noktasındaki ˆkY için %(1- ) lık Güven Aralığı:

, 22

ˆ ˆ( )k kn

Y t S Y

, 2 , 2

2 2

ˆ ˆ ˆ ˆkk k k k

n nP Y t S Y Y t S YY


19

Y

X

y

x

ˆ ˆk kY tS Y

ˆ ˆk kY tS Y

X’in belli bir değeri için, tek bir y değerinin tahmini (bu noktadaki tek bir gözlemin tahmini) :

0 1ˆk kY b b X

Bu tahminin varyansı:

2

2 2

2

2

( )11

( )k

k

Y

X XS

n XX

n

kX noktasındaki y için %(1- ) lık Güven Aralığı:

2

, 22

ˆkk Y

ny t

11.2.5. Belirleme Katsayısı

...

..2

TKG

TKRr 10 2 r

Modelde bulunan Y’ lerin degişkenliğinin % kaçının X’ler tarafından açıklanabildiğini

gösterir.


20

Gözlemlerin hepsi regresyon doğrusu üzerinde olursa 0... TKH olur. O zaman

...... TKGTKR olur ve 12 r çıkar.

Regresyon modelinin ne derece iyi olduğunu (uyumun iyiliğini) gösterir.

11.3. KORELASYON

İki değişken arasındaki doğrusal ilişkinin derecesi ve yönünü gösterir.

Örnek korelasyon katsayısı : r

Populasyon korelasyon sayısı :

11 r

( , )

( ) ( )

Cov X Yr

Var X Var Y

2 2

2 2

XY X Y nr

X YX Y

n n


21

yy

yy

xx

xx

r > 0

r < 0

0r

r =1

r =-1

x

y

1

r

b

1

r

b


22

a)

0:

0:

1

H

H o

21

2

r

r rt

S r

n

2, nt 2

1 2

n

rS r

b)

0:

0:

1

H

H o 00

r değeri normal dağılış gösteren bir değişkene transforme edilir. ( Firher tarafından önerilen)

r

rV

1

1ln5,0 ),(~ vvNV

1

1ln5,0v

3

1

nv

v

vvz

test istatistiği ile test edilir.(daha önce hipotez testlerinde anlatıldığı gibi.)

111.4. Çoklu Regresyon Modelleri

exxy pp ..............110

Normal Eşitlikler

ppo xbxbnby ..........11

ppo xxbxbxbyx 1

2

1111 ........

.

.

.

.

2

11 ........ ppppop xbxxbxbyx

Varyans Analiz Tablosu


23

Varyasyonun Kaynağı serbestlik derecesi Kareler toplamı

Regresyon P 2

ˆii yy

Hata n-p-1 2

yyi

Genel n-1 2

yyi

0......100 pH

pH ,......01 (en az biri sıfırdan farklı.)

Documents

REGRESYON VE KORELASYON ANALİZİ - DEUkisi.deu.edu.tr/levent.senyay/istatistik II/11 regresyon.pdf · 11.2. YALIN (BASİT) REGRESYON Yalın regresyon ile açıklanmaya çalıılan