Upload
others
View
32
Download
1
Embed Size (px)
Citation preview
Prof Dr. Levent ŞENYAY XI - İstatistik II
1
11
REGRESYON
VE
KORELASYON
ANALİZİ
11.1. Doğrusal İlişkiler
11.2. Yalın (basit) Regresyon
11.2.1. En Küçük Kareler Metodu
a) Normal Denklemlerin Çözümü
b) Determinant metodu
c) Orjin Kaydırma
11.2.2. Regresyonun Standart Sapması
11.2.3. Regresyonun Duyarlılığı
11.2.4. Regresyon ile Tahmin
11.2.5. Belirleme Katsayısı
11.3. Korelasyon
11.4. Çoklu Regresyon Modelleri
Prof Dr. Levent ŞENYAY XI - İstatistik II
2
11.1. Doğrusal İlişkiler:
2
0 1 2
1,2,...,
( )
i i i iy x x
i n
y f x
şeklinde belirtilen herhangi bir modelde y’ler bağımlı (dependent) ve x’ler ise bağımsız
(independent) değişken olarak adlandırılır. Böyle bir modelde 0 , 1 ve 2 ise
parametrelerdir.Değişkenler arasındaki ilişkiler çok çeşitli olabilir. İlişkileri doğrusal ya da
doğrusal olmamasına göre iki ana başlık altında toplamak yerinde olur. Değişkenler
açısından doğrusal bir ilişkide değişkenler toplamsal halde bulunmalıdır. Aksi, çarpım ya da
bölüm halinde bulunan modellere doğrusal olmayan model denir.Örneğin;
0 1i i iy x veya 0 1 1 2 2i i i iy x x modelleri doğrusaldır.
2
0 1 2i i i iy x x modeli ise değişkenler açısından doğrusal değildir.
Bu ilişkilerden başkaları;
i) Eğrisel ilişki
y = 0 + 1 x2 gibi
ii) Logaritmalı ilişki
y =logx
iii) Katlı ortak doğrusal (multicollinearity) ilişki
y = 0 + 1 x + 2 z
iv) Gecikmiş (lag) ilişki
ty = 0 + 1 xt-1
şeklinde belirlenebilir. Bu doğrusal olmayan modellerin bazıları bir takım transformasyonlar
aracılığı ile doğrusal hale getirilebilir, bazıları ise doğrusal hale getirilemezler.
Böyle bir ilişkide x’ler birer şans değişkeni değildir. Bağımlı değişken y’ler ise birer
şans değişkenidir. Ancak bağımsız değişkenler kendi aralarında da birbirilerinden tamamen
bağımsız olmayabilirler.Örneğin;
y
x1
x2
Prof Dr. Levent ŞENYAY XI - İstatistik II
3
x1 ve x2 direk olarak y ile ilişkili olabilir ve y’yi açıklamayı çalışırlar ancak x1 ve x2
kendi aralarında da bir ilişki içerisinde olabilir. Bu durum aslında istenmeyen bir
haldir.Çünkü y’yi açıklamada x1 ve x2 arasındaki ilişkiden dolayı daha az bilgi verirler .
Bağımsız değişken bazen kesikli de olabilir .Hatta tek bir bağımsız değişken dahi kesikli
olabilir.
11.2. YALIN (BASİT) REGRESYON
Yalın regresyon ile açıklanmaya çalışılan basit doğrusal ilişkidir.ve;
y i = 0 + 1 xi + i
modeli ile belirlenir.Bu modelde i hata terimidir ve bir şans değişkenidir. Sadece y’yi etkiler
ve x ile hiçbir ilgisi yoktur. Bu bilgiler ışığı altında Regresyon’un tanımı:
Değişkenler ararsındaki bağıntının doğasını belirler. Regresyonda yapılan iş bağımsız
değişkenin değişim biçimine uyularak bağımlı değişkeni önceden belirlenmiş bir hata
payı içinde tahminlemektir.
i
xi
x
(Ağırlık)
y(boy)
yi
yi=
0 +1 xi + i
ˆiy
Prof Dr. Levent ŞENYAY XI - İstatistik II
4
y donma
noktası
x
konsantrasyona b c
0
-250
Gerçek ilişki doğrusal olmadığı halde a ve b aralığı içinde ilişki doğrusal bir şekilde
mükemmelce ifade edilebilir ancak aynı doğru ile gibi bir noktayı açıklamaya çalışmak
büyük bir hatadır.
y
üretim
miktarı
yıllar
O
(-) a b
O gibi bir noktanın yorumu hatalı olacaktır.
Prof Dr. Levent ŞENYAY XI - İstatistik II
5
y
x
1 birim
y i = 0 + 1 xi + i
Populasyonla ilgilidir.
Genellikle bilinmez, bulunmaya çalışılır.
0
Prof Dr. Levent ŞENYAY XI - İstatistik II
6
tg = b1
yc
Örnekle ilgilidir.
Üzerinde çalışılan modelin, populasyon modeline yakın olması istenir.
xbby 10ˆ
yi
1btg (eğim)
x ile y arasında
90 ise + 1b pozitif bir ilişki,
90 ise - 1b negatif bir ilişki vardır.
1b = Bağımsız değişken 1 birim değiştiği zaman y bağımlı değişkenindeki değişme
miktarı(eğim)
Regresyonun Özellikleri
i)Bu doğru,bağımlı değişkeni (y nin dağılımını) en iyi temsil eden doğrudur.
ii)Regresyon doğrusundan düşey sapmaların toplamı sıfırdır.
0)( ci yy
iii)Regresyon doğrusundan düşey sapmaların kareleri toplamları minimumdur.
min)( 2 ci yy
Prof Dr. Levent ŞENYAY XI - İstatistik II
7
11.2.1. REGRESYON PARAMETRE TAHMİNİNDE EN KÜÇÜK KARELER
METODU
Regresyon doğrusunun belirlenmesinde E.K.K. (Least Square Estimator, LSE)
metodunun seçilme nedeni;bu doğru belirlenirken yapılacak hataları minimum kılma
arzusundan kaynaklanır.Bunu;hataların toplamlarını veya mutlak toplamlarını minimum
yapmakla başlayarak araştırmak gerekir.
+2
*
*
*
-1
-1
1) 0)(
2) 4
3) 62
A B
C
*
*
*
*
*
-4
+3
+1
3) 262
+4
0
0
2) 4
3) 92
1) 0)( 8 e
4e
A,B ve C de görüldüğü gibi toplamları ya da mutlak toplamları sıfır veya minimum olan
sonsuz sayıda doğru saymak mümkün ancak hata kareleri toplamları minimum yapan sadece
ve sadece bir doğru vardır ve bu da en iyisidir.
Prof Dr. Levent ŞENYAY XI - İstatistik II
8
0 1
0 1
2 2
0 1
0 1
0
0 1
1
1,..., ( )
( )
2 ( ) 0
2 ( ) 0
i i i
i i i
i i i
i i
i i i
Y X i n gözlem sayısı
Y X
S Y X
SY X
SX Y X
Bu kısmi türevlerin alınması bir analitik geometri yöntemidir. Minimum ve maksimum
noktalarının bulunmasında kullanılır.
0 1
0 1
1) ( ) 0Normaleşitlikler
2) ( ) 0
i i
i i i
Y b b X
X Y b b X
0
1 1
ˆ
ˆ
ob
b
i=1,2,......n
(1) (2)
1 0 1 1
2 0 1 2
0 1
0 1
n n
i i
Y b b X
Y b b X
Y b b X
Y nb b X
2
1 1 0 1 1 1
2
2 2 0 2 1 2
2
0 1
2
0 1
n n n n
i i i i
X Y b X b X
X Y b X b X
X Y b X b X
X Y b X b X
a) 0b ve 1b için normal denklemlerin çözümü:
0 1
2
0 1
(1)
(2)
i
i i
i i i i
XY nb b X
n
X Y b X b X
2
0 11 2
2 2
0 1
(1)
(2)
i iii i i i
i
i
i i i i i
X YXX Y X Y
b X b nbn nX
X Y b X b X Xn
Prof Dr. Levent ŞENYAY XI - İstatistik II
9
0 1
0 1
0 1
0 1
1(1) i i
i i
Y nb b Xn
Y Xb b
n n
Y b b X
b Y b X
Şekilde 0b ve 1b hesaplanır ve buradan elde edilen değerler modelde yerine konacak
olursa:
0 1Y b b X
regresyon denklemi elde edilir.
b) DETERMİNANT METODU
0b ve 1b hesaplamak için alternatif bir yol
0 1
2
0 1
Normal Eşitlikleri i
i i i i
Y nb b X
X Y b X b X
2 2
02 2
2
( )
i i
i i i i i i i i
o
i ii
i i
Y X
X Y X Y X X X Yb b
X Xn X
X X
1 12 2
2
( )
i
i i i i i i i
i ii
i i
n Y
X X Y n X Y X Yb b
n X Xn X
X X
Prof Dr. Levent ŞENYAY XI - İstatistik II
10
Şeklinde 0b ve 1b hesaplanabilir ve buradan elde edilen değerler modelde yerine
konulacak olursa ;
0 1y b b x
regresyon denklemi elde edilmiş olur.
c) ORJİN KAYDIRMA YÖNTEMİ
Daha önceden, (1) 0 1Y b b X denklemini elde edilmişti.
Regresyon denkleminin tahmini ise:
0 1Y b b X tir.
Bu iki denklem beraberce çözülürse;
0 1( )Y Y b X X
elde edilir.burada 0 hala denklemdedir.Ancak orjin kayması nedeni ile gizlenmiştir.
y Y Y ve x X X ile gösterilirse yukarıdaki model
1y b x haline gelir.
Burada hata karelerini minimum yapmak için aşağıdaki yol izlenir.
2
1
1
1
2
1
1 2
0
( )
2 ( ) 0
0
0
S y b x
dSx y b x
db
xy b x
xyb
x
b
Bu şekilde 1b kolayca elde edilir. Ancak orjini kaydırsak ta kaydırmasak ta doğrunun
eğimi değişmeyeceğinden istersek modele tekrar b0 ’ ı ekleyebiliriz.
Prof Dr. Levent ŞENYAY XI - İstatistik II
11
Daha önce 0b için aşağıdaki eşitliği elde etmiştik.
0 1
0 1
Y b b X
b Y b X
Orjin kaydırma 0 x olacağından yani sadece x X X alınarak ve Y aynen bırakılarak
0 1
xb Y b
n
Yb 0 olur veya 0 1 2
Y xYb b
n x
şeklinde ifade edilir ve bu değerler modelde yerine konulacak olursa;
0 1Y b b x x X X
regresyon denklemi elde edilir.
Örnek: Firmanın 1993-1999 yılları arasındaki yıllık satışları aşağıda verildiği gibidir.
Bu verilere dayanarak regresyon (yalın regresyon) denkleminin tahminlenmesi
istenmektedir.(satışlar 1000 br olarak)
1992X X
a n=7
Yıllar Satışlar (Y) X X Y 2X 1993 15 1 15 1
1994 18 2 36 4
1995 25 3 75 9
1996 30 4 120 16
1997 40 5 200 25
1998 60 6 360 36
1999 82 7 574 49
270 28 1380 140
Yukarıdaki verilerin y= b0+b1x modeline uyum sağlanması isteniyor.
Paremetrelerin E.K.K.tahminlerini elde etmek için
I.YOL
Prof Dr. Levent ŞENYAY XI - İstatistik II
12
0 1
2
0 1
0 1
0 1
0 1
0 1
1 0
(1)
(2)
270 7 28
1380 28 140
1080 28 112
1380 28 140
10.7 4.2
i i
i i i i
Y nb b X
X Y b X b X
b b
b b
b b
b b
b b
Y = - 4.2 +10.7 X
II.YOL
1 2 2
2
0 1
(28)(270)1380
7 10.7( ) (28)
1407
270 28(10.7) 4.2
7 7
X YXY
nbX
Xn
b Y b X
III.YOL Determinant metodu ile parametre tahminlerinin hesaplaması ise ;
2
0 2 2 2
270(140) 28(1380) 304.2
7( ) 7(140) (28)
Y X X XYb
n X X
1 2 2 2
7(1380) 28(270) 7510.7
7( ) 7(140) (28)
n XY X Yb
n X X
30 75
4.2 10.77 7
Y X X şeklinde elde edilir.
IV. YOL En kısa yol olan orjin kaydırma ile parametre tahmini ise;
Y = - 4.2 +10.7 X
şeklinde regresyon
denklemi elde edilir.
Prof Dr. Levent ŞENYAY XI - İstatistik II
13
1 2
xYb
x
ve 0
Yb
n
formüller ile olmaktadır.Ancak burada orjin kaydırmayı yapabilmek için x=X- X
farklarını almak gerekmektedir.
Orjini kaydırma yönteminde bir farklı yaklaşım 0x olması nedeniyle
(1)..........0 1Y nb b x
normal eşitlikler
(2)..........0xY b x 2
1b x
(1) nolu denklemden n
Yb
0 ve (2) nolu denklemden b1 =
2x
xY olacaktır.
X Yıllar Y 4x X xY x 2 Y 2
1 1993 15 -3 -45 9 225
2 1994 18 -2 -36 4 324
3 1995 25 -1 -25 1 625
4 1996 30 0 0 0 900
5 1997 40 1 40 1 1600
6 1998 60 2 120 4 3600
7 1999 82 3 246 9 6724
TOPLAM 270 300 28 13998
284
7X
0
27038.5
7
Yb Y
n
1 2
300 7510.7
28 7
xYb
x
Y = 38.5 + 10.7 x şeklinde elde edilir.
Prof Dr. Levent ŞENYAY XI - İstatistik II
14
tg = b1 =10.7
Y
X
Y
38.5
- 4.2
Y=-4.2+10.7X
Y=38,5+10,7x
x=0x
0 43 5 6
1 2-1-2
2
Bu şekilde elde edilen modelden yapılacak tahminler aşağıdaki şekilde olacaktır.
İlk olarak 30 75
7 7Y X modeli de yapılacak tahminler ele alınacak olursa,
a) 2001 yılı satışları ne olacaktır?
Y2001=-4.2+10.7(9)=92.1
b) Hangi yıl 100 birim satar?
100 = -4.2 + 10.7 X 1 yıl 12 ay
xX= 9.7 0.7 yıl X ay
X=8.4 ay
2001 yılı 8 inci ayın ortalarında .
veya benzer şekilde
Y=38.5+10.7x modeli de yapılacak aynı tahminler de aynı sonucu verecektir.
a) 2001 yılı satışları ne olacaktır? Y=38.5+10.7(5)=92 br.
b) Hangi yıl 100 birim satar?
100=38.5+10.7 x
Prof Dr. Levent ŞENYAY XI - İstatistik II
15
x=5.7 (2001 yılı 8 inci ayı ortaları)
Not: Eğer orjin kaydırma yönteminde yıl sayısı (x) çift ise, x’ler şu şekilde hesaplanır.
x yıllar
1970 01.01.1970 ---------- -0.5 1970
- 01.06.1970 ------ 0 0 kullanılmaz
1971 01.01.1971 ---------- +0.5 1971
11.2.2.. Regresyonun Standart Sapması
Y
X X
Y
Y
Y
YY
Y
Y0 1Y b b X
Y
ˆY Y
2 2ˆ( ) ( )
ˆ ˆ2 1
yx y
Y Y Y YS
n n
Prof Dr. Levent ŞENYAY XI - İstatistik II
16
=2
0 1ˆ
2YX
Y b Y b XY
n
(b) eğimin standart hatası
2 2
2 2 2
2
2 2
ˆ ˆˆ
( ) ( )
( )( )
YX YXb
n
X X n X X
XX X X
n
1 1
0 1
1 1
1 1 1
: 0
: 0
0
ˆ ˆb b
H
H
b bt
b’nin güven aralığı 11 / 2, 2
ˆn bb t
11.2.3. REGRESYONUN DUYARLILIĞI
Tahminlenen regresyon modelinin değişkenler arasındaki ilişkiyi açıklama derecesi
regresyonun duyarlılığıdır. Buna dayalı tahminlerin de hassasiyeti incelenmiş olur. Bu amaçla
gözlenen değerler (y) ile, bunların regresyon doğrusu kullanılarak elde edilen tahminleri )ˆ(y
arasındaki fark incelenir.
Prof Dr. Levent ŞENYAY XI - İstatistik II
17
Y
X
Y
Yi
Y
Xi
0 1 1 1ˆ ( )Y b b X b b
0 1Y b b X
0 1 1 1ˆ ( )Y b b X b b
GKT
HKT
RKT
iY
2 2 2
2 2 2
ˆ ˆ ˆ( ) ( )
ˆ ˆ( ) ( ) ( )
ˆ ˆ( ) ( ) ( )
Y Y Y Y Y Y Y Y Y Y
Y Y Y Y Y Y
Y Y Y Y Y Y
GKT RKT HKT
G.K.T. :Ortalama etrafındaki kareler toplamı
H.K.T. : Regresyondan sapmalar kareler toplamı
HKT=GKT-RKT
Basit Doğrusal Regresyon Modeli için Varyans Analiz Tablosu
2 2
2 2 2
1 . . .
GKT RKT
Y XY b X H K T
n n
Prof Dr. Levent ŞENYAY XI - İstatistik II
18
2
Varyasyon Kaynağı s.d . . . . /
Regresyon 11
( )2
1
K T K O KT sd F
RKORKTp RKT RKOHKO
HKTHata n p HKT HKO Sn
Genel n GKT
0:
0:
11
10
H
H
,1,n pF
0:
0:
1
00
H
H
0 0
0 0 0
b b
b bt
S S
0
2
2
2
2( )
b
XS S
Xn X
n
0:
0:
11
10
H
H
1 1
1 1 1
b b
b bt
S S
, 22
nt
1
2
2
2( )
b
SS
XX
n
Not : 2,1,2,
2
n
nFt
11.2.4. REGRESYON İLE TAHMİNİ
X’in Belli Bir Değeri İçin Y Değerinin Ortalamasının Tahmini:
0 1ˆk kY b b X
Bu tahminin varyansı ; 2
2 2
2
2
( )1ˆ ˆ( )( )
k
k k
X XV Y S S Y
n XX
n
kX noktasındaki ˆkY için %(1- ) lık Güven Aralığı:
, 22
ˆ ˆ( )k kn
Y t S Y
, 2 , 2
2 2
ˆ ˆ ˆ ˆkk k k k
n nP Y t S Y Y t S YY
Prof Dr. Levent ŞENYAY XI - İstatistik II
19
Y
X
y
x
ˆ ˆk kY tS Y
ˆ ˆk kY tS Y
X’in belli bir değeri için, tek bir y değerinin tahmini (bu noktadaki tek bir gözlemin tahmini) :
0 1ˆk kY b b X
Bu tahminin varyansı:
2
2 2
2
2
( )11
( )k
k
Y
X XS
n XX
n
kX noktasındaki y için %(1- ) lık Güven Aralığı:
2
, 22
ˆkk Y
ny t
11.2.5. Belirleme Katsayısı
...
..2
TKG
TKRr 10 2 r
Modelde bulunan Y’ lerin degişkenliğinin % kaçının X’ler tarafından açıklanabildiğini
gösterir.
Prof Dr. Levent ŞENYAY XI - İstatistik II
20
Gözlemlerin hepsi regresyon doğrusu üzerinde olursa 0... TKH olur. O zaman
...... TKGTKR olur ve 12 r çıkar.
Regresyon modelinin ne derece iyi olduğunu (uyumun iyiliğini) gösterir.
11.3. KORELASYON
İki değişken arasındaki doğrusal ilişkinin derecesi ve yönünü gösterir.
Örnek korelasyon katsayısı : r
Populasyon korelasyon sayısı :
11 r
( , )
( ) ( )
Cov X Yr
Var X Var Y
2 2
2 2
XY X Y nr
X YX Y
n n
Prof Dr. Levent ŞENYAY XI - İstatistik II
21
yy
yy
xx
xx
r > 0
r < 0
0r
r =1
r =-1
x
y
1
r
b
1
r
b
Prof Dr. Levent ŞENYAY XI - İstatistik II
22
a)
0:
0:
1
H
H o
21
2
r
r rt
S r
n
2, nt 2
1 2
n
rS r
b)
0:
0:
1
H
H o 00
r değeri normal dağılış gösteren bir değişkene transforme edilir. ( Firher tarafından önerilen)
r
rV
1
1ln5,0 ),(~ vvNV
1
1ln5,0v
3
1
nv
v
vvz
test istatistiği ile test edilir.(daha önce hipotez testlerinde anlatıldığı gibi.)
111.4. Çoklu Regresyon Modelleri
exxy pp ..............110
Normal Eşitlikler
ppo xbxbnby ..........11
ppo xxbxbxbyx 1
2
1111 ........
.
.
.
.
2
11 ........ ppppop xbxxbxbyx
Varyans Analiz Tablosu
Prof Dr. Levent ŞENYAY XI - İstatistik II
23
Varyasyonun Kaynağı serbestlik derecesi Kareler toplamı
Regresyon P 2
ˆii yy
Hata n-p-1 2
yyi
Genel n-1 2
yyi
0......100 pH
pH ,......01 (en az biri sıfırdan farklı.)