Korelasyon ve Regresyonyunus.hacettepe.edu.tr/~dcaktan/EBB629_sunu/chapter15... · 2015. 5. 25. ·...

Preview:

Citation preview

Korelasyon ve Regresyon

Kazanımlar

• Değişkenlerin ilişkisini açıklamak ve hesaplamak için Pearson korelasyon katsayısı 1

• Örneklem r ile evren korelasyonu hakkında hipotez testi yapmak 2

• Spearman korelasyonunu açıklamak ve hesaplamak 3

• point-biserial ve phi-katsayısını hesaplamak 4

• Y değerlerini yordayan lineer regresyon eşitliğini açıklamak ve hesaplamak 5

• Regresyon eşitliğinin anlamlılığını değerlendirmek 6

Korelasyon ve regresyona giriş

• İki değişken arasındaki ilişkiyi ölçer ve

tanımlar

• İlişkinin özelliklerini

– Yön (negatif veya pozitif)

– Şekil (genellikle lineer)

– güç

Korelasyon verisi Saçılım grafiği

Pozitif ve negatif ilişkiye örnekler

Lineer ilişkinin değişik değerlerine

örnekler

Pearson korelasyonu

• İki değişken arasındaki doğrusal ilişkinin

yönünü ve derecesini ölçer.

• Mükemmel doğrusal ilişkide

– X teki her bir değişime karşılık Y de bir

değişim mevcuttur.

– Korelasyon –1.00 veya +1.00 olur

klerideğeğişken ayrı ayrınin Y veX

değeğişiortak nin Y veX r

Çarpımlar Toplamı (ÇT)

• İki değişken arasındaki ortak değişimin

miktarını ölçer.

))(( YYXXÇT

ÇT – Hesaplama Formülü

• Hesaplama formülü daha kolay işlemlerle

aynı sonucu verir

n

YXXYÇT

Pearson korelasyon katsayısının hesabı

• ÇT, çarpımlar toplamı: X ve Y nin ortak değişimi

YX KTKT

ÇTr

Figure 15.4 Example 15.3 Scatterplot

Pearson korelasyonu ve z-puanları

• Pearson korelasyon formulü z puanlarıyla

ilişkili olarak ifade edilebilir.

1 :Evren

1 :Örneklem

n

zzr

n

zzr

YX

YX

Soru

• A scatterplot shows a set of data points that are clustered loosely around a line that slopes down to the right. Which of the following values would be closest to the korelasyon for these data?

• 0.75 A

• 0.35 B

• -0.75 C

• -0.35 D

Cevap

• A scatterplot shows a set of data points that are clustered loosely around a line that slopes down to the right. Which of the following values would be closest to the korelasyon for these data?

• 0.75 A

• 0.35 B

• -0.75 C

• -0.35 D

Doğru Yanlış

• Aşağıdaki ifadelerin doğru mu yanlış mı

olduklarına karar veriniz.

• n = 10 çift X ve Y puanlarının ΣX = ΣY = ΣXY = 20. buna göre, SP = –20

D/Y

• Eğer Y değişkeninin değerleri azalırken X değişkenine ait değerleder azalıyorsa aralarındaki korelasyon is negatiftir

D/Y

Cevap

Doğru

• Değişim aynı yöndedir, korelasyon pozitiftir

Yanlış

20402010

)20)(20(20 SP

Pearson korelasyonunun yorumu ve

kullanımı

• korelasyon yordama amacıyla kullanılır

• Geçerlik

• Güvenirlik

• Teori doğrulama

Örnek

Korelasyonun Yorumlanması

• korelasyon nedensellik göstermez

• Korelasyonun değeri eldeki verilerin

ranjından etkilenir

• Uç değerler– outliers –korelasyonu etkiler

– Korelasyonun karesi ortak değişimi gösterir

Sınırlı ranj ve korelasyon

Uç noktaların korelasyona etkisi

katsayı

• Detarminasyon katsayısı, bir değişkendeki

değişimin diğer değişken ile açıklanan

oranının ölçüsünü verir.

2rionDeterminat of oefficientC

Doğrusal ilişkinin derecesi

Pearson korelasyonu ile

Hipotez testi

• Pearson korelasyonu genellikle örneklem

verisi için hesaplanır, ancak evrendeki

ilişkileri test etmek için kullanılır.

• Evrendeki korelasyon rho (ρ) Yunan harfi ile

ifade edilir

• Yönsüz: H0: ρ = 0 and H1: ρ ≠ 0

• Yönlü: H0: ρ ≤ 0 and H1: ρ > 0

Örneklem korelasyonu ve Evren

Korelasyon ile Hipotez Testi

• Örneklem korelasyonu evren ρ yu test için

kullanılır

• Serbestlik derecesi (df) = n – 2

• Hipotez testi t veya F kullanılarak hesaplanır.

• Kritik değerler hesaplanır

– ± Kritik Değerlerinin ötesindeki örneklem

korelasyonları pek olası değildir (very unlikely)

– ± Kritik Değerlerinin ötesindeki örneklem

korelasyonları yokluk hipotezinin reddi ile

sonuçlanır.

Kısmi korelasyon

• Kısmi korelasyon, üçüncü bir değişkenin

etkisini sabit tutarak iki değişken arasındaki

ilişkinin ölçüsünü verir.

)1)(1(

)(

22yzxz

yzxyxy

zxy

rr

rrrr

Üçüncü değişkenin etkisini sabit tutmak

Pearson korelasyonuna Alternatif

• Pearson korelasyonu

– lineer ilişkiler

– Eşit aralık ve oranlı ölçekler için hesaplanır

• Diğer korelasyon katsayıları

– non-lineer veriler

– Diğer ölçek türleri için hesaplanır

Spearman korelasyon

• Pearson korelasyon formula is used with data

from an ordinal scale (ranks)

– Used when both variables are measured on

an ordinal scale

– Used when relationship is consistently

directional but may not be linear

Nonlineer pozitif ilişki

Puanlarını ve sıralarını gösteren

saçılım grafiği

Sıralama puanları

• Spearman korelasyonu

• Sıra atamak için kullanılan metod

– Puanlar en küçükten en büyüğe listelenir

– Listedeki her konumua bir sıra numarası verilir

– Eğer iki veya daha fazla puan aynı sırada ise,

onların sıralarının ortalaması hesaplanır ve bu

ortalama değer her birine sıra numarası olarak

verilir.

Spearman korelasyon formülü

• Puanların sıraları tamsayılardır

– Use D as the difference between the X rank

and the Y rank for each individual to compute

the rs statistic

)1(

61

2

2

nn

Drs

Nokta-Çiftserili korelasyon

• İki değişken arasındaki ilişkinin ölçüsüdür

– Değişkenlerden biri sadece iki değer alabilir

(ikili değişken)

• İlişkisiz örneklem t-testindeki aynı durum söz

konusudur

– Nokta çift serili r2 t istatistiğindeki hesaplanan

r2 ile aynıdır

– t-istatistiği anlamlılığı değerlendirir

– r istatistiği onun gücünü ölçer

Phi katsayısı

• Her iki değişkende (X ve Y) iki kategorilidir

– Her iki değişkende 0 ve 1 diye kodlanır

– Hesabında Pearson formülü kullanılır

Soru

• Bir çalışmada katılımcılar “sabahçılar” veya “akşamcılar” olarak sınıflandırılırlar ve daha sonra 50 puanlık vicdan sahibi olma ölçeğiyle 50 puan üzerinden puanlanırlar. Bu iki değişken arasındaki ilişkiyi ölçmek için hangi korelasyon katsayısı kullanılmalıdır?

• Pearson korelasyon A

• Spearman korelasyon B

• Nokta-çiftserili korelasyon C

• Phi-katsayısı D

Cevap

• Participants were classified as “morning people” or

“evening people” then measured on a 50-point

conscientiousness scale. Which korelasyon should

be used to measure the relationship?

• Pearson korelasyon A

• Spearman korelasyon B

• Nokta-çiftserili korelasyon C

• Phi-katsayı D

Soru

• Aşağıdaki ifadelerin doğru veya yanlış

olduklarını belirtiniz.

• Spearman korelasyonu dichotomous (ikili) verilerde kullanılır D/y

• Korelasyonun anlamlılığını test ederken, yokluk hipotesi korelasyonun sıfır olduğunu belirtir.

D/Y

Cevap

• Spearman korelasyonu sıralı verilerde hesaplanır

Yanlış

Doğru

Lineer regresyon

• Pearson korelasyonu iki değişken arasındaki

doğrusal ilişkiyi ölçer

• Verilerden geçen doğru

– İlişkiyi görmeyi kolaylaştırır

– İlişkiideki merkezi eğilimi gösterir

– Yordama amacıyla kullanılabilir

Figure 15.13 regresyon doğrusu

Lineer eşitlikler

• Bir doğruyu gösteren genel eşitlik

– Eşitlik: Y = bX + a

– X ve Y değişkenlerdir

– a ve b sabit değerlerdir

lineer eşitliğin grafiği

Regresyon

• Regresyon bir veri setinden geçen en iyi

uyum doğrusunu bulma yöntemidir.

– Bu doğruya regresyon doğrusu denir.

• Ŷ regresyon eşitliğindeki her bir X değeri için

Y nin yordanan değeridir

• (Y- Ŷ) her bir veri noktasının regresyon

doğrusundan uzaklığıdır: yordama hatası

• regresyon hataların karelerinin toplamını

minimum yapar

Veri noktası ile yordanan nokta

arasındaki mesafe

regresyon eşitlikleri

• regresyon doğrusu: Ŷ = bX + a

• Doğrunun eğimi, b, aşağıdaki gibi hesaplanır

X

Y

X s

sr

KT

ÇTb veya

XbYa

YX ,

Figure 15.16 X ve Y noktaları ve

regresyon doğrusu

korelasyon ve standard hata

• Y puanlarındaki yordanan değişkenlik:

KTregresyon = r2 KTY

• Y puanlarındaki yordanmayan değişkenlik:

KTresidual = (1 - r2) KTY

Kestirimin Standard Hatası

• regresyon eşitliği bir yordamada bulunur

• Kestirimin doğruluğu (presicion) kestirimin

standard hatası ile belirlenir

2

)ˆ(

df

K2

residual

n

YYT

Testing significance of regresyon

• Analysis of regresyon

– Similar to Analysis of Variance

– Uses an F-ratio of two Mean Square values

– Each MS is a SS divided by its df

Ortalamaların kareleri (OK) ve F-

oranı

residual

residualresidual

df

KTOK

regression

regression

regressiondf

KTOK

residual

regression

OK

OKF

Regresyon analizinde KT ve df in

bölüşümü

Figure 15.19 Plot of data in

Demonstration 15.1

Learning Check

• A linear regresyon has b = 3 and a = 4.

What is the predicted Y for X = 7?

• 14 A

• 25 B

• 31 C

• Cannot be determined D

Learning Check - Answer

• A linear regresyon has b = 3 and a = 4.

What is the predicted Y for X = 7?

• 14 A

• 25 B

• 31 C

• Cannot be determined D

Learning Check

• Decide if each of the following statements

is True or False.

• It is possible for the regresyon equation to have none of the actual data points on the regresyon line.

T/F

• If r = 0.58, the linear regresyon equation predicts about one third of the variance in the Y scores.

T/F

Answer

• The line is an estimator. True

• When r = .58, r2 = .336 True

Recommended