LOGISTINĖ REGRESIJA

Preview:

DESCRIPTION

LOGISTINĖ REGRESIJA. Logistinė regresija (pagal V.Čekanavičių ir G.Murauską http://stat.vadoveliai.lt/files/LogRegSPSS.pdf). - PowerPoint PPT Presentation

Citation preview

LOGISTINĖ REGRESIJA

Logistinė regresija(pagal V.Čekanavičių ir

G.Murauskąhttp://stat.vadoveliai.lt/files/LogReg

SPSS.pdf)

• Dvireikšmė (binary) logistinė regresija– toks modelis, kai vienam (priklausomam) dvireikšmiui kintamajam daro įtaką vienas ar keletas (nepriklausomų, aiškinamųjų) kintamųjų.

Pavyzdžiai

Pagal paciento svorį ir kraujo tyrimus reikia nustatyti tikimybę susirgti diabetu.

Pagal testų rezultatus siekiama nustatyti, ar reiks kompiuteriui garantinio remonto. Aiškinamasi, ar žinant rinkėjo pajamas ir amžių galima numatyti, balsuos jis už kandidatą ar nebalsuos.

Kintamieji

Priklausomas kintamasis Y – dvinaris / dvireikšmis (0 arba 1). Aiškinamieji kintamieji (X) – intervaliniai arba pseudokintamieji.

Vienetai (nuliai) sudaro ne daugiau kaip 80 % Y stebėjimų.

Modelis

P(Y =1) =

čia z(x) = a + b1x1 + ... + bk xk

Kitas modelio užrašymas

ln)0(

)1(

YP

YP= z(x)

čiaz(x) = a + b1x1 + ... + bkxk

Tikslai

• Rasti parametrų (a, b , ..., bk) įverčius

• Išsiaiškinti kaip gerai modelis tinka duomenims

• Mokėti pritaikyti prognozėms

Pastaba:

Prieš pradedant logistinę regresiją, verta atlikti atskirų kintamųjų paprastų dažnių skaičiavimus (k x n lentelės), ar matyti skirtumai tarp grupių/kategorijų.

Logistinės regresijos pavyzdys

Turime 24 studentų įskaitos rezultatų duomenis.

• Ar jie priklausė nuo to, ar studentas ko nors klausė dėstytojo ar ne?

• Ar jie priklausė nuo laiko (val.), kiek studentas dirbo praktiškai?

Pavyzdys (duomenys excel’yje)

R Logistinė regresija

• Per “Reorder levels” (Meniu “Manage variables in active data set”) patikrinkite, kuri kategorija eina pirma, kuri antra (labai svarbu priklausomam kintamajam).

Rezultatai bus duodami paskesnei kategorijai (jei koduota 0 ir 1, tai atsakymai 1). Todėl jei reikia, pakeiskite lygius.

• Paskaičiuokite paprastus dažnius.

R Logistinė regresija

R Logistinė regresijaModeliui suteikiame pavadinimą

Įkeliame priklausomą kintamąjį

Įkeliame nepriklausomus kintamuosius

R Logistinė regresijaĮvertinamas koeficientų statistinis reikšmingumas

Modelis gerai tinka duomenims, jei nuokrypio ir lls santykis <1; neblogai, jei nedaug viršija 1 (pvz. 1,2).Jei >1, modelis nelabai tinka duomenims.Čia 0,885.

R Logistinė regresija

Modelio tinkamumą atspindintys rodikliai:

• χ2 kriterijus (H0: b=0; HA: bent vienas b≠0)

• didžiausio tikėtinumo funkcija (Likelihood ratio: (H0: b=0; HA: b≠0)).

• Voldo kriterijus (Stjudento kriterijaus tiesinėje regresijoje analogas (H0: b=0; HA:

b≠0)).

R Logistinė regresija

χ2 skaičiavimo komanda

χ2 srezultatas (p reikšmė)

Suteiktas modelio pavadinimas (13 skaidr.)

R Logistinė regresija

R Logistinė regresija

Voldo kriterijus

Didžiausio tikėtinumofunkcija

R Logistinė regresija

Galimybės ir jų PI

R Logistinė regresija

• Padarome kitą modelį, pašalinę kintamajį “ar studentas ko nors klausė dėstytojo”

R Logistinė regresija

R Logistinė regresijaPalyginame abu modelius – ar be vieno

kintamojo geresnis?

R Logistinė regresija

Antrojo modelio skirtumas nuo pirmojo

R Logistinė regresija

• Palyginame abu modelius – ar be vieno kintamojo geresnis?

Kiti statistiniai paketai

• Klasifikavimo lentelė.

• χ2 kriterijus ir Hosmerio - Lemešou kriterijus.

• Voldo kriterijus „įtartiniems“ aiškinamiesiems kintamiesiems rasti.

• Determinacijos koeficientai.

Pagrindiniai regresinės analizės etapai“Laiptinė” regresija (“forward”):• Visų galimų nepriklausomų kintamųjų sąrašas.• Nominaliems ir ordinaliems sudaromos dažnių

lentelės, apskaičiuojant p reikšmę iš χ2.• Skaitmeniniams atliekamas t testas arba paprasta

logistinė regresija, įvertinant p reikšmę.• Išrenkami visi kintamieji, kurių p reikšmė neviršijo 0,25.

Iš jų išrenkamas kurio p mažiausia, tai būtų pirmas modelio nepriklausomas kintamasis.

• Po to paeiliui pridedami kiti, vis įvertinant regresijos rezultatus, atmetant tuos , kurie nėra statistiškai reikšmingi.

“Laiptinė” regresija (“backward”):• Galimas ir atgalinis būdas – sudedami visi kintamieji, ir

nuosekliai atmetinėjami.

Recommended