Click here to load reader

NAPOVEDOVANJE UČNEGA USPEHA: kombiniran pristop DM in DS

  • View
    36

  • Download
    5

Embed Size (px)

DESCRIPTION

NAPOVEDOVANJE UČNEGA USPEHA: kombiniran pristop DM in DS. Silvana Gasar Srednja šola Jesenice [email protected] Osnovna ideja. Lastne predhodne raziskave: Izgradnja različnih ES (večparametrski modeli, DSS) Iskanje zakonitosti učnega uspeha z DM - PowerPoint PPT Presentation

Text of NAPOVEDOVANJE UČNEGA USPEHA: kombiniran pristop DM in DS

  • NAPOVEDOVANJE UNEGA USPEHA:kombiniran pristop DM in DSSilvana GasarSrednja ola [email protected]

  • Osnovna idejaLastne predhodne raziskave: Izgradnja razlinih ES (veparametrski modeli, DSS) Iskanje zakonitosti unega uspeha z DMBaza podatkov o dijakih (skrite zakonitosti unega uspeha)Poznavanje problemov izobraevalnega svetovanja, usmerjanja (problemi odloanja, izbire)

    Kako to znanje povezati in uporabiti v praksi?Razviti orodje za svetovalne delavce (model DSS)

  • Osnovni pristopM. Bohanec, B. Zupan: Integrating Decision Support and Data Mining by Hierarchical Multi-Attribute Decision Models. IDDM-2001.

    tudija primera: dodelitev stanovanjskih posojil [revizija, hipotetino]

  • Metoda dela

  • Problem:napoved uspenosti zakljuka olanja Osnovna olaSrednja ola

    1

    ...78

    1234

  • ProblemAli je iz baze podatkov o dijakih mogoe ugotoviti splone zakonitosti unega uspeha?

    Ali je mogoe najti karakteristike dijakov, ki verjetno ne bodo uspeno zakljuili olanja, ipd.?

    Ali je na podlagi zakonitosti mogoe zgraditi veparametrski model za napovedovanje uspenosti zakljuka olanja?

    Kakna je napovedna vrednost takega modela?

    Ali in kako tak model prispeva k boljemu ocenjevanju uspenosti?Ali lahko izbolja uspenost samo?Kako ga uvesti v vsakodnevno prakso?

  • Cilji in namenPrimarni cilj:Razviti veparametrski model za napovedovanje uspenosti zakljuka olanja na posameznem izobraevalnem programu

    Sekundarni cilji:Odkriti splone vzorce in pravila unega uspeha iz baze podatkov uencevUporaba za napovedovanje in prepreevanje unega neuspeha Zajeti samo dostopne podatke (ni dodatnih testov ali merjenj)Oceniti kvaliteto napovedi (validacija)Kombinirati metode DM in DSPokazati uporabnost modela, prednosti, slabosti, prilonosti in pasti

  • MetodologijaZaporedna uporaba DM in DSPriprava podatkov (MS SQL Server 2000 Enterprise Manager)Rudarjenje podatkov (DM)Statistine metode in vizualizacija (SPSS)Razvranje v skupine (WEKA)Odloitvena drevesa (WEKA)Veparametrski modeli (HINT, Orange) Sprotno vrednotenje in validacija odkritih zakonitostiPodpora odloanjuRoni razvoj veparametrski modelov (DEXi lupina ES)Zajeto znanje eksperta in odkrite zakonitostiInterpretacija in validacijaKlasifikacijska tonost Primerjava s lovekim ekspertomKDD

  • Priprava podatkovVir: baza podatkov o dijakih ene od slovenskih S (Evidenca 3)Integracija, ienje, selekcija, transformacije (zamudno, zahtevno)En zapis (vrstica) vsebuje vse dostopne podatke enega dijaka:96 atributov (19 poznanih pred vpisom, 77 kasneje):Osebni in demografski podatki: spol, datum in mesto rojstva, dravljanstvo, ime O, kraj bivanja ...Pokazatelji uspenosti v O: ocene posameznih predmetov in splonega unega uspeha za 7. in 8. razredPokazatelji uspenost v S: ocene posameznih predmetov in splonega unega uspeha za vse 4 letnikeDrugi podatki: ure opravienih in neopravienih izostankov, disciplinski ukrepi...

    DB1: 1794 dijakov (delno nepopolni podatki)DB2: 889 dijakov (popolni podatki)

  • Podatki o dijakih v konni baziZnani do vpisa v SZnani do konca 1. letnika S

    Zap..t. stolpcaPodatek v stolpcu1zaporedna tevilka dijaka2spol dijaka3kraj rojstva4obina rojstva5drava rojstva6dravljanstvo7obina bivanja8voza (1 = da, 0 = ne)9tuji jezik v O10uspeh 7. razreda O11ocena SJK v 8.razredu O12ocena tujega jezika v 8. razredu O13ocena MAT v 8. razredu O14ocena FIZ v 8. razredu O15tuji jeziki,ki se jih je uil (kjerkoli)16konni uspeh O17redni vpis (1 = da,2 = ne)18koledarsko leto vpisa v 1. letnik S 19starost ob vpisu v 1. letnik S (v mesecih)20smer, na kateri je bil dijak ob koncu izobraevanja

    Zap..t. stolpcaPodatek v stolpcu21status portnika v 1.letniku (1 = da, 0 = ne)22numerina vrednost najvijega vzgojnega ukrepa v 1. letniku23najviji vzgojni ukrep v 1. letniku24opravieni izostanki v 1. konferenci 1. letnika25opravieni izostanki v 2. konferenci 1. letnika26opravieni izostanki v 3. konferenci 1. letnika27neopravieni izostanki v 1. konferenci 1. letnika28neopravieni izostanki v 2. konferenci 1. letnika29neopravieni izostanki v 3. konferenci 1. letnika30opravieni izostanki v 1. letniku31neopravieni izostanki v 1. letniku32ocena SJK v 1. letniku33ocena MAT v 1. letniku34ocena ANJ v 1. letniku35ocena FIZ v 1. letniku36ocena GEO v 1. letniku37ocena ZGO v 1. letniku38ocena UME v 1. letniku39konni uspeh 1. letnika40konni uspeh ob morebitnem ponavljanju 1. letnika

  • Rezultati KDD - poskusniDM na 2 bazah dveh razlinih S (napoved uspeha 1. letnika S)

    Odloitvena drevesa:Ponavljalci redkeje izdelajo 1. letnik Stevilo nezadostnih ali neocenjenih predmetov 2. in 3. konference vpliva na to, kdo bo izdelal 1. letnikUspeh O ima napovedno veljavnost za uspeh 1. letnika SNajbolj selektivni predmeti v S: MAT, ANJ, SJKDijaki s teavami pri MAT: teko pozitivni uspeh 1. letnika

    Razvranje v skupine:Glede na uno uspenost se dijaki smiselno delijo v 3 skupine: neproblematiniproblematini - mejni neuspeni

  • Osnovne statistike DB1N = 1794, veina M, dravljani SLO, ob vpisu stari 15 let...

    K_smer

    K_smer

    R

    N

    L

    Frequency

    1200

    1000

    800

    600

    400

    200

    0

  • Osnovne statistine analizeOstalo: Smiselna delitev na 5 kategorij po uspenostiSmiselno loeno obravnavati 3 smeriRazlike med DB1 (vsi) in DB2 (samo mlaje generacije)Ni bistvenih razlik v osnovnih statistikahLe razlike v uspenosti (mlaji prej opustijo S in manj vztrajajo)

    Pomembne korelacije uspenosti:Pozitivne s skoraj vsemi ocenami O in SNegativne z izostanki od pouka, disciplinskimi ukrepi in starostjo

    Frekvenna porazdelitev kategorij uspenosti v DB1

    Kategorija12345Frekvenca [%]12.311.914.651.29.9

  • Odloitvena drevesaRazlino tevilo in razlien izbor atributov:Ekspertno, strojno (Relief), pragmatino-strojno (Relief, omejeni atributi)Rezultati: Vsi in strojno izbrani atributi - zelo visoka KT (nad 95%), neuporabna (atributi znani pozno)Najve pridobimo z vkljuitvijo atributov, znanih do konca 1. letnikaEkspertna in pragmatino-strojna izbira - KT enaka (nizka ~ 50 oz. 60%)Sklep: uporaba dreves iz ekspertno izbranih atributovPoskusi izboljanja KT:Glede na program izobraevanja izboljanje KT (teja smer - veja KT), Z uporabo druganih klasifikacij uspenosti (5, 3, 2, kategoriji) - ni izboljanja KTUporaba na stroke obutljive klasifikacije - ni izboljanja KTUporaba boljih podatkov (DB2) - manja drevesa, pomembno izboljanje KT

  • Odloitvena drevesaKlasifikacijska tonost na DB1

    Chart2

    54.01

    60.98

    68.28

    99.39

    as (tevilo atributov)

    klasifikacijska tonost (%)

    Sheet1

    pred vpism

    pred vpisom (16)1. letnik S (30)2. letnik S (46)4. letnik S (vsi)

    54.0160.9868.2899.39

    Sheet1

    0

    0

    0

    0

    as (tevilo atributov)

    klasifikacijska tonost (%)

    Sheet2

    Sheet3

  • Najbolja odloitvena drevesaEksperten izbor 16 (do vpisa) oz. 30 atributov (do 1.letnika)Grajena loeno po smereh izobraevanja, na DB2Opredelitev uspenosti v 5 kategorijah (KU in as izobraevanja)

    KT najboljih dreves:Ob koncu O: okrog 60%Ob koncu 1. letnika S: okrog 70%Slabost: nekatere razrede napovedujejo zelo tono, druge pa slaboNapoved dobre uspenosti e ne izkljuuje neuspenostiNapoved neuspenosti dopua le malo monosti uspeha

    Smiselno izdelati orodje, ki omogoa napoved pred vpisom in ob koncu 1. letnika dva loena DEX modela

  • Primer odloitvenega drevesaIzobraevalni program "L, ob vpisu v S (n = 468, KT= 60.5%)

  • Primer odloitvenega drevesaIzobraevalni program "L, ob koncu 1. letnika S (n = 468, KT= 69.7%)

  • Rezultati razvranja v skupineRazvranje po metodi voditeljev na 3, 4 in 5 skupinPo 16 in 30 atributih (istih kot pri drevesih)Rezultat: 6 razvrstitevSKLEP:Najbolj smiselna razvrstitev na 5 skupin (30 atributov)Nekatere razlike se pokaejo ele na zahtevnejem nivoju SSlabi uenci v O se vpisujejo na manj zahtevno smerVije izobrazbene aspiracije uencev iz vejih mestOb slabem uspehu O vpiejo zahtevnejo smer - najniji uspeh 1. letnikaUspeh 1. letnika S za 1-2 oceni niji od uspeha OOboji izostanki mono povezani z uspehom 1. letnikaUspeh 1. letnika je nizek (veinoma nezadosten do dober)

  • Primer rezultatov razvranjaScheme: weka.clusterers.SimpleKMeans -N 3 -S 10Relation: usp-weka.filters.AttributeFilter-V-R2,5-6,8-17,19-21Instances: 1794

    Cluster centroidsAttributes: 16Cluster 1Cluster 2Cluster 3 SPOLMMM DRZAVA_ROJSlovenijaSlovenijaSlovenija DRZAVLJANSTVOslovenskoslovenskoslovensko vozactruefalsetrue TUJ_JEZ_OSangleskiangleskiangleski USPEH_7R4.01 3.683.19 SJK_8R3.733.433.09 TUJ_JEZ_8R3.843.533.07 MAT_8R3.913.56 3.09 FIZ_8R4.03 3.78 3.25 TUJ_JEZIKIANGANGANG USPEH_OS4.043.693.15 redni_vpistruetrue true starost_vpis180.47180.88181.42 K_smerLLN L1_status_spfalsefalsefalse

    N (f)641 ( 36%)842 ( 47%)311 ( 17%)

  • Veparametrski modeli (HINT)Gradnja modelov iz 16 in 30 atributov na DB2Zvezni atributi predhodno diskretizirani (ekspertna presoja)Predprocesiranje (dodali manjkajoe vrednosti atributov)Metoda minimalne napake, velikost mnoice 2, nenadzorovana dekompozicija, KT navzkrina validacija 10-tega redaVeinski klasifikator za primerjavo KT

    Rezultati:Nizka KT zgrajenih modelov - veinoma blizu apriorne ali nijaNesmiselno reduciranje vrednosti atributov, tevilne zaloge vrednostiMnoge koncepte je teko poimenovati in smiselno interpretiratiOdkrili zanimive kombinacije atributov in pravila: npr. pravilo na

Search related