Upload
menaxherat
View
1.232
Download
5
Embed Size (px)
Citation preview
StatistikëNocionet kryesore dhe mostra
Ardiana Gashi
1
Përmbajtja
2
Nocionet kryesore statistikore Llojet e variablave dhe bazave të të dhënave Rëndësia e raportimit të saktë të të dhënave Mostra Përcaktimi i madhësisë së mostrës dhe
teknikat e mostrimit Gabimet e mundshme gjatë mostrimit dhe
grumbullimit të të dhënave Sigurimi i cilësisë së të dhënave Zhvillimi i një pyetësori dhe krijimi i një
databaze
1.3
Statistika?“Statistika është mënyrë për të marrë informata nga të dhënat”
Të dhënat
Statistika
Informatat
Të dhënat: Faktet numerike, të grumbulluara me qëllim të përfitimit të informacionit
Informacioni: Njohuria e komunikuar lidhur me një fakt të caktuar.
Statistika është mjet për krijimin e njohurive të reja prej numrave
1.4
Shembull: Statistika për shqetësimin e studentëve…
Një student është i shqetësuar për kursin e statistikës, ngase ka ndëgjuar që kursi është i vështirë. Profesori ju siguron studentëve rezultatet e provimit të afatit paraprak. Cka mund të nxirret nga numrat në vijim?
Të dhënat
Statistika
InformataLista e notave nga afati i fundit.
958970657857:
Informatë e re për lëndën e statistikës.
P.sh. Mesatarja e klasës.Përqindja e studentëve me notë mbi 75 pikë . Nota më e shpeshtë.
Nëndarjet e statistikës1. Statistika përshkruese: në formë tabelare,
grafike ose numerike2. Statistika analitike: analizën e të dhenave
për të kontrolluar/testuar hipoteza për popullacionin=gjykime statistikore (cfarë mund të jenë defektet në produkt, gjasat që një parti të fitojë zgjedhjet, etj).
5
Aplikimi i analizes statistikore në biznes dhe ekonomi Tani përdorim i pasur statistikor= kyq për
suksesin e bizneseve Në procesin e vendimarrjes informatat kyqe e
që janë edhe ndër kufizimet kryesore dhe që kushtojnë shumë
Statistika në biznes aplikohet për përshkrimin dhe analizën e gjendjes në biznese dhe për parashikime.
Në ekonomi parashikimet e inflacionit, rritjes ekonomike përfshijnë analizë të gjerë statistikore të treguesve ekonomik.
6
1.7
Konceptet kyqe në statistikë …Popullacioni: dukuria masive- popullacioni është grupi i të gjitha
informatave me interes për statisticientin.Shembull: Të dhëna për gjithë popullsinë e
Kosovës.Mostra Mostra është grup të dhënash të nxjerra nga
popullacioni.p.sh. Të dhëna për 1% të popullsisë së Kosovës ose
për qytete të caktuara.
1.8
Konceptet kyqe në statistikëParametërNjësi përshkruese e popullacionit
Statistika (njesi statistikore)Njësi përshkruese e mostrës.
1.9
Konceptet kyqe në statistikë
Popullacioni ka parametra, Mostrat kanë statistika.
Parametri
PopullacioniMostra
Statistika
Pjesë
1.10
Inferenca statistikore …
Parametri
Popullacioni
Mostra
Statistika
Inferenca
Cka mund të nxjerrim për parametrat e popullacionit bazuar në statistikat e mostrës?
1.11
Inferenca statistikore … Ne përdorim statistikat për të nxjerrë
përfundime për parametrat.
Andaj, ne mund të vlerësojmë, parashohim popullacionin bazuar në të dhënat nga mostra.
Atëherë ne mund të aplikojmë atë që dijmë për mostrën në popullacion nga i cili është nxjerrë mostra!
Të dhënat dhe kuptimet themelore
Elementet janë njësitë për të cilat grumbullohen të dhëna (për shtete, familje, punëtorë)Variabla: karakteristikë e përbashkët e elementeve për të cilat jemi të interesuar (për punëtorë: gjinia, edukimi, paga, etj.)Vrojtim: Bashkësia e matjeve të grumbulluara për një element quhet vrojtim: 12 vrojtime të dhënat për 12 punëtorë.
12
Të dhënatTë dhëna kuantitative: cmimet, të hyrat, shpenzimet, etj..
Të dhëna kualitative: gjinia, i/e punësuar, martuar, shkolluar, etj.
Llojet e të dhënave dhe informacioneveTë dhënat janë tri varibla:
Të dhëna në intervaleTë dhëna nominale
Të dhëna rendore/ordinare
Të dhënat intervale…
• Numra real: gjatësia, pesha, cmimet, etj. • Të referuara si kuantitative/sasiore ose
numerike.
Të dhënat nominale…
Vlerat e të dhënave nominale janë kategoritë.P.sh. Përgjigjiet në pyetjet për statusin
martesor kodohen:I/e pamartuar = 1, Martuar = 2, Ndarë = 3, I
ve = 4
Të dhënat nominale quhen kualitative/cilësore ose kategorike.
Të dhënat ordinare…Në natyrë janë kategorike por vlerat janë të renditura:
P.sh. Sistemi i renditjes së notave:dobët = 1, mjaftueshëm = 2, mirë= 3, shumë mirë= 4, shkëlqyeshëm = 5
Llojet e bazave të të dhënave1. Të dhëna të serive kohore (time series): janë të dhëna të grumbulluara rregulisht në intervale të rregullta kohore: ditore, mujore, tremujore, … vjetore.2. Të dhëna për njësi (cross-section): një ose më shumë të dhëna të grumbulluara në një moment të caktuar.3. Të dhëna pooled: Te dhena per 100 familje ne 10 vite por te familjeve te ndryshme e qe na ofrojne 1,000 familje te vrojtuara.4. Të dhëna Panel: disa firma anketohen neper disa periudha kohore, jane firmat e njejta. Keto te dhena na ofrojne mundesine te analizohet dallimet ne mes te firmave por edhe ndryshimet qe firmat pesojne me kalimin e kohes.
Të dhënat nëpër seri kohore (time series)Paga minimale, papunësia dhe të dhena të tjera për Puerto Rico-n
Të dhënat cross sectionTë dhëna për vende të ndryshme për një vit: rritja ekonomike; konsumi qeveritar, pjesëmarrja e të rinjëve në popullsi)
Të dhënat pooled Të dhëna për cmimin e shtëpive nëpër dy vite (shtëpi të ndryshme)
Të dhënat panelTë dhëna për statistikat e krimit në dy vite për qytete të njejta
23
Rëndësia e raportimit të saktë të të dhënaveNë vitin 1986 eksplodimi i anijes kozmike, ku 7
astronautë kanë vdekur, është shembulli më i mirë i komunikimit të dobët të numrave. Një natë para se të nisej u udhëzua të mos nisej anija për shkak të temperaturave të ulta që do të dëmtonin disa pjesë të anijes. Grafikët e pregatitur në nxitim u fokusuan në informata selektive (ndikimi i temperaturave të ulta) duke harruar informata të rëndësishme. NASA (The National Aeronautics and Space Administration) nuk u bind nga argumentet dhe anija u lëshua, dhe eksplodoi brenda 7 sekondave.
Shembull: Arsyet për mosinvestim në Kosovë Diskutoni nëse të dhënat e paraqitura janë analizuar sic duhet!
%
1. Të painformuar nga institucionet e Kosovës lidhur me kushtet për biznes 16.32. Politika fiskale e pafavorshme 10
3. Korrupcioni 15
4. Burokracia 1.5
5. Arsye të tjera 12.5
9. Pa përgjigjie 44.6
10024
Shembull: Arsyet për mosinvestim në Kosovë
% %
1. Të painformuar nga institucionet e Kosovës lidhur me kushtet për biznes 16.3 30.50
2. Politika fiskale e pafavorshme 10 18.60
3. Korrupcioni 15 26.00
4. Burokracia 1.5 2.80
5. Arsye të tjera 12.5 22.10
9. Pa përgjigjie 44.6
100100.00
Mostra
1.26
Popullacioni ka parametra, Mostrat kanë statistika.
Parametri
PopullacioniMostra
Statistika
Pjesë
Arsyeshmëria për mostër
27
Jo praktike për të anketuar tërë popullacionin (edhe pamundësi ngase jo të gjithë pranojnë të anketohen/intervistohen)
Kufizimet financiare
Kufizimi në kohë
Përcaktimi i madhësisë së mostrës
28
Fazat:1. Identifikimi i kornizës së mostrës2. Përcaktimi i madhësisë së mostrës3. Mostrimi/shpërndarja e mostrës
Henry (1990) propozon që për popullacionin me më pak se 50 raste duhet të mirret i tërë popullacioni ngase ndikimi i një rasti të vetëm në analiza ka ndikim më të madh se sa kur mostra e madhe.
Mostra… Cili është popullacioni me interes?
Për cilin grup doni të përgjithësoni rezultatet?Të gjitha firmatNxënësit në shkollën filloreFemrat e moshës 15-45 vjecare
Përcaktimi i madhësisë së mostrës: Identifikimi i kornizës së mostrës
30
Korniza e mostrës është lista e plotë e të gjitha rasteve në popullacion nga i cili zgjidhet mostra.
Plotësia dhe saktësia e kornizës së mostrës është me rëndësi kritike.
Lista jo e plotë dhe e pasaktë nënkupton se disa raste mungojnë kështuqë nuk kanë gjasa për tu përfshi në mostër= mostra jo-reprezentative.
Përcaktimi i madhësisë së mostrës: Identifikimi i kornizës së mostrës
31
Familjet: numrat e telefonit (vetëm ata që kanë telefon; të dhënat mund të jenë të vjetruara).Individët: e-mail adresatproblemet: ndërrimi i kompanive të internetit; mosha dhe gjinia (përdoruesit e internetit të rinj dhe më shumë meshkuj (Heëson et al., 2003))Të gjithë punëtorët e një firme: mund të gjeneralizojmë vetëm për punëtorët në atë firmë; nuk mund të themi se rezultatet do të ishin të njejta në firma të llojit të njejtë.
Përcaktimi i madhësisë së mostrës
32
Sa më e madhe mostra më i vogël gabimi në gjeneralizim për popullacion.Mostra reprezentative është kompromis në mes të: Saktësisë së rezultateve, dhe Kohës dhe shpenzimeve financiare që investohen në grumbullimin, kontrollën dhe analizën e të dhënave.
Përcaktimi i madhësisë së mostrës
33
Faktorët në përkufizimin e madhësisë së mostrës:
1. Besueshmërinë që kërkon nga të dhënat e marra – niveli i sigurisë që karakteristikat e të dhënave të grumbulluara të pasyrojnë karakteristikat e popullacionit
2. Gabimi që lejohet-saktësia që kërkon për vlerësimin e nxjerrë nga mostra
3. Popullacioni nga i cili duhet nxjerrë mostra
34
Përcaktimi i madhësisë së mostrës 95% niveli i besueshmërisë: nëse mostra caktohet 100 herë atëherë 95 nga këto mostra do të përfaqësonin karakteristikat e popullacionit. Tregon se sa shpesh përqindja nga popullacini do të gjindej brenda intervalit të besimit (për 95% z=1.96, përdoret më së shpeshti). Intervalit i besimit: tregon precizitetin e vlerësimeve të popullacionit: nëse 45% e mostrës janë në një kategori atëherë vlerësimi për popullacionin në atë këtogori do të jetë 45% plus minus gabimi (p.sh. nëse mirret 3%), në mes të 42 dhe 48% do të përgjigjeshin në atë kategori.
Përcaktimi i madhësisë së mostrës
35
r 2 x(p x q) (p x q) = (50% x 50%) M1 = ------------- i 2
M1=> r => Niveli i besimit i => intervali I besimit Mostra e popullacionit M1 Mp= -------------------------- M1 – 1 1+ -------------------- popullacioni
Përcaktimi i madhësisë së mostrës në internet
36
http://ëëë.surveysystem.com/sscalc.htm Determine Sample Size Confidence Level: 95% 99% Confidence Interval: Population:
Calculate
Llojet e mostrave
37
Mostrimi i bazuar në probabilitet,: është mostrim në të cilin cdo njësi ka gjasa për të qenë pjesë e mostrës
Mostrimi i pabazuar në probabilitet
05/03/2338
Llojet e mostraveBazuar në probabilitet
E thjeshtë: Përzgjedh personat bazuar në metodën e rastit
Sistematike: Përzgjedh seciln K personStratifikuar: Me metodë të rasiti përzgjedh personat
në grupet e përcaktuaraCluster: Mostra cluster: popullacioni ndahet ne disa
cluster/pjee dhe pastaj disa nga keto perzhgjidhen nga të cilat nxirret mostra
Mostra e bazuar në probabilitet ofrojnë rezultatet më të besueshme dhe valide sepse reflektojnë karakteristikat e popullacionit të cilin e përfaqësojnë
05/03/2339
Llojet e mostraveJo bazuar në probabilitet
Mostra qëllimore: varësisht nga qëllimi i studimit zgjedh njësitë për ti vrojtuar
Snoëball (orteku i borës): kur nuk posedojmë kornizë të mostrës, së pari identifikojmë një vrojtim dhe ai na shpie tek të tjerët (shembulli me narkoman; kontrabandist)
Vet-zgjedhje (self selection): vet i anketuari zgjedh të plotësojë një anketë; anketuesi nuk dërgon anketë tek i anketuari (në faqe interneti plotësojnë anketa
Mostra kuota: popullacioni ndahet në disa kategori nga e cila përgjidhet mostra. Megjithatë në krahasim me mostrën e stratifikuar tek mostra e bazuar në kuota madhësia e mostrës brenda secilës pjesë nuk reflekton popullacionin si tërësi.
Stratifikimi i mostrës: shembull
Matja e standardit jetësor të familjeve kosovarePopullacion: 300,000 familje në KosovëMostra: 1,064
Stratifikuar në bazë të: 7 regjioneve; fshat qytet
Gjinor dhe mosha: në bazë të ditëlindjes me datë më të afërt me ditën e anketimit.
41
Mospërgjigjia: norma e përgjigjieve
Arsyet për mospërgjigjie:
1. Refuzimi për tu përgjigjur2. Paaftësia për tu përgjigjur3. Pamundësia për të gjetur të anketuarit4. Respondentët gjinden por pamundësia për ti
kontaktuar.
Nëse nuk përgjigjen atëherë duhet të gjinden të tjerë të anketuar, gjë që kushton mjete financiare dhe duhet pasur kujdes gjatë zëvendësimit që të ruhet përfaqësimi i popullacionit
42
Disa statistika mbi përgjigjien në anketa:
Në vendet e zhvilluara:Me postë përgjigjen rreth 50%Me kontakt direkt 75%
Sigurimi i cilësisë së të dhënave: kontrolli sasior dhe cilësorKontrolli sasior: verifikimi i përfshirjes së numrit
të njësive statistikore të dukurisë së vrojtuar dhe të të dhënave.
Kontrolli cilësor: saktësinë e të dhënave: kontrolli logjik, aritmetik dhe fizik.