Metodologia badań społecznych Wykład IV-VII

Roman DolataZakład Ewaluacji Instytucji Edukacyjnych

Dyżury: piątki, 15.30-17.00, s. 314

- Streszczenie

Przedstawienie problemu badawczego Metoda, czyli opis sposobu rozwiązania

problemu badawczego Przedstawienie wyników Dyskusja wyników

- Bibliografia- Aneks

Abstrakt to krótki opis badania Zawiera opis:

◦ pytania/hipotezy badawczej◦ metody badania (próba, podstawowe pomiary,

model analizy danych)◦ najważniejszych wyników

oraz słowa kluczowe

Wstępne określenie problemu, dlaczego jest ważny?

Przegląd literatury – co wiemy? Definicje kluczowych pojęć Sformułowanie pytania/hipotezy

badawczej na poziomie teoretycznym

Podręczniki (spis treści, indeks rzeczowy, słowniczki kluczowych pojęć)

Encyklopedie przedmiotowe Monografie danego zagadnienia Artykuły w prasie naukowej, w tym

elektroniczne bazy tekstów: ◦ artykuły przeglądowe, metaanalizy◦ raporty badawcze

www.buw.uw.edu.pl

Krytycyzm i szacowanie wartości źródła Unikanie omawiania „z drugiej ręki” Dokumentowanie źródeł Pamiętanie cały czas, czemu służy przegląd

literatury: synteza dotychczasowej wiedzy na dany temat

Zwracanie uwagi zarówno na otrzymane wyniki jak i na stosowane metody badania

Poszukiwanie badania „wzorcowego” dla naszego problemu badawczego

Cytowanie prac w tekście: psychologia, system amerykański

• Jeden autor – (Feldman, 1966) – Feldman (1966) – jeśli w zdaniu wymieniamy

nazwisko• Dwóch autorów

– (Kahneman i Tversky, 1984)• Kilku autorów

– Pierwszy raz wymieniamy wszystkich• (Cacioppo, Gardner i Berntson, 1997)

– Kolejne odwoływania do tej pracy• (Cacioppo i inni, 1997)

• Kilka prac na ten sam temat– (Ganzach, 1995; Gardner, 1996; Rowe, 1989)

BibliografiaAlfabetyczny spis prac cytowanych w raporcie

Artykuły w prasie naukowej:

– Markman J., M., Hanushek E., A., Kain J., F., Rivkin S., G. (2003) Does peer ability affect student achievement? Journal of Applied Econometrics, vol. 18(5), s. 527-544.

– Seppänen P. (2003) Patterns of „public-school markets” in the Finnish comprehensive school from a comparative perspective. Journal of Educational Policy, vol. 18, no. 5, pp.513-531.

Książki:

– Sternberg R., J., Wagner R. (1986) Practical intelligence: Origins of competence in everyday world. New York, Cambridge University Press.

– Sanders W.L., Saxton A., Horn S. (1997) The Tennessee value-added assessment system: A quantitative, outcomes-based approach to educational assessment. W: J. Millman (ed.) Grading Teachers, Grading Schools: Is student achievements a valid measure? Thousand Oaks, CA, Corwin Press.

Definicja realna (DR) – stwierdzenie zasadniczej natury lub cech istotnych danego zjawiska

Poszukiwanie DR jest przejawem naiwnego realizmu. DR ewentualnie wieńczy proces badawczy, a nie go otwiera

Definicja nominalna (DN) – znaczenie przypisane do danego terminu bez żadnych roszczeń co do oddania „istoty rzeczy”. Konwencja terminologiczna

DN nie przysługuje wartość logiczna Regulacyjne i projektujące DN Wartość DN - użyteczność

Definicja sprawozdawcza (DS) – jak wspólnota naukowa definiuje dany termin; rekonstrukcja różnych sposobów definiowania

DS są ważne w naukach społecznych, pozwalają świadomie wybrać odpowiednią dla danego badania DN

Definicja operacyjna (DO) – określenie, jak będzie wyglądał sposób badania/mierzenia danego zjawiska

DO są pochodną metody badawczej DO wyznaczają zakres dopuszczalnych interpretacji

wyników badania (uogólnienia wyniku)

Operacjonizm – szersza koncepcja metodologiczna, która dopuszcza stosowanie w języku nauki tylko operacyjne zdefiniowanych terminów

Przykład operacjonizmu w psychologii – Inteligencja to to, co mierzą testy inteligencji. Mamy więc tyle inteligencji, ile narzędzi do pomiaru inteligencji.

Najważniejsze błędy w definiowaniu◦ nieznane przez nieznane◦ błędne koło◦ wielosłowie, zbyteczna komplikacja◦ niejasność◦ wieloznaczność

Określenie badanej populacji, jednostki analizy, jednostki obserwacji

Pobieranie próby Schemat badania Pomiar zmiennych, wskaźniki Model analizy wyników Pytanie badawcze/hipoteza w postaci

operacyjnej

Populacja – zbiór obiektów, na który będziemy uogólniać otrzymane wyniki◦ Populacje jednoelementowe: studia

przypadków, podejście idiograficzne◦ Populacje jednorodne – w badaniach

społecznych praktycznie nie występują◦ Populacje niejednorodne – badania

wyczerpujące i badania na reprezentatywnych próbkach

Przesłanki praktyczne:◦ Skąd biorą się problemy w nauce szkolnej Jasia?◦ Dlaczego szkoła X tak nieefektywnie uczy?

Przesłanki teoretyczne:◦ Czy zaburzenia relacji emocjonalnych matka-dziecko są

koniecznym warunkiem wystąpienia autyzmu?◦ Czy poprawa warunków życia grup społecznie

upośledzonych zawsze poprzedza rewolucje społeczne?

Badania wyczerpujące dużych populacji są rzadkie◦ Spisy powszechne◦ Powszechne testy lub egzaminy szkolne

Próba (próbka) – zbiór obiektów pobranych z populacji i poddanych badaniu

Wyniki uzyskane w próbie można uogólniać na populację tylko wtedy, gdy próba jest reprezentatywna

Próba jest reprezentatywna, jeżeli jest „populacją w miniaturze”

Jedyną, w pełni akceptowalną metodą tworzenia prób reprezentatywnych jest losowanie obiektów z populacji

Jednostka analizy: kto lub co jest obiektem, którego dotyczy pytanie badawcze lub hipoteza

Jednostka obserwacji (badania): kto lub co jest obiektem pomiaru/zbierania danych

◦ Wyuczona bezradność prowadzi do niskich osiągnięć szkolnych .

◦ Rywalizacyjny klimat klasy zwiększa zróżnicowanie osiągnięć szkolnych.

◦ Granie w gry komputerowe zawierające agresję podwyższa poziom lęku.

◦ Dokumenty oficjalne zawierają mniej przymiotników niż dokumenty prywatne.

Dobór przypadkowy (np. dostępność) Dobór celowy Metoda kuli śnieżnej Dobór kwotowy Dobór parami w badaniu porównawczym

Populacja pożądana i faktycznie badana

Operat losowania

Metody losowania◦ Prosty dobór losowy◦ Systematyczny dobór losowy◦ Dobór warstwowy◦ Dobór grupowy

By móc wyniki z próby prawomocnie uogólnić na populację (uznać je za reprezentatywne) ważny jest nie tylko sposób doboru próby, ale również tzw. stopa realizacji badania.

Losowe i nielosowe braki danych.

Nomotetyczny vs idiograficzne

Nomotetyczne:◦ Badanie surveyowe (przeglądowe, opisowe):

jedna populacja, pytanie o nasilenie zjawiska◦ Badania korelacyjne: jedna populacja, pytanie o

korelację ◦ Badania porównawcze: dwie lub więcej

populacji, pytanie o nasilenie◦ Badania eksperymentalne: jedna populacja,

weryfikacja hipotez przyczynowo-skutkowych

Wymiar czasu:Badania poprzeczne (przekrojowe, statyczne)

Badania podłużne (panelowe, dynamiczne)- Ta sama kohorta przez wiele lat- Różne kohorty w tej samej fazie rozwojowej

Obserwacja etnograficzna

Wywiad pogłębiony

Analiza treści (dokumentów)

Obserwacja ilościowa

Testy

Wywiad standaryzowany – ankieta

Liczby jako wynik pomiaru◦ relacje między liczbami – wynikami pomiaru - mają oddawać

relacje między badanymi obiektami pod danym względem

Skale pomiarowe:◦ skala nominalna◦ skala porządkowa◦ skala interwałowa◦ skala ilorazowa

Typ skali pomiarowej decyduje o dopuszczalnych interpretacjach wyników pomiaru i możliwych do zastosowaniach modelach statystycznych analizy danych

Skala nominalna

Nominalna – nazwy kategorii

Skala dychotomiczna: tylko dwie możliwe wartości– wykonał/nie wykonał zadania– kobieta/mężczyzna

Więcej możliwych wartości– wyznanie religijne– ulubione kolory

Skala porządkowa

Porządkowa: miejsce w porządku

• Poziom wykształcenia: zawodowe średnie wyższe

• Wynik rangowania przez badanego jakiś obiektów, np. hierarchia wartości

• Liczba uzyskanych punktów w teście umiejętności (wynik surowy)

Skala interwałowa

Interwałowa – miejsce w porządku i stała jednostka

– Skala temperatury Celsjusza

– Wynik testu wyrażony w znormalizowanej skali standardowej

Ogólnie: ustalona jednostka, ale arbitralny punkt zerowy

Ilorazowa: miejsce w porządku, stała jednostka, niearbitralny punkt zerowy

◦ Wzrost wyrażony w ustalonej jednostce

◦ Temperatura w skali Kelwina

◦ Liczba uczniów w klasie

Obserwacja ilościowa• Obserwacja ilościowa jest:

• skategoryzowana• niskoinferencyjna

• Obserwacja szerokiego spektrum zjawisk w krótkich okresach czasu – próbki czasowe• np. interakcje uczniowie- nauczyciel na

lekcji

• Obserwacja wystąpienia określonego zjawiska w długim okresie czasu - próbki zdarzeń np. zachowania agresywne uczniów na przerwie

Zjawiska, które badamy często mają charakter bezpośrednio nieobserwowalny

Wnioskuje się wtedy o wystąpieniu/nasileniu zjawiska na podstawie wskaźników

Wiązki wskaźników spełniające warunki dobrego pomiaru to testy

Wskaźniki (przykłady)

• Zapamiętania – poprawne odtworzenie, liczba rozpoznanych elementów, przewidzenie kolejnego elementu, ilość zniekształceń, czas rozpoznania;

• Zadowolenia – odwzajemnienie uśmiechu, ocena neutralnej fotografii, odpowiedź na skali szacunkowej, testy fizjologiczne (szerokość źrenic), postawa ciała, szybkość chodzenia;

• Lęku – długość utrzymywania kontaktu wzrokowego, wskaźniki fizjologiczne, szybkość przechodzenia przez ulicę, tiki, ocena prawdopodobieństwa, że spotka nas nieszczęście ;

• Wpływu społecznego – skłonność do ulegania prośbom, naśladownictwo, zmiana postawy;

Co można badać za pomocą testów

• Inteligencję i inne cechy osobowości

• Osiągnięcia szkolne

• Dyspozycje zawodowe

• Uprzedzenia etniczne

• Klimat klasy szkolnej

• Typ przywództwa w instytucji

I wiele innych cech jednostek, grup czy instytucji

Cechy dobrego testu

• Obiektywność• Explicite sformułowane przesłanki budowy testu

• Standaryzacja• Ustalona, powtarzalna procedura testowania

• Trafność• Czy test mierzy, to co ma mierzyć

• Rzetelność• Jak dokładnie test mierzy to, co ma mierzyć

Aspekty trafności testu

• DefinicyjnyCzy wskaźniki są zgodne z przyjętą definicją badanego

zjawiska

• FasadowyCzy test zdaniem użytkowników i odbiorców jest

adekwatny

• PrognostycznyCzy test pozwala prognozować wystąpienie

interesujących badacza zjawisk

• TeoretycznyCzy układ zależności uzyskanych w badaniu

sprawdzającym jakość testu jest zgodny z teoretycznymi przewidywaniami

Każdy pomiar obarczony jest niepewnością pomiarową

Klasyczne ujęcie niepewności pomiarowej

wynik empiryczny = wynik prawdziwy + błąd pomiaru

Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu

Wyniki Wysokie Niskie

Uczeń

Wynik osoby w teście

Wyniki

Wysokie Niskie

Uczeń

Wynik prawdziwy

Wynik osoby w teście

Błąd pomiaru

Arbitralność doboru zadań testowych

Niedostatki standaryzacji procedury testowej

Zgadywanie w zadaniach zamkniętych

Punktowanie zadań otwartych

Ściąganie

Losowe wahania dyspozycji intelektualnych ucznia

Błędy systematyczne: stronniczość testu

Dwukrotne testowanie◦ Korelacja między wynikami dwóch testów

Metoda połówkowa◦ Korelacja między wynikami dwóch połówek

Wewnętrzna spójność testu◦ Wsp. rzetelności Alfa Cronbacha

Eksperymentalne określanie rzetelności kodowania

Wyznaczanie przedziału ufności dla wyniku indywidualnego


Uczeń

Wynik ucznia w teście


Uczeń

Idea szacowania przedziału ufnościIdea szacowania przedziału ufności


Uczeń



Uczeń



Uczeń

Przedział ufności


Wyniki

Wysokie Niskie

Wynik najmniej prawdopodobny

(2,5%)(2,5%)

Funkcja prawdopodobieństwa

Wynik najmniej prawdopodobny

(2,5%)(2,5%)

Wynik najbardziej prawdopodobny (95%)

Rzetelność testu

Przykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo, że

wynik ucznia znajduje się w przedziale wyznaczonym przez prostokąt wynosi 95%

Przedmiotem analiz były systemy punktacji przygotowane na maturę 2002:

◦ Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II).

◦ Historia – test i interpretacja źródeł (arkusz I i II).◦ Matematyka – poziom podstawowy i rozszerzony (arkusz I i II).

Dobór prac.

Przygotowanie prac do ponownego sprawdzania.

Dobór egzaminatorów.

Czynniki mogące zawyżać oszacowanie rzetelności:- dobór egzaminatorów (posługiwanie się dobrze znanym

schematem punktacji),- pominięcie opcji (polski, historia).

Czynniki mogące zaniżać oszacowanie rzetelności:- upływ czasu,- brak procedur oceniania grupowego

Każda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki.

Zbiór danych (dla każdego kryterium):

Lp E1 E2 E3 E4 E5 E6 E7 E8

1. 31 25 35 36 21 27 36 21

2. 55 41 59 25 26 21 36 54

3. 48 49 51 50 48 47 52 50

… … … … … … … … …

50.

21 18 19 20 21 21 19 20

Prosty efekt egzaminatora Interakcyjny efekt egzaminatora

Efekt jakości pracy

Całkowita zmienność ocen

22% 29%

49%

Całkowita zmienność ocen

Efekt jakości pracy

Prosty efekt egzaminatora Interakcyjny efekt egzaminatora

Lp. Średnia ocena

Rozrzut ocen (SD)

Minimalna Maksymalna

39 60,3 18,9 29 86

48 46,9 18,5 11 67

18 43,4 18,2 24 72

28 57,5 17,1 33 80

06 46,0 16,6 19 77

Zawiodła przede wszystkim kryterialna skala rozwinięcia tematu (rzetelność=54%).

Zła budowa skal szacunkowych:◦ skala kompozycji (rzetelność=33%),◦ skala stylu (rzetelność=31%),◦ skala poprawności językowej (rzetelność=34%).

Użyto z założenia subiektywnej skali szczególnych walorów pracy (rzetelność=23%).

Kryterium 17: 77%◦ Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji

łacińskiej i wkroczenia barbarzyńców)

Kryterium 15.1.: 14%◦ Za pogłębione wnioski

Ogólna prawidłowość: im wyższy poziom taksonomiczny, tym niższa rzetelność kryterium.

Skala poprawności językowej wypracowania Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt. Oto ich opis: 0 – brak opisu, 5 – w większości poprawna składnia i frazeologia, zgodna z normą

fleksja, nieliczne usterki leksykalne oraz nieliczne błędy ortograficzne i interpunkcyjne,

10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja, sporadycznie pojawiają się błędy ortograficzne i interpunkcyjne,

21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.

Arkusz Rzetelność Prosty efekt egzaminatora

Interakcyjny efekt

egzaminatora

Polski, arkusz I 55% 16% 29%

Polski, arkusz III 49% 22% 29%

Polski, arkusz II 80% 7% 13%

Historia, arkusz I 95% 2% 3%

Historia, arkusz II 58% 29% 13%

Matematyka, arkusz I

99% 1% 0%

Matematyka, arkusz II

97% 1% 2%

Documents

Metodologia badań społecznych Wykład IV-VII