Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
1
Utvärderingsmetoder inom MDI DH2408
Kvantitativ metod
Eva-Lotta Sallnäs Ph.D. CSC, Kungliga Tekniska Högskolan [email protected]
Undersökningstyper
Kvantitativa undersökningstekniker karakteriseras av att man undersöker mätbara egenskaper
De egenskaper man undersöker har gjorts mätbara.
Objektivt sätt att bevisa att användandet av ett gränssnitt skiljer sig från användandet av ett annat gränssnitt eller ett gränsvärde.
Undersökningstyper
Kvalitativa undersökningstekniker karakteriseras av att man försöker beskriva hur något fungerar eller vilka problem som finns.
Ett syfte kan vara att beskriva och klassificera företeelser.
Materialet man analyserar är ofta rikt och samlas in genom intervjuer eller observation.
Visar varför ett gränssnitt är dåligt och hur det kan göras bättre
2
Multimodalt grupparbetsstöd för synskadade elever
Fältstudie av befintligt grupparbete gav designfokus.
Ett gemensamt grupparbetsgränssnitt utv. med haptisk & visuell återkoppling.
Utvärdering i fält visade på fördelar med nya arbetssättet men också ett problem.
Kvalitativ videoanalys visade hur problemet yttrade sig och gav rekommendationer för hur vidare design.
Interaktionsljud inkluderades i version 2 som utvärderades med ett jämförande experiment (mellangruppsdesign) som visade en sign. skillnad i tid (effektivitet).
Ett antal beslut måste fattas gällande… Designen av studien
Den totala tiden bör ej överskrida en timme, vad ska man prioritera?
Jämförande utvärdering el. icke jämförande utvärdering?
Om jämförande, passar inomgrupps el. eller mellangruppsdesign?
Kommer uppgifterna att ha - en kognitiv komponent - inlärningseffekt - uttråkningseffekt
Vad är analysenheten för de olika måtten, individer eller par som samarbetar (n)?
Ett antal beslut måste fattas gällande…
Operationaliseringen av användbarhetskriterierna
Tiden det tar att utföra varje uppgift. Ska man ha maxtid el ej?
Hur många uppgifter man klarar på en viss tid, ex. repetetiva uppg. När börjar man då mäta tiden?
Antal klarade uppgifter. Ska man ha maxtid el ej? Bestäm vad klarad uppgift innebär.
Felfrekvens. Antal fel vid utförande av uppgift. Vad är ej klarad uppgift?
Optimal väg. Vad är det optimala utförandet? Bestäm detta i förväg.
Kan kvalitet i utförandet av tex ett grupparbete kvantifieras? Ex. lärmiljöer.
3
Ett antal beslut måste fattas gällande…
Apparaturen och dokumentationen
Är alla delar av systemet utvecklat el. måste någon del simuleras och i så fall hur? Woz, pappersmodell.
Vad ska spelas in på video för att ni ska kunna göra er analys? Flera vyer, synkning av dessa vyer. Skärmdump kan göras under hela testet med exempelvis Snapz X Pro.
Om ni har par som samarbetar på distans hur ska ni dokumentera det? Synkad dialog är viktigt. Det är viktigt att kunna urskilja vem som gör el. säger vad.
Ofta mix av kvalitativa/kvantitativa data
Kvalitativa data
- Tal från tala högt metod
- Dialog från cooperative evaluation
- Intervju
- Beteende vid användande av gränssnitt
- Svar på öppna frågor i formulär
- Resultat från utförda uppgifter (lärmiljöer)
Kvantitativa data
- Tid
- Felfrekvens
- Avvikelse från optimal väg
- Svar på strukturerade frågor i formulär
- Loggat beteende
- Kvantifierade kvalitativa data
Datainsamling
Förenklat kan vi säga att de kvantitativa data vi samlar in är antingen prestationsdata som tid och precision eller attityddata för att mäta dimensionen tillfredsställelse (se sid 105 i J.R. för exempel).
Beroende på resurstillgång kan prestationsdata samlas in samtidigt som utvärderingen pågår eller genom att analysera videoinspelat material efteråt.
Program kan användas som loggar prestationsdata automatiskt och en sammanställning kan fås direkt efter testet.
Deltagarna kan själva generera attityddata under testet om ett webbfrågeformulär integrerats i testversionen.
4
Ofta mäter vi andra variabler än de vi egentligen är ute efter, eftersom de inte är lätta att mäta.
Hur lättlärt är gränssnittet? blir …
”Hur snabbt kan man lära sig utföra uppgiften x?” eller…
“Hur fort gör man uppgiften andra gången?”
Problemspecificering
Tumregler: 1. Formulera problemet som en fråga.
2. Uttryck problemet som en relation mellan två eller flera begrepp (variabler).
3. Gör begreppen klara och entydiga (väldefinierade).
4. Formulera problemet så att de går att undersöka eller t.o.m mäta (operationalisering).
Uppfyller frågeställningen följande krav?
Är målgruppen specificerad?
Är kontexten d.v.s. situationen specificerad?
Är frågeställningen av en rimlig omfattning?
Är frågeställningen för allmänt hållen, är den tillräckligt specifik?
Är det en känslig frågeställning?
Är det realistiskt att undersöka detta, få tag på deltagare, resursåtgång?
5
Frågeställning
Kvalitativ icke jämförande utvärdering i fält: Hur påverkar haptisk återkoppling grupparbete i skolan mellan synskadade och seende barn då de ska lösa uppgifter i ämnet geometri?
Jämförande utvärdering i labb: Gör ljudåterkoppling att människor som inte ser kan samarbeta snabbare än utan sådan med människor som ser i ett haptiskt och visuellt gränssnitt?
Hypotes: Ljudåterkoppling gör att uppgifter löses snabbare av seende och icke seende människor som samarbetar i ett haptiskt och visuellt gränssnitt.
Giltighet Att mätverktyget som används verkligen ger data/är ett mått på den egenskap vi vill mäta
ex. intelligens, tillfredsställelse, precision, närvarokänsla
Validitet i hur hög grad ett mått ger data som överensstämmer med den gemensamt accepterade innebörden av begreppet.
1. Face validity den bedömning som “experter” gör om ett test verkar mäta ett begrepp eller en variabel.
2. Criterion-related validity baseras på om ett externt kriterium som studieresultat samvarierar med resultatet på högskoleprovet
Giltighet Att mätverktyget som används verkligen ger data/är ett mått på den egenskap vi vill mäta
3. Content validity
I hur hög grad ett mått täcker hela fenomenet.
4. Construct validity
Om alla variabler i ett konstrukt/frågeformulär mäter samma variabel.
6
Pålitlighet Att man får samma resultat varje gång mätverktyget används.
Reliabilitet
slumpmässiga fel (osäkerhet i metodiken) ger dålig precision. Ex. automatisk loggning
Interbedömarreliabilitet
samstämmighet i flera personer bedömningar.
God reliabilitet men dålig validitet ger felaktiga slutsatser vilket är farligare än god validitet men dålig reliabilitet
Typer av kvantitativa data
Skaltyper Nominalskala: antal i olika kategorier, ex man el. kvinna.
Ordinalskala: + kategorierna rangordnade, ex, barn, ungdom, äldre, 5 gradig Likertskala, betyg.
Intervallskala: + ’avståndet’ mellan kategorierna är känt, ex. 20°C, 100°C
Kvotskala: + nollpunkt, ex 20 år ÷ 10 år = 2 _________________________________________________________________
Diskreta data: ex. antal barn, måste vara hela barn
Kontinuerliga data: ex. längd; forskaren konstruerar kategorier. Exaktheten i vad som mäter 1 mm kan finslipas i all oändlighet
Utvärdering utan jämförelsegrupp
Jämföra mot uppsatta kriterier - gällande hur mycket fel man accepterar - eller för hur lång tid interaktionen får ta
Ex.1. ”oerfarna” användare ska klara 75% av uppgifterna vid första försöket och ”experter” ska klara 95%.
Ex.2. jämföra med kända data från utvärdering av tidigare versioner av systemet
Ex.3. om konkurrenten uppgett värden från sina utvärderingar kan man jämföra med dem.
Ex. jämföra mot kända index
7
Korrelationsundersökning
Etnografisk studie
Intervjustudie
…andra typer av undersökningar är
Jämförande utvärdering innebär att
- man formulerar hypoteser om orsakssamband.
- man påverkar/manipulerar den oberoende variabeln aktivt .
- man jämför en experimentgrupp med en kontrollgrupp/sättning.
- fördelningen mellan experimentgrupp och kontrollgrupp är slumpmässigt gjord från urvalet så att grupperna blir likvärdiga.
- mellangruppsdesign vs. inomgruppsdesign
- man har operationaliserat en el. flera beroende variabler.
- noggrann mätning görs av beroende variabler.
- man kontrollerar störande variabler.
Design av jämförande utvärdering
Vi kan välja mellan två upplägg för att beskriva designen
av den jämförande utvärdering :
Mellangruppsdesign
Inomgruppsdesign
8
Mellangrupp: Vi använder en ny grupp försökspersoner för varje värde på den oberoende variabeln (= behandling).
Inomgrupp: Vi använder samma försökspersoner för varje värde på den oberoende variabeln.
Design av jämförande utvärdering
Grupp Version 1 Version 2
A x
B x
Grupp Version 1 Version 2
A x x
Ett mellangruppsdesign kräver dels fler deltagare än ett inomgrupps-design.
Man kan gärna matchar grupperna mot varandra så att deltagarna har så lika egenskaper som möjligt. Annars får man lita på representativiteten.
Fördelen är att vi kan eliminera inlärningseffekter, där erfarenheten från en behandling påverkar resultaten av en annan behandling.
Ex. med ikoner: Efter att ha sett ikonerna upprepade gånger känner fp igen formerna och identifierar ikonerna utan hänsyn till färgegenskaperna.
Mellangruppsdesign
Medicinska tillämpningar
Experiment på Karolinska
institutet för att undersöka
effekten av simulatorträning
på förmågan att operera på
patient.
Mellangruppsdesign
9
I ett inomgruppsdesign försöker vi minimera inlärningseffekter genom att låta olika personer utsättas för behandlingarna i olika ordning.
Uppgifterna kan inte vara sådana att deltagarna tycker att de redan utfört dem en gång. Lämpligast med väldigt enkla, eller väldigt likvärdiga uppgifter. Klurigt!
Vi väljer slumpmässigt vilka av försökspersonerna som ska få genomgå utvärderingen i vilken ordning.
Varför slumpar vi?
Inomgruppsdesign
Det går inte att visa bilden. Det finns inte tillräckligt med ledigt minne för att kunna öppna bilden eller så är bilden skadad. Starta om datorn och öppna sedan filen igen. Om det röda X:et fortfarande visas måste du kanske ta bort bilden och sedan infoga den igen.
Medicinska tillämpningar
Experiment på Karolinska institutet
visar att haptisk återkoppling gör att
radiologer kan rita in cancertumörer
som ska strålbehandlas signifikant
snabbare.
Inomgruppsdesign
Inlärningseffekter är tydliga också inom en behandling även vid mellangruppsdesign. – försökspersonerna lär sig under utvärderingens gång.
Olika inlärningstakt ger olika effekt.
Man bör försöka minimera detta genom att t ex ha en övningssession först där försökspersonerna får träna upp sig till en förbestämd skicklighetsnivå.
Inlärningseffekt mellangruppsdesign
10
Samarbete i haptiska gränssnitt
Sallnäs, Rassmus-Gröhn, & Sjöström Moen, Sallnäs, Zhai Flyg, Eklundh, Bjerstedt-Blom, Sallnäs
Grundläggande studier om haptikens effekter på samarbete.
Haptisk återkoppling gör att seende människor utför uppgifter med högre precision och i vissa fall snabbare.
De upplever att de presterar bättre, att deras närvaro i den medierade miljön ökar samt i vissa fall att den sociala närvarokänslan ökar.
Mellangruppsdesign Inomgruppsdesign Think aloud 2 deltagare
Vi vill att vårt experiment ska vara så känsligt som möjligt;
- detta gör vi genom att mäta under förhållanden som kan antas maximera utslaget i den beroende variabeln/måttet
- minimera oönskade variationer mellan försökspersonerna
- och använda så många försökspersoner som möjligt.
Öka den jämförande utvärderingens känslighet
När vi genomför utvärderingen kontrollerar vi alla variabler vi kan,
vi minimerar utomstående störningar,
vi ser till att alla har likvärdig belysning, sitter bekvämt etc.
Vi förklarar uppgifterna från ett förberett manus så att vi vet att alla försökspersoner har fått samma instruktioner.
Kontroll vid utvärdering
11
Vi kan mycket väl introducera egna störningar, om detta är en av våra oberoende variabler.
Men de ska då naturligtvis vara lika för varje försöksperson.
Om störningar förekommer i miljön ska dessa också förekomma vid samtliga tillfällen.
Likadana förutsättningar
Utanförliggande variabler confounding variables
Det kan vara så att det föreligger en systematisk skillnad,
som vi inte har mätt, mellan jämförelsegrupperna och att det är
denna skillnad istället för vår oberoende variabel som orsakar
utslaget i beroende variabel.
Utanförliggande variabler
Yttre Skillnader i testmiljön påverkar Testadministratör Testlokalen Olika årstid vid test Deltagare i studien försvinner, byter jobb osv Händelser i samhället, flygolyckor osv
Inre Ålder, kön, utbildning…
12
Kontrollera inre confounding variables
Homogen fördelning variabeln hålls konstant ex. alla samma ålder
Blockning utanförliggande variabeln som oberoende variabel ex. tar med ålder som variabel i analysen
Matchning man ser till att fp liknar varandra parvis i grupperna ex. ålder kön kognitiv förmåga
Upprepad mätning undersöka samma individ flera gånger, inomgruppsdesign
Rekrytera deltagare
Utforma ett frågeformulär för att få rätt urval av deltagare.
Utgå ifrån målgruppens profil när frågorna formuleras.
Börja rekrytera deltagare tidigt.
Formulera ett informationsblad som ni kan ge till deltagare när ni frågar dem om de vill medverka. kortfattat syfte,
tidsåtgång, plats,
etiska hänssynstaganden.
Urval
Populationen
De man studerar är oftast ett mer eller mindre representativt urval ur en population (alla i en grupp, ex. hela landets befolkning).
Urval
13
Sannolikhetsurval
Vid experiment är slumpmässigt urval ett krav.
• Slumpmässigt urval Man har en förteckning på alla människor som ingår i populationen + förteckningar med slumpmässiga siffror, man väljer sedan de personer som motsvarar siffran. ;0) Man kan också dra ihopvikta lappar med namn ur en hatt
• Slumpmässigt stratifierat urval Först delar man upp populationen i strata (ålders/inkomts/yrkesgrupper), sedan gör man ett slumpmässigt urval ur varje strata
Sannolikhetsurval
• Klusterurval Först delar man upp populationen i kluster (städer, skolor, sjukhus) och sedan tar man ett kluster som man tror är representativt för hela populationen.
• Systematiskt urval Man väljer ett urvalsintervall tex var tionde person. Sedan väljer man var tionde person från listan av alla människor som ingår i populationen
Icke sannolikhetsurval
Om man inte har resurser eller praktiska möjligheter att göra ett slumpmässigt urval ur hela populationen.
• Bekvämlighets-/ tillfällighetsurval
Man väljer ’första bästa’.
• Snöbollsurval
Man får en kontakt som ger nya kontakter.
14
Icke sannolikhetsurval
• Kvoturval/proportionellt stratifierat
Man delar först upp populationen i strata, sedan gör man ett bekvämlighetsurval inom varje strata.
• Subjektivt / ändamålsenligt
Man överger kravet på representativitet och väljer en speciell strategi tex så många olika människor som möjligt eller en känd grupp användare.
Urvalsstorlek
Större urval ger större precision, minst 5 personer i varje cell.
Absoluta storleken på urvalet är avgörande, inte andelen av populationen.
Många klassificeringar/variabler kräver större antal.
Uppskatta bortfallet.
Uppskatta hur mycket resurser projektet har.
Bra princip: enkelhet
Urvalsenkät - Delas ut vid rekrytering eller innan test
- Efter test analyseras resultatet i relation till bakgrundsvariablerna
- Extremvärden kan ibland förklaras av ex. olika ålder eller vana vid att använda det testade systemet
Är en intressant användbarhets- aspekt i sig
15
Information & samtycke
Försöksledaren ger information om testet, syfte, tid & delmoment
Information om etiska principer som följs vid testet
Ev. krävs samtyckesformulär
Testutförandet
Ev. utförs ett test på försöksdeltagarens förmåga i något avseende innan utvärderingen. Ex. spatial el. verbal förmåga, djupseende…
Ev. tränar först försöksdeltagaren på att använda någon del i systemet innan testuppgiften delas ut.
Individer el. små grupper utför ett antal uppgifter som täcker ett antal funktioner.
Varje uppgift ges till deltagarna en och en på var sitt papper och läses även upp.
Utformning av testmaterial
Uppgift inte samma sak som aktivitet!
Materialet måste testas. Test på er själva, sen kompisar, sen gör ni pilottest på användare från målgruppen.
Tänk på språket: Ställer du en eller flera frågor med samma mening? Flertydighet?
Artefakten testas – inte deltagaren. Meddela det samt fundera över hur detta påverkar utformningen av testmaterialet.
16
Dokumentering och avslut
Allt som sker dokumenteras med videokameror el. loggas för senare analys.
Försöksdeltagaren fyller i ett formulär som mäter t.ex. tillfredsställelse. Detta formulär kan fyllas i flera ggr beroende på design.
Försöksdeltagaren intervjuas efter utvärderingen om tid finns el. som alternativ till formulär.
Försöksledaren tackar för deltagandet, ger avslutande information till försöksdeltagaren och svarar på frågor om utvärderingen.
Att utforma frågeformulär
Långa formulär avskräcker - Ställ bara nödvändiga frågor
Snygg layout, luftigt
Gärna enkelsidigt
Testa formuleringarnas begriplighet
Tydlig och tillräcklig plats för svaren
Instruktioner om hur formuläret ska besvaras
Olika typer av frågor
FASTA Förutbestämda svarskategorier ’Enkelt’ att svara … men få nyanser, frustrerande för deltagaren Enhetlig form, lätt att analysera Ger kvantitativa data Man kan skapa ett frågebatteri som mäter en sak.
ÖPPNA Respondenter formulerar själv ett rikt svar Mer ansträngande för deltagaren att besvara Mer tidsödande kodning & analys Ger kvalitativ data …. som kan kvantifieras genom kategorisering
17
Att formulera frågorna
Klara och korta frågor
Förklara vid behov: Nu kommer frågor om …
Ej tvetydiga formuleringar som kan missförstås
Ge tillräckligt många svarsalternativ, inte jämnt antal svarsalternativ
Frågor lämpade för målgruppen
Ämnet ska vara relevant för målgruppen
Ej frågor som avslöjar intervjuarens värderingar.
Ej ledande frågor
-Tänk på att frågor påverkar varandra, ordningen spelar roll
Att formulera frågor
Aldrig två frågor i en fråga Ex. vad tycker du om tentor och hemtentor?
Ej hypotetiska frågor Ex. vad skulle du göra om du vann en miljon?
Inte överlappande frågor
Undvik frågor som lätt besvaras med ja eller nej Ex. tycker du om glass?
Undvik allt fikonspråk Ex. tycker du att interaktionen med datorn var intuitiv?
Lagom många frågor för tillgänglig tid samt anpassat till intervjuform
Inte känsliga frågor utan välgrundad anledning
Inte frågor som inte handlar om uppgett frågeområde
Testade frågeformulär
Det finns frågeformulär som testats för att fungera vid utvärdering av olika typer av gränssnitt.
http://www.stcsig.org/usability/topics/measurement.html
WAMMI
http://www.ucc.ie/hfrg/questionnaires/wammi/
SUMI
http://sumi.ucc.ie/whatis.html
18
Utvärderingsmetoder inom MDI DH2408
Kvantitativ metod
Eva-Lotta Sallnäs Ph.D. CSC, Kungliga Tekniska Högskolan [email protected]