Utvärderingsmetoder inom MDI DH2408 · Vi använder en ny grupp försökspersoner för varje värde på den oberoende variabeln (= behandling). Inomgrupp: Vi använder samma försökspersoner

1

Utvärderingsmetoder inom MDI DH2408

Kvantitativ metod

Eva-Lotta Sallnäs Ph.D. CSC, Kungliga Tekniska Högskolan [email protected]

Undersökningstyper

Kvantitativa undersökningstekniker karakteriseras av att man undersöker mätbara egenskaper

De egenskaper man undersöker har gjorts mätbara.

Objektivt sätt att bevisa att användandet av ett gränssnitt skiljer sig från användandet av ett annat gränssnitt eller ett gränsvärde.

Undersökningstyper

Kvalitativa undersökningstekniker karakteriseras av att man försöker beskriva hur något fungerar eller vilka problem som finns.

Ett syfte kan vara att beskriva och klassificera företeelser.

Materialet man analyserar är ofta rikt och samlas in genom intervjuer eller observation.

Visar varför ett gränssnitt är dåligt och hur det kan göras bättre

2

Multimodalt grupparbetsstöd för synskadade elever

Fältstudie av befintligt grupparbete gav designfokus.

Ett gemensamt grupparbetsgränssnitt utv. med haptisk & visuell återkoppling.

Utvärdering i fält visade på fördelar med nya arbetssättet men också ett problem.

Kvalitativ videoanalys visade hur problemet yttrade sig och gav rekommendationer för hur vidare design.

Interaktionsljud inkluderades i version 2 som utvärderades med ett jämförande experiment (mellangruppsdesign) som visade en sign. skillnad i tid (effektivitet).

Ett antal beslut måste fattas gällande… Designen av studien

Den totala tiden bör ej överskrida en timme, vad ska man prioritera?

Jämförande utvärdering el. icke jämförande utvärdering?

Om jämförande, passar inomgrupps el. eller mellangruppsdesign?

Kommer uppgifterna att ha - en kognitiv komponent - inlärningseffekt - uttråkningseffekt

Vad är analysenheten för de olika måtten, individer eller par som samarbetar (n)?

Ett antal beslut måste fattas gällande…

Operationaliseringen av användbarhetskriterierna

Tiden det tar att utföra varje uppgift. Ska man ha maxtid el ej?

Hur många uppgifter man klarar på en viss tid, ex. repetetiva uppg. När börjar man då mäta tiden?

Antal klarade uppgifter. Ska man ha maxtid el ej? Bestäm vad klarad uppgift innebär.

Felfrekvens. Antal fel vid utförande av uppgift. Vad är ej klarad uppgift?

Optimal väg. Vad är det optimala utförandet? Bestäm detta i förväg.

Kan kvalitet i utförandet av tex ett grupparbete kvantifieras? Ex. lärmiljöer.

3

Ett antal beslut måste fattas gällande…

Apparaturen och dokumentationen

Är alla delar av systemet utvecklat el. måste någon del simuleras och i så fall hur? Woz, pappersmodell.

Vad ska spelas in på video för att ni ska kunna göra er analys? Flera vyer, synkning av dessa vyer. Skärmdump kan göras under hela testet med exempelvis Snapz X Pro.

Om ni har par som samarbetar på distans hur ska ni dokumentera det? Synkad dialog är viktigt. Det är viktigt att kunna urskilja vem som gör el. säger vad.

Ofta mix av kvalitativa/kvantitativa data

Kvalitativa data

- Tal från tala högt metod

- Dialog från cooperative evaluation

- Intervju

- Beteende vid användande av gränssnitt

- Svar på öppna frågor i formulär

- Resultat från utförda uppgifter (lärmiljöer)

Kvantitativa data

- Tid

- Felfrekvens

- Avvikelse från optimal väg

- Svar på strukturerade frågor i formulär

- Loggat beteende

- Kvantifierade kvalitativa data

Datainsamling

Förenklat kan vi säga att de kvantitativa data vi samlar in är antingen prestationsdata som tid och precision eller attityddata för att mäta dimensionen tillfredsställelse (se sid 105 i J.R. för exempel).

Beroende på resurstillgång kan prestationsdata samlas in samtidigt som utvärderingen pågår eller genom att analysera videoinspelat material efteråt.

Program kan användas som loggar prestationsdata automatiskt och en sammanställning kan fås direkt efter testet.

Deltagarna kan själva generera attityddata under testet om ett webbfrågeformulär integrerats i testversionen.

4

Ofta mäter vi andra variabler än de vi egentligen är ute efter, eftersom de inte är lätta att mäta.

Hur lättlärt är gränssnittet? blir …

”Hur snabbt kan man lära sig utföra uppgiften x?” eller…

“Hur fort gör man uppgiften andra gången?”

Problemspecificering

Tumregler: 1.  Formulera problemet som en fråga.

2.  Uttryck problemet som en relation mellan två eller flera begrepp (variabler).

3.  Gör begreppen klara och entydiga (väldefinierade).

4.  Formulera problemet så att de går att undersöka eller t.o.m mäta (operationalisering).

Uppfyller frågeställningen följande krav?

Är målgruppen specificerad?

Är kontexten d.v.s. situationen specificerad?

Är frågeställningen av en rimlig omfattning?

Är frågeställningen för allmänt hållen, är den tillräckligt specifik?

Är det en känslig frågeställning?

Är det realistiskt att undersöka detta, få tag på deltagare, resursåtgång?

5

Frågeställning

Kvalitativ icke jämförande utvärdering i fält: Hur påverkar haptisk återkoppling grupparbete i skolan mellan synskadade och seende barn då de ska lösa uppgifter i ämnet geometri?

Jämförande utvärdering i labb: Gör ljudåterkoppling att människor som inte ser kan samarbeta snabbare än utan sådan med människor som ser i ett haptiskt och visuellt gränssnitt?

Hypotes: Ljudåterkoppling gör att uppgifter löses snabbare av seende och icke seende människor som samarbetar i ett haptiskt och visuellt gränssnitt.

Giltighet Att mätverktyget som används verkligen ger data/är ett mått på den egenskap vi vill mäta

ex. intelligens, tillfredsställelse, precision, närvarokänsla

Validitet i hur hög grad ett mått ger data som överensstämmer med den gemensamt accepterade innebörden av begreppet.

1. Face validity den bedömning som “experter” gör om ett test verkar mäta ett begrepp eller en variabel.

2. Criterion-related validity baseras på om ett externt kriterium som studieresultat samvarierar med resultatet på högskoleprovet

Giltighet Att mätverktyget som används verkligen ger data/är ett mått på den egenskap vi vill mäta

3. Content validity

I hur hög grad ett mått täcker hela fenomenet.

4. Construct validity

Om alla variabler i ett konstrukt/frågeformulär mäter samma variabel.

6

Pålitlighet Att man får samma resultat varje gång mätverktyget används.

Reliabilitet

slumpmässiga fel (osäkerhet i metodiken) ger dålig precision. Ex. automatisk loggning

Interbedömarreliabilitet

samstämmighet i flera personer bedömningar.

God reliabilitet men dålig validitet ger felaktiga slutsatser vilket är farligare än god validitet men dålig reliabilitet

Typer av kvantitativa data

Skaltyper Nominalskala: antal i olika kategorier, ex man el. kvinna.

Ordinalskala: + kategorierna rangordnade, ex, barn, ungdom, äldre, 5 gradig Likertskala, betyg.

Intervallskala: + ’avståndet’ mellan kategorierna är känt, ex. 20°C, 100°C

Kvotskala: + nollpunkt, ex 20 år ÷ 10 år = 2 _________________________________________________________________

Diskreta data: ex. antal barn, måste vara hela barn

Kontinuerliga data: ex. längd; forskaren konstruerar kategorier. Exaktheten i vad som mäter 1 mm kan finslipas i all oändlighet

Utvärdering utan jämförelsegrupp

Jämföra mot uppsatta kriterier - gällande hur mycket fel man accepterar - eller för hur lång tid interaktionen får ta

Ex.1. ”oerfarna” användare ska klara 75% av uppgifterna vid första försöket och ”experter” ska klara 95%.

Ex.2. jämföra med kända data från utvärdering av tidigare versioner av systemet

Ex.3. om konkurrenten uppgett värden från sina utvärderingar kan man jämföra med dem.

Ex. jämföra mot kända index

7

Korrelationsundersökning

Etnografisk studie

Intervjustudie

…andra typer av undersökningar är

Jämförande utvärdering innebär att

-  man formulerar hypoteser om orsakssamband.

- man påverkar/manipulerar den oberoende variabeln aktivt .

- man jämför en experimentgrupp med en kontrollgrupp/sättning.

- fördelningen mellan experimentgrupp och kontrollgrupp är slumpmässigt gjord från urvalet så att grupperna blir likvärdiga.

- mellangruppsdesign vs. inomgruppsdesign

- man har operationaliserat en el. flera beroende variabler.

- noggrann mätning görs av beroende variabler.

- man kontrollerar störande variabler.

Design av jämförande utvärdering

Vi kan välja mellan två upplägg för att beskriva designen

av den jämförande utvärdering :

Mellangruppsdesign

Inomgruppsdesign

8

Mellangrupp: Vi använder en ny grupp försökspersoner för varje värde på den oberoende variabeln (= behandling).

Inomgrupp: Vi använder samma försökspersoner för varje värde på den oberoende variabeln.

Design av jämförande utvärdering

Grupp Version 1 Version 2

A x

B x

Grupp Version 1 Version 2

A x x

Ett mellangruppsdesign kräver dels fler deltagare än ett inomgrupps-design.

Man kan gärna matchar grupperna mot varandra så att deltagarna har så lika egenskaper som möjligt. Annars får man lita på representativiteten.

Fördelen är att vi kan eliminera inlärningseffekter, där erfarenheten från en behandling påverkar resultaten av en annan behandling.

Ex. med ikoner: Efter att ha sett ikonerna upprepade gånger känner fp igen formerna och identifierar ikonerna utan hänsyn till färgegenskaperna.

Mellangruppsdesign

Medicinska tillämpningar

Experiment på Karolinska

institutet för att undersöka

effekten av simulatorträning

på förmågan att operera på

patient.

Mellangruppsdesign

9

I ett inomgruppsdesign försöker vi minimera inlärningseffekter genom att låta olika personer utsättas för behandlingarna i olika ordning.

Uppgifterna kan inte vara sådana att deltagarna tycker att de redan utfört dem en gång. Lämpligast med väldigt enkla, eller väldigt likvärdiga uppgifter. Klurigt!

Vi väljer slumpmässigt vilka av försökspersonerna som ska få genomgå utvärderingen i vilken ordning.

Varför slumpar vi?

Inomgruppsdesign

Det går inte att visa bilden. Det finns inte tillräckligt med ledigt minne för att kunna öppna bilden eller så är bilden skadad. Starta om datorn och öppna sedan filen igen. Om det röda X:et fortfarande visas måste du kanske ta bort bilden och sedan infoga den igen.

Medicinska tillämpningar

Experiment på Karolinska institutet

visar att haptisk återkoppling gör att

radiologer kan rita in cancertumörer

som ska strålbehandlas signifikant

snabbare.

Inomgruppsdesign

Inlärningseffekter är tydliga också inom en behandling även vid mellangruppsdesign. – försökspersonerna lär sig under utvärderingens gång.

Olika inlärningstakt ger olika effekt.

Man bör försöka minimera detta genom att t ex ha en övningssession först där försökspersonerna får träna upp sig till en förbestämd skicklighetsnivå.

Inlärningseffekt mellangruppsdesign

10

Samarbete i haptiska gränssnitt

Sallnäs, Rassmus-Gröhn, & Sjöström Moen, Sallnäs, Zhai Flyg, Eklundh, Bjerstedt-Blom, Sallnäs

Grundläggande studier om haptikens effekter på samarbete.

Haptisk återkoppling gör att seende människor utför uppgifter med högre precision och i vissa fall snabbare.

De upplever att de presterar bättre, att deras närvaro i den medierade miljön ökar samt i vissa fall att den sociala närvarokänslan ökar.

Mellangruppsdesign Inomgruppsdesign Think aloud 2 deltagare

Vi vill att vårt experiment ska vara så känsligt som möjligt;

-  detta gör vi genom att mäta under förhållanden som kan antas maximera utslaget i den beroende variabeln/måttet

-  minimera oönskade variationer mellan försökspersonerna

-  och använda så många försökspersoner som möjligt.

Öka den jämförande utvärderingens känslighet

När vi genomför utvärderingen kontrollerar vi alla variabler vi kan,

vi minimerar utomstående störningar,

vi ser till att alla har likvärdig belysning, sitter bekvämt etc.

Vi förklarar uppgifterna från ett förberett manus så att vi vet att alla försökspersoner har fått samma instruktioner.

Kontroll vid utvärdering

11

Vi kan mycket väl introducera egna störningar, om detta är en av våra oberoende variabler.

Men de ska då naturligtvis vara lika för varje försöksperson.

Om störningar förekommer i miljön ska dessa också förekomma vid samtliga tillfällen.

Likadana förutsättningar

Utanförliggande variabler confounding variables

Det kan vara så att det föreligger en systematisk skillnad,

som vi inte har mätt, mellan jämförelsegrupperna och att det är

denna skillnad istället för vår oberoende variabel som orsakar

utslaget i beroende variabel.

Utanförliggande variabler

Yttre Skillnader i testmiljön påverkar Testadministratör Testlokalen Olika årstid vid test Deltagare i studien försvinner, byter jobb osv Händelser i samhället, flygolyckor osv

Inre Ålder, kön, utbildning…

12

Kontrollera inre confounding variables

Homogen fördelning variabeln hålls konstant ex. alla samma ålder

Blockning utanförliggande variabeln som oberoende variabel ex. tar med ålder som variabel i analysen

Matchning man ser till att fp liknar varandra parvis i grupperna ex. ålder kön kognitiv förmåga

Upprepad mätning undersöka samma individ flera gånger, inomgruppsdesign

Rekrytera deltagare

Utforma ett frågeformulär för att få rätt urval av deltagare.

Utgå ifrån målgruppens profil när frågorna formuleras.

Börja rekrytera deltagare tidigt.

Formulera ett informationsblad som ni kan ge till deltagare när ni frågar dem om de vill medverka. kortfattat syfte,

tidsåtgång, plats,

etiska hänssynstaganden.

Urval

Populationen

De man studerar är oftast ett mer eller mindre representativt urval ur en population (alla i en grupp, ex. hela landets befolkning).

Urval

13

Sannolikhetsurval

Vid experiment är slumpmässigt urval ett krav.

•  Slumpmässigt urval Man har en förteckning på alla människor som ingår i populationen + förteckningar med slumpmässiga siffror, man väljer sedan de personer som motsvarar siffran. ;0) Man kan också dra ihopvikta lappar med namn ur en hatt

•  Slumpmässigt stratifierat urval Först delar man upp populationen i strata (ålders/inkomts/yrkesgrupper), sedan gör man ett slumpmässigt urval ur varje strata

Sannolikhetsurval

•  Klusterurval Först delar man upp populationen i kluster (städer, skolor, sjukhus) och sedan tar man ett kluster som man tror är representativt för hela populationen.

•  Systematiskt urval Man väljer ett urvalsintervall tex var tionde person. Sedan väljer man var tionde person från listan av alla människor som ingår i populationen

Icke sannolikhetsurval

Om man inte har resurser eller praktiska möjligheter att göra ett slumpmässigt urval ur hela populationen.

•  Bekvämlighets-/ tillfällighetsurval

Man väljer ’första bästa’.

•  Snöbollsurval

Man får en kontakt som ger nya kontakter.

14

Icke sannolikhetsurval

•  Kvoturval/proportionellt stratifierat

Man delar först upp populationen i strata, sedan gör man ett bekvämlighetsurval inom varje strata.

•  Subjektivt / ändamålsenligt

Man överger kravet på representativitet och väljer en speciell strategi tex så många olika människor som möjligt eller en känd grupp användare.

Urvalsstorlek

Större urval ger större precision, minst 5 personer i varje cell.

Absoluta storleken på urvalet är avgörande, inte andelen av populationen.

Många klassificeringar/variabler kräver större antal.

Uppskatta bortfallet.

Uppskatta hur mycket resurser projektet har.

Bra princip: enkelhet

Urvalsenkät -  Delas ut vid rekrytering eller innan test

-  Efter test analyseras resultatet i relation till bakgrundsvariablerna

-  Extremvärden kan ibland förklaras av ex. olika ålder eller vana vid att använda det testade systemet

Är en intressant användbarhets- aspekt i sig

15

Information & samtycke

Försöksledaren ger information om testet, syfte, tid & delmoment

Information om etiska principer som följs vid testet

Ev. krävs samtyckesformulär

Testutförandet

Ev. utförs ett test på försöksdeltagarens förmåga i något avseende innan utvärderingen. Ex. spatial el. verbal förmåga, djupseende…

Ev. tränar först försöksdeltagaren på att använda någon del i systemet innan testuppgiften delas ut.

Individer el. små grupper utför ett antal uppgifter som täcker ett antal funktioner.

Varje uppgift ges till deltagarna en och en på var sitt papper och läses även upp.

Utformning av testmaterial

Uppgift inte samma sak som aktivitet!

Materialet måste testas. Test på er själva, sen kompisar, sen gör ni pilottest på användare från målgruppen.

Tänk på språket: Ställer du en eller flera frågor med samma mening? Flertydighet?

Artefakten testas – inte deltagaren. Meddela det samt fundera över hur detta påverkar utformningen av testmaterialet.

16

Dokumentering och avslut

Allt som sker dokumenteras med videokameror el. loggas för senare analys.

Försöksdeltagaren fyller i ett formulär som mäter t.ex. tillfredsställelse. Detta formulär kan fyllas i flera ggr beroende på design.

Försöksdeltagaren intervjuas efter utvärderingen om tid finns el. som alternativ till formulär.

Försöksledaren tackar för deltagandet, ger avslutande information till försöksdeltagaren och svarar på frågor om utvärderingen.

Att utforma frågeformulär

Långa formulär avskräcker -  Ställ bara nödvändiga frågor

Snygg layout, luftigt

Gärna enkelsidigt

Testa formuleringarnas begriplighet

Tydlig och tillräcklig plats för svaren

Instruktioner om hur formuläret ska besvaras

Olika typer av frågor

FASTA Förutbestämda svarskategorier ’Enkelt’ att svara … men få nyanser, frustrerande för deltagaren Enhetlig form, lätt att analysera Ger kvantitativa data Man kan skapa ett frågebatteri som mäter en sak.

ÖPPNA Respondenter formulerar själv ett rikt svar Mer ansträngande för deltagaren att besvara Mer tidsödande kodning & analys Ger kvalitativ data …. som kan kvantifieras genom kategorisering

17

Att formulera frågorna

Klara och korta frågor

Förklara vid behov: Nu kommer frågor om …

Ej tvetydiga formuleringar som kan missförstås

Ge tillräckligt många svarsalternativ, inte jämnt antal svarsalternativ

Frågor lämpade för målgruppen

Ämnet ska vara relevant för målgruppen

Ej frågor som avslöjar intervjuarens värderingar.

Ej ledande frågor

-Tänk på att frågor påverkar varandra, ordningen spelar roll

Att formulera frågor

Aldrig två frågor i en fråga Ex. vad tycker du om tentor och hemtentor?

Ej hypotetiska frågor Ex. vad skulle du göra om du vann en miljon?

Inte överlappande frågor

Undvik frågor som lätt besvaras med ja eller nej Ex. tycker du om glass?

Undvik allt fikonspråk Ex. tycker du att interaktionen med datorn var intuitiv?

Lagom många frågor för tillgänglig tid samt anpassat till intervjuform

Inte känsliga frågor utan välgrundad anledning

Inte frågor som inte handlar om uppgett frågeområde

Testade frågeformulär

Det finns frågeformulär som testats för att fungera vid utvärdering av olika typer av gränssnitt.

http://www.stcsig.org/usability/topics/measurement.html

WAMMI

http://www.ucc.ie/hfrg/questionnaires/wammi/

SUMI

http://sumi.ucc.ie/whatis.html

18

Utvärderingsmetoder inom MDI DH2408

Kvantitativ metod

Eva-Lotta Sallnäs Ph.D. CSC, Kungliga Tekniska Högskolan [email protected]

Documents

Utvärderingsmetoder inom MDI DH2408 · Vi använder en ny grupp försökspersoner för varje värde på den oberoende variabeln (= behandling). Inomgrupp: Vi använder samma försökspersoner