20
PROSJEKTRAPPORT Universitetet i Oslo Matematisk-naturvitenskapelige fakultet Institutt for informatikk Av: Adrian Haga Fredrik Glendrange Tidemann Telix Tronerud

PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

PROSJEKTRAPPORT

Universitetet i Oslo Matematisk-naturvitenskapelige fakultet

Institutt for informatikk

Av:

Adrian Haga Fredrik Glendrange

Tidemann Telix Tronerud

Page 2: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

PROSJEKTRAPPORT 1. Introduksjon 3 2. Teoretiske rammeverk 4

2.1 Kunstig intelligens 4 2.2 Metodologi 4 2.3 Ubiquitous computing 5

3. Metoder og metodevalg 5 3.1 Litteraturstudie 5 3.2 Spørreundersøkelse 5 3.3 Observasjon 6 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7

3.6.1 Sokkespill - Formdommer 7 3.6.2 Chatbot 8

3.7 Low-Fi prototyping 9 3.7.1 Wizard of Oz 9

4. Prototyper 10 4.1 Hvordan ser Kunstig Intelligens ut? 10 4.2 Materialvalg 11 4.3 Personane Bente og Elias 11 4.4 Teknologi 12 4.5 Prototypene ved prosjektets slutt 13

5. Gjennomføring og analyse 14 5.1 Etiske vurderinger 14 5.2 Pilottester 14 5.3 Systematiske avvik 14 5.4 Validitet 15 5.5 Reliabilitet 15

6. Evaluering 16 6.1 Evaluering av lavoppløselige prototyper 16 6.2 Summativ evaluering 16 6.3 Ekspertevaluering 16 6.4 Vanskeligheter 17 6.5 Ansikt vs form 17

7. Konklusjon 18 7.1 Videre bruksområder for konverserende intelligens 19

8. Referanseliste 20

2

Page 3: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

1. Introduksjon

Connected smartness prosjektet er en del av EU forskningsprosjektet “The People’s Smart Sculpture (PS2) som er et samarbeid mellom 12 prosjektpartnere fra 8 forskjellige land. Prosjektet fokuserer på å stimulere deltakende kultur og større engasjement rundt borgerlig deltakelse i Europeiske byer. Utgangspunktet for prosjektet var veldig bred og diffus samt meget kompleks og var konkretisert til: “How might we re-imagine the positioning and interactions of voice based smart devices in our homes

that goes beyond the notion of robotic attendants?” Oppdragsgiver hadde også to andre punkter han ville at vi skulle rette oss etter, og det var aldersspennet 19 - 25 år og at settingen skulle være “domestic”. Vi brukte en hel del tid på å utforske hvordan vi kunne finne opp interaksjonsformen med stemmebasserte smart enheter i hjemmet, som ikke tok for seg stemmekommandoer eller queries som man til nå har blitt vant med. Etter noen runder med utforskelse av den del initielle konsepter med et tradisjonelt sluttprodukt ikke så langt fra oppgavetekstens ordlyd med bruk av Amazon Alexa og gjennomgang av storyboards med brukere fra målgruppen hadde vi vårt første møte med veileder. Der presenterte vi de ikke fullt så oppsiktsvekkende funnene vi hadde kommet frem til. Vi luftet også følelsen om at vi måtte ha misforstått hva som ble etterspurt. - Skulle vi komme opp med et sluttprodukt som blåste buksene av alle produktene som allerede var på markedet på et semester? Og det ved å endre interaksjonsformen, som fremdeles utelukkende skulle være talebasert? Resultatet av denne første runden ble at om vi ønsket å lage et produkt som for eksempel tok for seg betaling for produkter ved netthandel med å lage en “skill” til Amazons Alexa var dette absolutt en retning vi kunne ta det. MEN - om vi ønsket å utforske de andre tankene vi presenterte som; hva om intelligensen ikke fant seg i å være på ‘dus’ med brukerne, en intelligens som var en aktiv venn og fortrolig eller en som var estetisk utformet og skaffet eieren status på bakgrunn av dette, - men ellers var helt ubrukelig når det kom til reell bruk. Disse konseptene som utfordret holdninger om form, stemme, adressering eller hva en kunstig intelligens i hjemmet egentlig skulle brukes til var noe som kunne være meget aktuelt og interessant for dem. Formålet med prosjektet har derfor ikke hovedsakelig vært å skape et artefakt til utstilling, som skulle selges i en butikk til en bestemt kjøpergruppe eller løse et bestemt behov. Vi utforsket heller eksperimenter som skulle vekke tanker og følelser. Vi ønsket å se på hvordan ulike former av en stemmestyrt AI (Artificial Intelligence) endret hvordan man snakket og interagerte med den. Målet var å eksplorere følelser, tanker og reaksjoner hos mennesker, - i stil med spekulativ design. Med dette konseptet har vi lagd flere ulike prototyper som vi har brukt til å utføre eksperimenter som har vært både lav og høy-oppløselige. De endelige prototypene vi lagde er høyoppløselige tangible gjenstander som skulle representere personligheter en kunne føre en samtale med. - How does physical shape affect the way we interpret and converse with Artificial Intelligence?

3

Page 4: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

1.1 Prosjektgruppen Prosjektgruppen består av Adrian Haga, Tidemann Telix Tronerud og Fredrik Glendrange som alle er på andre året av bachelorstudiet Design, bruk, interaksjon: ved Universitetet i Oslo. Med oss som representant for oppdragsgiver har vi IFIs (Institutt for Informatikk) egen Sumit Pandey. Vi kommer alle fra forskjellig bakgrunn og interessesfærer og da godt samarbeid ofte handler om å være klar over egne og andres mangler for å kunne prøve å utfylle disse på best mulig måte startet vi prosjektet med å kartlegge arbeids personane våre med hjelp av en personlighetstest. Resultatet fra testene satt vi sammen og brukte som en rettesnor for gruppens sammensetning. Til tross for dette er ikke en gruppes suksess og effektivitet, som det kommer frem fra Pentlands forskningsresulater bare en sammensetning av individenes sammensatte ferdigheter og erfaringer. Nøkkelen til suksess beskrives heller av som Pentland som mønstre av “idea flow” (Colvin: 2015). Disse punktene samt mye god sosial interaksjon og støtte ellers rundt prosjektarbeidet, og at arbeidet skulle utføres med fysisk tilstedeværelse har vært punkter vi har forsøkt etter beste evne å ha som leveregel dette semesteret.

2. Teoretiske rammeverk

2.1 Kunstig intelligens

Innenfor verdenen av kunstig intelligens har vi måttet støtte oss mye på eksisterende forskning. Her har bidrag fra Vinyals et al. 2015, Sutskever et al. 2015, Chung et al. 2015, stått sentralt for selve løsningen. Vi har også måttet innhente domenekunnskap i form av grunnkunnskap om de ulike bestanddelene for å kunne anvende denne forskningen i prosjektet, her har publikasjoner gjort av Olah 2015, Kalchbrenner et al. 2015, Gregor et al. 2015 vært viktige bidrag. Målet med prosjektet var ikke i seg selv å bidra med store funn på den tekniske siden, men mer å anvende bestanddeler av eksisterende teknologi for å kunne utforske ulike “formdommer” man har i møte med den.

2.2 Metodologi

Når det kommer til det metodiske feltet har artikkelen skrevet av Aprile el al. 2007 i Interaction Design Primer blitt brukt for å bli kjent med spekulativ og scenario drevet design. Kapittelet omhandler essensielle konsepter og fremgangsmåter. Den har også bidratt med noen syn på forholdet form:funksjon. Metodologien vi har ønsket å utforske og benytte oss av er spekulativ design. Med dette har vi spesielt sett på forskningen til Dunne & Raby, som har skapt et omdømme ved å bruke design som et medium til å stimulere tanker, diskusjon og debatt. De snakker om hvordan emergent teknologi kan skape kulturelle og etiske implikasjoner og prøver å sette lys på hva design faktisk er. Vi har sett på ulike aspekter fra deres arbeid og hentet mye inspirasjon derfra. Spesielt har vi sett på modeller som Robot 3 og 4 fra deres teknologiske drømmer serie. Videre har vi tatt inspirasjon fra artikkelen fra James Auger 2013 Speculative design: crafting the speculation. Her presenterer han metoder og strategier brukt i spekulativ design, mens han beskriver hvordan en kombinasjon av ekstrapoleringer av en emergent teknologi og bruk av teknikker kan bli brukt for å presentere en mulig framtid eller alternativt univers. Et av poengene Auger trekker frem i avhandlingen sin er at aspektene det spekuleres rundt må kunne relateres til av brukeren, hvor han poengterer at suksessen av en spekulasjon er avhengig av at spekulasjonen ikke blir lagt for langt frem i tid, men at det finnes såkalte “perseptuelle broer” mellom dagens verden og den fiktive spekulasjonen.

4

Page 5: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

2.3 Ubiquitous computing

Man kan se en trend de siste årene hvor brukere i større grad benytter seg av mange flere dedikerte og spesialiserte former for datamaskiner. De ulike maskinene har forskjellige aspekter som gjør dem mer egnet for enkelte oppgaver eller brukssituasjoner. En av de nyeste formene for UC er å avlaste de tradisjonelle enhetene med maskiner som interageres med via menneskers prefererte måte å kommunisere seg imellom, stemmen. Passiv computing som dette har sitt fokus på å være sømløs og ikke prangende for en bruker i det hverdagslige liv. I forskningsprosessen har det vært ulike instanser av ubiquitous computing, hvor brukeren interagerer med ulike former med underliggende teknologi.

3. Metoder og metodevalg

3.1 Litteraturstudie

I et forsøk på å skaffe oss domenekunnskap om AI og dens verden gikk vi løs på litteratur forfattet av entusiaster og eksperter med god innsikt i fagområdet. Dette var et veldig verdifull steg som skaffet oss et glimt av eksisterende tanker, utfordringer og spekulasjoner gjort av entusiaster med god innsikt og refleksjon ovenfor emnet. Disse erfaringene og holdningene er naturlig nok ikke direkte overførbart til vårt brukersegment, så dette var enda noe som måtte utforskes og erfares. Litteraturstudien ga oss imidlertid et utmerket startpunkt for å utforske noen av mulighetene i den kunstige intelligensens verden. Vi fant svært lite litteratur som direkte omhandlet problemstillingen vår, så vi ble nødt til å eksperimentere og utforske på bar bakke.

3.2 Spørreundersøkelse

For å få et større innblikk i målgruppens forståelse av AI valgte vi å konstruere og lyse ut en spørreundersøkelse. Denne fokuserte på å anskaffe en generell forståelse av hvor folk sto rundt temaet kunstig intelligens og i tillegg kartlegge statistikk som kunne hjelpe oss i videre deler av prosjektets løp. Etter vi hadde vasket dataen vi mottok, fikk vi dette visualisert slik at vi kunne få en bedre inntrykk av meningene til brukerne. Vi fikk mange kvantitative svar, som ga oss et overordnet inntrykk på hvordan noen i målgruppen forholdt seg til AI. Vi valgte også å ha med tekstbokser der en kunne komme med utfyllende svar. Disse var ikke påkrevd å fylle ut, noe vi gjorde med tanke på å senke terskelen for gjennomføre undersøkelsen, i et håp om at dette ville aggregere flere svar. Vi fikk til tross for dette en god prosentandel som besvarte hele undersøkelsen inkludert den kvalitative delen. Hadde dette vært en undersøkelse der en av undersøkerne var til stede hadde det vært enklere å få samtlige av respondentene til å svare på litt mer kompliserte spørsmål, men på denne måten kunne vi få samlet inn data fra et stort antall respondenter på en meget kort tid. Oppgaveforslaget deffinerte målgruppen for undersøkelsen som 19 til 25 år, og uten noen videre spesifisering utover benyttelse av talestyrte smart enheter er dette en for stor målgruppe for oss å få et representativt resultat. Undersøkelsens 76 deltakere er rekruttert gjennom våre kontaktnett på Facebook noe som også bidrar til at svarene kanskje ikke er helt representative, selv om vi vasket dataen og fjernet alle som var utenfor det alderssegmentet vi utforsket. Deltagelse er selvvalgt, utover det er den eneste myke restriksjonen hvilke grupper og sider på nettsamfunnet undersøkelsen er delt på. Deltakertallet er heller ikke så substansielt tatt i at en kan argumentere for at oversampling kunne være en validerende faktor.

5

Page 6: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

3.3 Observasjon

I ulike situasjoner i designprosessen har vi tatt i bruk observasjon hvor vi har følt det naturlig og i stil med metodologien. Alle observasjonene vi har utført har vært åpne, hvor brukeren er inneforstått med å bli observert med forskning som hensikt. Av denne grunn kan det ha seg at vi får en observasjons bias slik det poengteres i Hawthorne effekten (Lazar et al. 2010 s. 35). Lukket observasjon har dessverre vist seg vanskelig og ikke en holdbar mulighet, da det er vanskelig å finne mange som interagerer med kunstig intelligens i en naturlig setting og helst over lengre tid. Her ville også noen etiske aspekter ha spilt inn. Observasjon har derimot blitt brukt i settinger som da vi først skulle ha brukere til å leke med raspberry pi adaptasjonen av Amazon Echo, samt når brukerne testet den kunstige intelligensen vi har skapt.

3.4 Storyboard

Storyboard ble flittig brukt i løpet av kurset, og har vært utgangspunktet for hele prosjektet. Med hjelp av scenarioer starter en på helt annen ende enn ved tradisjonell design som ofte ser på form eller funksjonen til et spesifikt objekt. Aprile et al.,2007 s.111. Denne metoden tillater en å starte med en historie. Ved hjelp av scenarioer kan vi skape egne detaljerte univers for å kunne ta med brukere inn eksplorere en mulighet. Scenarier blir ofte summert opp med en what if setning. Et eksempel vi eksplorerte tidlig i prosessen var “Hva hvis kunstig intelligens fungerte som en aktiv venn og fortrolig tjener”. “We think of design not as making things but rather as defining scenarios through narration.”

Som designer er det ikke nødvendig at du skaper et filmatisk univers eller prisvinnende skribent for å skape et scenario, her kan du skape tanker hos en bruker ved hjelp av alt fra skisser og prototyper til ferdige produkter for å kunne fortelle en historie.

3.5 Intervjuer

Som en del av innsatsen for å sette oss inn i emnet og våre brukeres syn og holdninger ovenfor dette gjennomførte vi av den grunn ustrukturerte intervjuer. Her ønsket vi å gå mer i dybden på erfaringen deres med stemmebasert AI, som Amazon Echo eller lignende og la dem snakke mer fritt enn vi hadde lagt opp til tidligere. Det å bruke nok en metode for innsamling av data tillater oss også å benytte triangulering som en validerende faktor. Etter samtalen om eksisterende produkter og tjenester rettet vi fokuset mer mot kunstig intelligens som en ny teknologi. Her opplevde vi nok en gang at mange ikke visste hva det skulle bruke det til eller så nytteverdien, “Hva skal jeg med det?” . Flere mente at slik stemmebasert AI er utformet i dag, så er brukergruppen svært liten. Punkter som ble nevnt som grunner for dette var at tjenestene i liten grad var sømløse, responstiden var høy og man ble oftere misforstått enn oppfattet korrekt. “Ring mamma” - *ringer mathilde* Det var også et segment som mente at det å snakke til telefonen sin eller lignende ofte kunne oppfattes som flaut og stigmatiserende. Slik det er i dag var det konsensus om at det er mer effektivt å utføre ting manuelt, man fikk også bedre og mer presis informasjon på den måten.

6

Page 7: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

Figur 1. Bilde av testpersoner i bruk av Echosim “Jeg er 22 år gammel, jeg kan heller søke det opp selv, jeg har ingen interesse av å snakke med en

robot for å finne ut hvor mye klokken er, eller hvordan været ser ut...”

Etter å ha samlet inn data fra ulike kilder, måtte vi kode og tolke resultatene. Inter-coder reliability er et sentralt prinsipp som øker reproduserbarheten og påliteligheten. Det er altså at flere ulike personer utfører samme oppgave. Alle var med på å gjennomføre hver del av eksperimentene, for å øke reliabiliteten. Vi rullerte altså på alle oppgavene der dette var hensiktsmessig. Unntaket fra dette var Oz testene der vi så en klar forbedring på responstid når det var en fast ‘trollmann’.

3.6 Ideer

Etter å ha fått litt kunnskap og data rundt temaet, måtte vi tilspisse oppgaven vi ønsket å gå videre med. Vi brainstormet ulike problemstillinger som vi syntes virket interessante, og skrev fordeler og ulemper på en tavle. Deretter brukte vi en modifisert utgave av planning poker der vi rangere de ulike ideene individuelt før presenterte hva vi hadde kommet frem til og hvordan vi hadde havnet der. Etter at alle hadde lagt frem sine synspunkter itererte vi gjennom prosessen flere ganger til vi nærmet oss en form for konsensus. I fellesskap satt vi oss ned og gjennomførte noen runder med Round-robin brainstorming med mål om å finne ut hvordan vi kunne implementere low-fidelity prototyper i brukertesting og datainnsamling for de ulike vinnende ideene.

3.6.1 Sokkespill - Formdommer

Etter å ha sketsjet opp ulike scenarioer, fant vi en som kunne gi oss et godt kvantitativt grunnlag. Et slags ‘sokke spill’ hvor brukeren skulle matche opp bilder av figurer med sitater og utsagn i to kategorier, en med generelle ‘roller’ som pirat eller prest, og èn del men faktuelle kjente personer. Hva ville være lettest å matche? Ville det være noe forskjell på de forskjellige kategoriene?

7

Page 8: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

Figur 2. Fra ‘Sokkespillet’ hvor brukere matchet sitater med ansikter.

Vi fikk mange gode tilbakemeldinger på spillet, og skapte ulike tanker hos brukerne. Etter å ha testet en del, så vi at det var mye fordommer involvert i svarene som kom frem. Deltakerne matchet sitat med ansikt basert på tidligere opplevelser, eller kunnskap de hadde fra før av. Den første delen av oppgaven, hvor det var generelle karakterer, viste seg å være mye enklere å score høyt på enn på den andre delen. Grunnen er kanskje at de fleste kjenner til og grupperer mennesker ut ifra hvordan de fremstår, setter altså ulike mennesker, i ulike båser. De fleste har dermed en ganske lik oppfatning av hvordan en pirat snakker, eller hvordan en prest oppfører seg. Dette har såklart mye med samfunnet og normer å gjøre, hvor man da blir påvirket til å tenke på en bestemt måte. Disse fordommene kommer klart frem i testresultatene. I den andre delen av testen, var svarene spredt på en helt annen måte. Her så vi tydelige vanskeligheter og ingen av testpersonene fikk alle riktig på første forsøk. “Når jeg tenker på Bill Gates så kan jeg ikke tenke meg at han ville sagt noe som det”, var en av kommentarene når fasiten ble lagt fram. Deltakernes svar viste seg i stor grad å være drevet av a prioriske assosiasjoner, i tillegg til kunnskap om samtidens stereotypier. Når brukerne ikke hadde tilknytning til personen fra før av, viste det seg å være vanskelig å sette riktig utsagn til rett person. Brukerne påpekte at de “kjente personene” kunne ha sagt hva som helst, i motsetning til de generiske karakterene. Dette tyder på et mønster hvor det er vanskelig å bedømme personer hvis man ikke har noe mer informasjon enn et bilde. Brukerne var derimot veldig sikre på noen personer som de hadde forkunnskaper om. “Det her må jo være Sofie Elise, fordi det er noe typisk hun ville ha sagt”. Dette tyder på at det ligger naturlig for mennesker å kategorisere personer ut i fra tidligere inntrykk og opplevelser.

3.6.2 Chatbot

Den første implementasjonen av kunstig intelligens i denne prosessen var en simpel og ikke spesielt intelligent chatbot. For å få en fungerende konverserende chatbot baserte vi oss på netttjenesten api.ai hvor vi enkelt kunne trene boten vår med spesefikke stimuli, eller trene den på en samtale i form av en egengenerert .txt fil. api.ai har implementasjoner mot masse spennende tjenester, men integrasjonen mot Alexa, som var spessifisert i det orginale prosjektforslaget fra oppdragsgiver, var den som

8

Page 9: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

fristet mest. Da vi ikke hadde noen Echo tilgjengelig for dette prosjektet måtte vi igjen ty til en imitasjon. Isteden for Echo Pi som vi hadde brukt tidligere i porsjektfasen fant vi i denne runden echosim.io som er utviklet nettopp for å teste egenutviklede skills. Responstiden var vesentlig forbedret ved bruk av denne løsningen. Problemet viste seg å være at interaksjonen mot simulatoren ikke viste seg å være så sømløs som vi først hadde håpet. Adresseringen av skillset gjorde det klønete å teste på denne måten. Løsningen var å lage et WIMP grensesnitt hvor vi implementerte spørringer mot test verktøyets SDK i JavaScript. Der brukeren måtte samtale med intelligensen tekstuelt.

3.7 Low-Fi prototyping

Det vi kalte “Formdommer”, var den vi endte opp med, ut i fra observasjonene og meningene som ble samlet inn. Med ‘Formdommer’ er målet å undersøke og utfordre de allerede eksisterende formene for kommersiell kunstig intelligens som finnes i dagens samfunn, er det noen meritter til dagens utformelse? Etter vi hadde utarbeidet en litt mer klar retning vi ville dra med prosjektet, hadde vi dermed et ønske om å starte prototypefasen med å skissere en form for problemløsende low-fi løsning som sto opp mot vår ide. Her ble en visjon om prototyper som appellerte til sammenhengen mellom AI og form tatt i betraktning og diskutert. Vi kom omsider frem til en løsning som tok for seg et lydaktivert podie som kunne kobles opp mot en datamaskin. Fordelen med denne tilnærmingen var at vi kunne på enkelt vis fremstille forskjellige korresponderende stemmer og former etter ønske, og at de hørbare elementene med prototypen ble gjemt ut av syne. Materialvalget falt på papp og tekstil da dette enkelt kunne utformes og poleres til mange ulike uttrykksformer. Med dette hadde vi oppnådd et godt utgangspunkt for videre testing og en brukbar low-fi prototype med funksjonaliteter vi trengte for å teste det vi var ute etter.

Figur 4. Low-fi prototyper og notater.

3.7.1 Wizard of Oz

Vi startet testingen av low-fi prototypene med at en pc var koblet opp mot et lite lydkort, høyttaler og mikrofon. Dette endret vi raskt da pilottesting viste at dette skapte bias når man kunne se en ledning som gikk fra prototypen og ut av rommet. Den første runden av tester foregikk på et soverom, hvor Adrian skjulte seg i klesskapet, mens de andre fasiliterte testen. PCen som Adrian satt med, ble koblet opp mot en Bose Soundlink Mini 2, slik at vi slapp alle ledningene og unngikk én form for bias. Vi inviterte deltakere til rommet, uvitende om at Adrian også var der. Ingen vekket mistanke og eksperimentene ble gjennomført med høy grad av suksess.

9

Page 10: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

På grunn av den implementerte talegjenkjenningens begrensede evne til å tolke ord og det nevrale nettverkets mangel på intelligens, ble det ikke utviklet noe intelligens som sto til forventningene til brukerne. Vi hadde kun tilgang til svake komersielle prosessorer og grafikkkort, og dette var aldeles ikke nok til å skape noe som helst banebrytende. Det ble for mangelfullt til å skape en helhetlig og god opplevelse som vi kunne få verdifull informasjon ut fra. Med dette kunne vi ikke utelukkende bruke denne teknologien i testene våre, så vi tok også i bruk høyt raffinert wizard of oz. I denne testfasen hvor deltagerne ble testet uten a priori kunnskap om testformen, gikk vi inn for å få folk til å tro på at vi hadde skapt en genial og banebrytende kunstig intelligens. Dette fungerte utmerket og skapte reaksjoner langt ut over det vi hadde forventet.

Figur 5. Bilder av Wizard of Oz-testing

Videre utførte vi tester med både den selvlagde kunstige intelligensen og med Wizard of Oz. Vi brukte fortsatt Bose, og vi lyttet også til testpersonene via Skype på en mobil som lå på testrommet. Når brukeren spurte om noe, skrev vi manuelt inn tekst på www.acapela-group.com, som er en text-to-speech tjeneste som har et utvalg av norske stemmer. Responstiden var derfor veldig lang for svarene, men de var mye mer gjennomtenkt enn det vår kunstig intelligens noen gang klarte. Når vi testet intelligensen ble derimot brukerne svært lite overrasket og de syntes den generelt svarte med lite kontekstuelle tilbakemeldinger.

4. Prototyper

4.1 Hvordan ser Kunstig Intelligens ut?

Vi hadde på dette tidspunktet funnet mange forventninger til kunstig intelligens og representasjonen av denne, men i hovedsak på et mer simpelt nivå som en firkant eller med en menneskelig representasjon. Utfordringen vi nå sto overfor var hvordan en intelligens skal se ut og hvordan kan vi bygge opp en personalitet rundt denne. For å hjelpe oss i gang med dette spørsmålet inviterte vi brukere til noen runder med workshop. Da det ofte kan være vanskelig for en gruppe å komme i gang med aktiv deltagelse i en slik setting startet vi lett og lekent med et kollaborativ ‘tegne samlebånd’ der alle fikk 30 sekunder på å tegne på skissen før den ble sendt videre til nestemann. Deretter skulle alle presentere intelligensen de satt igjen med og dens tiltenkte ferdigheter.

10

Page 11: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

Dette fungerte som en super oppvarming for gruppen og vi opplevde resultatet som mer spontant og naturlig mens de senere aktivitetene resulterte i mer konservative og gjennomtenkte løsninger. Workshopen skapte mange eksplorerende og overraskende tanker, som ga oss en forståelse om vår forståelse var vesentlig annerledes fra deres. Etter en individuell runde med ‘intelligens skaping’ satt vi opp illustrasjonene mot hverandre og satt igang en tematisk debatt rundt produktene. Hvorfor kunne det tenke seg at for eksempel én bruker illustrerte en gjengivelse av C-3PO fra Star Wars, mens andre illustrerte en hjerne?

4.2 Materialvalg

Med utgangspunkt fra de tidligere workshoppene og undersøkelsene, inspirasjon fra italiensk design, egen barndom og et ønske om å 3D printe løsningen startet vi å skissere og illustrere mulige representasjoner som skisser og deretter tredimensjonale modeller . Dette ga oss de lavoppløselige prototypene, som selvsagt var enkle og raske prototyper for at vi kunne iterere og teste mange ulike former mest effektivt. Vi brukte materialer som papir, papp og stoff, siden de er lette å utforme slik som ønsket. Når det ble bestemt hvilke prototyper vi gikk videre med, så vi spesielt på designprinsippene til

Anthony Dunne og Fiona Raby. Dunne og Raby er kjent som eksperter innen emnet, dermed var det et trygt og godt grunnlag for inspirasjon. De er nytenkende og eksplorative, noe vi også ønsket å inkorporere i vår tankegang. Noe vi så gikk igjen i materialvalgene deres, var eik, akryl og epoxy. Vi valgte å 3D-printe den ene modellen i PLA plast og Tre-filament, for å skape en representasjon som minnet om Dunne & Raby sine modeller. Den andre, mindre høyoppløslige modellen bruke vi fire forskjellige typer PLA-filament, men 3D-printet på samme måte, noe som førte til en fargerik og leken prototype.

4.3 Personane Bente og Elias

For å kunne faktisk snakke med intelligensen vi har implementert må jo artefaktet ha en mulighet til å høre og respondere verbalt. Modellen vår svarer tekstuelt i et terminalvindu, så alt vi trengte for å få verbalisert dette var å få installert en syntetisk TTS med en stemmene vi ønsket i systemet. En av de bedre TTS-ene vi fant var fra Acapela Group som i tillegg hadde et utvalg barnestemmer. Vi skapte først en persona til både Bente og Elias for oss selv. Deretter spilte vi inn et lite tekstutdrag og tok med oss ut til folk for guerrilla testing. Oppgaven testobjektene fikk var i første omgang å koble stemmen opp mot en av 3d modellene vi hadde med, for å beskrive personene. Vi gjorde dette for å få en forståelse av hvilke former brukergruppen følte passet til stemmene og om den helhetlige personen vi hadde skapt stemte overens med de initielle tankene. Brukerne var relativt entydige i tankegangen, og resultatene stemte ganske godt overens med våre antagelser.

Figur 8. Persona av Elias

11

Page 12: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

Figur 9. Persona av Bente

4.4 Teknologi

Intelligensen som er Elias er i sine bestanddeler to relasjonelle neuro nettverk. Et neuro nettverk er en matematisk fremstilling og modell av hvordan en biologisk hjerne fungerer. De to nettverkene er sammensatt etter seq2seq modellen introdusert av Cho et al., 2014 der det ene neuro nettverket tar for seg ett og ett av ordene fra brukeren, og genererer en vektor. Totalvekten av en spørring formulert på to ulike måter vil av den grunn resultere i noe lik sluttsum. Vektoren, altså det som enkoderen anser som grunntanken i spørringen, blir matet inn i det andre neuro nettverket. Det andre nettverket har i oppgave å generere en respons basert på det stimuliet den har mottatt, og det helt uten noen eksplisitt kunnskap om språk i kodebasen. Grunnsteinen i Elias er et open source C++ bibliotek med script språket Lua som heter Torch. Torch er et fantastisk verktøy som benytter seg av CUDA optimalisering og er av den grunn et ypperlig og effektivt rammeverk for maskinlæring og andre parallelle prosesseringer. Elias er trent på et utvalg fiksjonelle samtaler (Cornell Movie Dialogs) hentet fra ulike filmmanus. Datasettet består av over 220 000 replikkvekslinger mellom over 10 000 karaktersett. I tillegg til selve replikkene er det tilhørende et rikt sett metadata som inneholder informasjon om blant annet karakterenes navn, kjønn samt en masse informasjon om filmuniverset de er en del av. Etter litt over en uke med sammenhengende trening har samtlige ord passert gjennom 1000 “gjemte lag” i LSTM cellene, og denne prosessen er gjentatt for 50 epoch. Chung et al., 2015 Et LSTM modul er en celle som er designet for å kunne ta vare på informasjon systemet finner viktig over tid. Det er litt som hukommelsen til et menneske som tillater en å basere seg på empiri og tidligere forståelse for å tilegne seg ny kunnskap. Hadde ikke mennesker hatt en form for ‘LSTM’ hadde vi måtte starte et hvert resonnement helt fra scratch på lik linje med et spedbarn eller litt som en gullfisk. Olah, 2015. Resultatet av all treningen med en Pascal grafikkprosessor er en modell som ligger på en ~4 gigabyte.

12

Page 13: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

Figur 11. Visualisering av Seq2Seq.

4.5 Prototypene ved prosjektets slutt

Elias er en fullt fungerende representasjon og kunstig intelligens. Han er 3D modellert og skrevet ut i PLA plast og består av 5 plastdeler satt sammen og limt til en figur. Figuren er 24 cm høy og har en diameter på 10 cm. Teknologien som ligger bak er to neuro nettverk som er trent og bygger på rammeverket Torch. For å få tale konvertert til tekst har vi implementert en eksisterende stemmegjenkjennings modul. Videre har vi laget et skript i python som fungerer som en pipeline mellom de ulike bestanddelene. For å benytte seg av den sammensatte intelligensen kjører vi python scriptet som gjør de nødvendige kallene til stemmegjenkjennings modulen, så neuro nettet for til slutt bruke den syntetiske TTS-en for å generere en hørbar respons. Alt dette kjører på en bortgjemt maskin som er koblet opp mot en trådløs høyttaler/mikrofon som er lokalisert under prototypen. Dette resulterte i noe som virket som en autonom løsning og som ledet alt fokuset på selve artefaktet og ikke stillaset rundt. Bente ble dermed en større og mer strukturert representasjon som hadde mulighet til å romme alle de ulike komponentene. Bestanddelene av Bente er tilsvarende de av Elias, men bente har også en programmerbar RGB 230v lyspære som animerers etter tale og representerer humør i form av ulike farger og intensiteter. Representasjonen ble derfor designet på en måte som gjorde gjennomlysning mulig. Vi løste dette ved å printe den øvrige delen av konstruksjonen med en hvit PLA som tillot lampens lys til å lyse gjennom og dermed gjenspeile Bentes intensjoner. Bente ble bygget på en ide om en karakter som var en god del mer moden og flat enn Elias. Dette viste seg i samtalen ved at Bente valgte en mer informativ og konkret tilnærming til hvordan hun ordla seg. Denne informative tilnærmingen tilsier at kan Bente tolkes som en mer intellektuell karakter og gjør at spekteret av ting hun kan svare på blir betraktelig større.

13

Page 14: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

Figur 12. Bilder av de to sluttproduktene Elias og Bente

5. Gjennomføring og analyse

5.1 Etiske vurderinger

Gjennom hele prosessen, fra den helt initielle datainnsamlingen til de summative testene og prosjektslutt, har vi forholdt oss til viktigheten av informerte brukere. Ved hjelp av samtykkeerklæring og en forklaring om forholdene og rettighetene de til enhver tid hadde, hva undersøkelsen hadde som formål, og hvordan dette dokumenteres og at all data ble anonymisert. Testdeltakerne ble også informert om at de til enhver tid kunne kontakte oss eller prosjektveilederen vår med spørsmål eller ønske om å trekke sin deltagelse - selv etter undersøkelsen (Lazar et al. 2010 s. 376). Eventuelle notater ble holdt åpne og vi utelot identifiserende materiale. Bilder og video ble tatt med samtykke.

5.2 Pilottester

Før hver test, gjennomførte vi pilottester, for å forhindre så mange feil som mulig når de reelle testene ble gjennomført med reelle testobjekter. Med dette fikk vi litt mer kontroll på variabler som tid, effektivitet og gjennomførbarhet som ellers ville ha blitt oversett. Dette tok lenger tid, men er helt nødvendig for å slippe informasjon som ellers er irrelevant, og ikke kan brukes i arbeidet. Det er kritisk for både de som utfører testene og testobjektene å vite sentral informasjon som hvor lang tid en test vil ta, hva de blir testet i og hvor det vil foregå. Alt dette finjusterte vi med pilottester.

5.3 Systematiske avvik

Gjennom hele prosjektet har vi vært utsatt for mange instanser hvor bias har vært et aspekt vi måtte ta høyde for. Vi har hele tiden måtte tenke oss om når vi satt opp metodiske eksperimenter, intervjuer og observasjoner. Systematiske feil som har blitt forårsaket av et synspunkt, en idé, partiske eller favoriserte tanker, er alle ettervirkninger av bias. Helt siden prosjektet begynnelse har vi hatt dette i

14

Page 15: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

tankene og forsøkt å minimere bias etter beste evne. Ved gjennomførelsen av de ulike testene gjennom forskningsprosjektet, har vi vært obs på å handle så nøytralt som mulig, og har frastått fra å komme med innspill og innskytinger på hvordan brukeren skal utføre en gitt oppgave. Det har selvfølgelig vært en noen personlige interessekonflikter, et spesielt eksempel var da vi bruke en bekjent til et eksperiment, hvor da brukeren spurte om personlige ting som kun testeren og brukeren hadde til felles. Dette ga skjeve resultater, da det ikke var spørsmålene vi var ute etter å teste. Etter vi hadde transkribert og vasket svarene satt vi dermed med lite brukbar kvalitativ informasjon. Hawthorne effekten var også noe vi måtte ta i betraktning når vi gjennomførte brukertestingene. At deltakerne til enhver tid visste at deres deltagelse i testen ble observert og at deres data skulle bli videre prosessert, kan dette i aller høyeste grad ha en innvirkning på deres atferd (Lazar et al. 2010 s. 35).

5.4 Validitet

Systematiske avvik kan også gå ut over analyseringen av data, da spesielt kvalitativ data da analysen av denne ofte er subjektiv. For å bekjempe denne formen for systematiske avvik har vi individuelt analysert den innhentede kvalitative dataen. Når flere analytikere kommer frem til samme svar, er det større sannsynlighet for at resultatet av analysen har en indre validitet. En kan fremdeles ikke garantere validitet, en synlig faktor for dette er at vi alle har en nær tilknytning til prosjektet som vi samarbeider tett om. Av den grunn kan det være at samtlige blir påvirket av en og samme bias. Når det kommer til ytre og økologisk validitet er dette punkter der vi mener at vi scorer lavere. Likevel er det nok flere sentrale elementer som ville gått igjen i almenheten, men vi er ikke av den oppfatningen at vi har kommet frem til en generaliserbar teori. Oppnåelsen av økologisk validitet har ikke vært noe vi mener er veldig essensielt for å svare på forskningsspørsmålet vårt da brukskonteksten ikke er en påvirkende faktor utover at den er benyttet i en stasjonær setting.

5.5 Reliabilitet

Ser en på prosjektets reliabilitet er nok det en metrikk som scorer lavere. Hadde vi hatt randomisering, og et mer aktivt forhold til utvelgelsen av testsubjekter hadde en kunnet argumentere for en høyere reliabilitet. Vi valgte å teste deltakerne som som vi hadde tilgang på og selv var villig til å delta i brukertesten, derav ble ikke noen spesielle individuelle oppsøkt, en såkalt convenience sampling . Brukergruppen vi har testet er alt fra homogen, og antallet testobjekter er tidvis snevert. Dette gjør at vi har sett på enkelte frivillige deltakeres meninger. Denne biasen kan til en viss grad være med på å redusere reliabiliteten til studie. Hadde testene våre blitt reprodusert av andre er vi av den oppfatningen at disse kunne endt opp med andre resultater. På bakgrunn av kursets kompleksitet og de åpenbare begrensningene på tid å resussjer, så vi på dataene vi fikk inn som reelle nok til prosjektets forstand. Hadde en ønsket en metrikk for å aktivt måle reliabiliteten til de kvalitative testene våre kunne vi implementert Cohens kappa som er en formel som gir en kvantitativ metrik som kan avgjøre om en test er reproduserbar.

15

Page 16: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

6. Evaluering

6.1 Evaluering av lavoppløselige prototyper

Fordelene med en formativ evaluering av en lavoppløst prototype er at terskelen for å kritisere og komme med innspill er lav. Som bruker er en også mer tilbøyelig til å godta mindre ikke relevante feil og fokusere på gjenstandens motiv. Dette resulterer i tilbakemeldinger som i større grad kan benyttes når det til mulige forbedringer. En av elementene som kom tydeligst frem fra den formative evalueringen av testen i punkt 3.6.2 var en følelse av kognitiv dissonans. Test objektenes forventning av funksjon, her i form av gitte responser, samsvarte ikke med den reelle responsen brukeren fikk fra denne chatbot implementasjonen av det som tilsynelatende skulle være Gandhi. Responsen fra gandhi var en blanding av simple konversasjons fraser, og faktiske utsagn fra andre historiske ledere av den ikke fullt så fredelige sorten.

6.2 Summativ evaluering

Undersøkelsen vi gjennomførte med de siste prototypene vi utformet for dette semesteret var å la testobjektene våre interagere med de to ulike formene for AI, mens vi observerte interaksjonen fra naborommet. Handlingsutvekslingen foregikk i kontrollerte omgivelser der den avhengige variabelen var den fysiske representasjonen av intelligensen som ble variert mellom de ulike testene. Faktorer vi var spesielt opptatt av var å se hvordan testerne åpnet samtalen. Var det noen initiell bias fra bruk av lignende gjenstander og hvor langt opp på vanskelighetsgraden spørsmålene til de ulike artefaktene gikk og oppbyggingen av denne over tid. Til slutt hadde vi semistrukturerte intervjuer med enkelte lukkede spørsmål som bidro med kvalitativ data og større bolker av åpne spørsmål der vi tillot testobjektene styre narratviet av samtalen. Videre brukte vi åpen koding for å analysere og trekke ut de større sammenhengene og gjengangere fra de ulike testgruppene for sammenligning. Denne informasjonen ble benyttet for å videreutvikle den induktive teoridannelsen.

6.3 Ekspertevaluering

Vi har fått Sumit Pandey til å bistå med kognitive gjennomganger og heuristiske evalueringer ved alt fra designvalg til prototyper. Ettersom Pandey har tidligere erfaring innen AI og har drevet med prosjekter tidligere, så vi på han som en ekspert innen domenet. Ved å evaluere med han før vi tok designen videre, kunne vi tidligere fastslå eventuelle åpenbare feil ved grensesnittet. Dette viste også sin viktighet før vi gikk videre med brukertestingen. Ekspertevaluering er vanlig i relasjon i brukertesting, og kommer alltid først. Selv om de medvirkende i prototypen nødvendigvis ikke bør involveres i ekspertevalueringen som følge av mulige bias i resultatene (Lazar et al. 2010 s. 256), følte vi mye nytte i en slik øvelse. Før noen at testene følte vi det var hensiktsmessig å gjennomføre en cognitive walkthrough som evalueringsmetode. Der var arbeidsoppgavene å simulere bruk og interaksjon med prototype, noe som ledet til tydeliggjøring av hva som kunne blitt forbedret for å bedre en reell brukersituasjon. Vi fikk i denne sammenhengen en eksperts syn og meninger om prototypen, som vi tok med videre når vi gikk inn i fasen med brukertesting.

16

Page 17: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

6.4 Vanskeligheter

I løpet av hele semesteret har vi kommet i møte med mange utfordringer og vanskelige situasjoner. For å takle disse har vi alltid prøvd å dele opp situasjonen i mindre deler, for så å finne kjernen til problemet. Man må identifisere en løsning, velge den beste, ta aksjon, eksaminere resultatet og til slutt teste om problemet ble løst. En stor utfordring har vært å tenke ut løsninger som kan gi oss verdifull informasjon som setter lys på problemstillingen. Vi har også brukt mye tid og energi på å lage en kunstig intelligens, ettersom det ikke var tillatt med kun wizard of oz i sluttproduktet. Ettersom vi ikke hadde en arbeidsgiver som disponerte noen brukere til oss, tok dette også mye tid. Det var spesielt vanskelig å finne testpersoner, og det ble nok noe forsknings bias i denne prosessen. Grunnen til dette er at vi endte opp med å teste mange brukere som vi fant på universitetet, noen ganske kjente, og mange relativt ukjente. Ettersom noen av de vi testet er ganske likesinnede som oss, påvirket dette kanskje resultatet i den retningen vi ønsket og håpet på, selv om vi ikke gikk aktivt inn for å forårsake dette. Dette kan ha skapt skjevhet i resultatene, men vi håper derimot at dette ble ganske marginalt.

6.5 Ansikt vs form

Vi startet med bilder av to generiske personer fra internett som vi kalte Bente og Elias. Elias er ut ifra det vi tenkte, en energisk gutt som går på barneskolen. Bente er en mer sofistikert mor i 50 årene.

ELIAS BENTE Vi traff bedre med Elias sin form, der var det minst distanse mellom oppfattelsen av form og ansikt. Bente som person ble oppfattet på en annen måte enn bente som form. Form-Bente ble i størst grad oppfattet som et sluttprodukt, noe man gjerne kunne hatt i stua. På grunn av at Bente ble oppfattet som et produkt en kunne kjøpe i butikken ble hun i større grad brukt som et i av nåtidens lignende produkter som Siri, Alexa og Cortana. Elias ble sett på som leken og morsom i begge tilfeller, noe som tyder på at formen til Elias var mer virkelighetsnær og innbydende enn Bente sin. Disse resultatene kunne vi ha forutsett, da det var et klart og entydig flertall på formen til Elias under geriliatesten. Formen til Bente vant også med et flertall, mens dette flertallet ikke var så substansielt at majoriteten valgte akkurat denne formen ovenfor alle de andre formene. Dette tilsier at vi trakk en ugyldig sluttning bassert på testressultatene vi fikk og at testobjektene i større grad slet med å visualisere denne stemmen, eller knytte det opp mot et av de presenterte alternativene.

17

Page 18: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

7. Konklusjon

I løpet av prosjektets durasjon har vi forsøkt å finne ut hvordan utformelsen av en kunstig intelligens kan påvirke måten man interagerer med den. Det viser seg konsistent gjennom de ulike undersøkelsene at majoriteten av de vi undersøkte i alderssegmentet 18 til 25 ikke benyttet seg av de eksisterende former for stemmestyrte smartenheter. Essensen i forklaringen på hvorfor dette var tilfellet kunne i stor grad kokes ned til varianser av at de ikke fikk noen merverdi ut av interaksjonsformen, snarere tvert imot. Det vi ser klart gjennom alle runder med testing er at testobjektene tar med seg sin innlærte ferdigheter fra produkter og tjenester de har benyttet seg av tidligere med lignende interaksjonsform. Fremgangsmåten med en konverserende intelligens ble mottatt med stor entusiasme, og enkelte mente at dette kunne være et aspekt som gjorde at smart enhetene ble brukt i større grad. Grensesnittmetaforen de fleste sitter med fra bruk av andre stemmestyrte tjenester har vist seg vanskelig å bryte, da assosiasjonen til kommandobasert stemmestyring har vært et for sterk og ikke utfordret segment av tale interaksjonen. Dette førte ofte til at første utsagn brukerne testet var en eller annen form for kommando. Ettersom brukerne ble mer komfortable med settingen så vi at interaksjonen ble mer konverserende. Dette skjedde spesielt med den mere innbydende formen som Elias som også hadde et faktisk ansikt som kan ha forårsaket denne forskyvningen. Det ble også notert at grunnet Elias’ lekene karakter appellerte den i større grad til samtale enn den litt mer “kjedelige” Bente. Til tross for at brukernes ‘gamle’ vaner hadde en tendens til å prege startfasen av testene, sitter vi igjen med en indikasjon på at formen har en klar betydning på hvordan mennesker adresserer og konverserer med AI. Når vi satte opp en test av form med en klar kognitiv dissonans så en fort at brukere reagerte, form følger en forventing av funksjon. Ved videre observasjoner fant vi ut at brukerne ble svært overrasket, når noe som så ut til være en ung og liten gutt, svare på komplekse og sofistikerte spørsmål blant annet om samfunnet. Brukerne har forhåndsbestemte tanker og regler om hvordan en liten gutt skal se ut, oppføre seg og kommunisere med andre. Når det man opplever ikke står i stil men tankene, skaper dette forventningsbruddet en reaksjon. De fleste personene reagerte på forskjellige måter, noen med latter, og noen med sinne. Til tross for at brukerne sa at de var spesielt forbløffet over responsen de fikk fra Elias ser en at dette forventningsbruddet ikke skaper en tilstand av dissonans. Dette kan ha en sammenheng med at vi alle har erfart enkelte av den yngre garde med forbløffende kognitive evner. Når testpersonene skulle prøve å beskrive de ulike formenes personlighet, for så å sammenligne svarene med de personane vi skapte, så opplevde vi i hovedsak overensstemmelse. Flertallet mente at Elias er en leken, naturlig og eksplorativ gutt i barneskolealder, mens Bente er en godt voksen, konservativ og polert dame. Gjennom hele prosessen anskaffet vi også informasjon om at brukergruppen ikke nødvendigvis ønsket å kommunisere med et følelsesløst grensesnitt, da et ansikt føltes mye mer naturlig å konversere med. Det mest sentrale av alt, var problemstillingen vi satt tidligere i semesteret, altså om form endrer måten man interagerer med AI på. Ut i fra alle testingen, fant vi ganske tidlig ut at det var forskjeller i talemåten når brukerne interagerte med Elias, fremfor Bente. Siden brukerne reagerte på Elias sin respons, kan man si at deres fordommer var et hovedaspekt i dette. Hvis det hadde vært en bruker som

18

Page 19: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

kun hadde opplevd barn som var ekstremt intelligente, ironiske og spydige, kan det hende at reaksjonene ikke hadde vært like voldsomme. Når vi intervjuet brukerne etter å ha testet de, fikk vi flere tilbakemeldinger på at de faktisk stilte mindre komplekse spørsmål til Elias, enn Bente, siden de forventet at Elias ikke ville svare på de avanserte spørsmålene. Vi så også at kombinasjonen av stemme og utseende spilte en sentral rolle når det kom til forventninger til intelligensen. Vi la merke til at det var en ganske stor forskjell mellom ansikt og form. Det ble også spurt mer personlige og intime spørsmål til ansiktene til Elias og Bente, fremfor formene som vi skapte. Ut ifra disse funnene kan vi trekke sluttningen om at ulik form utgjør en klar forskjell på interaksjon. Det er store sprang mellom de ulike formene og reaksjonene denne variabelen skaper. Vi ønsket å få frem et budskap, skape reaksjoner og finne ut av problemstillingen vår. Vi fant altså ut at folk har like mye fordommer når det kommer til kunstig intelligens, som med mennesker.

7.1 Videre bruksområder for konverserende intelligens

Det er gøy å snakke, altså føre en samtale, med en datamaskin, men er det slik at dette kommer til å være gøy alltid, eller er det på grunn av noen av de samme drivkreftene som lanseringen av Siri dro med seg i 2011? Vi er absolutt tilbøyelige til å tro at enkelte brukergrupper kommer til å omfavne stemme interaksjon som sin hellige gral. Som vi har hørt fra andre grupper som har jobbet mot for eksempel eldre i dette kurset har stemmestyring vært en klar favoritt av praktiske formål, vi har også hørt eksempler om at de eldre gjerne skulle hatt artefaktet til å snakke med dem oftere, da det var godt å bli holdt med selskap. Dette er nok en brukergruppe som vi i fremtiden kunne sett for seg ha en persona i form av en intelligens i hjemmet som kunne bøte på ensomheten enkelte kunne føle. For gruppen vi undersøkte er vi av den oppfattelsen av at de mener at konverserende intelligens er et skritt i riktig retning. Denne gruppen har en helt annen begrunnelse for dette, hvor de ikke ser seg selv benytte seg av intelligensen som en samtalepartner. Det aspektet våre brukere hang seg mest opp i var at en nå kunne gjøre mer presise funn av informasjon gjennom denne interaksjonsformen. Testere som benyttet seg av stemme tjenester i dag mente at grunnen til at de ikke brukte seg av den mer var at den. Oppgaver som å sjekke hvor pakken de nettopp hadde bestilt var eller andre oppgaver som resulterte i korte og konsise svar men som de selv måtte navigere en del rundt for å finne fungerte i dag supert. Mer komplekse oppgaver var uegnet da svaret en fikk fra enheten ofte var veldig stort og at man ikke kunne navigere rundt det å spørre mer spesifikke ting rundt et gitt emne. Når en AI var mer lignende oss i og taklet konversasjoner mente de at det kom til å legge til rette for flere brukssituasjoner og mer bruk av flere.

19

Page 20: PROSJEKTRAPPORT - Universitetet i oslo€¦ · 3.4 Storyboard 6 3.5 Intervjuer 6 3.6 Ideer 7 3.6.1 Sokkespill - Formdomm e r 7 3.6.2 Chatbot 8 3.7 Low-Fi prototyping 9 3.7.1 Wizard

INF2260 Interaksjonsdesign Høst 2016

8. Referanseliste

Jonathan Lazar, Feng, J.H., Harry Hochheiser. 2010 Research methods in human-computer interaction. John Wiley & Sons. Rogers, Y., Sharp, H., & Preece, J. 2015. Interaction Design-beyond human-computer interaction. John Wiley & Sons. Aprile, W., Boland, B., Mirti, S. 2007. Interaction Design Primer (s. 110 -119) https://drive.google.com/file/d/0By6VYS6lJ32YU1BGM3FLRGxCQ3ZLSkN6bzlKR3pkd3JqVmFV/view [Hentet 14 September 2016] James Auger 2013. Speculative design: crafting the speculation http://ellieharmon.com/wp-content/uploads/02-06-Auger_Design-Fictions.pdf [Hentet 15 September 2016] Jennifer Goetz, Sara Kiesler, Aaron Powers. 2003. Matching Robot Appearance and Behavior to Tasks to Improve Human-Robot Cooperation http://www.cs.cmu.edu/afs/cs/Web/People/kiesler/publications/2003pdfs/2003Goetz.PearlRo-Man-v5.2-1.pdf [Hentet 20 November 2016] Geoff Colvin. 2015, What really makes teams work. Tilgjengelig på : http://www.uio.no/studier/emner/matnat/ifi/INF2260/h15/teamwork.pdf [Hentet 20 November 2016] Eva Hornecker. 2015. A Design Theme for Tangible Interaction: Embodied Facilitation Tilgjengelig på: http://www.ehornecker.de/Papers/ecscw05_Hornecker_preprint.pdf [Hentet 27 Oktober 2016] Karol Gregor, Ivo Danihelka, Alex Graves, Danilo Jimenez Rezende, Daan Wierstra. 2015. DRAW: A Recurrent Neural Network For Image Generation. Tilgjengelig på: https://arxiv.org/pdf/1502.04623.pdf. [Hentet 20 November 2016]. Junyoung Chung, Kyle Kastner, Laurent Dinh, Kratarth Goel , Aaron Courville, Yoshua Bengio. 2015. A Recurrent Latent Variable Model for Sequential Data. Tilgjengelig på: https://arxiv.org/pdf/1506.02216v3.pdf. [Hentet 20 November 2016]. Nal Kalchbrenner, Ivo Danihelka, Alex Graves. 2015. Grid Long Short-Term Memory . Tilgjengelig på: https://arxiv.org/pdf/1507.01526v1.pdf. [Hentet 20 November 2016]. Christopher Olah. 2015. Understanding LSTM Networks. Tilgjengelig på: http://colah.github.io/posts/2015-08-Understanding-LSTMs/. [Hentet 20 November 2016]. Oriol Vinyals, Quoc V. Le. 2015. A Neural Conversational Model. Tilgjengelig på: https://arxiv.org/pdf/1506.05869v1.pdf. [Hentet 20 November 2016]. Ilya Sutskever, Oriol Vinyals, Quoc V. Le. 2016. Sequence to Sequence Learning with Neural Networks. Tilgjengelig på: http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf. [Hentet 20 November 2016].

20