46
IN1140: Introduksjon til språkteknologi Forelesning #1 Lilja Øvrelid Universitetet i Oslo 22. august 2019

IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

  • Upload
    others

  • View
    34

  • Download
    0

Embed Size (px)

Citation preview

Page 1: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

IN1140: Introduksjon til Språkteknologi

IN1140: Introduksjon til språkteknologi

Forelesning #1

Lilja Øvrelid

Universitetet i Oslo

22. august 2019

Page 2: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Tema for i dag

I IntroduksjonI Hva er språkteknologi?I Hva er IN1140?I Praktiske detaljer

I GrupperI ObligerI LærebøkerI KontaktI m.m.

2

Page 3: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Screencasting

I Tar opp screencast for hver forelesning (lyd + foiler).I Egen YouTube-kanal:

https://www.youtube.com/channel/UCElIhV-Q-PuAkg2Fb35OMIQ

I Ment som et supplement, for repetisjon.

3

Page 4: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Hei

ForelesereI Samia Touileb ([email protected])I Lilja Øvrelid (liljao)I Fra språkteknologigruppa (LTG)

GruppelærereI Tania-Adelina Bulz (taniaadb)I Annika Willoch Olstad (annikaol)

Tid & stedI Gruppe 1: man. 10:15–12:00, Datastue Limbo.I Gruppe 2: ons. 08:15–10:00, Datastue Limbo.I Forelesninger: tors. 12:15–14:00 i Caml (Ole-Johan Dahls hus / IFI).I NB! Første gruppetime er mandag 2 september

4

Page 5: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Hei

ForelesereI Samia Touileb ([email protected])I Lilja Øvrelid (liljao)I Fra språkteknologigruppa (LTG)

GruppelærereI Tania-Adelina Bulz (taniaadb)I Annika Willoch Olstad (annikaol)

Tid & stedI Gruppe 1: man. 10:15–12:00, Datastue Limbo.I Gruppe 2: ons. 08:15–10:00, Datastue Limbo.I Forelesninger: tors. 12:15–14:00 i Caml (Ole-Johan Dahls hus / IFI).I NB! Første gruppetime er mandag 2 september

4

Page 6: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Hei

ForelesereI Samia Touileb ([email protected])I Lilja Øvrelid (liljao)I Fra språkteknologigruppa (LTG)

GruppelærereI Tania-Adelina Bulz (taniaadb)I Annika Willoch Olstad (annikaol)

Tid & stedI Gruppe 1: man. 10:15–12:00, Datastue Limbo.I Gruppe 2: ons. 08:15–10:00, Datastue Limbo.I Forelesninger: tors. 12:15–14:00 i Caml (Ole-Johan Dahls hus / IFI).I NB! Første gruppetime er mandag 2 september

4

Page 7: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Spørsmål og hjelp

I Gruppetimene: Gruppelærerene er der for å hjelpe og veilede.

I Piazza (diskusjonsforum):https://piazza.com/uio.no/fall2019/in1140/NB! litt ventetid på svar

I in1140-hjelp [at] ifi.uio.no: Felles adresse til fag-/gruppelærere.

5

Page 8: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Beskjeder

I Husk å sjekke UiO-eposten din og beskjedlisten på semestersiden.

I http://www.uio.no/studier/emner/matnat/ifi/IN1140/h19/

6

Page 9: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Hva er språkteknologi?

I Mål: å få datamaskiner til å‘forstå’ naturlige språk.

I Aka:I computational linguistics(datalingvistikk)

I language technologyI language engineeringI natural language processing(NLP)

7

Page 10: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Eksempler på språkteknologi?

8

Page 11: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Eksempler på språkteknologi?

9

Page 12: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Språkteknologi og tverrfaglighet

NLP er et tverrfaglig feltI LingvistikkI InformatikkI StatistikkI MaskinlæringI Logikk, Filosofi, Psykologi, . . .

I Del av det bredere feltet kunstig intelligens (AI).

10

Page 13: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Turingtesten

I Alan Turing i 1950:

I I propose to consider thequestion, ‘Can machinesthink?’

I Definisjonsspørsmål. Skulleavgjøres ved Turingtesten.

11

Page 14: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

IN1140 og tverrfaglighet

I Stoffet vi dekker i IN1140 tar også for seg stoff fra flere ulike felt.I Innføring i lingvistikk,I grunnleggende sannsynlighetsregning,I programmering, ogI språkteknologiske anvendelser.

I Gjør deg godt rustet for flere viderekommende emner, f.eksI IN2110 – Språkteknologiske metoderI IN3050 – Kunstig intelligens og maskinlæringI IN3120 – SøketeknologiI og mange flere!

12

Page 15: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

IN1140 og tverrfaglighet

I Stoffet vi dekker i IN1140 tar også for seg stoff fra flere ulike felt.I Innføring i lingvistikk,I grunnleggende sannsynlighetsregning,I programmering, ogI språkteknologiske anvendelser.

I Gjør deg godt rustet for flere viderekommende emner, f.eksI IN2110 – Språkteknologiske metoderI IN3050 – Kunstig intelligens og maskinlæringI IN3120 – SøketeknologiI og mange flere!

12

Page 16: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Pensumlitteratur

I An Introduction to Languageav Fromkin, Rodman & Hyams

I Utvalgte deler (ca 5 kapitler)

13

Page 17: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Pensumlitteratur

I Speech and Language Processingav Jurafsky & Martin

I Utvalgte deler

I Gratis nettbok:https://web.stanford.edu/

~jurafsky/slp3/

14

Page 18: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Pensumlitteratur

I Natural Language Processingwith Python,av Bird, Klein & Loper

I Oppdatert for Python 3 ogNLTK 3 (Natural LanguageToolkit)

I Utvalgte deler

I Gratis nettbok:http://www.nltk.org/book/

15

Page 19: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Python

I Progammering lærer dere først og fremst i IN1000, ikke IN1140.I Forelesningene i IN1140 kommer til fokusere på teori.I Samtidig ønsker vi å implementere stoffet i praksis, i Python.I Implementasjon blir fokus på gruppene og innleveringene.I Kræsjkurs i Python-programmering på de første gruppetimene.I Viktig med en del egeninnsats i starten for å henge med.

16

Page 20: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Hvorfor er språkforståelse utfordrende?

I Språk er vagt, ulike tolkninger mulig.I Flertydighet overalt.I Gir kompakt kommunikasjon:I Samme uttrykk kan brukes i ulikekontekster.

I Flertydighetene er stort sett usynlige for oss, vi finner den intendertetolkningen nærmest ubevisst.

I For maskiner er det motsatt: lett å finne alle mulige tolkninger, menvanskelig å se hvilken som er riktig.

17

Page 21: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Eksempel: Flertydighet på ordnivåI Norsk: rett.I Engelsk: ?I Flertydig ift betydning + ordklasse (verb, subst., adj., adv.).I Vi trenger kontekst for å avgjøre.

avgrenset av en rett linje tvers over kanalen straightHva er rett svar? correct, right

lovbestemt rett til innsyn rightDenne rett avsa enstemmig dom i saken 4. juli 1980 courtNorsk rett tilpasses EUs regelverk law

Vennligst rett disse prøvene! grade, correctDet bar rett i fengsel directly, straight

De spiste en deilig rett av grønnsaker. meal, dishhan var rett utenfor, rett nå just

Slikt skjer rett som det er. må omskrives

18

Page 22: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Eksempel: Flertydighet på ordnivåI Norsk: rett.I Engelsk: ?I Flertydig ift betydning + ordklasse (verb, subst., adj., adv.).I Vi trenger kontekst for å avgjøre.

avgrenset av en rett linje tvers over kanalen straightHva er rett svar? correct, right

lovbestemt rett til innsyn rightDenne rett avsa enstemmig dom i saken 4. juli 1980 courtNorsk rett tilpasses EUs regelverk law

Vennligst rett disse prøvene! grade, correctDet bar rett i fengsel directly, straight

De spiste en deilig rett av grønnsaker. meal, dishhan var rett utenfor, rett nå just

Slikt skjer rett som det er. må omskrives

18

Page 23: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Eksempel: Flertydighet i referanse

19

Page 24: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Page 25: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Page 26: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Page 27: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Page 28: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Page 29: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Flertydighet på setningsnivå

Jeg spiser sushi med pinner .

Jeg spiser sushi med laks .

20

Page 30: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Språkforståelse er vanskelig!

The main lesson of thirty-five years of AI research is that the hard problemsare easy and the easy problems are hard. The mental abilities of afour-year-old that we take for granted — recognizing a face, lifting apencil, walking across a room, answering a question — in fact solve someof the hardest engineering problems ever conceived. . . As the newgeneration of intelligent devices appears, it will be the stock analysts andpetrochemical engineers and parole board members who are in danger ofbeing replaced by machines. The gardeners, receptionists, and cooks aresecure in their jobs for decades to come.

Steven Pinker, The language instinct

I En robot som bretter et håndkle (videoen er 50 ganger normalhastighet): http://www.youtube.com/watch?v=gy5g33S0Gzo

21

Page 31: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Språkforståelse er vanskelig!

The main lesson of thirty-five years of AI research is that the hard problemsare easy and the easy problems are hard. The mental abilities of afour-year-old that we take for granted — recognizing a face, lifting apencil, walking across a room, answering a question — in fact solve someof the hardest engineering problems ever conceived. . . As the newgeneration of intelligent devices appears, it will be the stock analysts andpetrochemical engineers and parole board members who are in danger ofbeing replaced by machines. The gardeners, receptionists, and cooks aresecure in their jobs for decades to come.

Steven Pinker, The language instinctI En robot som bretter et håndkle (videoen er 50 ganger normalhastighet): http://www.youtube.com/watch?v=gy5g33S0Gzo

21

Page 32: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Entydiggjøring

I Vi mennesker tolker språklige uttrykk basert på delt bakgrunnskunnskapog gjensidige forventninger i en gitt kontekst.

I Språkforståelse handler mye om entydiggjøring.

I Språkteknologi, og IN1140, handler i stor grad om strategier forhvordan maskiner kan takle dette.

22

Page 33: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Språkteknologiske metoder

→ 2000-tallet: manuelt utformede regeler og leksikon

23

Page 34: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Språkteknologiske metoder

→ 2000-tallet: manuelt utformede regeler og leksikon

24

Page 35: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Språkteknologiske metoder

I 2000-tallet →: empirisk revolusjonI Maskinlæring

I Datamaskiner kan lære fra data: fange opp mønstre og generalisere tilnye eksempler

25

Page 36: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Hva kan vi bruke språkteknologi til?

26

Page 37: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Informasjonsekstraksjon

27

Page 38: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Sentiment Analyse

Automatisk analyse av subjektivt språk

28

Page 39: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Medieovervåkning

29

Page 40: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Maskinoversettelse

30

Page 41: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Dialogsystemer

31

Page 42: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Obligatoriske innleveringer

I 3 obliger.I Oblig 1 har to deler (a + b).I Dvs. 4 innleveringer tilsammen: 1a + 1b, 2, 3.I Alle obligene må bestås for å kunne ta eksamen.I Ingen omlevering.

PoengsystemetI Man kan oppnå opptil 100 poeng per innleveringI For å bestå kreves minst 100 poeng (av 200 mulige) for oblig 1(a+b),og 50 poeng (av 100 mulige) for oblig 2 og 3.

I Eksempel:I 37 poeng på 1aI 68 poeng på 1bI = 105 poeng på oblig 2 (= bestått).

32

Page 43: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Mer om obligene

I Absolutte frister:

I Utsettes kun ved egenmelding (opptil 3 dager) eller legeerklæring.

I Kopiering/plagiat godtas ikke. Sett deg inn i reglene.

I Husk at hvis du distribuerer løsningsforslaget ditt på nett (f.eks viaGithub), kan du bidra til juks. Styr unna.

I Benytt deg av gruppeundervisningen, og planlegg tiden din.I Tidsregnskap:

I Arbeidsinnsats (minimum): 37,5 / 3 = 12,5 timerI Etter forelesning+gruppe: 9,5 timer

I Konkurranse: den/de som får flest poeng tilsammen på obligenegjennom semesteret får en premie (overraskelse)!

33

Page 44: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Eksamen

I Skriftlig (digital) eksamen på fire timerI 27 november kl. 14:30

I Pensumlitteratur + forelesningsnotaterI NB! Ikke en programmeringseksamen.I Fokus på teoretiske konsepter.

34

Page 45: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Suksessoppskrift

I Emnesiden: timeplan, pensum, lesehenvisninger, beskjeder etc.I Lesehenvisninger: forbered deg til forelesningI Still spørsmålI Gruppetimer:

I forbered degI delta aktivtI gjør oppgaver (også de ikke-obligatoriske!)

I Benytt deg av medstudentene dine

lese

gråte

forstå

35

Page 46: IN1140: Introduksjon til språkteknologi [3ex] Forelesning #1 · IN1140: Introduksjon til Språkteknologi IN1140: Introduksjon til språkteknologi Forelesning #1 LiljaØvrelid Universitetet

Suksessoppskrift

I Emnesiden: timeplan, pensum, lesehenvisninger, beskjeder etc.I Lesehenvisninger: forbered deg til forelesningI Still spørsmålI Gruppetimer:

I forbered degI delta aktivtI gjør oppgaver (også de ikke-obligatoriske!)

I Benytt deg av medstudentene dine

lese

gråte

forstå

35