24
UNIVERSITY OF GOTHENBURG

Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

Corpus methods in linguistics and NLP:Introduktion till sökverktyget Korp

UNIVERSITY OF

GOTHENBURG

Richard Johansson

November 11, 2015

Page 2: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

dagens presentation

I sökverktyget Korp

I Språkbankens korpusar: vilka �nns och hur är de annoterade

I er uppgift

Page 3: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

sökverktyget Korp: inledning

I Språkbankens korpusar söks med hjälp av verktyget Korp

I Korp �nns på http://spraakbanken.gu.se/korp

I användarhandledning http://spraakbanken.gu.se/swe/forskning/

infrastruktur/korp/anvandarhandledning

Page 4: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

Korps uppbyggnad

I Korp är ett webbaserat sökverktyg som kommunicerar med ett

serverprogram (webbtjänst) på Språkbanken

I du kan också själv utveckla egna program som använder Korpswebtjänst

I http://spraakbanken.gu.se/eng/research/

infrastructure/korp/ws

I Korp bygger på ett underliggande verktyg, Corpus Workbench,

utvecklat vid universitetet i Stuttgart:

http://cwb.sourceforge.net/

Page 5: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

Korps uppbyggnad

Page 6: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

sökningar i Korp

I enkel sökning på enskilda ord

I utökad sökning med mer komplexa kriterier (gra�skt)

I avancerad sökning med sökspråket CQP

Page 7: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

enkla sökningar i Korp

I sökning på enskilt ord

I sökning på grundform

I välj korpusar att söka i

I tips: om det går väldigt långsamt, välj ett mindre antal

korpusar

I resultat�ikar: KWIC, statistik, ordbild

Page 8: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

statistik

I sammanställning och rangordning

I exportera

Page 9: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

korpusar i Språkbanken

http://spraakbanken.gu.se/swe/resurser/corpus

I modern dagstidningstext: GP, DN, . . .

I modern romantext: Bonniers, Norstedts, . . .

I populärvetenskap: Läkartidningen, F&F, . . .

I sociala medier: bloggar, twitter

I 1800-talslitteratur: Litteraturbanken, tidnngar

I medeltida text (fornsvenska)

I parallella korpusar

I inlärarkorpusar

I ... och en hel rad andra

Nedladdningsbart: http://spraakbanken.gu.se/eng/node/1587

Page 10: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

exempel: bloggkorpusar

Page 11: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

utökade sökningar i Korp

I sök på ordattribut

I kombination av villkor: och, eller

I sökning på en kombination

I samma resultat�ikar: KWIC, statistik, ordbild

Page 12: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

exempel

I verb som följs av �Göteborg�?

I vanligaste substantiv i partiprogrammen inför valet 2002?

Page 13: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

ordattribut

I ordet i sig

I grundform

I ordklass, t.ex. �verb�

I formbeskrivning (msd), t.ex. �verb presens aktiv�

I förled och efterled i sammansättning

I . . .

Page 14: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

textattribut

I textattributen beror på vilken korpus vi använder.

I exempel GP 2012:I avdelning i GPI författarnamnI datum

I exempel Strindbergs brev:I författarnamnI mottagarnamnI årI band i brevsamlingenI . . .

I exempel bloggkorpusar:I författarens namn, ålder, hemort, . . .I bloggens teman

Page 15: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

varifrån kommer annoteringen?

I korpusar och dokument är givna (eller manuellt indelade)

I texterna är antingen elektroniska i ursprungsformen (t.ex. GP)

eller digitaliserade (ibland med OCR)

I i de �esta fall automatiskt indelade i ord och meningar

I i de �esta fall automatiskt lingvistiskt analyseradeI förutom manuellt annoterade korpusar som SUC och Talbanken

Page 16: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

begränsningar i Korp

I begränsade möjligheter för t.ex. syntaktisk sökning, i

jämförelse med TIGERSearch

I t.ex. �vilka objekt är vanligast för verbet köpa�?

Page 17: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

äldre texter

I vi har korpusar från många olika tidsperioder, från

landskapslagar till nutid

I exempel på samlingar från äldre perioder:I lag och rätt, t.ex. landskapslagar, TänkeböckernaI tidningstext från 1700- och 1800-taletI biblarI äldre romaner

Page 18: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

exempel: Tänkeböckerna (under Lagrummet)

Page 19: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

exempel: �Kubhist�

Page 20: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

trenddiagram: exempel på en neologism

I välj �visa trenddiagram� under statistik�iken

Page 21: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

exempel på variation pga historiska omständigheter

Page 22: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

avancerad sökning: sökspråket CQP

I prova att växla mellan utökad och avancerad!

I [(word = "köttbulle") & (pos = "NN")] [(pos = "VB")]

I [((word = "köttbulle" | word = "hamburgare"))] [(pos = "VB")]

http://cwb.sourceforge.net/documentation.php

Page 23: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

uppgiften

Page 24: Corpus methods in linguistics and NLP: Introduktion till ... · I Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken I du kan

-20pt

UNIVERSITY OF

GOTHENBURG

metodologiska förmaningar

I är urvalet �representativt�?

I hur operationaliserar jag mitt problem � vilka förenklingar var

jag tvungen att göra?

I är mina data pålitliga?