Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Corpus methods in linguistics and NLP:Introduktion till sökverktyget Korp
UNIVERSITY OF
GOTHENBURG
Richard Johansson
November 11, 2015
-20pt
UNIVERSITY OF
GOTHENBURG
dagens presentation
I sökverktyget Korp
I Språkbankens korpusar: vilka �nns och hur är de annoterade
I er uppgift
-20pt
UNIVERSITY OF
GOTHENBURG
sökverktyget Korp: inledning
I Språkbankens korpusar söks med hjälp av verktyget Korp
I Korp �nns på http://spraakbanken.gu.se/korp
I användarhandledning http://spraakbanken.gu.se/swe/forskning/
infrastruktur/korp/anvandarhandledning
-20pt
UNIVERSITY OF
GOTHENBURG
Korps uppbyggnad
I Korp är ett webbaserat sökverktyg som kommunicerar med ett
serverprogram (webbtjänst) på Språkbanken
I du kan också själv utveckla egna program som använder Korpswebtjänst
I http://spraakbanken.gu.se/eng/research/
infrastructure/korp/ws
I Korp bygger på ett underliggande verktyg, Corpus Workbench,
utvecklat vid universitetet i Stuttgart:
http://cwb.sourceforge.net/
-20pt
UNIVERSITY OF
GOTHENBURG
Korps uppbyggnad
-20pt
UNIVERSITY OF
GOTHENBURG
sökningar i Korp
I enkel sökning på enskilda ord
I utökad sökning med mer komplexa kriterier (gra�skt)
I avancerad sökning med sökspråket CQP
-20pt
UNIVERSITY OF
GOTHENBURG
enkla sökningar i Korp
I sökning på enskilt ord
I sökning på grundform
I välj korpusar att söka i
I tips: om det går väldigt långsamt, välj ett mindre antal
korpusar
I resultat�ikar: KWIC, statistik, ordbild
-20pt
UNIVERSITY OF
GOTHENBURG
statistik
I sammanställning och rangordning
I exportera
-20pt
UNIVERSITY OF
GOTHENBURG
korpusar i Språkbanken
http://spraakbanken.gu.se/swe/resurser/corpus
I modern dagstidningstext: GP, DN, . . .
I modern romantext: Bonniers, Norstedts, . . .
I populärvetenskap: Läkartidningen, F&F, . . .
I sociala medier: bloggar, twitter
I 1800-talslitteratur: Litteraturbanken, tidnngar
I medeltida text (fornsvenska)
I parallella korpusar
I inlärarkorpusar
I ... och en hel rad andra
Nedladdningsbart: http://spraakbanken.gu.se/eng/node/1587
-20pt
UNIVERSITY OF
GOTHENBURG
exempel: bloggkorpusar
-20pt
UNIVERSITY OF
GOTHENBURG
utökade sökningar i Korp
I sök på ordattribut
I kombination av villkor: och, eller
I sökning på en kombination
I samma resultat�ikar: KWIC, statistik, ordbild
-20pt
UNIVERSITY OF
GOTHENBURG
exempel
I verb som följs av �Göteborg�?
I vanligaste substantiv i partiprogrammen inför valet 2002?
-20pt
UNIVERSITY OF
GOTHENBURG
ordattribut
I ordet i sig
I grundform
I ordklass, t.ex. �verb�
I formbeskrivning (msd), t.ex. �verb presens aktiv�
I förled och efterled i sammansättning
I . . .
-20pt
UNIVERSITY OF
GOTHENBURG
textattribut
I textattributen beror på vilken korpus vi använder.
I exempel GP 2012:I avdelning i GPI författarnamnI datum
I exempel Strindbergs brev:I författarnamnI mottagarnamnI årI band i brevsamlingenI . . .
I exempel bloggkorpusar:I författarens namn, ålder, hemort, . . .I bloggens teman
-20pt
UNIVERSITY OF
GOTHENBURG
varifrån kommer annoteringen?
I korpusar och dokument är givna (eller manuellt indelade)
I texterna är antingen elektroniska i ursprungsformen (t.ex. GP)
eller digitaliserade (ibland med OCR)
I i de �esta fall automatiskt indelade i ord och meningar
I i de �esta fall automatiskt lingvistiskt analyseradeI förutom manuellt annoterade korpusar som SUC och Talbanken
-20pt
UNIVERSITY OF
GOTHENBURG
begränsningar i Korp
I begränsade möjligheter för t.ex. syntaktisk sökning, i
jämförelse med TIGERSearch
I t.ex. �vilka objekt är vanligast för verbet köpa�?
-20pt
UNIVERSITY OF
GOTHENBURG
äldre texter
I vi har korpusar från många olika tidsperioder, från
landskapslagar till nutid
I exempel på samlingar från äldre perioder:I lag och rätt, t.ex. landskapslagar, TänkeböckernaI tidningstext från 1700- och 1800-taletI biblarI äldre romaner
-20pt
UNIVERSITY OF
GOTHENBURG
exempel: Tänkeböckerna (under Lagrummet)
-20pt
UNIVERSITY OF
GOTHENBURG
exempel: �Kubhist�
-20pt
UNIVERSITY OF
GOTHENBURG
trenddiagram: exempel på en neologism
I välj �visa trenddiagram� under statistik�iken
-20pt
UNIVERSITY OF
GOTHENBURG
exempel på variation pga historiska omständigheter
-20pt
UNIVERSITY OF
GOTHENBURG
avancerad sökning: sökspråket CQP
I prova att växla mellan utökad och avancerad!
I [(word = "köttbulle") & (pos = "NN")] [(pos = "VB")]
I [((word = "köttbulle" | word = "hamburgare"))] [(pos = "VB")]
http://cwb.sourceforge.net/documentation.php
-20pt
UNIVERSITY OF
GOTHENBURG
uppgiften
-20pt
UNIVERSITY OF
GOTHENBURG
metodologiska förmaningar
I är urvalet �representativt�?
I hur operationaliserar jag mitt problem � vilka förenklingar var
jag tvungen att göra?
I är mina data pålitliga?