41
FST - Torbjörn Lage r, UU 1 Datalingvistiska tillämpningar Maskinöversättning Dialogsystem (ev. talad dialog, ev. multimodal) Textförståelsesystem Informationsextraktion Informationssökning Grammatikkontroll Datorstödd språkinlärning etc.

Datalingvistiska tillämpningar

  • Upload
    iliana

  • View
    62

  • Download
    0

Embed Size (px)

DESCRIPTION

Datalingvistiska tillämpningar. Maskinöversättning Dialogsystem (ev. talad dialog, ev. multimodal) Textförståelsesystem Informationsextraktion Informationssökning Grammatikkontroll Datorstödd språkinlärning etc. Datalingvistiska ‘komponentteknologier’. Analys och generering av tal - PowerPoint PPT Presentation

Citation preview

Page 1: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 1

Datalingvistiska tillämpningarMaskinöversättningDialogsystem (ev. talad dialog, ev. multimodal)TextförståelsesystemInformationsextraktionInformationssökningGrammatikkontrollDatorstödd språkinlärningetc.

Page 2: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 2

Datalingvistiska ‘komponentteknologier’Analys och generering av talOrdklasstaggningMorfologisk analys och genereringSyntaktisk analys (parsning)Semantisk tolkningReferenslösningPlanering och planigenkänningKunskapsrepresentation och inferensetc.

Page 3: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 3

Ordklasstaggning: Exempel 1 He can can a can

He/pron can/aux can/vb a/det can/n

He/{pron} can/{aux,n} can/{vb} a/{det} can/{n,vb}

Page 4: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 4

Ordklasstaggning: Exempel 2 I can light a fire and you can open a can of

beans. Now the can is open and we can eat in the light of the fire.

I/PRP can/__ light/__ a/DT fire/NN and/CC you/PRP can/__ open/__ a/DT can/__ of/IN beans/NNS ./. Now/RB the/DT can/__ is/VBZ open/__ and/CC we/PRP can/__ eat/VB in/IN the/DT light/__ of/IN the/DT fire/NN ./.

Page 5: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 5

Ordklasstaggning: Exempel 2 I can light a fire and you can open a can of

beans. Now the can is open and we can eat in the light of the fire.

I/PRP can/MD light/VB a/DT fire/NN and/CC you/PRP can/MD open/VB a/DT can/NN of/IN beans/NNS ./. Now/RB the/DT can/NN is/VBZ open/JJ and/CC we/PRP can/MD eat/VB in/IN the/DT light/NN of/IN the/DT fire/NN ./.

Page 6: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 6

Olika typer av relevant informationlexikal informationkontextuell information

Page 7: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 7

Varför ordklasstagga?Korpuslingvistisk forskningEtt försteg till

ordbetydelsebestämningEtt försteg till parsning?

Page 8: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 8

Part-of-speech tagging

Processor

Knowledge

Text POS tagged text

Needed:- some strategy for representing the knowledge- some method for acquiring the knowledge- some method of applying the knowledge

Page 9: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 9

Some POS-tagging issuesAccuracySpeedSpace requirementsRobustnessLearning

Processor

Knowledge

Text POS tagged text

Page 10: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 10

Vanliga indelningarTaggningmetoder

regelbaserade statistiska

Inlärningsmetoder 'Supervised learning' 'Unsupervised learning'

Page 11: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 11

Formella verktygFormell logikSannolikhetsteori och statistikAutomatateori och matematisk

lingvistikAlgoritm- och komplexitetsteori

Page 12: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 12

TaggningsmetoderHMM-taggning

statistikbaserad (probabilistisk) 'supervised learning'

Brilltaggning regelbaserad 'supervised learning'

Constraint-Grammar tagging regelbaserad ingen inlärning

Page 13: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 13

Hidden Markov ModellingstatistikbaseradDen modiga ansatsen: "På basis av

en sammanvägning av tillgänglig lexikal och kontextuell information, gissa!

Page 14: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 14

Page 15: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 15

BrilltaggningStrategi: "Gissa först, men ändra sen

om nödvändigt"Enkelt "heuristiskt" lexikonEn sekvens av transformationsregler

betingade på lokal kontext:Regelexempel:

tag:vb>nn <- tag:dt@[-1]

Page 16: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 16

Brilltaggning steg 1I can light a fire and you can open a can of

beans. Now the can is open and we can eat in the light of the fire.

I/PRP can/MD light/JJ a/DT fire/NN and/CC you/PRP can/MD open/JJ a/DT can/MD of/IN beans/NNS ./. Now/RB the/DT can/NN is/VBZ open/JJ and/CC we/PRP can/MD eat/VB in/IN the/DT light/JJ of/IN the/DT fire/NN ./.

Page 17: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 17

Transformation-based taggingRepresentational strategy:

Simple lexica Ordered lists of transformations,

conditioned on (small amounts) of local context

Learning strategy: Transformation-based learning

Page 18: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 18

Transformation-based taggingThree steps:

Lexical look-up Lexical rule application for unknown

words Contextual rule application

Page 19: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 19

Transformation-based tagging

blue

green

red

brown

brown

yellow

blue blue

blue

red

K. Samuel 1998

Page 20: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 20

Lexikon för Brilltaggning

I PRPNow RBa DTand CCbeans NNScan MDeat VBfire NN

in INis VBZlight JJof INopen JJthe DTwe PRPyou PRP. .

Page 21: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 21

'Constraint-Grammar'-taggningRegelbaseradDen försiktiga ansatsen: "Gissa inte!

Eliminera bara det omöjliga!"

Page 22: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 22

Ordklasstaggning: Exempel 2 I can light a fire and you can open a can of beans.

Now the can is open and we can eat in the light of the fire.

I/{PRP} can/{MD,NN} light/{JJ,NN,VB} a/{DT} fire/{NN} and/{CC} you/{PRP} can/{MD,NN} open/{JJ,VB} a/{DT} can/{MD,NN} of/{IN} beans/{NNS} ./{.} Now/{RB} the/{DT} can/{MD,NN} is/{VBZ} open/{JJ,VB} and/{CC} we/{PRP} can/{MD,NN} eat/{VB} in/{IN} the/{DT} light/{JJ,NN,VB} of/{IN} the/{DT} fire/{NN} ./{.}

Page 23: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 23

ProblemAmbiguitetOkända ordOvanliga ordOvanliga kontexter

Page 24: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 24

Assessing the Brill tagger

PARAMETER

Accuracy 96.5%Speed Very fastSpace req. ModerateRobustness RobustLearning Yes

Page 25: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 25

Ordklasstaggning: Några ansatserDen modiga ansatsen: "På basis av

en sammanvägning av tillgänglig information, gissa!

Den försiktiga ansatsen: "Gissa inte! Eliminera bara det omöjliga!"

Den vankelmodiga ansatsen: "Gissa först, men ändra sen om nödvändigt"

Page 26: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 26

Parsning'Klassisk' parsning med

frasstrukturgrammatikYtparsning

Page 27: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 27

En enkel frasstrukturgrammatikFragment

lisa springer lisa skjuter en älg

Grammatiks --> np, vp.

np --> pn.np --> det, n.

vp --> v.vp --> v, np.

pn --> [kalle].pn --> [lisa].

det --> [en].

n --> [älg].

v --> [springer].v --> [skjuter].

Page 28: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 28

Igenkänning och ParsningIgenkänning?- s([lisa,springer],[]).yes?- s([springer,lisa],[]).no

Parsning?- s(Tree,[lisa,springer],[]).Tree = s(np(pn(lisa)),vp(v(springer)))

Page 29: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 29

Parsning

Frasstruktur

Page 30: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 30

Bygga träd i ett argumentGrammatik

s(s(NP,VP)) --> np(NP),vp(VP).

np(np(PN)) --> pn(PN).np(np(DET,N)) --> det(DET),n(N).

vp(vp(V)) --> v(V).vp(vp(V,NP)) --> v(V), np(NP).

pn(pn(lisa)) --> [lisa].

det(det(en)) --> [en].

n(n(älg)) --> [älg].

v(v(går)) --> [går].v(v(skjuter)) --> [skjuter].

Page 31: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 31

Bygga träd i ett argumentParsning?- s(Tree,[lisa,skjuter,en,älg],[]). Tree = s( np( pn(lisa)), vp( v(skjuter), np( det(en), n(älg))))

Page 32: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 32

Parsning med meta-interpretator

s --> np, vp. det --> [en].np --> pn. n --> [älg].np --> det, n. tv --> [skjuter].vp --> v, np. pn --> [lisa].

? - parse(s,[lisa,skjuter,en,älg],[],Tree). Tree = s/(np/pn/lisa,vp/(v/skjuter,np/(det/en,n/älg)))

Page 33: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 33

Parsning med meta-interpretator

parse(A,P0,P,A/Trees) :-(A --> B),parse(B,P0,P,Trees).

parse((B,Bs),P0,P,(Tree,Trees)) :- parse(B,P0,P1,Tree),parse(Bs,P1,P,Trees).

parse([Word],[Word|P],P,Word).

Page 34: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 34

Strukturell ambiguitet

Den gamla damen träffade killen med handväskan

John saw a man in the park with a telescope

Råttan åt upp osten och hunden och katten jagade råttan

Page 35: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 35

Lokal ambiguitet

The old man the boats

The horse raced past the barn fell

Page 36: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 36

Some parsing issuesAccuracySpeedSpace requirementsRobustnessLearning

Processor

Knowledge

Text Parsed text

Page 37: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 37

Problems with traditional parsers Correct lowlevel parses are often rejected

because they do not fit into a global parse -> brittleness

Ambiguity -> indeterminism -> search -> slow parsers

Ambiguity -> sometimes hundreds of thousands of parse trees, and what can we do with these?

Page 38: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 38

Another strategy (Abney) Start with the simplest constructions (’easy-first parsing’)

and be as careful as possible when parsing them -> ’islands of certainty’

’islands of certainty’ -> do not reject these parses even if they do not fit into a global parse -> robustness

When you are almost sure of how to resolve an ambiguity, do it! -> determinism

When you are uncertain of how to resolve an ambiguity, don’t even try! -> ’containment of ambiguity’ -> determinism

determinism -> no search -> speed

Page 39: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 39

Shallow syntax analyses less complete than conventional

parser output identifies some phrasal constituents (e.g. NPs),

without indicating their internal structure and their function in the sentence.

or identifies the functional role of some of the words, such as the main verb, and its direct arguments.

Page 40: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 40

Deterministic bottom-up parsing Adapted from Karttunen 1996:

define NP [(d) a* n+] ;regex NP @-> “[NP” ... “]”

.o. v “[NP” NP “]” @-> “[VP” ... “]” ;

apply down dannvaan[NP dann][VP v [NP aan]]

Note the use of the longest-match operator!

Page 41: Datalingvistiska tillämpningar

FST - Torbjörn Lager, UU 41