Click here to load reader
Upload
zoltan-varju
View
870
Download
1
Embed Size (px)
DESCRIPTION
A novemberi NLP meetup diái
Citation preview
Szekvencialis elemzok: a hunner es a hunchunk
Simon Eszter
MTA Nyelvtudomanyi Intezet
2014. november 27.NLP meetup
Simon Eszter MTA Nyelvtudomanyi Intezet
Szekvencialis elemzok: a hunner es a hunchunk
A fejlesztok
BME MOKK (Media Oktato es Kutato Kozpont)
Recski Gabor, Simon Eszter, Varga Daniel
MTA Nyelvtudomanyi Intezet
A cel
kozolte Wolf Laszlo, az OTP Bank vezerigazgato-helyettese azMTI erdeklodesere
kozolte O OWolf B-NP B-PERLaszlo I-NP E-PER, I-NP Oaz I-NP OOTP I-NP B-ORGBank I-NP E-ORGvezerigazgato-helyettese E-NP Oaz B-NP OMTI I-NP 1-ORGerdeklodesere E-NP O
MTA Nyelvtudomanyi Intezet
HunTag
hunner (Varga & Simon, 2006) → HunTag (Recski & Varga,2009) → Liblinear
felugyelt gepi tanulason alapulo rendszer
sztenderd CoNLL-formatum: tsv, BIE1
Latin-2 bemenet
szabadon felhasznalhato (LGPL)
https://github.com/recski/HunTag/
MTA Nyelvtudomanyi Intezet
Tulajdonnev-felismeres
jegyek
binaris (pl. nagybetuvel kezdodik-e)sztring (pl. karakter n-gramok)lista (pl. benne van-e egy helynevlistaban)
config fajlok a legjobb jegykombinacioval
cımkek: PER, ORG, LOC, MISC
MTA Nyelvtudomanyi Intezet
Sekely szintaktikai elemzes (chunking)
Pelda
[Immar] [negyedik eve] [a Manchester United][a vilag leggazdagabb csapata] [bevetel szerint].
1 minden frazis megtalalasa egy mondatban
2 maximalis NP-k megtalalasa
3 alap NP-k megtalalasa
MTA Nyelvtudomanyi Intezet
Eredmenyek
feladat F (%)
Hu NER 95,48En NER 86,34
Hu chunkingteljes 89,87maxNP 90,28
En metonımiafelismeresloc-coarse 85,20org-coarse 76,70
En szemantikai relaciok 66,33
MTA Nyelvtudomanyi Intezet
Koszonom a figyelmet!
https://github.com/recski/HunTag/
MTA Nyelvtudomanyi Intezet