Upload
holden
View
46
Download
0
Embed Size (px)
DESCRIPTION
Automatisk gjenkjenning av vanskelige navn. Janne Bondi Johannessen, Universitetet i Oslo Paul Meurer, Universitetet i Bergen. Arbeidet inngår i to pågående prosjekter:. Oslo-Bergen-taggeren (forbedring og videreutvikling) - PowerPoint PPT Presentation
Citation preview
Automatisk gjenkjenning av vanskelige navn Janne Bondi Johannessen,
Universitetet i Oslo Paul Meurer,
Universitetet i Bergen
Arbeidet inngår i to pågående prosjekter: Oslo-Bergen-taggeren (forbedring
og videreutvikling)
Nomen Nescio - En navnegjenkjenner for norsk, svensk og dansk (Samarbeid mellom UiO,UiB, GU, CST og Syddansk
Universitet)
Innhold Nomen Nescio Gjenkjenning av lette navn Gjenkjenning av vanskelige navn
Gjenkjenning av navn som består av fraser
Dokumentbaseringsmetoden Navn først i setningen Kortversjoner av navn
Implementeringi taggeren
Nomen Nescio Mål: Sette riktig navnekategori på
navn i løpende tekst Navnekategorier: Person, sted,
organisasjon, hendelse, verk, ting Måter:
Regelbasert metode (Andra Björk Jonsdottir)
Statistisk metode: (Åsne Haaland)
Navns flertydighet (i): Navnehomonymi: Arthur Andersen, Jens Evensen,
(person- eller firmanavn?) Bondi, Asker, Guriby, Hanevold
(person- eller stedsnavn?) Odin
(Guds- eller firmanavn?)
Navns flertydighet (ii): Navnepolysemi: Aftenposten (ting,
verk, firma eller sted?) Jeg kastet Aftenposten i søppelkassa. Jeg leste i Aftenposten at det er krig i
Afghanistan. Jeg kjenner en som jobber i
Aftenposten. Jeg går forbi Aftenposten hver dag.
Gjenkjenning av lette navn:
I dag snør det. Snø er kaldt. Bjørn liker ikke snø. Kvist er det mye av t.v. Berg og fjell er typisk norsk. T.v. står Berg.
Oslo-Bergen-taggeren har gjettet riktig med ett unntak:
"<I"<I>" "i" prep "<Snø>" "snø" subst mask appell ub ent "<Bjørn>" "Bjørn" subst mask prop "bjørn" subst mask appell ub ent "<Kvist>" "kvist" subst mask appell ub ent "<Berg>" "Berg" subst prop "<T.v.>" "t.v." fork adv prep+subst @adv "<Berg>" "Berg" subst prop
Gjenkjenning av vanskelige navn: Navn som består av fraser: Navn som er nominalfraser - bare første bokstav er stor: a. Den norske stat b. Institutt for lingvistiske fag c. Direktoratet for naturforvaltning d. Det historisk-filosofiske fakultet
Navn som er nominalfraser - ett av leddene er et egennavn med stor bokstav:
a. Mjær ungdomsskole b. Gjerdrum likningskontor og folkeregister c. Hungerholt gruppebolig d. Universitetet i Oslo e. Sentralsykehuset i Akershus
Navn som er nominalfraser - uforutsigbare store forbokstaver:
a. Karihaugen Lakk og Karosseri b. Rens På Timen c. Den norske Kirken d. Kvebek Bygg og Fornyelse A/S
Navnemønstrene som regulære uttrykk (i) Bestemte krav til rekkefølge, morfosyntaktisk kategori,
og leksem: Universitetet i Bergen:
Substantiv i bestemt form og stor bokstav - "i" - Egennavn
Den store oktoberrevolusjonen: Determinativ med stor bokstav - (adjektiv(er)) - substantiv
Store Norske kullkompani: ((Adjektiv)er med stor bokstav) - substantiv
Navnemønstrene som regulære uttrykk (ii) Tåsen barnehage, Tåsen senter- og
periferibarnehage, Bærum herredsrett: Egennavn - (Adjektiv(er)) - (substantiv - "og")
- "*barnehage", "*råd", "*kontor", "*rett"...,
Anne Grete Jensen: Egennavn - (Egennavn(pl))
Bærum Ved og Brensel A/S: Egennavn - Egennavn - "og" - Substantiv med
stor bokstav - ("A/S", "AS")
Dokumentbaseringsmetoden McDonald (1996) Mikheev et al (1999, 2000…)
Gjenkjenning av frasenavn først i setningen
Hvordan vite hva som er navn?
Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende.
Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. Kanskje hun skulle melde seg inn i Den norske kirke?
Gjenkjenning av kortversjoner av frasenavn Den norske Lægeforening
Lægeforeningen De store oktoberrevolusjonen
Oktoberrevolusjonen Store Norske Kullkompani
Kullkompaniet Norsk sykepleierforbund
Sykepleierforbundet
Konteksten hjelper
Petra er medlem i Den norske Lægeforening. Hun vil gjerne melde seg ut. Lægeforeningen gjør ikke nok for de svakeste i samfunnet.
Prøvetekst
"Her er Gjerdrum likningskontor. Likningskontoret ligger rett ved Universitetet i Oslo. Rens På Timen er også i nærheten. Jeg liker Rens På Timen. Den norske lægeforening har mange medlemmer. Men Lægeforeningen er ikke så aktiv. Jeg synes Den norske lægeforening snart bør bli mer aktiv."
Web-grensesnitt
.
Resultat 1:
"<Gjerdrum likningskontor>" "Gjerdrum likningskontor" subst noeyt prop "<Likningskontoret>" "likningskontor" subst noeyt prop be ent "<Universitetet i Oslo>" "Universitetet i Oslo" subst prop "<Rens Rå Timen>" "Rens Rå Timen" subst prop "<Rens På Timen>" "Rens På Timen" subst prop
Resultat 2:
"<Den norske lægeforening>" "Den norske lægeforening" subst prop
"<Lægeforeningen>” "Lægeforeningen" subst prop
"<Den norske lægeforening>” "Den norske lægeforening" subst prop
What This Means Add a strong statement that
summarizes how you feel or think about this topic
Summarize key points you want your audience to remember
Next Steps Summarize any actions required of
your audience Summarize any follow up action
items required of you