Automatisk gjenkjenning av vanskelige navn

Preview:

DESCRIPTION

Automatisk gjenkjenning av vanskelige navn. Janne Bondi Johannessen, Universitetet i Oslo Paul Meurer, Universitetet i Bergen. Arbeidet inngår i to pågående prosjekter:. Oslo-Bergen-taggeren (forbedring og videreutvikling) - PowerPoint PPT Presentation

Citation preview

Automatisk gjenkjenning av vanskelige navn Janne Bondi Johannessen,

Universitetet i Oslo Paul Meurer,

Universitetet i Bergen

Arbeidet inngår i to pågående prosjekter: Oslo-Bergen-taggeren (forbedring

og videreutvikling)

Nomen Nescio - En navnegjenkjenner for norsk, svensk og dansk (Samarbeid mellom UiO,UiB, GU, CST og Syddansk

Universitet)

Innhold Nomen Nescio Gjenkjenning av lette navn Gjenkjenning av vanskelige navn

Gjenkjenning av navn som består av fraser

Dokumentbaseringsmetoden Navn først i setningen Kortversjoner av navn

Implementeringi taggeren

Nomen Nescio Mål: Sette riktig navnekategori på

navn i løpende tekst Navnekategorier: Person, sted,

organisasjon, hendelse, verk, ting Måter:

Regelbasert metode (Andra Björk Jonsdottir)

Statistisk metode: (Åsne Haaland)

Navns flertydighet (i): Navnehomonymi: Arthur Andersen, Jens Evensen,

(person- eller firmanavn?) Bondi, Asker, Guriby, Hanevold

(person- eller stedsnavn?) Odin

(Guds- eller firmanavn?)

Navns flertydighet (ii): Navnepolysemi: Aftenposten (ting,

verk, firma eller sted?) Jeg kastet Aftenposten i søppelkassa. Jeg leste i Aftenposten at det er krig i

Afghanistan. Jeg kjenner en som jobber i

Aftenposten. Jeg går forbi Aftenposten hver dag.

Gjenkjenning av lette navn:

I dag snør det. Snø er kaldt. Bjørn liker ikke snø. Kvist er det mye av t.v. Berg og fjell er typisk norsk. T.v. står Berg.

Oslo-Bergen-taggeren har gjettet riktig med ett unntak:

"<I"<I>" "i" prep "<Snø>" "snø" subst mask appell ub ent "<Bjørn>" "Bjørn" subst mask prop "bjørn" subst mask appell ub ent "<Kvist>" "kvist" subst mask appell ub ent "<Berg>" "Berg" subst prop "<T.v.>" "t.v." fork adv prep+subst @adv "<Berg>" "Berg" subst prop

Gjenkjenning av vanskelige navn: Navn som består av fraser: Navn som er nominalfraser - bare første bokstav er stor: a. Den norske stat b. Institutt for lingvistiske fag c. Direktoratet for naturforvaltning d. Det historisk-filosofiske fakultet

Navn som er nominalfraser - ett av leddene er et egennavn med stor bokstav:

a. Mjær ungdomsskole b. Gjerdrum likningskontor og folkeregister c. Hungerholt gruppebolig d. Universitetet i Oslo e. Sentralsykehuset i Akershus

Navn som er nominalfraser - uforutsigbare store forbokstaver:

a. Karihaugen Lakk og Karosseri b. Rens På Timen c. Den norske Kirken d. Kvebek Bygg og Fornyelse A/S

Navnemønstrene som regulære uttrykk (i) Bestemte krav til rekkefølge, morfosyntaktisk kategori,

og leksem: Universitetet i Bergen:

Substantiv i bestemt form og stor bokstav - "i" - Egennavn

Den store oktoberrevolusjonen: Determinativ med stor bokstav - (adjektiv(er)) - substantiv

Store Norske kullkompani: ((Adjektiv)er med stor bokstav) - substantiv

Navnemønstrene som regulære uttrykk (ii) Tåsen barnehage, Tåsen senter- og

periferibarnehage, Bærum herredsrett: Egennavn - (Adjektiv(er)) - (substantiv - "og")

- "*barnehage", "*råd", "*kontor", "*rett"...,

Anne Grete Jensen: Egennavn - (Egennavn(pl))

Bærum Ved og Brensel A/S: Egennavn - Egennavn - "og" - Substantiv med

stor bokstav - ("A/S", "AS")

Dokumentbaseringsmetoden McDonald (1996) Mikheev et al (1999, 2000…)

Gjenkjenning av frasenavn først i setningen

Hvordan vite hva som er navn?

Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende.

Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. Kanskje hun skulle melde seg inn i Den norske kirke?

Gjenkjenning av kortversjoner av frasenavn Den norske Lægeforening

Lægeforeningen De store oktoberrevolusjonen

Oktoberrevolusjonen Store Norske Kullkompani

Kullkompaniet Norsk sykepleierforbund

Sykepleierforbundet

Konteksten hjelper

Petra er medlem i Den norske Lægeforening. Hun vil gjerne melde seg ut. Lægeforeningen gjør ikke nok for de svakeste i samfunnet.

Prøvetekst

"Her er Gjerdrum likningskontor. Likningskontoret ligger rett ved Universitetet i Oslo. Rens På Timen er også i nærheten. Jeg liker Rens På Timen. Den norske lægeforening har mange medlemmer. Men Lægeforeningen er ikke så aktiv. Jeg synes Den norske lægeforening snart bør bli mer aktiv."

Web-grensesnitt

.

Resultat 1:

"<Gjerdrum likningskontor>" "Gjerdrum likningskontor" subst noeyt prop "<Likningskontoret>" "likningskontor" subst noeyt prop be ent "<Universitetet i Oslo>" "Universitetet i Oslo" subst prop "<Rens Rå Timen>" "Rens Rå Timen" subst prop "<Rens På Timen>" "Rens På Timen" subst prop

Resultat 2:

"<Den norske lægeforening>" "Den norske lægeforening" subst prop

"<Lægeforeningen>” "Lægeforeningen" subst prop

"<Den norske lægeforening>” "Den norske lægeforening" subst prop

What This Means Add a strong statement that

summarizes how you feel or think about this topic

Summarize key points you want your audience to remember

Next Steps Summarize any actions required of

your audience Summarize any follow up action

items required of you

Recommended