22
Automatisk gjenkjenning av vanskelige navn Janne Bondi Johannessen, Universitetet i Oslo Paul Meurer, Universitetet i Bergen

Automatisk gjenkjenning av vanskelige navn

  • Upload
    holden

  • View
    46

  • Download
    0

Embed Size (px)

DESCRIPTION

Automatisk gjenkjenning av vanskelige navn. Janne Bondi Johannessen, Universitetet i Oslo Paul Meurer, Universitetet i Bergen. Arbeidet inngår i to pågående prosjekter:. Oslo-Bergen-taggeren (forbedring og videreutvikling) - PowerPoint PPT Presentation

Citation preview

Page 1: Automatisk gjenkjenning av vanskelige navn

Automatisk gjenkjenning av vanskelige navn Janne Bondi Johannessen,

Universitetet i Oslo Paul Meurer,

Universitetet i Bergen

Page 2: Automatisk gjenkjenning av vanskelige navn

Arbeidet inngår i to pågående prosjekter: Oslo-Bergen-taggeren (forbedring

og videreutvikling)

Nomen Nescio - En navnegjenkjenner for norsk, svensk og dansk (Samarbeid mellom UiO,UiB, GU, CST og Syddansk

Universitet)

Page 3: Automatisk gjenkjenning av vanskelige navn

Innhold Nomen Nescio Gjenkjenning av lette navn Gjenkjenning av vanskelige navn

Gjenkjenning av navn som består av fraser

Dokumentbaseringsmetoden Navn først i setningen Kortversjoner av navn

Implementeringi taggeren

Page 4: Automatisk gjenkjenning av vanskelige navn

Nomen Nescio Mål: Sette riktig navnekategori på

navn i løpende tekst Navnekategorier: Person, sted,

organisasjon, hendelse, verk, ting Måter:

Regelbasert metode (Andra Björk Jonsdottir)

Statistisk metode: (Åsne Haaland)

Page 5: Automatisk gjenkjenning av vanskelige navn

Navns flertydighet (i): Navnehomonymi: Arthur Andersen, Jens Evensen,

(person- eller firmanavn?) Bondi, Asker, Guriby, Hanevold

(person- eller stedsnavn?) Odin

(Guds- eller firmanavn?)

Page 6: Automatisk gjenkjenning av vanskelige navn

Navns flertydighet (ii): Navnepolysemi: Aftenposten (ting,

verk, firma eller sted?) Jeg kastet Aftenposten i søppelkassa. Jeg leste i Aftenposten at det er krig i

Afghanistan. Jeg kjenner en som jobber i

Aftenposten. Jeg går forbi Aftenposten hver dag.

Page 7: Automatisk gjenkjenning av vanskelige navn

Gjenkjenning av lette navn:

I dag snør det. Snø er kaldt. Bjørn liker ikke snø. Kvist er det mye av t.v. Berg og fjell er typisk norsk. T.v. står Berg.

Page 8: Automatisk gjenkjenning av vanskelige navn

Oslo-Bergen-taggeren har gjettet riktig med ett unntak:

"<I"<I>" "i" prep "<Snø>" "snø" subst mask appell ub ent "<Bjørn>" "Bjørn" subst mask prop "bjørn" subst mask appell ub ent "<Kvist>" "kvist" subst mask appell ub ent "<Berg>" "Berg" subst prop "<T.v.>" "t.v." fork adv prep+subst @adv "<Berg>" "Berg" subst prop

Page 9: Automatisk gjenkjenning av vanskelige navn

Gjenkjenning av vanskelige navn: Navn som består av fraser: Navn som er nominalfraser - bare første bokstav er stor: a. Den norske stat b. Institutt for lingvistiske fag c. Direktoratet for naturforvaltning d. Det historisk-filosofiske fakultet

Navn som er nominalfraser - ett av leddene er et egennavn med stor bokstav:

a. Mjær ungdomsskole b. Gjerdrum likningskontor og folkeregister c. Hungerholt gruppebolig d. Universitetet i Oslo e. Sentralsykehuset i Akershus

Page 10: Automatisk gjenkjenning av vanskelige navn

Navn som er nominalfraser - uforutsigbare store forbokstaver:

a. Karihaugen Lakk og Karosseri b. Rens På Timen c. Den norske Kirken d. Kvebek Bygg og Fornyelse A/S

Page 11: Automatisk gjenkjenning av vanskelige navn

Navnemønstrene som regulære uttrykk (i) Bestemte krav til rekkefølge, morfosyntaktisk kategori,

og leksem: Universitetet i Bergen:

Substantiv i bestemt form og stor bokstav - "i" - Egennavn

Den store oktoberrevolusjonen: Determinativ med stor bokstav - (adjektiv(er)) - substantiv

Store Norske kullkompani: ((Adjektiv)er med stor bokstav) - substantiv

Page 12: Automatisk gjenkjenning av vanskelige navn

Navnemønstrene som regulære uttrykk (ii) Tåsen barnehage, Tåsen senter- og

periferibarnehage, Bærum herredsrett: Egennavn - (Adjektiv(er)) - (substantiv - "og")

- "*barnehage", "*råd", "*kontor", "*rett"...,

Anne Grete Jensen: Egennavn - (Egennavn(pl))

Bærum Ved og Brensel A/S: Egennavn - Egennavn - "og" - Substantiv med

stor bokstav - ("A/S", "AS")

Page 13: Automatisk gjenkjenning av vanskelige navn

Dokumentbaseringsmetoden McDonald (1996) Mikheev et al (1999, 2000…)

Page 14: Automatisk gjenkjenning av vanskelige navn

Gjenkjenning av frasenavn først i setningen

Hvordan vite hva som er navn?

Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende.

Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. Kanskje hun skulle melde seg inn i Den norske kirke?

Page 15: Automatisk gjenkjenning av vanskelige navn

Gjenkjenning av kortversjoner av frasenavn Den norske Lægeforening

Lægeforeningen De store oktoberrevolusjonen

Oktoberrevolusjonen Store Norske Kullkompani

Kullkompaniet Norsk sykepleierforbund

Sykepleierforbundet

Page 16: Automatisk gjenkjenning av vanskelige navn

Konteksten hjelper

Petra er medlem i Den norske Lægeforening. Hun vil gjerne melde seg ut. Lægeforeningen gjør ikke nok for de svakeste i samfunnet.

Page 17: Automatisk gjenkjenning av vanskelige navn

Prøvetekst

"Her er Gjerdrum likningskontor. Likningskontoret ligger rett ved Universitetet i Oslo. Rens På Timen er også i nærheten. Jeg liker Rens På Timen. Den norske lægeforening har mange medlemmer. Men Lægeforeningen er ikke så aktiv. Jeg synes Den norske lægeforening snart bør bli mer aktiv."

Page 18: Automatisk gjenkjenning av vanskelige navn

Web-grensesnitt

.

Page 19: Automatisk gjenkjenning av vanskelige navn

Resultat 1:

"<Gjerdrum likningskontor>" "Gjerdrum likningskontor" subst noeyt prop "<Likningskontoret>" "likningskontor" subst noeyt prop be ent "<Universitetet i Oslo>" "Universitetet i Oslo" subst prop "<Rens Rå Timen>" "Rens Rå Timen" subst prop "<Rens På Timen>" "Rens På Timen" subst prop

Page 20: Automatisk gjenkjenning av vanskelige navn

Resultat 2:

"<Den norske lægeforening>" "Den norske lægeforening" subst prop

"<Lægeforeningen>” "Lægeforeningen" subst prop

"<Den norske lægeforening>” "Den norske lægeforening" subst prop

Page 21: Automatisk gjenkjenning av vanskelige navn

What This Means Add a strong statement that

summarizes how you feel or think about this topic

Summarize key points you want your audience to remember

Page 22: Automatisk gjenkjenning av vanskelige navn

Next Steps Summarize any actions required of

your audience Summarize any follow up action

items required of you