23
Tulajdonnév felismerés 2007. 10. 10.

Tulajdonnév felismerés

  • Upload
    gin

  • View
    22

  • Download
    2

Embed Size (px)

DESCRIPTION

Tulajdonnév felismerés. 2007. 10. 10. Tulajdonnév felismerés. Szemantika és a szintaktika közt félúton. Az első olyan feladat aminek közvetlen alkalmazásai is vannak. Fontos részfeladat: információkinyerés alapegységei gépi fordítás: Kovács János -> John Smith …. - PowerPoint PPT Presentation

Citation preview

Page 1: Tulajdonnév felismerés

Tulajdonnév felismerés

2007. 10. 10.

Page 2: Tulajdonnév felismerés

Tulajdonnév felismerés

Szemantika és a szintaktika közt félúton.

Az első olyan feladat aminek közvetlen alkalmazásai is vannak.

Fontos részfeladat:

információkinyerés alapegységei

gépi fordítás: Kovács János -> John Smith

Page 3: Tulajdonnév felismerés

Mi egy tulajdonnév?

Magyar Helyesírási kézikönyv:tulajdonnév pl: Magyar Nemzeti Bankköznév pl: asztal, alma, bank? File Transfer Protocol, Blootouth, BUX ? Botond étteremNincs egzakt szabály ennek eldöntésre!

named entity: „a szövegnek egy olyan eleme, amely a világ valamely entitására unikusan referál”[email protected] is egy NE

Page 4: Tulajdonnév felismerés

Tulajdonnév a HLT-ben

„Előre definiált osztályokba tartozó tokensorozatok felismerése és klasszifikálása”.

Az osztályokat egy tanítóhalmaz manuális annotációjával „definiálják”.

Például: helynevek, személynevek, szervezetek, e-mail címek

Vannak olyan osztályok amik egyszerű szabályokkal (általában reguláris kifejezésekkel) leírhatóak, például e-mail címek

Page 5: Tulajdonnév felismerés

A klasszifikáció nehézségei

(Felismerés viszonylag egyszerű feladat)

Nyílt halmaz, nem fedhető le szótárakkal!

Gyakran a szövegkörnyezet dönti el a jelentést

pl.: Ford személy, repülőtér, vállalat vagy márkanév?

Szintaktikai információkból kell szemantikai döntéseket meghozni.

Page 6: Tulajdonnév felismerés

Gépi tanulási megközelítések

Mivel minden feladat más és más, egy szabály alapú rendszer előállítása igen költséges lenne.

Milyen jellemzőkkel írhatóak le az osztályok?

Két különböző megközelítés:– Token alapú klasszifikáció– Szekvencia jelölés

Page 7: Tulajdonnév felismerés

Jellemzőkészlet

Ortográfiai jellemzőkkezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet,

arab / római szám Gyakorisági adatok

kis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok, gyakoriság Szövegkörnyezet info

trigger uni- / bi- / trigramok, mondatpozíció, dokumentum pozició Kifejezés-szintű info

megelőző tokenek címkéi, zárójelben/idézőjelben van, reguláris kifejezések

Egyértelmű szavak szótáratanuló adatbázisból összegyűjtve, betegségek nevei

Trigger szótárakkeresztnevek, kórházformák, országok, városok

Page 8: Tulajdonnév felismerés

Token szintű osztályozás

Az egyes tokeneket klasszifikáljuk.

A környezetből nyerhető információkat egy ablakkal felvesszük a token jellemzői közé:

pl: elöző szó kisbetűs-e

Kérdés: megadhatjuk-e a környezet osztálycímkéit?

Általában szükség van egy utófeldolgozó lépésre:

MagyarORG NemzetiLOC BankORG Rt.ORG

Page 9: Tulajdonnév felismerés

Szekvenciális modellek

Cél: egész szekvenciára (mondatra) egyszerre megmondani a legvalószínűbb jelölést.

P(T|x) : tageloszlás a jellemzőtér felett

x: {kisbetűs, gyakori, zárójelben van}

T: {nem tulajdonnév, szervezet, helység} P(Tt|Tt-1) : átmenet-valószínűségek

P(helység|szervezet)=0.0001

Ezeket a tanuló adatbázis alapján becsüljük.

Page 10: Tulajdonnév felismerés

Szekvenciális modellek

Page 11: Tulajdonnév felismerés

Alkalmazási területek

Magyar gazdasági rövidhírek elemzése Angol újsághírek elemzése Orvosi kórlapok anonimizálása

Lényegében ugyanaz a modell működik:– angolra és magyarra– Két teljesen más feladatra (domainre)

Page 12: Tulajdonnév felismerés

Kiértékelési metrika

Csak a tulajdonnév osztályokra számoljuk.Precízió: Amit C-nek jelölünk az hány esetben CLefedettség: Az összes C-ből hányat találtunk meg.

Fβ=1 a precízió és a lefedettség harmonikus közepe

Frázis szintű metrika Token szintű

MagyarORG NemzetiLOC BankORG Rt.ORG

P_tokenORG=3/3 R_tokenORG=3/4

P_frázisORG=0/2 R_frázisORG=0/1

Page 13: Tulajdonnév felismerés

SzegedNE korpusz

200 ezer szövegszó Gazdasági rövidhírek (NewsML) Személynév, Szervezet, Hely és Egyéb 15 ezer tulajdonnév A korpusz és magyar tulajdonnévtrigger-

listák letölthetőek (licensz) hamarosan: HUNNER

Page 14: Tulajdonnév felismerés

Eredmények a SzegedNE korpuszon

Első statisztikai tulajdonnév-felismerő modell magyar nyelvre

  Fβ=1

Szervezet 95,84%

Személy 94,67%

Hely 95,07%

Egyéb 85,96%

mindösszesen 94,77%

Page 15: Tulajdonnév felismerés

CoNLL 2003 adatbázis

A tulajdonnév-felismerés talán legfontosabb nemzetközi referencia adatbázisa

200+50 ezer szövegszó Angol nyelvű újsághírek

– gazdaság, sport, politika témában Személynév, Szervezet, Hely és Egyéb Ez szolgált mintául a SzegedNE korpuszhoz

Page 16: Tulajdonnév felismerés

Eredmények angol nyelvre

  egyéni

Szervezet 84,53%Személy 93,55%Hely 92,90%Egyéb 79,67%mindösszesen 89,02%versenyen

győztes88,89%

hibrid

88,32%96,27%93,43%82,29%91,41%

90,30%

Page 17: Tulajdonnév felismerés

Orvosi rekordok feldolgozása

Motiváció: Hasznos információk tűnnek el a szövegben Szöveges adatbázisok megosztása szélesebb körben

(kórházak)Adatok gyűjtése, statisztikák készítéseKutatómunka elősegítéseA feladatok nagy része automatizálható

Ehhez azonban a személyes információkat el kell távolítani, pontosabban

le kell őket generált egyedekre cserélni!

Page 18: Tulajdonnév felismerés

Anonimizálás

Cél: PHI-k azonosítása és osztályozása a zárójelentésekben– 8 különböző kategória (sok mindent lefed):

PATIENT, DOCTOR, HOSPITAL, LOCATION, ID, PHONE, DATE, AGE (csak ha 90 év feletti)

– Ezek pont a klasszikus named entity osztályok!

Anonimizálás vs De-identifikáció

Page 19: Tulajdonnév felismerés

A felhasznált adatbázis

I2B2 nemzetközi nyílt verseny 671 címkézett orvosi zárójelentés

– (400 ezer token, tartalmaz strukturált részeket is)

Kiértékelés 206 ismeretlen zárójelentésenOrvosi nyelvi feldolgozás

„A/P: 64 yo M known CAD, s/p CABG and PCI in '03presents w NSTEMI in settin of EKG changes s/p cardiaccath and ETT MIBI positive for diffuse disease w mildreversibility in PDA territory cw 100% lesion in SVG.”

Anonimizált adatbázis

Page 20: Tulajdonnév felismerés

Kiértékelés (Fβ=1)

Token Phrase

NON-PHI 99.88

PATIENT 97.27 96.72

DOCTOR 97.41 95.52

HOSPITAL 95.54 94.17

ID 99.29 99.13

DATE 99.44 99.17

PHONE 89.61 91.07

LOCATION 67.82 56.70

AGE 100.0 100.0

overall 99.75 96.79

Page 21: Tulajdonnév felismerés

A rendszer adaptálása a három feladatra

Szótárak (keresztnevek, cégformák stb.) cseréje angolra

Orvosi szövegekhez mindössze a cégforma listát cseréltük le {hospital, clinics, memorial, …}-re

A CoNLL és I2B2 adatbázisokon felhasználtuk a dokumentumok struktúrájában rejlő információkat (1-1 plusz jellemző)

Page 22: Tulajdonnév felismerés

A jellemzők jellemzői

Próbáltunk POS és szintaktikai kódokat használni, de vagy elhanyagolható volt a jelentőségük vagy csak összekavarták a rendszert

Nem használtunk semmilyen domain-specifikus szótárat (mint például MeSH kódok)

Csak felszíni információk felhasználásával elérhető versenyképes eredmény!

Page 23: Tulajdonnév felismerés

A jellemzők hatása az anonimizálás feladatnál

1. Alap jellemzők: kezdőbetű, triggerek, előző tokenek címkéi

2. Ortográfiai jellemzők3. Gyakorisági adatok4. Struktúra információ5. Reguláris kifejezések6. Helység szótárak (országok, városok)7. Mondat pozíció8. Idézőjelek / Zárójelek között9. Keresztnevek10. Nem-NE listák