DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk...

Preview:

Citation preview

DanTermBank-projektet

På vej mod en dansk

termbank

Pia Hoffmann og Bodil N. Madsen

Copenhagen Business School & DANTERMcentret

Alle termer på rette sted?

1

Dansk Sprognævn udtaler…

Dansk sprogs status 2012

En af de overordnede anbefalinger:

”at dansk fagsprog styrkes, fx ved at der oprettes en flersproglig termbank

hvor fagudtryk på dansk og fremmedsprog samt deres definitioner

registreres og gøres tilgængelige for alle”

2

Hvorfor?

• Undervisning

• Folkeskolen

• Ungdomsuddannelser

• Videregående uddannelser

• Styrke dansk

• Styrke parallelsproglighed

• Modvirke domænetab

• Støtte virksomheder og organisationer i deres

kommunikation

3

Hvad er formålet?

At kunne etablere grundlaget for en

dansk terminologi- og vidensbank

4

5

Projektgruppen

Bodil Nistrup Madsen

Hanne Erdman Thomsen

Tine Lassen

Louise Pram Nielsen

Pia Lyngby Hoffmann

Anna Odgaard Ingram

Radu Dudici

Bo Krantz Simonsen

Hvad er målet for projektet?

At udvikle

metoder og værktøjer til formålet

6

Udvikling af avancerede metoder og værktøjer til:

• automatisk ekstraktion af viden om begreber fra tekster

• automatisk samkøring af data fra eksisterende kilder

• automatisk opbygning, validering og opdatering af

ontologier

• brugergruppeorienteret vidensformidling

DanTermBank-projektet

7

DanTermBank-projektet

8

Hvorfor ontologier?

• Letter afklaringen af begreber inden for specifikke domæner

• Er værdifulde for slutbrugeren – giver et hurtigt overblik

Basis for:

• videnstrukturering og videndeling i virksomheder og organisationer

• ontologi-baseret dokumentstyring

• offentligt tilgængelig information online

• metadata-taxonomier

• datamodellering som basis for udvikling af it-systemer

• intelligent, ontologi-baseret søgning

• software til semantisk tekstkontrol

• ontologi-baserede oversættelsessystemer

• …

9

10

trækspecifikation:

attribut-værdipar

inddelingskriterier

polyhierarki nedarvning

typerelation

Karakteristika ved

terminologiske ontologier

Udfordringer

Ontologiopbygning er meget tidskrævende og der er derfor behov for

automatiske værktøjer:

1. Vidensekstraktion: Hvordan kan man automatisk ekstrahere

information om specifikke begrebsrelationer, karakteristika og

inddelingskriterier fra tekster?

2. Ontologiopbygning: Hvordan kan man automatisk opbygge

terminologiske ontologier på basis af resultaterne fra

vidensekstrationen?

3. Ontologivalidering: Hvordan kan man automatisk validere

ontologiudkast som er resultat af 1. og 2?

11

Hvad har vi nået?

• At udvikle prototypeværktøjer til automatisk

• Korpusopbygning

• Tagging

• Ekstraktion af termkandidater

• Ekstraktion af begrebsrelationer og opbygning af ontologier

• Validering af ontologier

• At teste forskellige målgruppers anvendelse af grænseflader –

forsøg med eye-tracking (ph.d.-projekt)

12

Delvist automatiseret arbejde

• dtCrawler – Indsamler et relevant korpus

• dtTAG – Tagger korpus

• dtX – Ekstraherer termer

• dtR – Ekstraherer relationer

• dtV – Validerer ontologien

13

Prototype 1: dtCrawler

14 DTB workshop,

Copenhagen, 2012

15 DTB workshop,

Copenhagen, 2012

Prototype 2: dtTAG

Prototype 3: dtX - Extractor

16 DTB workshop,

Copenhagen, 2012

Prototype 3: dtX

17 DTB workshop,

Copenhagen, 2012

18 DTB workshop,

Copenhagen, 2012

Prototype 3: dtX

19 DTB workshop,

Copenhagen, 2012

Prototype 4: dtR

20

Prototype 5: dtV -Validate

21

Prototype 5: dtV • polyhierarchical structure

• function from attributes to values

• inheritance of feature

specifications

• primary feature specifications

reflected by dimension

specifications

• uniqueness of primary feature

specifications

• uniqueness of dimensions

• grouping by subdividing

dimensions

• distinction of mother and

daughter

• distinction of sisters

Værdihierarki

22

Ikke-valideret automatisk genereret

ontologi

(forebyggelse og sundhedsfremme og

folkesundhed)

23

24

Udsnit af en ontologi for træning i

forbindelse med afklaring af

muskelskeletlidelser

Hvad har vi mere nået?

• at registrere ISO’s datakategorier i en database og komme med

forslag til forbedringer af inddeling af og adgang til disse i Data

Category Registry, ISOcat

https://catalog.clarin.eu/isocat/interface/index.html og

• http://vip.i-term.dk/login.php (DanTermBank Data Categories:

brugernavn: PUBLIC og pw: PUBLIC)

• at teste brugen af ontologier i forskellige brugerscenarier

• folkeskolen

• Gymnasiet

• at udvikle de øverste niveauer i en egnet emneklassifikation

25

26

www.isocat.

org

27

abbreviation

acronym

clipped term

common name

entry term

equation

formula

full form

initialism

internationalism

international scientific term

logical expression

part number

phraseological unit

transcribed form

transliterated form

short form

shortcut

sku

standard text

string

symbol

synonym

synonymous phrase

variant

28

ISO 12620:1999 A.2.1 term type

29

Stanlex-taxonomien

30

eDITion-2013-1

DanTermBank-taxonomien

Brugerscenarier - formål

• At undersøge i hvor høj grad en vidensbase med ontologier kan

hjælpe eleverne med deres besvarelser inden for et fagligt

område.

• Folkeskoler

• Gymnasium

31

Pilotprojekt

Answered without term base

Correct

Partlycorrect

Wrong

Answered with term base

Correct

Partlycorrect

Wrong

Emneklassifikation

Forslag til hovedkategorier

Jura, politik, stat, økonomi og handel

Law, politics, public affairs, economics and trade

Mennesker, samfund, historie og kultur

People, society, history and culture

Kunst, litteratur, design og fritid

Arts, literature, design and recreation

Naturvidenskab, biovidenskab, matematik og geografi

Natural and life sciences, mathematics and geography

Teknologi, industri, erhverv og miljø

Technology, industry, trades and environment

Opsummering

Der er brug for en dansk terminologi- og vidensbank

En forudsætning herfor er automatisering af terminologiarbejdet

DanTermBank-projektet udvikler værktøjer mhp oprettelse af en

termbank

Tekstindsamling

Termekstraktion

Relationsekstraktion

Ontologivalidering

Se mere på: www.dantermbank.dk

34

Links

• Link til hjemmeside:

http://dantermbank.cbs.dk/dtb

• Testside

www.dtb.i-term.dk

• Afsluttende konference og workshop d. 8. og 9. januar 2015

http://dantermbank.cbs.dk/dtb/arrangementer2/afsluttende_konference

35

Spørgsmål?

36

Recommended