36
DanTermBank-projektet På vej mod en dansk termbank Pia Hoffmann og Bodil N. Madsen Copenhagen Business School & DANTERMcentret Alle termer på rette sted?

DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Embed Size (px)

Citation preview

Page 1: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

DanTermBank-projektet

På vej mod en dansk

termbank

Pia Hoffmann og Bodil N. Madsen

Copenhagen Business School & DANTERMcentret

Alle termer på rette sted?

1

Page 2: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Dansk Sprognævn udtaler…

Dansk sprogs status 2012

En af de overordnede anbefalinger:

”at dansk fagsprog styrkes, fx ved at der oprettes en flersproglig termbank

hvor fagudtryk på dansk og fremmedsprog samt deres definitioner

registreres og gøres tilgængelige for alle”

2

Page 3: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Hvorfor?

• Undervisning

• Folkeskolen

• Ungdomsuddannelser

• Videregående uddannelser

• Styrke dansk

• Styrke parallelsproglighed

• Modvirke domænetab

• Støtte virksomheder og organisationer i deres

kommunikation

3

Page 4: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Hvad er formålet?

At kunne etablere grundlaget for en

dansk terminologi- og vidensbank

4

Page 5: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

5

Projektgruppen

Bodil Nistrup Madsen

Hanne Erdman Thomsen

Tine Lassen

Louise Pram Nielsen

Pia Lyngby Hoffmann

Anna Odgaard Ingram

Radu Dudici

Bo Krantz Simonsen

Page 6: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Hvad er målet for projektet?

At udvikle

metoder og værktøjer til formålet

6

Page 7: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Udvikling af avancerede metoder og værktøjer til:

• automatisk ekstraktion af viden om begreber fra tekster

• automatisk samkøring af data fra eksisterende kilder

• automatisk opbygning, validering og opdatering af

ontologier

• brugergruppeorienteret vidensformidling

DanTermBank-projektet

7

Page 8: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

DanTermBank-projektet

8

Page 9: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Hvorfor ontologier?

• Letter afklaringen af begreber inden for specifikke domæner

• Er værdifulde for slutbrugeren – giver et hurtigt overblik

Basis for:

• videnstrukturering og videndeling i virksomheder og organisationer

• ontologi-baseret dokumentstyring

• offentligt tilgængelig information online

• metadata-taxonomier

• datamodellering som basis for udvikling af it-systemer

• intelligent, ontologi-baseret søgning

• software til semantisk tekstkontrol

• ontologi-baserede oversættelsessystemer

• …

9

Page 10: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

10

trækspecifikation:

attribut-værdipar

inddelingskriterier

polyhierarki nedarvning

typerelation

Karakteristika ved

terminologiske ontologier

Page 11: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Udfordringer

Ontologiopbygning er meget tidskrævende og der er derfor behov for

automatiske værktøjer:

1. Vidensekstraktion: Hvordan kan man automatisk ekstrahere

information om specifikke begrebsrelationer, karakteristika og

inddelingskriterier fra tekster?

2. Ontologiopbygning: Hvordan kan man automatisk opbygge

terminologiske ontologier på basis af resultaterne fra

vidensekstrationen?

3. Ontologivalidering: Hvordan kan man automatisk validere

ontologiudkast som er resultat af 1. og 2?

11

Page 12: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Hvad har vi nået?

• At udvikle prototypeværktøjer til automatisk

• Korpusopbygning

• Tagging

• Ekstraktion af termkandidater

• Ekstraktion af begrebsrelationer og opbygning af ontologier

• Validering af ontologier

• At teste forskellige målgruppers anvendelse af grænseflader –

forsøg med eye-tracking (ph.d.-projekt)

12

Page 13: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Delvist automatiseret arbejde

• dtCrawler – Indsamler et relevant korpus

• dtTAG – Tagger korpus

• dtX – Ekstraherer termer

• dtR – Ekstraherer relationer

• dtV – Validerer ontologien

13

Page 14: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Prototype 1: dtCrawler

14 DTB workshop,

Copenhagen, 2012

Page 15: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

15 DTB workshop,

Copenhagen, 2012

Prototype 2: dtTAG

Page 16: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Prototype 3: dtX - Extractor

16 DTB workshop,

Copenhagen, 2012

Page 17: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Prototype 3: dtX

17 DTB workshop,

Copenhagen, 2012

Page 18: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

18 DTB workshop,

Copenhagen, 2012

Prototype 3: dtX

Page 19: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

19 DTB workshop,

Copenhagen, 2012

Prototype 4: dtR

Page 20: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

20

Prototype 5: dtV -Validate

Page 21: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

21

Prototype 5: dtV • polyhierarchical structure

• function from attributes to values

• inheritance of feature

specifications

• primary feature specifications

reflected by dimension

specifications

• uniqueness of primary feature

specifications

• uniqueness of dimensions

• grouping by subdividing

dimensions

• distinction of mother and

daughter

• distinction of sisters

Page 22: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Værdihierarki

22

Page 23: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Ikke-valideret automatisk genereret

ontologi

(forebyggelse og sundhedsfremme og

folkesundhed)

23

Page 24: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

24

Udsnit af en ontologi for træning i

forbindelse med afklaring af

muskelskeletlidelser

Page 25: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Hvad har vi mere nået?

• at registrere ISO’s datakategorier i en database og komme med

forslag til forbedringer af inddeling af og adgang til disse i Data

Category Registry, ISOcat

https://catalog.clarin.eu/isocat/interface/index.html og

• http://vip.i-term.dk/login.php (DanTermBank Data Categories:

brugernavn: PUBLIC og pw: PUBLIC)

• at teste brugen af ontologier i forskellige brugerscenarier

• folkeskolen

• Gymnasiet

• at udvikle de øverste niveauer i en egnet emneklassifikation

25

Page 26: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

26

www.isocat.

org

Page 27: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

27

Page 28: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

abbreviation

acronym

clipped term

common name

entry term

equation

formula

full form

initialism

internationalism

international scientific term

logical expression

part number

phraseological unit

transcribed form

transliterated form

short form

shortcut

sku

standard text

string

symbol

synonym

synonymous phrase

variant

28

ISO 12620:1999 A.2.1 term type

Page 29: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

29

Stanlex-taxonomien

Page 30: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

30

eDITion-2013-1

DanTermBank-taxonomien

Page 31: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Brugerscenarier - formål

• At undersøge i hvor høj grad en vidensbase med ontologier kan

hjælpe eleverne med deres besvarelser inden for et fagligt

område.

• Folkeskoler

• Gymnasium

31

Page 32: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Pilotprojekt

Answered without term base

Correct

Partlycorrect

Wrong

Answered with term base

Correct

Partlycorrect

Wrong

Page 33: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Emneklassifikation

Forslag til hovedkategorier

Jura, politik, stat, økonomi og handel

Law, politics, public affairs, economics and trade

Mennesker, samfund, historie og kultur

People, society, history and culture

Kunst, litteratur, design og fritid

Arts, literature, design and recreation

Naturvidenskab, biovidenskab, matematik og geografi

Natural and life sciences, mathematics and geography

Teknologi, industri, erhverv og miljø

Technology, industry, trades and environment

Page 34: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Opsummering

Der er brug for en dansk terminologi- og vidensbank

En forudsætning herfor er automatisering af terminologiarbejdet

DanTermBank-projektet udvikler værktøjer mhp oprettelse af en

termbank

Tekstindsamling

Termekstraktion

Relationsekstraktion

Ontologivalidering

Se mere på: www.dantermbank.dk

34

Page 35: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Links

• Link til hjemmeside:

http://dantermbank.cbs.dk/dtb

• Testside

www.dtb.i-term.dk

• Afsluttende konference og workshop d. 8. og 9. januar 2015

http://dantermbank.cbs.dk/dtb/arrangementer2/afsluttende_konference

35

Page 36: DanTermBank-projektet På vej mod en dansk termbank i Oslo 2014/Pia Hoffmann... · • automatisk samkøring af data fra eksisterende ... terminologiske ontologier på basis af resultaterne

Spørgsmål?

36