55
Termyn Automatisk insamling och extraktion av myndighetsföreskrifter för termexcerpering Henrik Nyh Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 4 juni 2007 Handledare: Beáta Megyesi, Uppsala universitet Henrik Nilsson, Terminologicentrum TNC

Termyn - Uppsala UniversityTermyn Automatisk insamling och extraktion av myndighetsföreskrifter för termexcerpering Henrik Nyh Institutionen för lingvistik och filologi ... Sammandrag

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Termyn

Automatisk insamling och extraktion avmyndighetsföreskrifter för termexcerpering

Henrik Nyh

Institutionen för lingvistik och filologiSpråkteknologiprogrammetExamensarbete i datorlingvistik

4 juni 2007

Handledare:Beáta Megyesi, Uppsala universitetHenrik Nilsson, Terminologicentrum TNC

Sammandrag

I detta arbete samlas svenska myndighetsföreskrifter in från webben varpå de doku-ment som innehåller termer med definitioner extraheras. Extraherade dokument pre-senteras i ett webbgränssnitt med relevanta textavsnitt visuellt utmärkta och hyper-länkade.

Datainsamling och extraktion sker automatiskt utifrån handskrivna regler. Extrak-tionsreglerna bygger på informationsmönster och liknande mönster formaliserade ge-nom reguljära uttryck och traversering av HTML i trädrepresentation.

Arbetet har utförts i samarbete med Terminologicentrum TNC och är avsett attstödja det manuella arbetet med att berika Rikstermbanken, en nationell svensk term-bank.

En utvärdering av extraktionen mot två terminologers manuella klassificering visarpå god täckning, runt 90,0 %, och acceptabel precision, runt 47,4 %. Den klassificeringsom det utvecklade systemet gör är lika eller mer enig med den ena terminologensindelning än vad de båda terminologerna är med varandra.

Abstract

This thesis describes the retrieval of Swedish authority regulations from the WorldWide Web and the subsequent extraction of those documents that contain terms withdefinitions. The extracted documents are presented in a web interface with the rele-vant parts highlighted and hyperlinked.

Retrieval and extraction are automatic from hand-written rules. The extractionrules are based on knowledge patterns and similar patterns formalized as regular ex-pressions and HTML document tree traversal.

The thesis was done in association with Terminologicentrum TNC – The SwedishCentre for Terminology – to aid their work with Rikstermbanken, a national Swedishterm bank.

An evaluation of the extraction against manual classification by two terminolo-gists shows good recall, around 90.0%, and acceptable precision, around 47.4%. Theagreement between the classifications of the system developed in this thesis and thosemade by one of the terminologists is equal to or higher than the agreement betweenboth terminologists.

Innehåll

Sammandrag 2

Abstract 2

Förord 6

1 Inledning 71.1 Syfte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2 Disposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Terminologi 92.1 Terminologiläran . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Begreppsanalys . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Terminologiarbete . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 Arbetsgång . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Termextraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.1 Statistiska metoder . . . . . . . . . . . . . . . . . . . . . 172.3.2 Lingvistiska metoder . . . . . . . . . . . . . . . . . . . . 182.3.3 Hybridsystem . . . . . . . . . . . . . . . . . . . . . . . . 192.3.4 Extraktion av relationer och definitioner . . . . . . . . . 20

3 Datainsamling 233.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1.1 Urval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Insamling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4 Extraktion av dokument 264.1 Bearbetning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2 Analys . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.3 Regler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3.1 Sökning i löptext . . . . . . . . . . . . . . . . . . . . . . 284.3.2 Sökning i rubriker . . . . . . . . . . . . . . . . . . . . . . 29

4.4 Webbgränssnitt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5 Utvärdering av dokumentextraktion 315.1 Guldstandard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.1.1 Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325.1.2 Precision och täckning . . . . . . . . . . . . . . . . . . . 33

5.2 Termyn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.2.1 Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3

5.2.2 Precision och täckning . . . . . . . . . . . . . . . . . . . 34

6 Diskussion 356.1 Framtida utvecklingsmöjligheter . . . . . . . . . . . . . . . . . . 37

7 Sammanfattning 39

Litteraturförteckning 40

A Bilagor 44A.1 Nedladdningsregler . . . . . . . . . . . . . . . . . . . . . . . . . 44A.2 Extraktionsregler . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4

Figurer

2.1 Generiskt begreppssystem . . . . . . . . . . . . . . . . . . . . . . . 102.2 Begreppstetraedern . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3 Post från Europeiska kommissionens flerspråkiga termbank Euro-

DicAutom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.4 TerminoWeb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.1 Trädrepresentation av HTML . . . . . . . . . . . . . . . . . . . . . . 284.2 Webbgränssnitt för extraktionsresultat . . . . . . . . . . . . . . . . . 30

5.1 Webbgränssnitt för manuell dokumentklassificering . . . . . . . . . 32

5

Förord

Tack till mina handledare Henrik Nilsson och Beáta Megyesi för all hjälp. Tackockså till A och B vid Terminologicentrum TNC för hjälpen med utvärdering-en, och till alla andra där för möjligheten att göra det här arbetet. Biblioteketpå TNC har min uppskattning för sina bidrag till den digra litteraturlistan. Pro-fessor Joakim Nivre var till stor hjälp med statistiken. Tack vidare till Filip Salo-monsson, Björn Lindström och Mirza Škornja för värdefulla synpunkter underarbetets gång. Tack till Fredrik Bränström för hjälp med korrekturläsning.

6

1 Inledning

Tydlig och entydig kommunikation mellan lekmän och fackmän, eller mellanmedborgare och myndigheter, förutsätter att fackuttryck används på ett en-hetligt sätt. En etablerad terminologi underlättar också utbyte mellan fackmänoch samarbete mellan myndigheter.

Terminologer arbetar med just detta – att systematisera begrepp, hitta godatermer och skriva definitioner. Ett viktigt led i detta terminologiarbete är excer-pering: att ur facktexter extrahera termer, deras innebörd och deras användning.Att arbetet är tidskrävande och mödosamt, och att det numera publiceras sto-ra mängder maskinläsbar text (inte minst på webben), har medfört att mångametoder för s.k. automatisk termextraktion utvecklats. En mer rättvisande be-nämning är halvautomatisk eller datorstödd extraktion, då datorn ger förslagsom måste kontrolleras manuellt. Sådan extraktion tjänar inte enbart till attsnabba upp terminologiarbetet; att automatiskt hitta termer i ett källmaterialär också till stor nytta för till exempel översättning1 och informationssökning2.

I Sverige utvecklas just nu på regeringens uppdrag en nationell så kalladtermbank, Rikstermbanken, av det statligt finansierade företaget Terminologi-centrum TNC. En termbank är en elektronisk terminologisk ordlista. Riksterm-banken är avsedd att omfatta termer från ett flertal fackområden och ska kunnaanvändas av både företag och myndigheter. Ett av projektets syften är harmo-nisering av terminologi mellan olika myndigheter och organisationer (TNC,2007).

1.1 SyfteSyftet med det här arbetet är att samla ihop svenska myndigheters föreskrifterfrån webben och automatiskt extrahera de dokument som innehåller defini-tioner av termer3. Det system som utvecklas för detta kallas Termyn. Arbetetutförs i samarbete med Terminologicentrum TNC och utgör underlag för vi-dare manuell excerpering i syfte att berika Rikstermbanken.

Metoden för att avgöra vilka dokument som ska extraheras är inspirerad avconceptual sampling (Meyer m.fl., 1999) och vidhörande idéer om informations-

1Flerspråkig termextraktion extraherar förutom termer även deras ekvivalenter på andraspråk.

2Facktermer i ett dokument fungerar ofta även som indextermer för detsamma. Indexter-mer är sådana nyckelord och -fraser som inom informationssökning anses känneteckna doku-mentet.

3Enligt begreppsanalysen (se sektion 2.1.1) är både termer och definitioner bestämningartill begrepp: definitioner hör till begrepp, inte direkt till termer. ”Definitioner av termer” ochliknande formuleringar i det kommande är därför inte helt korrekta, men behändiga.

7

mönster – återkommande grammatiska, lexikala eller paralingvistiska mönstersom avslöjar begreppsrelationer – som tidigare använts för automatisk extrak-tion av termer och definitioner. I detta arbete används informationsmönsteroch andra relaterade mönster för att extrahera dokument och inom dessa pekaut relevanta textavsnitt.

Resultatet utvärderas mot manuell dokumentsökning med avseende påenighet, precision och täckning.

1.2 DispositionI kapitel 2 redovisas relevant bakgrund och tidigare forskning om termextrak-tion. Kapitel 3 redovisar insamlingen av föreskrifter och kapitel 4 redogörför extraktionen av relevanta dokument. I kapitel 5 utvärderas arbetet. Kapi-tel 6 diskuterar utvärderingens resultat och innehåller reflektioner om framtidautvecklingsmöjligheter. Det avslutande kapitel 7 sammanfattar arbetet.

I två bilagor redovisas de regler som utvecklats för nedladdning (bilaga A.1)och extraktion (bilaga A.2).

8

2 Terminologi

I det här kapitlet ges först en kort genomgång av terminologiläran. Sedan redo-visas hur praktiskt terminologiarbete går till. Därpå följer en redogörelse överrelevant forskning inom termextraktion, som täcker statistiska, lingvistiska ochhybridmetoder och automatisk extraktion av termers relationer/definitioner.

2.1 TerminologiläranOrdet terminologi kan användas både för en samling ord och uttryck med sär-skild betydelse på ett specifikt område, och för läran om sådana terminologi-er. Det senare kallas mer entydigt terminologilära. Terminologiläran definieras iden internationella standarden ISO 1087-1:2000 (ISO/IEC, 2000), utfärdad avInternationella standardiseringsorganisationen (ISO), som studiet av hur termi-nologier struktureras, bildas, utvecklas, används och hanteras. Det är en ganskaung disciplin, född först i början av 1900-talet (TNC och Spri, 1999).

Terminologiläran hör liksom lexikografi och översättning till den tillämpadegrenen av lingvistiken (Termium, 2006).

2.1.1 Begreppsanalys

En viktig del av det praktiska terminologiarbetet är att kunna skilja på de treslags bestämningar – referent, term och definition – som är knutna till ett begrepp.

I begreppsanalysen hänför man begreppet och dess bestämningar till tre”världar”: verkligheten hyser referenter, tankevärlden rymmer begrepp och denspråkliga världen innehåller termer och definitioner (TNC och Spri, 1999).

I det följande återges termer kursiverat (term), begrepp med enkla citat-tecken (’begrepp’), definitioner inom dubbla citattecken (”definition”) och be-grepps kännetecken med understrykning (kännetecken).

2.1.1.1 Referent

Referenter är entiteter i verkligheten eller i vår gemensamma föreställnings-värld. De kan vara konkreta (som bok, enhörning) eller abstrakta (glädje, onds-ka).

2.1.1.2 Begrepp

Begrepp är kognitiva abstraktioner av någon enskild eller någon samling re-ferenter. De är en unik ”uppsättning kännetecken som avspeglar egenska-per” (TNC och Spri, 1999, s. 9) hos dessa referenter. Till exempel kan be-

9

träd

lövträd

. . . björk lönn ek

barrträd

. . . gran tall lärkträd

Figur 2.1: Exempel (från TNC och Spri (1999, s. 10)) på ett generiskt begreppssystem.

greppet ’träd’ unikt kännetecknas som: vedväxt, högvuxen, icke klättrande,med genomgående huvudstam (exempel från TNC och Spri (1999)). Genomatt ta bort kännetecken får man ett bredare begrepp som avser fler referen-ter (t.ex. även buskar), och på motsvarande sätt blir begreppet snävare (t.ex.enbart lövträd) om kännetecken läggs till.

Ett allmänbegrepp avser en grupp av referenter (t.ex. ’universitet’); ett indi-vidualbegrepp avser någon unik referent (t.ex. ’Uppsala universitet’).

Begrepp inordnas i olika former av begreppssystem. I ett generiskt begrepps-system som figur 2.1 ordnas begreppen hierarkiskt med överbegrepp; underbe-grepp, som har något särskiljande kännetecken gentemot överbegreppet; ochsidobegrepp som delar samma närmaste överbegrepp. Det finns även partitivabegreppssystem, som tar fasta på sådant som att en ’rot’ är en del av ett ’träd’;och associativa begreppssystem som är icke-hierarkiska och i stället redovisar för-hållanden som att en viss produkt (’bensin’) tillverkas utifrån ett visst material(’petroleum’) med en viss metod (’krackning’). Olika typer av begreppssystemkan användas ihop för att förstå begreppsrelationerna inom ett fackområde. Vi-dare kan ett enda fackområde rymma flera begreppssystem av olika omfattning(TNC och Spri, 1999).

2.1.1.3 Term

Termer och definitioner hör till den språkliga nivån. Termen är en ”benämningför något allmänbegrepp som tillhör ett fackområde” (Nordterm, 2006)1. In-dividualbegrepp har i stället namn.

Det finns enordstermer (papper och pappersflygplan) men även flerordstermer(kallpressat papper). Även förkortningar (IT = informationsteknologi) (TNC ochSpri, 1999) kan vara termer, liksom vissa symboler (Suonuuti, 2004).

En term är alltså inte samma sak som ett ord, vilken insikt var en av an-ledningarna till att terminologiläran en gång uppstod som en egen lingvistiskdisciplin (Pearson, 1998).

2.1.1.4 Definition

Definitionen är en språklig beskrivning av begreppet som tar fasta på dess sär-skiljande kännetecken. För ’träd’ kunde det vara ”vedväxt som är högvuxenoch icke klättrande och som har genomgående huvudstam” (Suonuuti, 2004,s. 15).

1Nordterm är ett samarbetsforum för nordiska terminologiorganisationer.

10

7Spri rapport 481

3. Terminologilärans grunder

Också i Sverige var det tekniker som först intresse-rade sig för målet ”att få till stånd en effektiv kom-munikation fackmän emellan”. Standardiserareoch uppfinnare fanns bland de tekniker som toginitiativet till att Tekniska nomenklaturcentralen (TNC)bildades 1941, och TNCs förste föreståndare,John Wennerberg, var från början elektroingen-jör. Han var dessutom både intresserad av språkoch begåvad i att uttrycka sig vilket gjorde honomsynnerligen väl lämpad för uppgiften. Resultatetav hans arbete är fortfarande av stor betydelse fördagens arbetsuppgifter inom TNC.

Centrala begreppKärnan i terminologiläran ligger i de inbördesrelationerna mellan fyra centrala begrepp, nämli-gen referent, begrepp, term och definition vilketkan åskådliggöras med hjälp av nedanstående te-traedermodell.

Allt terminologiarbete baseras på terminologilä-ran, ett tvärvetenskapligt fackområde som har in-slag från bl a kunskapsteori, logik, informations-vetenskap, lingvistik (lexikologi och semantik).Man kan säga att terminologiläran kombinerarelement från flera teoretiska sammanhang därman velat beskriva, strukturera och överföra kun-skap.

Terminologiläran är en förhållandevis ny disci-plin som har utvecklats från 1920-talet fram till idag i takt med stigande industrialisering, speciali-sering och internationalisering. Teknologie dok-tor Eugen Wüster, en ingenjör från Österrike,anses vara en föregångsgestalt på det här områ-det. I sin avhandling Internationale Sprachnormungin der Technik (1931) drog han upp riktlinjer fören allmän terminologilära. Denna teori var tänktatt gälla alla fackområden och fackspråk. Han varden första som placerade begreppet i centrum förden terminologiska analysen.

Referenter

Definition

Termer

Begrepp

högvuxen, icke klättrande vedväxt

med genomgående huvudstam

Baum

arbre

tree

träd

Figur 2.2: Begreppstetraedern (från TNC och Spri (1999, s. 7)).

Innehållsdefinitioner (eller intensionella definitioner), som den ovanstående,redovisar alltså kännetecken. Det finns också omfångsdefinitioner (eller exten-sionella definitioner) som i stället består av en uttömmande uppräkning av allaunderordnade begrepp eller alla referenter som omfattas. En omfångsdefini-tion av vecka vore ”måndag, tisdag, onsdag, torsdag, fredag, lördag och söndag”.Omfångsdefinitionens status är ifrågasatt, och vissa terminologer menar att denär en ytterligare slags begreppsbestämning utöver referent, term och definition(TNC och Spri, 1999).

2.1.1.5 Begreppstetraedern

Relationerna mellan referent, begrepp, term och definition brukar åskådliggö-ras med den så kallade begreppstetraedern (figur 2.2), som bygger på Ogdenoch Richards (1923) semiotiska triangel men inför ett ytterligare hörn för de-finitionen (TNC och Spri, 1999).

I begreppstetraedern går de heldragna linjerna just till begreppet. Dettaavser visa hur det alltid finns ett begrepp, även om något annat av tetraedernshörn saknas: det kan finnas begrepp som vi saknar termer för, begrepp som visaknar definitioner för och begrepp som saknar referenter. Ingen av dessa kandock finnas utan vidhörande begrepp. Begreppet ”är utgångspunkten för alltterminologiarbete” (TNC och Spri, 1999, s. 9).

2.2 TerminologiarbeteTerminologiarbete bygger på terminologiläran och skildras av Nordterm (2006)som att man ”på ett systematiskt sätt samlar, analyserar, beskriver och presente-rar ett visst fackområdes begrepp och deras benämningar”. Ändamålet kan varadeskriptivt eller preskriptivt (Nuopponen, 2003). Det delmoment som ”om-

11

fattar registrering och presentation av [begrepp, termer, namn och symboler]”(Nordterm, 2006) benämns terminografi.

Praktiskt terminologiarbete sker ofta i projektform och av arbetsgrupperbestående av både terminologer och experter på det berörda fackområdet.Slutprodukten är en terminologi som presenteras i form av en ordlista elleren termdatabas (också kallad termbank). Den framarbetade terminologin tjä-nar bland annat till att effektivisera kommunikation mellan experter och medallmänheten genom entydiga och väldefinierade termer (TNC och Spri, 1999).

2.2.1 Arbetsgång

Här redovisas i korthet de delmoment som brukar ingå i ett terminologisktprojekt för att utarbeta en terminologi. Andra typer av terminologiarbete kanha delvis andra moment. De principer som redovisas bygger på ett antal be-prövade internationella standarder, utfärdade av ISO (Suonuuti, 2004).

2.2.1.1 Avgränsning

En förutsättning för själva arbetet är att det terminologiska området avgränsats.Målgrupp och användningsområde för terminologin utreds och själva fackom-rådet inventeras (TNC och Spri, 1999). Om området visar sig innehålla enstor mängd begrepp kan det vara lämpligt att dela upp arbetet i delprojekt.En tidplan upprättas, som avgränsar arbetet i tid och anger varje deltagaresansvarsområde (Suonuuti, 2004).

2.2.1.2 Källmaterial

Begreppssystem upprättas i praktiken genom att man söker termer i en korpusav fackspråkligt material. En korpus beskrivs av McEnery och Wilson (2001,s. 32) som ”a finite-sized body of machine-readable text, sampled in order tobe maximally representative of the language variety under consideration” menmed reservationen att detta är en prototypisk definition som medger undantag:det finns öppna korpora som växer i storlek och korpora i tryckt form.

Efter att det terminologiska området avgränsats är nästa steg att fastställavilket material som ska ingå i denna korpus.

Vissa krav bör ställas på det källmaterial som väljs ut, till exempel att detär representativt för området med hänsyn till de begränsningar som gjordes iförsta steget och att det inte är föråldrat (Cabré, 1999). Samtidigt kan äldretexter definiera sådant som i nyare texter tas för självklart, så även de kan haett värde (Bowker och Pearson, 2002).

2.2.1.3 Excerpering

Termer söks sedan i korpusen, manuellt eller (halv)automatiskt med hjälp avdatorprogram. Termen (automatisk) termextraktion brukar användas om det au-tomatiska och (manuell) excerpering om det manuella arbetet2. Inte bara ter-

2Det finns gott om belägg för denna indelning, t.ex. http://mora.rente.nhh.no/projects/kbn/dokumenter/TKEchapter_final.pdf, men kontrasterande definitioner av ter-merna verkar inte stå att finna.

12

merna är av intresse, utan också de sammanhang i vilka de används liksomdefinitioner och semantiska relationer till andra begrepp.

Termer, kontext och andra intressanta data protokollförs (Cabré, 1999).

2.2.1.4 Upprättande av begreppssystem

Utifrån den kunskap man nått genom excerperingen/extraktionen upprättasbegreppssystem. Själva begreppens ”omfång och innehåll” (TNC och Spri,1999, s. 16) utreds och deras kännetecken och relationer identifieras. Begrepps-systemen kan föregås av provisoriska begreppsfält – begrepp grupperade tema-tiskt. Systemen revideras inte sällan efter det att definitionerna skrivits ochman nått ny kunskap (TNC och Spri, 1999).

2.2.1.5 Definitionsskrivning

Definitionens plats i begreppstetraedern redovisades kort i sektion 2.1.1.4ovan. För att en sådan definition ska vara terminologiskt godtagbar ska denmöta ett flertal krav.

En definition i terminologisk mening är inte alltid detsamma som en ord-förklaring i en allmänspråklig ordbok. Ordförklaringen är en lättbegriplig för-klaring av ett förväntat okänt ord, medan (innehålls)definitionen syftar till attavgränsa och placera ett begrepp i förhållande till övriga begrepp i samma be-greppssystem (TNC och Spri, 1999). Som exempel (från TNC och Spri (1999,s. 12f)) kan man se till hur ’småhus’ definieras (eller förklaras) i en allmänspråk-lig ordbok och en terminologisk ordlista:

småhus(mindre) enfamiljshus(ur: Svensk ordbok)

småhusbostadshus med högst två bostadslägenheter(ur: TNC 95 Plan- och byggtermer)

Den allmänspråkliga ordförklaringen använder sig av ordet ”mindre”, vilketknappast gränsar av begreppssystemet på ett precist sätt. I den terminologiskaordlistan definieras termen inom ramarna för det generiska begreppssystemet,genom att utgå från termen (bostadshus) för närmast överordnade begreppoch ange de ytterligare kännetecken (med högst två bostadslägenheter) som ärsärskiljande. Det bör dock betonas att en allmänspråklig ordbok har andra am-bitioner än den terminologiska ordlistan (Pearson, 1998), och att ovanståendekan vara fullt tillfredsställande som ordförklaring, om än inte som begreppsde-finition.

Definitioner ska bara innehålla kännetecken som särskiljer mot andra be-grepp (Suonuuti, 2004). Att inkludera med tak i definitionen ovan hade varitfelaktigt, då detta kännetecknar alla ’bostadshus’ och dessutom alla ’hus’3.

En definition ska vara kortfattad. Information som inte syftar till att place-ra begreppet inom dess begreppssystem läggs i stället i en anmärkning. Sådant

3Det existerar givetvis hus utan tak, men antagligen inte som begrepp i TNC 95 Plan- ochbyggtermer.

13

kan vara viktiga men inte särskiljande kännetecken eller en uppräkning av re-ferenter (Suonuuti, 2004).

Enligt den så kallade utbytesprincipen ska definitioner i princip kunna er-sätta termen i löpande text eller i andra definitioner (Suonuuti, 2004). Omman sätter in definitionen för ’träd’ i den för ’städsegrönt träd’ (från Suonuuti(2004)) kunde man till exempel få ”vedväxt som är högvuxen och icke klätt-rande och som har genomgående huvudstam [och] som behåller sina blad åretom”.

En textdefinition får gärna förtydligas med illustrationer, men kan ej ersät-tas av dem (Suonuuti, 2004).

Sådant som ska undvikas vid definitionsskrivning är till exempel cirkeldefi-nitioner (inom samma definition eller mellan flera definitioner), för vida defi-nitioner (med för få kännetecken) och för snäva definitioner (med för mångakännetecken). En sorts för snäv definition är den som knyts till ett för begränsatämnesområde – till exempel (från Suonuuti (2004, s. 27))

fertilitetträds förmåga att åstadkomma avkomma

när det vore mer lämpligt med

fertilitetförmåga att åstadkomma avkomma

Vidare ska termer som används i definitionen (till exempel avkomma ovan)inte förklaras där, utan i en egen termpost. Negativa definitioner – att säga vadnågot inte är – ska som regel undvikas, men kan vara lämpligt för vissa begrepp,som ’flintskallig’ (”som inte har hår på huvudet”) (Suonuuti, 2004).

2.2.1.6 Termval

När terminologen väljer termer till begrepp finns det ett antal krav som börmötas.

Termen bör vara precis (datorskärm och inte skärm); entydig inom ämnes-området (inte homonym eller polysem som terminologi); accepterad av fack-män, ibland rentav internationellt; passa in i svenskan (till exempel vad gällerstavning, böjning och uttal); ej missvisande (kärnenergi, inte atomenergi, då detrör klyvning av just kärnan); språkekonomisk (kort); och genomsynlig (lätt attförstå) (TNC och Spri, 1999). Den ”bör också helst spegla några av begreppetskännetecken” (Suonuuti, 2004, s. 30).

Ibland hamnar kraven i konflikt med varandra – en lång termkandidat ärmindre språkekonomisk men ofta mer genomsynlig än en kort – och kan kanskeinte alla tillgodoses (TNC och Spri, 1999).

Ibland finns flera etablerade termer. I den situationen bör en term rekom-menderas och övriga införas som synonymer (TNC och Spri, 1999).

För både termer och definitioner finns det också stil- och formkrav, somatt de ska börja på liten bokstav och ha källhänvisning om källan är normativ(Suonuuti, 2004).

14

termpostnummer BTL - UTD76 - 1452

svensk term term

svensk definition språkligt uttryck för ett begrepp som tillhör ett fack-område

svensk källa Terminologins terminologi.-1989.-s.20.-(Nordterm 2)

engelsk term term

engelsk definition a word or phrase used to denote a concept

engelsk källa Un.Term.Doc.

fransk term terme

fransk definition symbole conventionnel d’une notion qui consiste ensons articulés ou en leur représentation graphique(= en lettres).Unterme est un mot ou un groupe de mots(= locution)

fransk källa AFNOR

Figur 2.3: Post från Europeiska kommissionens flerspråkiga termbank EuroDicAutom(http://ec.europa.eu/eurodicautom/).

2.2.1.7 Representation och publicering

Den terminologi som produceras presenteras vanligen i form av terminologis-ka ordlistor, termbanker eller terminologiavsnitt i standarder (TNC och Spri,1999). Termbanker är terminologiska ordlistor som lagras elektroniskt ochgentemot vilka användare kan göra sökfrågor (Sager, 1990; Cabré, 1999). Vissatermbanker är fritt tillgängliga över webben; andra kan mot betalning erhållaspå CD-ROM (Bowker, 2003).

En terminologisk ordlista och en termbank består av flera termposter. Var-je termpost omfattar ett begrepp, då det ju är begreppet som är det centrala(se sektion 2.1.1.5). Därtill ska det finnas åtminstone ett termpostnummer, enrekommenderad term och en definition (Suonuuti, 2004). Ytterligare informa-tion som kan förekomma är synonymer, anmärkningar, hänvisningar till relate-rade begrepp, källa för informationen och ekvivalenter i andra språk (TNC ochSpri, 1999). Ett exempel på hur en post ur en termbank kan presenteras ges ifigur 2.3.

Termposterna kan vara ordnade systematiskt (efter begreppssystem), alfa-betiskt eller blandat (Suonuuti, 2004). I en termbank kan posterna naturligtvissorteras och sökas på olika sätt.

Det finns olika standarder för hur termposterna representeras internt. Olikadataformat kan ha olika styrkor och svagheter, och valet av format kan främjaeller hindra datautbyte och samarbete, till exempel gemensam mjukvaruut-veckling, mellan aktörer (Hjulstad och Eckmann, 1999).

2.3 TermextraktionTerminografer förlitar sig sedan slutet på 1990-talet allt mer på elektroniskakorpora i en trend som följer den på det lexikografiska området (Meyer m.fl.,1999).

15

Som nämnts i sektion 2.2.1.3 ovan används termen termextraktion främstför automatisk sökning av termer i en korpus. Det delmoment som syftar tillenbart själva identifieringen av termer kallas termidentifiering (Termium, 2006).

Utdata från termextraktionssystem är normalt kandidattermer, inklusivekontext och eventuellt information om frekvens med mera för att underlät-ta manuell efterbehandling (Cabré m.fl., 2001).

Termextraktionssystem kan vara enspråkiga eller flerspråkiga. Flerspråkigasystem får förutom en källtext även dess översättningar som indata, och extra-herar förutom termer även deras ekvivalenter på andra språk (Bowker, 2003).

För automatisk termextraktion gäller ännu att utdata snarast är att betraktasom just termkandidater – de behöver verifieras av en människa. Därför talarvissa hellre om datorstödd eller halvautomatisk termextraktion (Bowker, 2003).Cabré m.fl. (2001) räknar upp de fyra huvudproblem som de menar att au-tomatisk termextraktion har att lösa: (1) att identifiera var flerordstermer bör-jar och slutar; (2) att avgöra om en fras är en flerordsterm eller inte; (3) attidentifiera om en lexikal enhet är en term i en viss facktext; och (4) att be-döma hur väl en term platsar i den aktuella terminologin. I deras genomgångav tolv termextraktionssystem redovisar Cabré m.fl. (2001) precisionssiffrorpå 72–98 %, och täckningssiffror på 70–100 %. Dessa siffror är från system-utvecklarnas egna mycket olika utvärderingar och är därför knappast direktjämförbara med varandra. Andra, som Pasanen (2005), menar att termextrak-tionssystem normalt når en precision på 30–90 %.

Automatisk termextraktion överlappar med automatisk indexering inomforskningsområdet informationssökning (information retrieval, IR) vad gäller demetoder som används. Så kallade indextermer är oftast termer också i termi-nologisk mening. Det omvända gäller inte alltid – ett termextraktionsprogramska utvinna alla termer, medan indextermer är just de lexikala enheter sombeskriver dokumentets innehåll (Cabré m.fl., 2001). Därtill hör termer till ettfackområde, medan indextermer hänförs till specifika dokument och måste va-ra representativa just för dessa. I praktiken kan samma algoritmer dock oftaanvändas för att extrahera både indextermer och facktermer (Witschel, 2005).

Automatiska termextraktionssystem har hittills använt sig av statistiska ochlingvistiska metoder, inte sällan förenade i hybridsystem. Några metoder redo-visas i nästkommande avsnitt.

Metoder för termextraktion, såväl statistiska som lingvistiska, kan underin-delas i sådana (bl.a. kallade endogena) som utgår från termernas egna egenska-per och sådana (bl.a. kallade exogena) som tar fasta på termernas sammanhangi en korpus (Maynard och Ananiadou, 1999; Cabré m.fl., 2001; Kageura m.fl.,2004).

På senare år har det bedrivits allt mer forskning i att inte bara utvinna ter-mer på automatisk väg, utan även deras semantiska relationer och definitioner.Detta redovisas i sektion 2.3.4 som avslutar kapitlet.

Zielinski och Ramírez (2005) nämner MultiTerm Extract (från Trados),SDL PhraseFinder, Xerox Termfinder, Terminology Wizard (från Synthema)och TerminologyExtractor (från Chamblon) som några av det fåtal termextrak-tionssystem som dominerar marknaden idag. Av dessa sex system är hälftenrent statistiska och hälften hybrider.

16

2.3.1 Statistiska metoder

Statistiska metoder för termextraktion tar fasta på de statistiska egenskapersom skiljer termer från ord i löpande text. Det vanligaste är att fokusera påflerordstermer och titta på associationsmått för de ingående orden (Alegriam.fl., 2004). Sådana associationsmått bygger ofta (Cabré m.fl., 2001) på detinformationsteoretiska måttet ömsesidig information (eng. mutual information).

Ömsesidig information kan uttryckas

I(x,y) = log2P(x,y)

P(x)P(y)(1)

(Church och Hanks, 1989, s. 77) och innebär enkelt uttryckt att man jämförsannolikheten att två händelser (exempelvis ordförekomster) inträffar tillsam-mans, med sannolikheten för att de inträffar oberoende av varandra. Om bådasannolikheterna är ungefär lika stora blir kvoten runt 1 och logaritmen (ochinformationsvärdet) runt 0, medan en större förenad sannolikhet – om de sam-förekommer oftare än vad slumpen ger – innebär ett högre informationsvärde.Värdet kan bli negativt om orden står i komplementär distribution, det vill sägaom de aldrig samförekommer.

Church och Hanks (1989) beräknar vad de kallar en associationskvot mellanord utifrån denna formel. P(x) är antalet förekomster av ordet x normaliseratpå korpusens storlek. P(x,y) ser till hur många gånger orden x och y kommer iden ordningen, återigen normaliserat på korpusstorlek. Ordfönstrets storlek ären parameter – man kan titta på enbart ord i direkt följd, eller tillåta att de stårett par ord isär, beroende på hur täta relationer man söker. Associationskvotenskiljer sig från ömsesidig information i det att den inbördes ordföljden mellanx och y spelar roll, det vill säga att P(x,y) = P(y, x) inte nödvändigtvis gäller.

Ahmad m.fl. (1992) identifierar termer genom att jämföra den relativa fre-kvensen för någon termkandidat i en fackspråklig korpus med dess relativafrekvens i en välbalanserad allmänspråklig korpus, en så kallad referenskorpus.En kandidat som är signifikant mer frekvent i den fackspråkliga korpusen än ireferenskorpusen kan misstänkas vara en term. Detta mått kallas weirdness. IGillam m.fl. (2005) används additiv utjämning (eng. smoothing) eftersom manannars får en oändlig weirdness när en term helt saknas i referenskorpusen.Formeln (från Gillam m.fl. (2005, s. 6)) blir då

τ(w) =NGLfSL

(1 + fGL)NSL(2)

därw är ett typord,fSL är ordets frekvens i en fackspråklig (”specialist language”) korpus,fGL är ordets frekvens i en allmänspråklig (”general language”) korpus,NSL är det totala antalet ord i den domänspecifika korpusen ochNGL är det totala antalet ord i den allmänspråkliga korpusen. Hur formelntillämpas på flerordstermer framgår inte.

Det finns också statistiska metoder som tittar på ordens inre struktur. Co-hen (1995) hittar indextermer genom att identifiera tecken-n-gram som ärhögfrekventa i en domänspecifik korpus jämfört med en referenskorpus. Ordeller ordgrupperingar poängsätts efter hur många sådana n-gram de innehåller,

17

och de som når över något gränsvärde accepteras som termer. Detta är (medett exempel från Witschel (2005, s. 367)) särskilt effektivt inom domäner därtermer ofta är på något främmande språk – som det grekiska suffixet ”-itis”(med betydelsen ’inflammation’, t.ex. i eng. meningitis) inom medicin.

2.3.2 Lingvistiska metoder

Termextraktion grundad i lingvistisk kunskap är språkspecifik i högre grad änstatistisk extraktion och kräver ofta omfattande språkliga resurser; å andra sidanger den ofta bättre avgränsade termer och färre repeterade böjningsformer änstatistiska metoder (Zielinski och Ramírez, 2005).

I 2.3 ovan nämndes hur man delar in termextraktionsmetoder i termbasera-de och kontextbaserade. Maynard och Ananiadou (1999) kallar detta intrinsiskrespektive extrinsisk information, och menar att informationen för lingvistiskametoder i båda fallen tenderar vara syntaktisk, men i det intrinsiska/endogenafallet även morfologisk. Det finns också ett fåtal metoder som bygger på se-mantisk information.

2.3.2.1 Syntax

Den typiska lingvistiska metoden för termextraktion är att plocka ut sådanaordföljder som motsvarar vissa termtypiska ordklassmönster (Bowker, 2003). Isvenskan är till exempel ADJEKTIV-SUBSTANTIV ett vanligt mönster för termer(som kallpressat papper), medan PREPOSITION-ARTIKEL knappast är det.

Justeson och Katz (1995) (se Cabré m.fl. (2001)) står för ett tidigt exempelpå sådan lingvistisk filtrering. Källtexten ordklasstaggas, varpå de kollokationersom inte motsvarar en uppsättning accepterade taggmönster filtreras ut. Dess-utom krävs att kandidattermen har en viss minimifrekvens. För nominalfraseranvänds det reguljära uttrycket

((A|N) + |((A|N) ∗ (NP)?)(A|N)∗)N (3)

där N står för substantiv, A för adjektiv och P för preposition. Som exempelaccepteras engelska ”term extraction” (SUBSTANTIV-SUBSTANTIV) medan ”ofthe” (PREPOSITION-ARTIKEL) sorteras bort. Taggmönstren är avsedda att gegod precision, ibland på bekostnad av täckningen.

Arppe (1995) hävdar att så mycket som 80–99 % av termer är nominal-fraser. Att så gott som uteslutande fokusera på ordklassmönster som motsvararnominalfraser, vilket enligt Cabré m.fl. (2001) varit den genomgående trenden,kan därför anses motiverat.

Ett lingvistiskt termextraktionssystem med ett lite annorlunda tillväga-gångssätt är LEXTER (Bourigault, 1995) (se Cabré m.fl. (2001)). Maximaltlånga nominalfraser identifieras och delas upp vid de ordklassmönster (i frans-kan exempelvis PREPOSITION-ARTIKEL, ”sur le”) som normalt inte ingår i enterm. Systemet försöker hantera undantag, det vill säga de fall där en ordföljdsom motsvarar ett sådant mönster ändå ingår i en term, genom att titta påhur produktiv ordföljden är när den följer på det aktuella substantivet. Enbarticke-produktiva ordföljder blir termgränser.

18

2.3.2.2 Morfologi

Justeson och Katz (1995) (se Cabré m.fl. (2001)) visade att medellängdenför en nominal term i engelska är 1,91 ord. Detta kanske kan motivera attman i engelskspråkig termextraktion, såväl statistisk som lingvistisk, oftast fo-kuserar på flerordstermer (Alegria m.fl., 2004). I svenska används dock oftasammansättningar där till exempel franska eller engelska skulle ha en flerords-term – engelska web site blir svenska webbplats. Bland publicerad forskning omtermextraktion hittar man mest metoder som fokuserar på flerordstermer; fo-kus är sällan på enordstermer och än mer sällan på sammansättningar.

Ett undantag, utöver Cohen (1995) i 2.3.1 ovan, är Heid m.fl. (1996) somextraherar termer ur tysk facktext. För att identifiera enordstermer görs ett an-tagande att de kännetecknas av vissa allmäntyska prefix (exempelvis motsva-rande de reguljära uttrycken ab.+, ultra.+) och/eller suffix (.+artig, .+widrig).För den aktuella domänen, bilmekanik, identifierades dessutom vissa frekventaordled (som .*motor.*). För att vara en kandidatterm ska ett ord innehålla minstett sådant prefix, suffix eller ordled.

I ett senare arbete generaliserar Heid (1999) processen. Statistiskt identifie-rade termkandidater analyseras morfologiskt. Lexikala (men inte grammatiska)morfem4 som frekvent förekommer i termkandidater antas vara domänspecifi-ka. Sådana domänspecifika morfem används sedan ihop med reguljära uttryckför morfologisk termextraktion.

2.3.2.3 Semantik

Det förekommer också att semantisk information används, till exempel avMaynard och Ananiadou (1999) som med hjälp av en fackspråklig tesaurus be-räknar ”semantiskt avstånd” mellan någon given kandidatterm och andra kan-didattermer i dess kontext. En kandidat som förekommer ihop med mångakandidater som är semantiskt lika, rankas högre än om så inte varit fallet. Se-mantiken används också för termdisambiguering.

Cabré m.fl. (2001) gjorde bedömningen att semantisk information måstetas till vara i högre grad för fortsatt förbättrade termextraktionssystem. Sådaninformation används dock fortfarande inte i de flesta kommersiella system (Zi-elinski och Ramírez, 2005).

2.3.3 Hybridsystem

Rent statistiska system tenderar undergenerera, då de t.ex. missar lågfrekventatermer; rent lingvistiska tenderar övergenerera, då de mönster som används kanvara för generella. Hybridsystem, som kombinerar metoder av båda slagen, gerbättre resultat (Zielinski och Ramírez, 2005). Cabré m.fl. (2001) menar atthybridlösningar är avgörande för den fortsatta utvecklingen av termextraktion.

Enligt Maynard och Ananiadou (1999) är många hybridsystem till störstadelen statistiska, och använder lingvistisk information enbart för att filtrerafram de kandidater som är syntaktiskt rimliga.

4Lexikala morfem är ordled med egen betydelse. Grammatiska morfem är funktionsord,böjningar och avledningar som bara har betydelse ihop med lexikala morfem.

19

Man kan vända på ordningen och tillämpa statistisk filtrering av lingvis-tiskt extraherade termkandidater, för att skilja kollokationer från slumpmässi-ga samförekomster (Witschel, 2005). Den inbördes ordning som lingvistik ochstatistik tillämpas i har viss betydelse. I det kanske första hybridsystemet förtermextraktion valde Daille (1996) att tillämpa statistiken sist, då storlekarnapå dess ordfönster därmed blev givna av den lingvistiska filtreringen, i ställetför att sättas till mer godtyckliga värden som kunde vara för stora eller små ivissa fall.

Gillam m.fl. (2005) menar att avgränsningen mellan statistiska och lingvis-tiska metoder är artificiell, att de är beroende av varandra och representerarolika sidor av hur information uttrycks i språk.

2.3.4 Extraktion av relationer och definitioner

På senare år har fokus inom automatisk terminologihantering övergått från au-tomatisk identifiering/extraktion av termer till att bland annat identifiera rela-tioner mellan termer (Kageura m.fl., 2004; Patry och Langlais, 2005).

Zielinski och Ramírez (2005) betraktar detta som lingvistisk termextrak-tion.

2.3.4.1 Informationsmönster

En tidig studie av halvautomatisk extraktion av semantiska relationer varHearst (1992). Lexiko-syntaktiska mönster som tyder på hyponymrelationeridentifierades. Ett sådant mönster kan vara NP {, NP}* {,} or other NPsom svarar mot till exempel ”Bruises, wounds, broken bones or other injuries. . . ” och då ger upphov till relationer som hyponym("bruise", "injury"),hyponym("wound", "injury") och hyponym("broken bone", "injury")(exempel från Hearst (1992, s. 3f)). Sedan tillämpas en iterativ process föratt identifiera nya mönster: givet kända ord med någon relation (”bruise” ärhyponym till ”injury”) görs sökningar i texten på samförekomster av dessa ord.Kontexten för sådana samförekomster kan avslöja ytterligare mönster för sam-ma relation. Dessa kan ge ytterligare termer, som ger ytterligare relationer, ochså vidare.

Liknande metoder har använts för termers relationer och definitioner. Con-ceptual sampling (Meyer m.fl., 1999; Meyer, 2001) handlar om att för enterm i en korpus välja ut just de konkordansposter som illustrerar intressan-ta begreppsrelationer. Dessa poster kallas knowledge-rich contexts (KRCs). Detsaknas en etablerad svensk term, men informationsrika kontexter5 kanske kananvändas. Meyer m.fl. (1999) ser tre praktiska användningsområden: 1. KRCsav hög kvalitet kan användas direkt som definitioner; 2. KRCs av lägre kva-litet kan vara en utgångspunkt för definitionsskrivande; 3. alla KRCs hjälperterminologen i sin begreppsanalys i övrigt.

Conceptual sampling kan göras halvautomatiskt utifrån antagandet att ”agiven conceptual relation will manifest itself in certain predictable, recur-ring patterns in text, which we term knowledge patterns” (Meyer m.fl., 1999,s. 257). En möjlig svensk översättning är informationsmönster. Meyer m.fl.

5Som direktöversättning från tyska informationsreicher Kontexte i examensarbetet http://www.ifi.unizh.ch/cl/study/lizarbeiten/lizmiriamoberholzer.pdf.

20

(1999, s. 257) ger följande exempel, bland andra, för termen amniocentesisoch relationen HYPERONYMI, med informationsmönstren i fetstil:

1. Amniocentesis is the most commonly used test for prenataldiagnosis of genetic diseases or disorders.

2. Amniocentesis is a valuable diagnostic test available to helpdiagnose problems before the birth of a child.

3. It can be helpful to women considering whether to have moreinvasive tests such as amniocentesis.

Informationsmönster kan vara lexikala mönster som i exemplen ovan; gramma-tiska mönster, som att engelska SUBSTANTIV-VERB för de flesta verb skildrarrelationen FUNKTION; och paralingvistiska mönster, som textstruktur eller in-terpunktion – ”placenta previa (a placenta abnormally located in the lower partof the uterus)” manifesterar HYPERONYMI. Vissa informationsmönster (som”is a” ovan) är domänoberoende, medan andra (som i ”Maroon is a shade ofred”) är domänspecifika (exempel från Meyer m.fl. (1999, s. 258ff)).

En svårighet är att mönster kan vara polysema – ”consist* of” kan uttryc-ka såväl MERONYMI (”Breast milk consists of sugars, proteins and fats”) somHYPERONYMI (”Real-time ultrasound consists of a process whereby . . . ”) (ex-empel från Meyer m.fl. (1999, s. 260f)). Två ytterligare problem med metodenär att informationsmönster inte rår på sådan information som måste nås genomslutledning eller kunskap om världen, och att sökningar utgående från termerförstås inte rår på anaforer (Meyer m.fl., 1999). Å andra sidan menar Witschel(2005) att just termer tenderar att förekomma upprepade gånger utan varia-tion i texter, vilket kanske mildrar anaforiproblemet.

Meyer m.fl. (1999) menar att utvecklingen av informationsmönster i ettverktyg för conceptual sampling är en iterativ process där utdata kan ge upp-hov till nya mönster, eller begränsningar av tidigare mönster, i en strävan attbalansera under- och övergenerering. Detta förefaller besläktat med den itera-tiva processen som presenteras i Hearst (1992).

Idén om informationsmönster, med mindre skillnader, har med andra namnkallats till exempel knowledge probes (Ahmad och Fulford, 1992) (se Meyer(2001)) och defining expositives (Pearson, 1998).

2.3.4.2 System

DEFINDER och TerminoWeb är två system som tillämpar idén ominformationsrika kontexter och informationsmönster.

DEFINDER (Klavans och Muresan, 2000; Muresan och Klavans, 2002) ex-traherar term/definition-par från medicinsk text. Systemet består av en modulför mönstermatchning, en för djupare syntaxanalys och en mindre filtrerings-modul.

Den första huvudmodulen använder en reguljär grammatik ihop med lexi-kala informationsmönster kallade cue-phrases (som ”is the term for”, ”is called”)och paralingvistiska informationsmönster som parentetiska inskott. Därtill an-vänds en ordklasstaggare och en chunker för att identifiera enkla nominalfraser(huvudord och framförställda modifierare). Filtreringsmodulen sorterar sedanbort förklaringar, uppräkningar och liknande övergenereringar som informa-tionsmönstren gett upphov till.

21

http://www.tstt2006.org

Table 4: Examples of extracted terms

DOMAIN FREQUENCY

Paragliding Paragliding, flying, paragliders, pilot, pilots, fly, air, paraglider, flight, wing, listing, manufacturers, site, video, hang, sport, book, training, retailers, dominican, gliding, launch, check, sites, equipment, hand gliding, flights, landing, republic, page

Computer storage

storage, computer, memory, information, disk, data, access, scsi, devices, hard, magnetic, furniture, office, media, computer storage, fibre, primary, channel, secondary, drive, tape, disks, drives, device, home, ata, computers, news, office furniture, fibre channel

Bank fraud Bank, fraud, corruption, world, money, project, world bank, fraud corruption, contract, procurement, loan, financial, banks, identity, information, account, staff, fraudulent, credit, projects, theft, funds, borrower, business, number, card, investment, management, public, accounts

Figure 4: TerminoWeb: term extraction and knowledge-rich context search panel Figur 2.4: Gränssnittet i TerminoWeb. Från Barrière och Agbago (2006, s. 9).

I den andra huvudmodulen utförs en dependensanalys, vilken kan avslöjalingvistiska fenomen som apposition, relativsatser och anafori. Därmed kansystemet identifiera definitioner som kännetecknas av mer komplexa mönsterän vad ytparsningen rår på (jämför med anaforiproblemet som Meyer m.fl.(1999) påpekar ovan).

(Muresan och Klavans, 2002) redovisar en precision på 87,0 % och en täck-ning på 75,5 % för DEFINDER jämfört med mänsklig extraktion.

Barrière och Agbago (2006) beskriver TerminoWeb, en arbetsmiljö för atthalvautomatiskt hitta informationsrika dokument och utvinna termer och in-formationsrika kontexter ur dem. Arbetet är uttryckligen inspirerat av Meyer(2001). Gränssnittet visas i figur 2.4.

Dokument hämtas från webben. De dokument som är intressanta består avlöpande text med en hög andel informationsmönster (är informationsrika) ochen hög andel termer på området (är domänspecifika). Systemet har som in-gångsdata ett antal informationsmönster och en startuppsättning termer. Den-na uppsättning termer utökas iterativt – dokument ger termer som ger flerdokument, med fler termer.

Själva termextraktionen är statistisk, baserad på dels rå frekvens, dels weird-ness.

22

3 Datainsamling

Extraktionen av relevanta dokument förutsätter en föreskriftskorpus att extra-hera ur. Ingen sådan korpus finns tillgänglig, varför ett datainsamlingssteg ärnödvändigt.

3.1 DataMyndigheter är offentliga institutioner som utför statliga arbetsuppgifter. Ex-empel på myndigheter är Skolverket och Länsstyrelsen i Uppsala län.

Föreskrifter är juridiskt bindande regler som en myndighet utfärdar på sittområde – tillsammans med riksdagens lagar och regeringens förordningar rymsde under termen författningar.

Detta arbete utgår från den lista över myndigheters författningssamlingarpå webben som redovisas på myndigheten Vervas (Verket för förvaltningsut-veckling) webbplats lagrummet.se1.

3.1.1 Urval

En del ställningstaganden måste göras vid datainsamlingen vad gäller de myn-digheter och slags föreskrifter som ska ingå.

3.1.1.1 Myndigheter

Vissa författningssamlingar på Vervas lista ingår inte i det här arbetet: totaltanvänds 62 av 89 myndigheters författningssamlingar (68 %).

Länsstyrelsernas föreskrifter föreföll vid utvecklingen av nedladdningsreglernästan uteslutande vara stora antal trafikregleringar och liknande rutinärendensom är fattiga på termdefinitioner. 21 av 89 myndigheter på listan (24 %) ärlänsstyrelser. Att utesluta dessa föreskrifter från arbetet sparar tid och innebärförhoppningsvis en högre koncentration intressanta dokument i insamlad data.En nackdel är naturligtvis att det inte kan uteslutas att något län ändå ger utnågon föreskrift med terminologiskt intressant information.

Bland återstående myndigheters webbplatser fanns en handfull som an-vände JavaScript-kod för sina menyer eller nedladdningslänkar, vilket gör demsvåra att navigera programmatiskt. Därför har dessa myndigheter fått uteslutas.

1Hela listan av författningssamlingar återfinns på http://www.lagrummet.se/rattsinformation/forfattningar/myndigheter/.

23

3.1.1.2 Föreskrifter och format

Med kvarvarande myndigheter uppstår frågor om vilka dokument som är in-tressanta att ladda ner. Vilka dataformat ska accepteras? Vilket ska väljas omsamma föreskrift erbjuds i flera format? Om både ändringsföreskrifter och kon-soliderade föreskrifter2 erbjuds, vilka ska då tas med? Är bilagor relevanta? Skaupphävda föreskrifter omfattas?

I regelskrivandet för det här arbetet föredras konsoliderad form framförändringsföreskrifter. Det är emellertid ofta svårt att skriva regler som lyckasskilja olika slags föreskrifter åt. I praktiken torde det inte vara något problemom samma föreskrift kommer med både konsoliderad och i delar, annat än omdet ger konsumenten av systemets utdata ett falskt intryck av hög frekvens förföreskriftens termdefinitioner.

Reglerna har skrivits med avsikten att bara spara ner gällande föreskrifter,men på samma sätt som med ändringsföreskrifterna är de ibland svåra att skiljaut. Antagandet här är att definitionerna i icke gällande föreskrifter kan ha blivitinaktuella. Samtidigt nämndes i sektion 2.2.1.2 hur äldre texter kan definierasådant som i nyare texter tas för självklart och att de därför kan vara av värde.

Bilagor laddas inte när där det är möjligt att undvika. De kan förvisso hadefinitioner, men de är inte formbundna på samma sätt som föreskrifterna ochantas därför inte kunna extraheras med samma regler.

Föreskrifter tillhandahålls nästan uteslutande i något eller båda av formatenHTML och PDF. Det fåtal föreskrifter som enbart tillhandahålls i MicrosoftsWord-format har uteslutits ur detta arbete.

HTML är det XML-liknande format som webbsidor normalt representerasi. Formatet innebär att innehållets struktur markeras ut: stycken, rubriker, em-fas och så vidare. Hur denna strukturerade data sedan presenteras i en webb-läsare – att stycken separareras av mellanrum eller att rubriker har större text– är en separat fråga. HTML-dokument är textfiler som kan läsas i en vanligtextredigerare.

I kontrast till detta är PDF ett presentationsformat: PDF-dokument ser iprincip likadana ut i alla sammanhang. Dokument representeras som elementmed koordinater och visuella attribut, som fet stil. Varje rad eller rentav teckeni ett textstycke kan vara ett separat sådant element. Det finns stöd för att märkaupp PDF-dokument strukturellt, så kallad taggad PDF, men det verkar intevanligt. Vid några stickprov bland de nedladdade föreskrifterna hittades ingasådana. PDF-dokument är lagrade binärt och kan inte läsas eller skrivas utansärskild programvara.

Strukturellt uppmärkta dokument är tacksamt när man programmatiskt,som i detta arbete, vill kunna skilja ut rubriker eller helt enkelt kunna läsa fler-kolumnig text i rätt ordning. Med en PDF utan strukturell information måstesådant induceras från själva textinnehållet eller textens visuella attribut.

I praktiken är det inte ovanligt att HTML-dokument delvis författas utifrånutseende i stället för struktur – till exempel att det som borde markerats somrubrik i stället markeras som ett stycke och fetstilt. Detta blir ofta resultatet näranvändaren inte skriver HTML direkt utan låter det genereras av ett program,till exempel en ordbehandlare. Även i dessa fall är HTML att föredra över PDF

2En grundföreskrift ändras genom ändringsföreskrifter, till exempel ”ny lydelse för paragraf2 är . . . ”. Konsoliderade föreskrifter har alla ändringar införda.

24

för det här arbetet: det är mycket lättare att arbeta med ett textbaserat formatän ett binärt, och textflödet är ofta bättre – texten är oftare lagrad i sammaföljd som den visas på skärmen.

Av dessa skäl laddas föreskrifter i första hand ner i HTML-format, om fleraformat erbjuds.

För HTML-dokument är det enbart HTML-koden som sparas ner: bilderkan tänkas komplettera termdefinitioner i något enstaka fall, men att ladda nerdem bedöms innebära väldigt mycket arbete till liten praktisk nytta.

3.2 InsamlingEtt program utvecklades för att enligt en uppsättning regler kunna navigerawebbplatser och spara ner vissa filer. Sådana regler utvecklades för att laddaner myndigheters föreskrifter. Hela regeluppsättningen redovisas i bilaga A.1.

Reglerna skrivs i ett så kallat domänspecifikt språk (DSS; eng. domain-specific language, DSL) implementerat i programspråket Ruby3. Detta innebäratt regler kan skrivas i ett ändamålsanpassat språk men vid behov utnyttja ettTuringekvivalent språk (Ruby) med ett rikt kodbibliotek.

Reglerna är skilda från koden som tolkar dem; programmet som samlarihop föreskrifter kan enkelt användas med andra regler för andra insamlings-uppgifter.

En enkel nedladdningsregel kan till exempel lyda

rule 'Försvarsmaktens författningssamling (FFS)' dovisit 'http://www.hkv.mil.se/ffs/article.php?id=15450'follow :text => /^#{RE_FFID}/ do

download :extension => :pdfend

end

Angiven webbadress uppsöks, varpå alla länkar vars text matchar angivet re-guljärt uttryck följs. På dessa sidor laddas alla filer med ändelsen .pdf ner. Kon-stanterna RE_YEAR och RE_FFID har definierats i regelfilen med vanlig Ruby-kod och innehåller ofta använda reguljära uttryck som motsvarar årtal (”2000”)respektive författningsnummer (”1999:1395”).

Mer komplexa nedladdningsregler kan göra sådant som att fylla i och skickasökformulär, manipulera hela sidan element för element för att ta bort länkartill upphävda föreskrifter före nedladdningen, eller ladda ner en ändringsföre-skrift enbart om den inte länkar till en konsoliderad version.

Eftersom data som ska samlas in alltid är ändligt uppräknelig skulle detnaturligtvis räcka med så enkla regler som ”Ladda ner fil A. Ladda ner fil B.”,men mer generella regler som dessa gör regelskrivandet behagligare och mindretidskrävande. I bästa fall kan också samma regler fånga upp nytillkomna filerav intresse vid en senare körning.

Metadata sparas för varje nedladdad fil: datum och tid, regelnamn, webb-adress med mera.

3http://www.ruby-lang.org/.

25

4 Extraktion av dokument

Innan extraktion kan ske mot den korpus som samlats in bearbetas dokumen-ten till ett mer enhetligt format. Därefter skiljs två icke-överlappande del-mängder ut från de 4639 dokumenten: en träningsmängd som omfattar 231dokument, eller cirka 5 % av korpusen, och en testmängd som omfattar 462dokument, eller cirka 10 %.

De bearbetade dokumenten i träningsmängden studeras. Mönster som indi-kerar att dokumentet innehåller termdefinitioner identifieras och formaliserastill regler som tolkas av en regelmotor. Reglerna prövas och förfinas i en iterativprocess. Utdata av extraktionen redovisas i ett webbgränssnitt.

4.1 BearbetningViss bearbetning av nedladdade dokument krävs för att kunna skriva extrak-tionsregler mot relativt enhetlig data. Korpusen normaliseras i två avseenden:dokumentformat och teckenkodning.

Som diskuterades i sektion 3.1.1.2 ovan är PDF-formatet besvärligt att ar-beta med jämfört med HTML. Dessutom är det lämpligt att kunna utförasjälva extraktionen mot ett enda dokumentformat. Därför konverteras PDF-dokumenten i korpusen till HTML. För detta används det fria verktyget pdf-tohtml1.

Ett PDF-dokument får naturligtvis inte nödvändigtvis semantiskt korrektstruktur bara för att det konverteras till HTML. Att inducera struktur ur PDF-dokument är ett omfattande arbete där man får ta fasta på visuella ledtrådar(Gurcan m.fl., 2003). Det verkar tyvärr saknas fritt tillgängliga verktyg fördetta.

Alla HTML-dokument – inklusive de konverterade PDF-filerna – konverte-ras därefter till en och samma teckenkodning (UTF-8). Entiteter, som ö,görs om till de tecken som de representerar. Fördelen med normaliserad tec-kenkodning är att extraktionsreglerna inte behöver ta hänsyn till de olika sättsom till exempel ett ”ö” kan skrivas2.

För att fastställa källteckenkodningen används i första hand webbserverns

1http://pdftohtml.sourceforge.net/. Flaggorna -noframes -c -i används för att fåutdata i en enda HTML-fil med komplex layout och utan bilder.

2Bland annat ö, ö och ö. Faktum är att ett ”ö” kan skrivas på flera sätt äveni UTF-8 – som ett enda tecken eller som kombinationen av ”o” och ”¨”. Det har inte funnits tidatt fördjupa sig i detta, men i praktiken verkar den normalisering som görs tillräcklig.

26

metadata3 och i andra hand metadata inuti själva dokumentet4. Som sista utväggörs en uppskattning med hjälp av kodbiblioteket chardet5.

4.2 AnalysDokumenten i träningsmängden lästes igenom manuellt. Indikatorer på defi-nitioner noterades och generaliserades. Dessa formuleras sedan som regler. Re-sultatet av att tillämpa dessa regler på träningsmängden avslöjar brister och gerupphov till förbättrade regler. På detta sätt är regelskrivandet en iterativ pro-cess snarlik den Meyer m.fl. (1999) använder för att hitta informationsmönsterför termextraktion (se sektion 2.3.4.1).

Myndigheters föreskrifter är till viss del formbundna. Handboken DS1998:43, ”Myndigheternas föreskrifter” (Statsrådsberedningen, 1998), menaratt definitioner bör komma i ett särskilt definitionsavsnitt. Som exempel ges (iStatsrådsberedningen (1998, s. 87))

Definitioner

2 § Med skors huvudbeståndsdelar avses sådana delar som beskrivsi bilaga 2.

Detta utvecklas vidare med att ”[f]acktermer . . . skall förklaras . . . . Man kan. . . antingen ha en inledande bestämmelse med definitioner eller ordförkla-ringar eller en särskild fackordlista” (Statsrådsberedningen, 1998, s. 110). I öv-rigt sägs det att ”presens skall . . . användas i definitioner (med x avses y)”(Statsrådsberedningen, 1998, s. 105), och exemplet ”så är fallet t.ex. i defini-tioner (Med tobaksvara förstås en produkt som till någon del innehåller tobak)”(Statsrådsberedningen, 1998, s. 96) ges i samband med ett annat påbud.

Även om dessa till största delen är rekommendationer verkar de stämmaganska väl överens med föreskrifterna i träningsmängden. Definitionsavsnitt –ofta med rubriken ”Definitioner” – är inte ovanliga, och särskilt mönstret ”medterm avses definition” är mycket vanligt förekommande.

En princip som följdes vid analysen var att hellre göra mönstren för gene-rella än för snäva; i sin diskussion om användarvänlighet inom termextraktionpåpekar Thurmair (2003) hur det i regel är lättare att sortera bort felaktigaträffar än att söka upp sådana som aldrig kom med. I utvärderingstermer efter-strävas hög täckning även om det blir på bekostnad av precisionen.

4.3 ReglerSomliga av de mönster som identifieras är informationsmönster av det slagMeyer m.fl. (1999) talar om, det vill säga förutsägbara mönster som indikerarnågon begreppsrelation. Ett mycket vanligt mönster för definitioner i föreskrif-ter har till exempel visat sig vara ”med . . . avses . . . ”.

3Exempelvis Content-Type: text/html; charset=utf-8 .4Exempelvis <meta http-equiv="Content-Type" content="text/html;charset=utf-8">

.5http://rubyforge.org/projects/chardet/.

27

P

Text i B

fet, I

kursiv

stil.

Figur 4.1: Trädrepresentation av HTML-koden <p>Text i <b>fet,<i>kursiv</i></b> stil.</p>. P, B och I är elementnoder; övriga är textnoder.

Andra mönster som används för att extrahera relevanta dokument kan sessom en slags metainformationsmönster – mönster som indikerar informations-mönster. Rubriken ”Definitioner” ingår själv inte i någon begreppsrelation, menmellan denna rubrik och nästa (på samma eller högre rubriknivå) kan till ex-empel tabellrader i två kolumner ses som paralingvistiska informationsmönsterför definitionsrelationen.

Regelmotorn i sig är enkel. Den itererar över dokument och tillämpar reg-lerna på varje. När en regel uppfylls informerar den regelmotorn om vilka ele-ment i dokumentet som ska plockas ut. Avslutningsvis genereras ett webb-gränssnitt som presenterar sådana träffar gulmarkerade i dokumentet och lista-de i en förteckning.

Reglerna tillhandahålls dokumentet genom HTML-parsern Hpricot6 somrepresenterar dokument som träd. Ett exempel på HTML i trädrepresentationges i figur 4.1.

Totalt skrevs fyra regler. Dessa redovisas i bilaga A.2. Gemensamt för al-la regler är att de använder sig av reguljära uttryck som är kastokänsliga (eng.case insensitive) och där jokertecken får matcha flera rader (flaggorna i och mi Ruby). Vidare används det reguljära uttrycket \s+ (ett eller flera blanktec-ken) mellan löpord i stället för mellanslag, för att även motsvara till exempelradbrytningar eller radbrytningar följda av mellanslag då ett sådant bruk avblanktecken inte är ovanligt i HTML-dokument.

4.3.1 Sökning i löptext

Tre av reglerna söker i hela dokumentets textmassa. Detta är inte helt trivi-alt eftersom det finns två nivåer att röra sig mellan: dels texten man ser i sinwebbläsare, dels den bakomliggande trädrepresentationen. En utökning av re-gelmotorn hanterar detta så att man i reglerna kan koncentrera sig på textenman ser och få det transparent översatt till extraktion av element i trädet.

Reglerna består av mönster uttryckta som reguljära uttryck. Även ”anti-mönster” kan anges för att utesluta vissa motexempel.

6http://code.whytheluckystiff.net/hpricot/.

28

4.3.1.1 Avses/menas/förstås

Den första regeln är avsedd att hitta definitioner som ”i denna författning avsesmed term definition” eller ”med term menas definition”. Faktum är att det regul-jära uttrycket enbart kräver något av löporden ”avses”, ”menas” och ”förstås”;om det sedan föregås eller följs av ”med något” inkluderas även detta, men detär inte nödvändigt.

Ett anti-mönster förbjuder t.ex. ”som avses” och ”som inte avses” – dockinte när det fortsätter ”som avses med”. Dessutom utesluts ”avses ha” och lika-dant för ”bli”, ”börja” och ”genomföras”.

4.3.1.2 Följande begrepp/definitioner/. . .

Den andra regeln täcker ett stort antal uttryck i stil med ”här används or-det ord”, ”i denna föreskrift förekommer följande beteckningar” och ”i det-ta avsnitt används följande begrepp med nedan angiven innebörd”. Förle-den som ”i detta avsnitt används” och efterleden som ”med nedan an-given innebörd” är inte nödvändiga när själva kärnan är ”följande be-grepp/beteckningar/definitioner/ordförklaringar/termer”.

En variant på mönstret byggs kring nyckelord i bestämd form singularis,som ”i denna föreskrift används ordet/begreppet/termen/definitionen ord”. Idet fallet krävs både förledet och att nyckelordet följs av blanktecken och sennågot löpord.

4.3.1.3 Definitionen/definitionerna/termen/. . .

Den sista löptextregeln fångar helt enkelt upp olika böjningsformer av orden”definition”, ”term” och ”begrepp”. Regeln har låg precision, men utan denblir täckningen lidande. Även sådana träffar som inte är definitioner kan haintressanta anmärkningar.

Två anti-mönster finns: ett som motsvarar uttrycket ”faller (inte) underdefinitionen” och ett där nyckelordet föregås av ”redogöra för (innebörden av)”.

4.3.2 Sökning i rubriker

Den fjärde och sista regeln söker inte i hela dokumentets text, utan enbart isådana element som används för rubriker. Utöver de element, h1–h6, som äravsedda för rubriker räknas även andra som i praktiken används i dokumenten:div, span, td, th, p, b, strong, i och em.

Textinnehållet i dessa element matchas mot ett reguljärt uttryck som inne-håller enbart ”definitioner/termer/begrepp/ordlista”, eventuellt föregånget av”löpord och” eller följt av ”och löpord”. Hela det uttrycket får också föregås avsådant som ”1. ” eller ”2. kap ” och efterföljas av vad som helst inom parenteser.

4.4 WebbgränssnittNär extraktionen är klar redovisas resultatet i ett webbgränssnitt (figur 4.2)7.

7Webbgränssnittet för testmängdens utdata finns fullt fungerande på http://stp.lingfil.uu.se/~henrikn/termyn/utdata/.

29

Figur 4.2: Webbgränssnitt för extraktionsresultat.

Samtliga dokument listas till vänster under rubrikerna ”Extraherade doku-ment” och ”Övriga dokument”. För varje extraherat dokument listas alla regel-träffar med regelnamn och den text som matchades av regeln.

Dokumenten visas till höger. Varje regelträff är en hyperlänk till den platseni dokumentet. Text som matchats av regler är gulmarkerad.

Länken ”Meta” vid varje dokument i listan visar metadata om dokumen-tet: nedladdningsdatum, nedladdningsregelns namn (det vill säga myndighe-tens namn) och länkar till såväl originaldokumentet (den webbadress som do-kumentet hade vid nedladdningstillfället) och till det hänvisande dokumentet(den sida som hade nedladdningslänken på sig). Länken till originaldokumen-tet är användbar till exempel om ett PDF-dokument inte kunnat konverteraskorrekt; det hänvisande dokumentet kan innehålla ytterligare metadata.

30

5 Utvärdering av dokumentextraktion

De dokument som används i utvärderingen samlades in på förmiddagen 9 maj2007 enligt de regler som redovisas i bilaga A.1. Av totalt 4639 insamladedokument valdes 462 dokument (cirka 10 %) slumpmässigt ut för utvärdering– den så kallade testmängden.

Det som utvärderas i detta avsnitt är extraktionen av dokument; själva ned-laddningen utvärderas inte.

De regler som utvecklats för Termyn tillämpades på testmängden. Utdatajämförs med den så kallade guldstandarden som innehåller data från manuelldokumentextraktion av två terminologer. Denna redovisas i nästa sektion, 5.1.I sektion 5.2 jämförs sedan systemets klassificering med guldstandarden.

5.1 GuldstandardTvå personer – terminologer vid TNC – har oberoende av varandra manuelltfått klassificera dokumenten i testmängden. Dokumenten klassificerades efterhuruvida de ansågs innehålla definitioner av termer1. En terminolog (”A”) harklassificerat samtliga 462 dokument; den andra (”B”) har enbart haft möjlig-het att klassificera de första 253 (drygt halva testmängden, 5,5 % av insamladedokument). Därför utvärderas främst de 253 dokument som båda har klas-sificerat. Testmängden valdes slumpmässigt, men inom denna presenteradesdokumenten för terminologerna i insamlingsordning, vilket dessvärre innebäratt de dokument B klassificerat – och därmed den mängd dokument som bådaklassificerat – inte fullt ut är ett slumpmässigt urval. Av denna anledning ska dedelar av utvärderingen som rör dessa dokument inte ses som säkra. Den totalamängd dokument som A klassificerat är däremot slumpmässig.

Svarsalternativen var ”ja” (innehåller definitioner av termer), ”nej” och ”kaninte avgöra”. Sistnämnda alternativ var avsett att undvika godtyckliga svar isvåravgjorda fall. Detta alternativ har dock ingen motsvarighet i Termyns binä-ra klassificering. Därför har dokument med detta svar2 helt enkelt räknats bortinför utvärderingen. Av de dokument som båda klassificerat återstår då 242stycken. Av A:s 462 dokument kvarstår 456 och av B:s 253 dokument kvarstår246.

Klassificeringen skedde i ett webbgränssnitt (se figur 5.1) utvecklat för än-damålet.

1Instruktionerna är inte fullständigt entydiga, men det vore inte lämpligt att ge mer exaktakriterier för vad som ska ingå och inte; själva bedömningen av vad som ska tas med är ju central.

213 klassificeringar; 11 stycken eller 4,4 % av de gemensamma dokumenten.

31

Figur 5.1: Webbgränssnitt för manuell dokumentklassificering.

I webbgränssnittet fick terminologerna se PDF-dokument i original, intekonvertererade till HTML. Tanken var att bespara dem eventuella konverte-ringsproblem3. HTML-dokument visades i samma format som Termyn får demtillhanda, det vill säga normaliserade med avseende på teckenkodning.

5.1.1 Kappa

Två slumpmässiga utvärderare, som var och en väljer mellan två lika sannolikaalternativ för varje dokument, skulle klassificera 50 % av dokumenten likadant.Carletta (1996) menar att rena enighetssiffror därför inte är ett gott mått påöverensstämmelse mellan klassificerare: graden av enighet tar ingen hänsyn tillvad slumpen ger. Korrespondensen mellan klassificeringar mäts i stället oftamed så kallad kappastatistik (Cohen, 1960; Passonneau, 1997). Kappastatistikger en koefficient på en skala mellan −1 och 1, där −1 representerar total oe-nighet, 0 lika stor enighet som slumpen (”tillfällig enighet”) och 1 total enighet.Formeln kan uttryckas

κ =observerad enighet − tillfällig enighet

1 − tillfällig enighet(4)

Värdet beräknades på följande data:

3Till exempel när texten är lagrad som en stor bild (inte ovanligt för äldre föreskrifter somscannats in från pappersförlaga), när dokumentet är kopieringsskyddat (och därmed konverte-ringsskyddat) eller när en särdeles komplex layout leder till att HTML-dokumentet visar fleralager text på samma skärmutrymme.

32

Terminolog ATerminolog B Ej definitioner Definitioner

Ej def. 161 37Def. 4 40

Resultatet är en kappakoefficient på 0,56 (0,45–0,67 med en konfidensgradpå 95 %). Korrespondensen är klart över slumpen, men alltså inte särskilt stark.

5.1.2 Precision och täckning

I den här utvärderingen används de konventionella måtten precision och täck-ning (eng. recall). Precisionsmåttet kan formellt beskrivas som

P =antal korrekta extraherade dokument

antal extraherade dokument(5)

och handlar mer informellt om hur stor andel av de extraherade dokumenten(eller vad utvärderingen nu rör) som är korrekta. Täckningsmåttet kan beskri-vas

T =antal korrekta extraherade dokument

totalt antal korrekta dokument(6)

och beskriver hur stor andel av den totala mängden korrekta dokument somfaktiskt plockats ut.

Följande värden beräknas på de 242 dokument som båda klassificerat ochdär ”kan inte avgöra”-svaren räknats bort.

Då beräkning av konfidensintervall för precision och täckning är en öppenforskningsfråga beräknas i stället konfidensintervall för accuracy, det vill säga

A =antal korrekta extraherade dokument + antal inkorrekta utelämnade dokument

totalt antal dokument(7)

eller mer informellt: den andel korrekta klassificeringar som gjorts vare sig deär ”ja” eller ”nej”. Detta värde ger en fingervisning om storleken på konfidens-intervallen för precision och täckning. Det ska noteras att accuracy beräknasenbart för att få denna fingervisning – kappastatistiken mäter ju redan enig-het på ett mer rättvisande sätt. Mellan A och B är accuracy 83,1 %. Beräknatpå ett sampel om 242 dokument, en population om 4639 dokument och enkonfidensgrad på 95 % blir konfidensintervallet ± 4,6.

Om man betraktar A som guldstandard uppnår B en precision på90,9 %± 4,6 (86,3–95,5 %): av 44 dokument som B klassificerat som ”ja” har Agjort samma klassificering av 40. Täckningen blir 52,0 % ± 4,6 (47,4–56,6 %):av 77 dokument som A klassificerat som ”ja” har B gjort samma klassificeringav 40.

Om man i stället betraktar B som guldstandard blir siffrorna förstås deomvända; det som förut var antal extraherade dokument blir antal korrektadokument och vice versa. A når därmed en precision på runt 52,0 % och entäckning på runt 90,9 %.

Dessa värden är intressanta att jämföra Termyn mot. Om systemet når des-sa värden med någon enskild av A och B som guldstandard jämför det sig likabra med denna som den andra mänskliga utvärderaren gör.

33

5.2 TermynTermyns klassificering av dokumenten i testmängden jämförs med de 201 klas-sificeringar där A och B är eniga (”A + B”), de 456 klassificeringar som A gjortrespektive de 246 klassificeringar som B gjort. Det bör noteras att mängdenA + B kan ha ett bias mot lättklassificerade dokument.

5.2.1 Kappa

Enigheten mellan A + B och Termyn beräknas på följande data:

Terminolog A + BTermyn Ej definitioner Definitioner

Ej def. 127 4Def. 34 36

Resultatet är en kappakoefficient på 0,54 (0,42–0,66).Enigheten mellan A och Termyn beräknas på följande data:

Terminolog ATermyn Ej definitioner Definitioner

Ej def. 264 25Def. 58 109

Resultatet är en kappakoefficient på 0,59 (0,51–0,67).Enigheten mellan B och Termyn beräknas slutligen på följande data:

Terminolog BTermyn Ej definitioner Definitioner

Ej def. 139 5Def. 63 39

Resultatet är en kappakoefficient på 0,38 (0,27–0,48).

5.2.2 Precision och täckning

Beräknat på accuracy som ovan blir konfidensintervallet ± 5,3 (accuracy81,1 %; sampelstorlek 201) mot A + B; ± 3,4 (accuracy 81,8 %; sampel 456)mot A och ± 5,4 (accuracy 72,4 %; sampel 246) mot B.

Precisionen mot A + B beräknas till 47,4 % ± 5,3 (42,1–52,7 %): bland 76dokument som Termyn extraherat är A + B eniga om ”ja” i 36 fall. Täckning-en beräknas till 90,0 % ± 5,3 (84,7–95,3 %). Detta innebär 36 extraheradedokument av de 40 som A + B klassificerat som ”ja”.

Om man enbart jämför med A blir precisionen 62,8 % ± 3,4 (59,4–66,2 %): Termyn extraherade 180 dokument varav A höll med om 113. Täck-ningen blir 84,3 % ± 3,4 (80,9–87,7 %): 113 av 134 dokument.

Jämfört med enbart B blir precisionen 35,4 % ± 5,4 (30,0–40,8 %): Ter-myn extraherade 109 dokument varav B höll med om 39. Täckningen blir88,6 % ± 5,4 (83,2–94,0 %): 39 av 44 dokument.

34

6 Diskussion

Traditionellt menas med automatisk (eller datorstödd) termextraktion att ettprogram plockar ut termer och deras kontext ur dokument. Domänen myn-dighetsföreskrifter är med några tusen dokument relativt liten. Att utveckla ettframgångsrikt domänspecifikt system för extraktion av termer och definitioner(jämför DEFINDER i sektion 2.3.4.2) skulle kräva orimligt mycket arbete; ut-vecklingstiden för ett sådant system vore svår att motivera. I det här arbetethar ett annat slags datorstöd för terminologen utvecklats: föreskrifter laddasner och de dokument som innehåller definitioner av termer plockas ut, medde textavsnitt som motiverade klassificeringen markerade. Ambitionen var ett”tillräckligt bra” datorstöd där datorn söker på vissa typiska mönster och ut-pekar textavsnitt som kan innehålla termdefinitioner, men lämnar det upp tillterminologen att avgöra vad i dessa avsnitt som ska excerperas.

En jämförelse av kappakoefficienter visar att Termyn och terminolog A kanvara lika eller mer eniga (0,51–0,67) i klassificeringen än vad terminolog A ochterminolog B är (0,45–0,67). Termyn är sannolikt mindre enig med terminologB (0,27–0,48) än vad A är, även om intervallen (vid 95 % säkerhet) överlapparnågot.

Utvärderingen visar på mycket god täckning och acceptabel precision medutrymme för förbättringar. Pantel och Lin (2001) menar att det är proble-matiskt att utvärdera automatisk termextraktion mot manuella, mänskliga be-dömningar av vad som är korrekt; samma torde gälla vid utvärderingen av ettsådant här system. De påpekar hur de termer som ett datorsystem kanske helstbör extrahera är just de som är mindre uppenbara för den mänskliga bedöma-ren. En manuell kontroll av några av de fel systemet fått vid utvärderingen,och uppföljningssamtal med A, visar också att det förekommer en del slarvfeli guldstandarden, som att båda terminologerna klassificerat ett dokument somutan definitioner när Termyn hittar ett stort antal ledtrådar, däribland ett de-finitionsavsnitt1. Precisionssiffran på runt 47,4 % kan alltså i verkligheten varanågot högre. Även om dessa slarvfel gör utvärderingen mindre pålitlig, visar deockså tydligt att ett system som detta – som osvikligt hittar de mönster manformaliserat – kan vara en stor tillgång.

Precisionen är Termyns svaga punkt. Detta var inte oväntat: som nämntstidigare är täckningen prioriterad, då det ur användarvänlighetssynpunkt är lät-tare för terminologen att (inom rimliga gränser) välja bort falska träffar än att

1Till exempel http://stp.lingfil.uu.se/~henrikn/termyn/utdata/1369.pdf.html(originaldokument http://www.kvv.se/upload/om_kriminalvarden/f%C3%B6reskrifter/2006/kvfs_2006_26.pdf) och http://stp.lingfil.uu.se/~henrikn/termyn/utdata/629.pdf.html (originaldokument http://www.fi.se/upload/30_Regler/10_FFFS/2006/FFFS0613.pdf).

35

leta upp de som aldrig togs med. En testkörning utan den regel (se sektion4.3.1.3) som fångar upp olika böjningsformer av orden ”definition”, ”term”och ”begrepp” höjer precisionen mot A + B med 4 procentenheter till 51,4 %;täckningsvärden för B och A + B står oförändrade, men täckningen mot A sjun-ker med 3 procentenheter till 81,3 %.

Täckningen är det intressantaste värdet. Värdet på runt 90,0 % (utvärde-rat mot A + B) innebär att systemet felaktigt underlät att extrahera 4 av 40dokument. En studie av dessa dokument visar:

• I ett av dokumenten avslöjas definitionen av rubriken ”Terminologi”. Ru-briker med den lydelsen saknas i träningsmängden, vilket förklarar attingen regel fanns för detta.

• Tre av dokumenten är helt tomma vad Termyn anbelangar, då PDF-dokumenten innehåller inscannade dokument i form av bilder, inte ma-skinläsbar text.

Att inte ”Terminologi”-rubriken omfattades är ett tillkortakommande i reg-lerna, men lätt åtgärdat. Det kunde vara lämpligt att specialbehandla de icke-tomma PDF-dokument som efter konverteringen till HTML blivit tomma –detta antyder att innehållet inte är maskinläsbart. I stället för att som nu låtabli att extrahera dessa dokument då de saknar termledtrådar, borde de extrahe-ras av den anledningen att en människa måste ta ställning till dem. Att införasådan specialhantering och att lägga till ”Terminologi” som en av reglernas ru-briker vore lätt gjort och skulle i det här fallet höja täckningen till 100,0 %.Precisionen skulle sannolikt bli lidande av att alla tomma dokument extrahe-ras, men att göra så vore klart motiverat av nyss nämnda skäl. Det finns alltsågoda möjligheter att höja täckningen ytterligare.

Det finns inga system som helt motsvarar Termyns dokumentextraktion,men DEFINDER (se sektion 2.3.4.2), som extraherar term/definition-par (självaparen, inte dokumenten) utifrån regler, är ganska likt. För DEFINDER redovisasen precision på 87,0 % och en täckning på 75,5 % med mänsklig extraktionsom guldstandard. Täckningen är avsevärt lägre än Termyns och precisionenavsevärt högre. Intressant att notera är att precisionen är högre än täckningen,ett förhållande som inte eftersträvats med Termyn.

Det är också intressant att jämföra systemets precision och täckning medhur A och B presterar ställt mot varandra. Om guldstandarden är A, har Ter-myn avsevärt sämre precision än B (28 procentenheter) men också avsevärtbättre täckning (32 procentenheter). Om guldstandarden är B blir skillnadernamindre. Termyns precision är 16 procentenheter sämre än A:s och täckningeninom samma intervall. Termyns precision är alltså sämre än för någon manu-ell klassificerare jämfört med den andra medan täckningen är jämförbar ellerbättre.

Det har nämnts flera gånger i arbetet att hög täckning prioriterats eftersomdet inom rimliga gränser är enklare för terminologen att välja bort övergene-rerad data än att söka upp det som saknas. Var dessa ”rimliga gränser” går ärinte helt enkelt att säga, men även en precision runt 47,4 % som här kan ansesklart acceptabel: nästan alla relevanta dokument extraheras ju, och av dessainnehåller ungefär hälften faktiskt definitioner – kanske fler med tanke på de

36

slarvfel som observerats i guldstandarden. Detta kan jämföras med termino-logens situation utan systemet. Vid manuellt arbete mot samtliga dokumentär täckningen marginellt högre än med Termyn, med en mycket högre andelirrelevanta dokument – enligt en beräkning2 drygt 83 %. Till detta kommeratt de textavsnitt som motiverat en extraktion blir hyperlänkade och visuelltuppmärkta så att de snabbt och enkelt kan kontrolleras.

6.1 Framtida utvecklingsmöjligheterFörutom det som nämnts i diskussionen ovan finns det många ytterligare sakeratt utforska vidare.

En fördjupad analys av utvärderingens precisionsresultat, där de övergene-reringar som görs utgör underlag för mer precisa regler, kunde vara mycketgivande. Reglerna, som nu utgår från träningsmängden och inte har utvecklatsmot en guldstandard från TNC, bör även i andra avseenden förbättras utifrånresultaten av utvärderingen och av extraktion ur hela mängden nedladdadeföreskrifter.

Det vore intressant att låta A och B utvärdera Termyns resultat i efterhand.På så vis kunde man få mer rättvisande siffror för precision och täckning, sominte i samma utsträckning påverkas av mänskliga slarvfel.

För nedladdningsdelen av systemet är det främst intressant att ladda ner deföreskrifter som fick uteslutas i det här arbetet på grund av att webbplatsernaifråga var JavaScript-drivna och därmed programmatiskt svårnavigerade. Dettakan antingen göras genom att använda något av de kodbibliotek3 som knyter sigtill en riktig webbläsare, eller möjligen genom mer komplexa regler för webb-platserna i fråga. Det kunde också vara intressant att ladda ner länsstyrelsernasföreskrifter, som nu uteslöts för att de väntades innebära mycket extra arbeteoch en mycket liten andel definitioner.

Bilagor till föreskrifter laddades inte ner om de kunde uteslutas. Motive-ringen var att de inte kunde väntas vara formbundna på samma sätt som självaföreskrifterna. De bilagor som ändå laddats ner har dock visat sig ofta innehålladefinitioner och förutsägbara informationsmönster. Det kunde vara givande attutöka insamlingsreglerna att även ladda ner dessa och att anpassa extraktions-reglerna för dem.

Bilder och stilmallar kunde laddas ner för att presentera dokumenten mertroget; bilder kunde behållas i konverterade PDF-dokument av samma anled-ning. Flertrådad nedladdning skulle göra programmet snabbare.

En radikalt annorlunda lösning som vore intressant att pröva, är att i ställetför explicita regler använda sig av en webbsökmotor. Då myndighetsföreskrif-ter i någon mån är formbundna kunde det vara möjligt att formulera sökfrågorsom fångar upp nästan bara dessa. En sådan lösning skulle sannolikt korta nerutvecklingstiden och kanske förbättra täckningen vad gäller mängden nedlad-dade föreskrifter; samtidigt skulle precisionen minska.

Slutligen kan man undersöka att gå steget längre i den datorstöddatermextraktionen och faktiskt extrahera term/definition-par automatiskt. Un-

2Av de 242 dokument i testmängden som både A och B klassificerat som något annat än”kan inte avgöra” är de eniga om att 40 dokument innehåller definitioner.

3Som http://www.openqa.org/watir/ eller http://code.google.com/p/firewatir/.

37

der arbetet med Termyn har det dock blivit uppenbart att en sådan uppgiftvore mycket svår. Att hitta rubriken ”Definitioner” är avsevärt enklare än attsedan identifiera var det avsnittet tar slut (utan att få med sidhuvuden ochsidfötter om det har konverterats från en PDF med sådana och omfattar flerasidor), lista ut eventuell kolumnindelning och så vidare. Frågan är också omman utan orimligt stort besvär kan få det att fungera tillräckligt väl.

38

7 Sammanfattning

Syftet med arbetet var att samla ihop svenska myndigheters föreskrifter frånwebben och automatiskt extrahera de dokument som innehöll definitioner avtermer. Arbetet utfördes i samarbete med Terminologicentrum TNC. Utdatablir underlag för vidare manuell excerpering i syfte att berika Rikstermbanken.

Ett nedladdningsprogram utvecklades och regler skrevs till detta för attladda ner föreskrifter från webben. Totalt laddades 4639 HTML- och PDF-dokument ner från 62 svenska myndigheter.

De dokument som var i PDF-format konverterades till HTML. Tecken-kodning normaliserades. Därefter utvecklades en regelmotor och fyra extrak-tionsregler som identifierade dokument och textavsnitt i dokumenten som in-dikerar definitioner av termer. Extraktionsreglerna var inspirerade av idén ominformationsmönster och formaliserades som reguljära uttryck och traverseringav HTML i trädrepresentation. Resultatet presenteras i ett webbgränssnitt därrelevanta textavsnitt är visuellt utmärkta och hyperlänkade.

En utvärdering av extraktionen mot två terminologers manuella klassifi-cering visade på god täckning, runt 90,0 %, och acceptabel precision, runt47,4 %. En jämförelse av kappakoefficienter visade att den klassificering somTermyn gör är lika eller mer enig med terminolog A än vad de båda termino-logerna är med varandra.

39

Litteraturförteckning

Ahmad, K. och Fulford, H. Knowledge processing 4: Semantic relations andtheir use in elaborating terminology. Teknisk rapport CS Report No. CS-92-07, University of Surrey, Guildford, UK, 1992.

Ahmad, Khurshid, Davies, Andrea, Fulford, Heather, och Rogers, Margaret.What is a term? The semi-automatic extraction of terms from text. I: Trans-lation Studies - an interdiscipline, ss 9–12, Amsterdam /Philadelphia, 1992.John Benjamins Publishing Company.

Alegria, I., Gurrutxaga, A., Lizaso, P., Saralegi, X., Ugartetxea, S., och Urizar,R. Linguistic and statistical approaches to Basque term extraction, 2004.URL http://citeseer.ist.psu.edu/650853.html.

Arppe, Antti. Term extraction from unrestricted text. I: NODALIDA-95,1995. URL http://www2.lingsoft.fi/doc/nptool/term-extraction.html. Tillgänglig 2007-05-21.

Barrière, C. och Agbago, A. TerminoWeb: A software environment for termstudy in rich contexts. I: International Conference on Terminology, Standar-disation and Technology Transfer (TSTT 2006). NRC-IIT, 2006. URL http://www.iit.nrc.gc.ca/iit-publications-iti/docs/NRC-48765.pdf.

Bourigault, D. LEXTER: A terminology extraction software for knowledge ac-quisition from texts. I: KAW’95, 1995.

Bowker, Lynne. Terminology tools for translators. I: Somers, Harold, redaktör,Computers and Translation. A translator’s guide, ss 49–65. John Benjamins,2003. Tillgänglig på http://site.ebrary.com.ezproxy.its.uu.se/lib/uppsala/EDF?id=10032038 för den med konto på Uppsala universitets da-tornät UpUnet.

Bowker, Lynne och Pearson, Jennifer. Working with Specialized Language. Apractical guide to using corpora. Routledge, London, 2002.

Cabré, Maria Teresa. Terminology: Theory, Methods and Applications. JohnBenjamins Publishing Company, Amsterdam/Philadelphia, 1999.

Cabré, Teresa M., Bagot, Rosa Estopà, och Platresi, Jordi Vivaldi. Auto-matic term detection. A review of current systems. I: Recent Advancesin Computational Terminology, ss 53–88. John Benjamins, 2001. Tillgäng-lig på http://site.ebrary.com.ezproxy.its.uu.se/lib/uppsala/EDF?id=10014703 för den med konto på Uppsala universitets datornät UpUnet.

40

Carletta, Jean. Assessing agreement on classification tasks: The kappa statistic.Computational Linguistics, 22(2):249–254, 1996. URL http://citeseer.ist.psu.edu/article/carletta96assessing.html.

Church, Kenneth W. och Hanks, Patrick. Word association norms, mutualinformation, and lexicography. I: Proceedings of the 27th. Annual Meetingof the Association for Computational Linguistics, ss 76–83, Vancouver, B.C.,1989. Association for Computational Linguistics. URL http://citeseer.ist.psu.edu/church89word.html.

Cohen, J. A coefficient of agreement for nominal scales. Educational andPsychological Measurement, 20(1):37–46, 1960.

Cohen, Jonathan D. Highlights: language- and domain-independent au-tomatic indexing terms for abstracting. Journal of the Americal Societyfor Information Science, 46(3):162–174, 1995. ISSN 0002-8231. Till-gänglig på http://www3.interscience.wiley.com.ezproxy.its.uu.se/cgi-bin/fulltext/10050162/PDFSTART för den med konto på Uppsalauniversitets datornät UpUnet.

Daille, Béatrice. Study and implementation of combined techniques for auto-matic extraction of terminology. I: Klavans, Judith och Resnik, Philip, redak-törer, The Balancing Act: Combining Symbolic and Statistical Approaches toLanguage, ss 49–66. The MIT Press, Cambridge, Massachusetts, 1996. URLhttp://citeseer.ist.psu.edu/daille94study.html.

Gillam, Lee, Tariq, Mariam, och Ahmad, Khurshid. Terminology andthe construction of ontology. Terminology, 11:55–81, 2005. URLhttp://www.computing.surrey.ac.uk/grid/fingrid/papers_files/Reports/2.pdf.

Gurcan, Ahmet, Khramov, Yuri, Kroogman, Alexander, och Mansfield, Philip.Converting PDF to XML with publication-specific profiles. I: Procee-dings of XML Conference and Exposition 2003, 2003. URL http://www.idealliance.org/papers/dx_xml03/papers/05-03-03/05-03-03.html.

Hearst, Marti A. Automatic acquisition of hyponyms from large text corpora.Teknisk rapport S2K-92-09, 1992. URL http://citeseer.ist.psu.edu/hearst92automatic.html.

Heid, U. A linguistic bootstrapping approach to the extraction of term candi-dates from German text. Terminology, 1999. URL http://citeseer.ist.psu.edu/heid99linguistic.html.

Heid, U., Jau, S., Kruger, K., och Hohmann, A. Term extraction with standardtools for corpus exploration – experience from German, 1996. URL http://citeseer.ist.psu.edu/heid96term.html.

Hjulstad, Håvard och Eckmann, Carol B. Nordic Terminology Record For-mat (NTRF), 1999. URL http://www.rtt.org/ntrf/ntrf.htm. Tillgäng-lig 2007-05-21.

41

ISO/IEC. Terminology work – Vocabulary – Part 1: Theory and application.Teknisk rapport 1087-1, ISO/IEC, 2000.

Justeson, J.S. och Katz, S.M. Technical terminology: Some linguistic propertiesand an algorithm for identification in text. Natural Language Engineering, 1:9–27, 1995.

Kageura, Kyo, Daille, Beatrice, Nakagawa, Hiroshi, och Chien, Lee-Feng. In-troduction: Recent trends in computational terminology. Terminology, 10:1–21, 2004.

Klavans, Judith L. och Muresan, Smaranda. DEFINDER: Rule-based methodsfor the extraction of medical terminology and their associated definitionsfrom on-line text. I: Proceedings of the AMIA 2000 Annual Symposium,2000. URL http://www.cs.columbia.edu/nlp/papers/2000/klavans_muresan_00.pdf.

Maynard, Diana och Ananiadou, Sophia. Identifying contextual informa-tion for multi-word term extraction. I: Proceedings of the 5th Internatio-nal Congress on Terminology and Knowledge Engineering (TKE ’99), ss 212–221, Innsbruck, Österrike, 1999. URL http://citeseer.ist.psu.edu/maynard99identifying.html.

McEnery, Tony och Wilson, Andrew. Corpus Linguistics. Edinburgh UniversityPress, Edinburgh, 2:a utgåvan, 2001.

Meyer, Ingrid. Extracting knowledge-rich contexts for terminography: Aconceptual and methodological framework. I: Recent Advances in Com-putational Terminology, ss 279–302. John Benjamins, 2001. Tillgäng-lig på http://site.ebrary.com.ezproxy.its.uu.se/lib/uppsala/EDF?id=10014703 för den med konto på Uppsala universitets datornät UpUnet.

Meyer, Ingrid, Mackintosh, Kristen, Barrière, Caroline, och Morgan, Tricia.Conceptual sampling for terminographical corpus analysis. I: Proceedingsof the 5th International Congress on Terminology and Knowledge Engineering(TKE ’99), ss 256–267, Innsbruck, Österrike, 1999.

Muresan, Smaranda och Klavans, Judith L. A method for automaticallybuilding and evaluating dictionary resources. I: Proceedings of the Langu-age Resources and Evaluation Conference (LREC 2002), 2002. URL http://www.cs.columbia.edu/nlp/papers/2002/muresan_klavans_02.pdf.

Nordterm. Terminologins terminologi på nordiska. Teknisk rapport 1087-1,Nordterm, 2006.

Nuopponen, Anita. Terminology. The International Encyclopedia of Lingu-istics, 2003. URL http://lipas.uwasa.fi/~atn/papers/artikkelit/Terminology2003.html. Fyra volymer. Huvudredaktör William Frawley.

Ogden, C.K. och Richards, I. A. The meaning of meaning: A study of theinfluence of language upon thought and of the science of symbolism. 1923.

Pantel, Patrick och Lin, Dekang. A statistical corpus-based term extractor,2001. URL http://citeseer.ist.psu.edu/522084.html.

42

Pasanen, Päivi. A term list or a noise list? How helpful is term extraction soft-ware when Finnish terms are concerned? I: 7th International Conference onTerminology and Knowledge Engineering, ss 375–383, Köpenhamn, Danmark,2005.

Passonneau, Rebecca. Applying reliability metrics to co-reference annotation.Teknisk rapport, 1997. URL http://www.citebase.org/abstract?id=oai%3AarXiv.org%3Acmp-lg%2F9706011.

Patry, Alexandre och Langlais, Philippe. Corpus-based terminology extraction.I: 7th International Conference on Terminology and Knowledge Engineering, ss313–321, Köpenhamn, Danmark, 2005.

Pearson, Jennifer. Terms in Context. John Benjamins, Amsterdam/Philadelphia,1998. Tillgänglig på http://site.ebrary.com.ezproxy.its.uu.se/lib/uppsala/EDF?id=5000162 för den med konto på Uppsala universitets da-tornät UpUnet.

Sager, Juan C. A Practical Course in Terminology Processing. John Benjamins,Amsterdam/Philadelphia, 1990.

Statsrådsberedningen. Myndigheternas föreskrifter DS 1998:43. 1998. URLhttp://www.regeringen.se/sb/d/253/a/22987.

Suonuuti, Heidi. Terminologiguiden. En introduktion till terminologiarbete i teorioch praktik. Terminologicentrum TNC, 2004.

Termium. The Pavel terminology tutorial, 2006. URL http://www.termium.gc.ca/didacticiel_tutorial/english/lesson1/index_e.html. Till-gänglig 2007-05-21.

Thurmair, G. Making term extraction tools usable. 2003. URL http://www.eamt.org/archive/dublin/THURMAIR.PDF. Tillgänglig 2007-05-21.

TNC. Rikstermbanken, 2007. URL http://www.tnc.se/index.php?option=com_content&task=view&id=430&Itemid=196. Tillgänglig 2007-05-21.

TNC och Spri. Metoder och principer i terminologiarbetet, 1999. URL http://www.sos.se/epc/klassifi/filer/Terminologi/rap481.pdf. Spri rap-port 481.

Witschel, Hans Friedrich. Terminology extraction and automatic indexing.Comparison and qualitative evaluation of methods. I: 7th International Con-ference on Terminology and Knowledge Engineering, ss 363–374, Köpenhamn,Danmark, 2005.

Zielinski, D. och Ramírez, Y. Research meets practice: T-survey 2005.An online survey on terminology extraction and terminology manage-ment. 2005. URL http://fr46.uni-saarland.de/download/publs/sdv/t-survey_aslib2005_zielinski.htm. Tillgänglig 2007-05-21.

43

A Bilagor

A.1 Nedladdningsregler# Nedladdningsregler för svenska myndighetsföreskrifter.# För Termyns nedladdningsdel.# Av Henrik Nyh <[email protected]>, 2007-05-09.

# Uteslutna:# Alla län, då de berör trafik, fridlysningar och sådant som troligen

ej ger definitioner# Sajter som inte (längre, under utvecklingen) har föreskrifter

# Banverket (hänvisar till Järnvägsstyrelsen)# Otillgängliga sajter med JavaScript-navigation:

# CSN# Andra än första sidan på Krisberedskapsmyndighetens

författningssamling# Statens energimyndighets författningssamling# Åklagarmyndighetens författningssamling# Vetenskapsrådets författningssamling (dessutom bara en enda

föreskrift)

# Urvalsprinciper i övrigt:# Föredrar HTML före PDF (kan diskuteras: mer semantik och bättre

textflöde; mindre enhetlighet).# Föredrar konsoliderar form framför ändringsföreskrifter, men ofta

är det knepigt att särskilja.# Sparar bara ner gällande föreskrifter, om det är lätt att genomföra

(finns dock poänger i att ta gamla).# Undviker bilagor, om det är lätt att genomföra - kan förvisso ha

definitioner, men är ju inte formbundna på samma sätt.

RE_YEAR = /(?:19|20)\d\d/RE_FFID = /(#{RE_YEAR}):(A?\d+)/i

rule 'Affärsverket svenska kraftnäts författningssamling (SvKFS)' dovisit 'http://www.svk.se/web/Page.aspx?id=5319'download :extension => :pdf,

:text => RE_FFIDend

rule 'Arbetsgivarverkets författningssamling (AGVFS)' dovisit 'http://www.arbetsgivarverket.se/publicerat/forfattningar/index.asp'download :extension => :pdf

end

rule 'Arbetsmarknadsstyrelsens författningssamling (AMSFS)' dovisit 'http://www2.ams.se/regelbok/dokument/lagr_fort_a.htm'

44

download :extension => :htmend

rule 'Arbetsmiljöverkets författningssamling (AFS)' dovisit 'http://www.av.se/lagochratt/afs/'download :href => %r{afs/},

:extension => :pdfend

rule 'Bokföringsnämndens allmänna råd med mera (BFNAR)' dovisit 'http://www.bfn.se/redovisning/allmanna.asp'download :href => /BFN/

end

rule 'Bolagsverkets författningssamling (BOLFS)' dovisit

'http://www.bolagsverket.se/om_bolagsverket/styrdokument/forfattningssamling/index.html'download :in_html => %r{<h3 id="gallande">.*?(?=<h3)}m, # Ej upphävda

:extension => :pdfend

rule 'Boverkets författningssamling (BFS)' dovisit 'http://webtjanst.boverket.se/boverket/rattsinfoweb/index.aspx'submit('Form1') { |buttons| buttons.last }download :extension => :pdf

end

rule 'Datainspektionens författningssamling (DIFS)' dovisit

'http://www.datainspektionen.se/infobestall/infomaterial/foreskrifter.jsp'download :extension => :pdf

end

rule 'Djurskyddsmyndighetens författningssamling (DFS)' dovisit

'http://www.djurskyddsmyndigheten.se/Steria/templates/Page.aspx?id=482'download :href => 'DFS', # Utesluter regler från andra myndigheter

:extension => :pdfend

rule 'Domstolsverkets författningssamling (DVFS)' dovisit 'http://www.domstol.se/templates/DV_Listing____1762.aspx'follow :text => /^\d+$/ do

follow :text => RE_FFID dodownload :text => /^#{RE_FFID}$/

endend

end

rule 'Elsäkerhetsverkets författningssamling (ELSÄK-FS)' dovisit

'http://www.elsakerhetsverket.se/vanstermeny/foreskrifter/register.4.6e9e64fe92af0b42800011.html'download :extension => :pdf

end

rule 'Finansinspektionen' dovisit 'http://www.fi.se/Templates/RegulationListPage____1345.aspx'download :extension => :pdffollow :href => 'RegulationPage' do

download :extension => :pdf,

45

:not_href => '_eng' # Uteslut engelska översättningarend

end

rule 'Fiskeriverkets författningssamling (FIFS)' dovisit

'http://www.fiskeriverket.se/vanstermeny/lagstiftning/fiskerilagstiftningen/'+

'svenskfiskerilagstiftning/fiskeriverketsforfattningssamlingfifs.4.63071b7e1'+

'0f4d1e2bd380001601.html'download :extension => :pdf,

:href => /#{RE_YEAR}-/end

rule 'Försvarsmaktens författningssamling (FFS)' dovisit 'http://www.hkv.mil.se/ffs/article.php?id=15450'follow :text => /^#{RE_FFID}/ do

download :extension => :pdfend

end

rule 'Försäkringskassans författningssamling (FKFS)' dovisit 'http://lagrummet.forsakringskassan.se/BASIS/ris/wexrffs/rffsg/' +

'SDF?SBC=VERSION=%22S%22+ORDER+BY+RFFS_SORT/DESC'begin

download :href => /&K=\d+&/end while (follow :text => 'N&auml;sta')

end

rule 'Högskoleverkets författningssamling (HSVFS)' dovisit

'http://www.hsv.se/publikationer.4.44aba2dc11030072f75800054948.html?' +

'query=metadata.PubType:(%22Lagar%20och%20regler%22)%20AND%20metadata' +'.Title:(f%C3%B6reskrifter)&startnr=0&nrperpage=99999'

download :href => 'foreskrifter',:text => RE_FFID

end

rule 'Inspektionen för arbetslöshetsförsäkringens författningssamling(IAFFS)' do

visit 'http://www.iaf.se/iaftemplates/ReportList.aspx?id=923'download :extension => :pdf,

:not_text => 'förteckning'end

rule 'Institutet för tillväxtpolitiska studiers författningssamling (ITPSFS)'do

visit 'http://www.itps.se/Listor/Publikationssok.asp?secId=902'page.form("publikationssok").field("pubtype").value = "1292" #

Föreskrifter och allmänna rådsubmit "publikationssok"download :extension => :pdf

end

rule 'Järnvägsstyrelsens författningssamling (JvSFS)' dovisit

'http://www.jvs.se/sv/Ga-direkt-till/Lagar-och-regler/Jarnvagsstyrelsens-' +

46

'foreskrifter/Jarnvagsstyrelsens-forfattningssamling.aspx'download :text => RE_FFID

end

rule 'Kammarkollegiets författningssamling (KAMFS)' dovisit 'http://www.kammarkollegiet.se/forfattning.html'download :extension => :pdf

end

rule 'Kemikalieinspektionens författningssamling (KIFS)' dovisit 'http://www.kemi.se/templates/Page____2910.aspx'follow :text => RE_FFID do

download :extension => :pdfend

end

rule 'Kommerskollegiums författningssamling (KFS)' dovisit 'http://www.kommers.se/templates/Analyser____15.aspx?arkiv=' +

'%2fupload%2fAnalysarkiv%2fOm+oss%2fF%c3%b6rfattningstryck%2f'download :extension => :pdf

end

rule 'Konkurrensverkets författningssamling (KKVFS)' dovisit 'http://www.kkv.se/t/Page____299.aspx'download :extension => :pdf

end

rule 'Konsumentverkets författningssamling (KOVFS)' dovisit 'http://www.konsumentverket.se/mallar/ehandel/bestall_resultat.asp?'

+ 'lngCategoryID=545&GroupID=12&odrby=a&odrsort=desc'begin

download :extension => :pdf,:not_href => 'KOVFSlista' # Uteslut listan över föreskrifter

end while (follow :text => '&gt;&gt;')end

rule 'Kriminalvårdens författningsssamling (KVFS)' dovisit 'http://www.kvv.se/templates/KVV_InfoMaterialListing____3464.aspx'download :extension => :pdf

end

rule 'Krisberedskapsmyndighetens författningssamling (KBMFS)' dovisit

'http://www.krisberedskapsmyndigheten.se/templates/PublicationList____470.aspx'# Laddar enbart ner första sidan - att bläddra kräver JavaScriptdownload :extension => :pdf

end

rule 'Kronofogdemyndighetens författningssamling (KFMFS)' dovisit

'http://www.kronofogden.se/kfmrattsinformation/foreskrifter.4.14db52b102ed4e5fe380003414.html'download :text => RE_FFID,

:extension => :htmlend

rule 'Lantmäteriverkets författningssamling (LMVFS)' dovisit 'http://www.lantmateriet.se/templates/LMV_Page.aspx?id=2123'download :text => RE_FFID,

:extension => :pdfend

47

rule 'Livsmedelsverkets författningssamling (LIVSFS)' dovisit

'http://www.slv.se/templates/SLV_ExistingLegislationList.aspx?id=2980&epslanguage=SV'download :text => /LIVSFS|SLV/,

:extension => :pdffollow :text => /LIVSFS|SLV/,

:not_extension => :pdf dodownload :text => RE_FFID,

:extension => :pdfend

end

rule 'Lotteriinspektionens författningssamling (LIFS)' dovisit 'http://www.lotteriinsp.se/lott_templates/Page____776.aspx'download :text => RE_FFID,

:extension => :pdfend

# De har en definitionssamling, men den saknar säkert en del som finns iföreskrifternarule 'Luftfartsstyrelsens författningssamling (LFS)' do

visit 'http://www.lfs.luftfartsstyrelsen.se/irisext/gallande/'follow :not_href => %r{/sf$} do # Alla länkar utom "sökning"

follow :not_href => %r{/sf(\?.*)?$} do # dittofollow do # Samtliga länkar, utan undantag

download :xpath => '//frame[@name="left"]' # Frameskan behandlas som länkar

endend

endend

rule 'Läkemedelsförmånsnämndens författningssamling (LFNFS)' dovisit 'http://www.lfn.se/LFNTemplates/Page____277.aspx'download :extension => :pdf

end

rule 'Läkemedelsverkets författningssamling (LVFS)' dovisit 'http://www.lakemedelsverket.se/Tpl/NormalPage____996.aspx'download :text => RE_FFID,

:extension => :pdfend

rule 'Migrationsverkets författningssamling (MIGRFS)' dovisit 'http://www.migrationsverket.se/swedish/verket/migrfs.jsp'download :extension => :pdf

end

rule 'Naturvårdsverkets författningssamling (NFS)' dovisit

'http://www.naturvardsverket.se/sv/Lagar-och-andra-styrmedel/Lag-och-ratt/' +'Foreskrifter-och-allmanna-rad/Foreskrifter-utgivningsordning/'

download :extension => :pdf,:text => ['G', 'K'] # Grundförfattningar och konsoliderade; ej

ändringar eller förteckningarend

rule 'Patent- och registreringsverkets författningssamling (PRVFS)' dovisit

48

'http://www.prv.se/om_prv/styrdokument/forfattningssamling/start.html'download :extension => :pdf

end

rule 'Post- och telestyrelsens författningssamling (PTSFS)' dovisit 'http://www.pts.se/Sidor/sida.asp?SectionId=890'follow :text => /^(Tele|Spektrum|Post|Utrustning|Totalförsvar)$/,

:href => 'dokumentlista' dodownload :text => /\(\d+ kB\)/,

:not_href => 'frekvensplanen' # En trasig fil somalltid ger timeout

endend

rule 'Radio- och TV-verkets författningssamling (RTVFS)' dovisit 'http://www.rtvv.se/se/blanketter/Om_verket/'download :text => RE_FFID

end

rule 'Revisorsnämndens författningssamling (RNFS)' dovisit

'http://www.revisorsnamnden.se/rattsinfo/ramar/knappar_till_rnfs_ram.htm'download :text => RE_FFID

end

rule 'Riksarkivets författningssamling (RA-FS)' dovisit 'http://www.ra.se/ra/rafs.html'download :text => RE_FFID,

:extension => :pdfend

rule 'Riksgäldskontorets författningssamling (RGKFS)' dovisit

'https://www.riksgalden.se/templates/RGK_Templates/OneColumnPage____16003.aspx'download :text => RE_FFID,

:extension => :pdfend

rule 'Rikspolisstyrelsens författningssamling (RPSFS)' dovisit 'http://www.police.se/inter/nodeid=8832&pageversion=1.html'download :extension => :pdf,

:not_href => /register|upphavd/i # Inte register ellerupphävda föreskrifterend

rule 'Sjöfartsverkets författningssamling (SJÖFS)' dovisit 'http://www.sjofartsverket.se/templates/SFVXPage____849.aspx'follow :text => /#{RE_FFID}/,

:not_href => /hk-web04/ dodownload :text => RE_FFID,

:extension => :pdfend

end

rule 'Skatteverkets författningssamling (SKVFS)' dovisit

'http://www.skatteverket.se/rattsinformation/lagrummet/gallandelagrumandringforeskrifter'+ '.4.18e1b10334ebe8bc80005355.html'

download :text => RE_FFIDend

49

rule 'Skogsstyrelsens författningssamling (SKSFS)' dovisit 'http://www.svo.se/episerver4/templates/SNormalPage.aspx?id=11199'download :text => RE_FFID

end

rule 'Socialstyrelsens författningssamling (SOSFS)' dovisit 'http://www.sos.se/sosfs/search/search.asp'submit 'searchForm'follow :text => RE_FFID do

download :text => RE_FFIDend

end

rule 'Statens folkhälsoinstituts författningssamling (FHIFS)' dovisit 'http://www.fhi.se/templates/Page____4828.aspx'download :extension => :pdf

end

rule 'Statens jordbruksverks författningssamling (SJVFS)' dovisit 'http://www.sjv.se/forfattningar.4.7502f61001ea08a0c7fff120602.html'follow :text => /#{RE_YEAR}|Allmänna råd|Notiser/,

:not_href => 'forfattningar.4.7502f61001ea08a0c7fff120602.html' dodownload :extension => :pdffollow :text => RE_FFID,

:extension => :html dodownload :extension => :pdf

endend

end

rule 'Statens kulturråds författningssamling (KRFS)' dovisit

'http://www.kulturradet.se/templates/KR_Page.aspx?id=783&epslanguage=SV'download :text => RE_FFID,

:extension => :pdfend

rule 'Statens kärnkraftinspektions författningssamling (SKIFS)' dovisit 'http://www.ski.se/page/1/101.html?19436'download :extension => :pdf

end

rule 'Statens räddningsverks författningssamling (SRVFS)' dovisit 'http://www.srv.se/templates/RSChronoListing____526.aspx'follow :text => RE_YEAR,

:not_extension => :pdf dofollow :text => 'html.gif' do

download :extension => :pdf,:text => 'helhet'

enddownload :extension => :pdf

endend

rule 'Statens skolverks författningssamling (SKOLFS)' dovisit

'http://www.skolverket.se/sb/d/471/url/0068007400740070003a002f002f007700770077'+

'0034002e0073006b006f006c007600650072006b00650074002e00730065003a00380030003800'+

50

'30002f00770074007000750062002f00770073002f0073006b006f006c00660073002f00770070'+

'00750062006500780074002f00660073002f0052006500730075006c0074005300650074003f00'+

'77003d006e0061007400690076006500250032003800250032003700670069006c007400690067'+

'002b00650071002b002500320037002500320037004a002500320037002500320037002b006100'+

'6e0064002b00760065007200730069006f006e002b006e0065002b002500320037002500320037'+

'00530025003200370025003200370025003200370025003200390026006f007200640065007200'+

'3d006e0061007400690076006500250032003800250032003700660073005f0073006f00720074'+

'0025003200460041007300630065006e0064002500320037002500320039002600750070007000'+

'3d00300026007200700070003d0032003000260064006900730070005f00720075006200720069'+

'006b003d004700e4006c006c0061006e00640065002b006600f600720066006100740074006e00'+

'69006e006700610072002b0069002b006e0075006d0065007200690073006b002b006f00720064'+

'006e0069006e0067/target/ResultSet%3Fw%3Dnative%2528%2527giltig%2Beq%2B%2527%25'+

'27J%2527%2527%2Band%2Bversion%2Bne%2B%2527%2527S%2527%2527%2527%2529%26order%3'+

'Dnative%2528%2527fs_sort%252FAscend%2527%2529%26upp%3D0%26rpp%3D20%26disp_rubr'+'ik%3DG%E4llande%2Bf%F6rfattningar%2Bi%2Bnumerisk%2Bordning'

begindownload :text => RE_FFID

end while (follow :text => 'Nästa ')end

rule 'Statens strålskyddsinstituts författningssamling (SSIFS)' dovisit 'http://www.ssi.se/forfattning/ForfattLista.html'download :extension => :pdf,

:not_text => /register|roentgen/i,:not_href => /europa\.eu|1988_293_bilaga\.pdf/

end

rule 'Statistiska centralbyråns författningssamling (SCB-FS)' do# Hämtar enbart föreskrifter om uppgiftslämnande; övriga tycks inte kunna

innehålla definitionervisit 'http://www.scb.se/templates/Standard____38023.asp'

# download :extension => :pdf # Bilagor/blanketterdownload :text => RE_FFID

end

rule 'Styrelsen för ackreditering och teknisk kontrolls (SWEDAC)författningssamling (STAFS)' do

visit 'http://www.swedac.se/focal/gnh50s.nsf/stafsinternetflat?OpenView'follow :text => RE_FFID do

download :extension => :pdfendvisit 'http://www.swedac.se/focal/gnh50s.nsf/stafsinternetflat1?OpenView'follow :text => RE_FFID do

download :extension => :pdfend

end

51

rule 'Sveriges geologiska undersöknings författningssamling (SGU-FS)' dovisit 'http://www.sgu.se/sgu/sv/om_sgu/foreskr_s.htm'download :text => RE_FFID

end

rule 'Totalförsvarets pliktverks författningssamling (TPVFS)' dovisit 'http://www.pliktverket.se/sv/Om_Pliktverket/Forfattningar/'download :extension => :pdf,

:href => %r{/tpvfs}iend

rule 'Tullverkets författningssamling (TFS)' dovisit 'http://www2.tullverket.se/tfse/search/xml/laeshela.asp'# Tar bort inaktuella föreskrifterwithout_expired = lambda { |doc| doc.search('//font[@color]').map {

|font| font.parent.inner_html = nil } }follow :in_modified_hpricot => without_expired,

:text => RE_FFID,# Strunta i upphävanden:not_href => 'lib/eu' do # Besök varje föreskrift

# Hämta konsoliderad version där möjligt

consolidated_ffid = page.forms.first.field("numb").value rescue ""consolidated_uri = falseif consolidated_ffid =~ RE_FFID

year, id = $1, $2consolidated_uri = URI.parse( page.uri.to_s.sub(%r{/e[ag]\d+}) {

"/es#{year}#{id}" } )

response = nilNet::HTTP.start(consolidated_uri.host) { |http| response =

http.head(consolidated_uri.path) }

case responsewhen Net::HTTPSuccess, Net::HTTPRedirection # Konsoliderad

version finnsdownload consolidated_uri

elseconsolidated_uri = false

endend

# Ladda ner själva sidan om den inte länkar till konsoliderad, ellerlänken är trasig

download(page.uri) unless consolidated_uri # Referer blir tyvärrsidan själv

endend

rule 'Valmyndighetens författningssamling (VALFS)' dovisit 'http://www.val.se/valsystemet/lagar/valfs/index.html'# Finns också i PDFer på samma sidadownload :text => RE_FFID,

:extension => :htmlend

rule 'Verket för förvaltningsutvecklings (Verva) författningssamling(VERVAFS)' do

52

visit 'http://www.verva.se/web/t/Page____490.aspx'# Har en enda författning – bör återbesöka och kontrollera, om de får flerdownload :text => /föreskrift/i,

:xpath => '//div[@id="content"]/p/a'end

rule 'Verket för näringslivsutvecklings (Nutek) författningssamling (NUTFS)' dovisit 'http://www.nutek.se/sb/d/159/a/1021'download :extension => :pdf

end

rule 'Vägverkets författningssamling (VVFS)' dovisit 'http://www20.vv.se/vvfs/lagrum_sida10.asp'submit 'frm'follow :text => RE_FFID do

download :href => %r{^htm/}end

end

A.2 Extraktionsregler# Extraktionsregler för termdefinitionsindikatorer i svenskamyndighetsföreskrifter.# För Termyns extraktionsdel.# Av Henrik Nyh <[email protected]>, 2007-05-11.

# _@doc_ är ett Hpricot::Doc-objekt(http://code.whytheluckystiff.net/hpricot/) som representar aktuellföreskrift.# _extract node_ används när _node_ är en nod som ska flaggas.# _highlight node_ kan användas för att visuellt lyfta fram oflaggade noder,t.ex. om en matchad sträng omfattar flera textnoder och flera <span></span>då skapas.# Eftersom teckenkodning normaliserats kan vi utgå från att källdokumentetanvänder UTF-8.

# "#{ }" (en tom stränginterpolering) används i längre reguljära uttryck föratt medge radbrytning av det här dokumentet i vissa sammanhang.

# Lägger till extract_text_for som söker i body-elementets text som en endalång sträng, översätter träffar till textnoder, injicerar <span>-taggar idessa och extraherar sistnämnda.# Alla regler utom den för rubriker använder sig av denna metod. Den förrubriker är i stället intresserad av innehållet i vissa typer av element.

require "termyn_rule_extension_extract_text_for.rb"

# Fångar upp "avses" (eller "menas", "förstås") när det inte är t.ex. "avsesha" eller "som (inte/ej) avses". Dock "som avses med". Detta bör nästanuteslutande matcha varianter på "Med X avses Y" och man slipper bry sig omhur långt X är, eller om det mönstret är uppbrutet över flera minimala block."Med X" fångas också upp när det står så pass nära att man med viss säkerhetkan anta att det rör sig om den kollokationen.# "menas" och särskilt "förstås" förefaller ha sämre precision än "avses".

core_pattern = /(mena|avse|förstå)s/im

53

pattern_pre_med = /\bmed(\s+[^\.:]+?)\s+/im # "Med <vad som helst utom .eller .> avses"; men:pattern_post_med = /\s+med(\s+\S+)/im # "avses med <ett löpord>"pattern =/\b#{core_pattern}#{pattern_post_med}|(#{pattern_pre_med})?\b#{core_pattern}\b/imanti_pattern_som = /som(\s+(inte|ej))?\s+#{core_pattern}\b(?!\s+med)/imanti_pattern_suffix = /#{core_pattern}\s+(ha|bli|börja|genomföras)/imanti_pattern_ender = /#{core_pattern}\./imanti_pattern =/\b(#{anti_pattern_som}|#{anti_pattern_suffix}|#{anti_pattern_ender})\b/

extract_text_for :pattern => pattern,:anti_pattern => anti_pattern,:rule_name => %{avses/menas/förstås}

# Täcker ett stort antal uttryck liknande "[i detta avsnitt används] följandebegrepp [med nedan angiven innebörd]"

# "i detta avsnitt"/"nedan"/. . .pattern_location =/\b(i\s+(de(nn|ss|tt)a\s+)?(avsnitt\w{0,2}|bilag\w{0,2}|föreskrift\w{0,2})|här|nedan)/im# "här används"/. . .pattern_nonoptional_prefix =/(#{pattern_location}\s+(används|förekommer)\s+)/impattern_optional_prefix = /#{pattern_nonoptional_prefix}?/im# "med nedan angivna betydelser:"/. . .pattern_optional_suffix =/(med\s+(nedan\s+angiv(en|na)|nedanstående|följande|de(nn|ss)a)\s+\w+)?/im# "ordet foo"/. . .pattern_singular_core =/\b((ord|begrepp)et|(term|definition)en)(\s+\S+){1,2}/im# "här används ordet foo"/"termen bar används här"/. . .pattern_singular = /#{pattern_nonoptional_prefix}#{pattern_singular_core}|#{}#{pattern_singular_core}\s+används\s+#{pattern_location}/im# "nedan används följande begrepp"/. . .pattern_plural = /#{pattern_optional_prefix}\b(följande|dessa)\s+#{}(begrepp|beteckningar|definitioner|ordförklaringar|termer)\b/impattern =/(#{pattern_singular}|#{pattern_plural})#{pattern_optional_suffix}[\.:]?/im

extract_text_for :pattern => pattern,:rule_name => %{följande begrepp/definitioner/. . . }

# Fångar upp rubriker; söker ej som ovanstående regler genom helabody-taggens textinnehåll, utan inuti vart och ett av sådana element som ipraktiken kan användas för rubriker.

# Namn på de element som i praktiken innehåller rubrikerheader_elements = %w{h1 h2 h3 h4 h5 h6 div span td th p b strong i em}# Rubriker som "vadsomhelst och termer" eller "definitioner och vadsomhelst"eller "begrepp".# Kan föregås av t.ex. "BLA BLA 1" eller "1." och efterföljas av parenteser(Luftfartsverket gör gärna så). \W* är för Luftfartsverket som fårskräptecken (artefakt från konvertering av teckenkodning?)# Kan också föregås av typ "2. kap"pattern_prefix = /(.{0,10}\d\.?\W*|\d+.\s+kap.?\b)?/impattern =/\A#{pattern_prefix}\s*(\w+\boch\s+)?\b(definitioner|termer|begrepp|ordlista)#{

54

}\b(\s+och\s+\w+)?\s*(\(.*?\))?\Z/im

header_selector = header_elements.join(',')header_candidates = @doc.search(header_selector)# Ta bort sådana som innehåller nästlade header-taggar, så vi inte får duplikatheader_candidates = header_candidates.reject { |c| c.at(header_selector) }# Ta bort sådana som genererats av extraktornheader_candidates = header_candidates.reject { |c| c[:class] =~Regexp.union(HIGHLIGHT_CLASS) }

header_candidates.each do |node|text = node.inner_text.stripif text =~ pattern

extract :node => node,:full_text => text,:rule_name => %w{Rubrik}

endend

# Denna regel fångar helt enkelt upp olika former av orden definition, term,begrepp.# Regeln har förhållandevis låg precision, men utan den blir täckningen lidande.# Fångar upp en del som inte är rena definitioner men anmärkningar som kanvara intressanta.

pattern = /\b((definition|term)(e(n|r(na)?))?|begrepp(e[tn])?)\b/imanti_pattern_faller = /\bfaller(\s+inte)?\s+under\s+definitionen\b/imanti_pattern_redogora =/\bredogöra\s+för(\s+innebörden\s+av)?(\s+de|dom)?\s+#{pattern}/imanti_pattern = /#{anti_pattern_faller}|#{anti_pattern_redogora}/im

extract_text_for :pattern => pattern,:anti_pattern => anti_pattern,:rule_name => %{definitionen/definitionerna/termen/. . . }

55