16
ANNIS und die Referenzkorpora Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen, Ghent University 12. Februar 2018 1 Korpusabfragen in ANNIS In diesem Handout sollen kurz und einfach die wichtigsten Funktionen und Möglichkeiten der Korpusabfrage mit dem Suchtool ANNIS 1 sowie Export- möglichkeiten vorgestellt werden. ANNIS ermöglicht das Durchsuchen von Korpora, welche auf mehreren Ebenen annotiert sind. Die Beispiele der Ab- frage beziehen sich auf die über ANNIS verfügbaren Referenzkorpora Mittel- hochdeutsch 2 und Mittelniederdeutsch. 3 Im letzten Abschnitt findet sich ein Vorschlag für ein Pythonskript, mit dem der etwas unübersichtliche Export über den Grid-Exporter in Annis einfach in eine Exceltabelle übertragen wer- den kann. Für Fragen, die im Handout nicht beantwortet werden, sei auf die Handbücher des ReN und ReM verwiesen, die über die oben zitierten Home- pages verfügbar sind. 4 Bei Unklarheiten oder Hinweisen zu Fehlern in diesem Handout bin ich über Feedback an [email protected] sehr dankbar. 2 Die Referenzkorpora Mittelhochdeutsch und Mit- telniederdeutsch und ihre Annotationsebenen Das Referenzkorpus Mittelhochdeutsch (1050-1350) ist unter der Leitung von Thomas Klein (Bonn), Klaus-Peter Wegera (Bochum), Stefanie Dipper (Bo- 1 http://corpus-tools.org/annis/ 2 https://www.linguistics.rub.de/rem/ 3 https://vs1.corpora.uni-hamburg.de/ren/index.html 4 Zudem liefert folgender Beitrag viele Anwendungsbeispiele im ReM: Dipper, S. (2015). Annotierte Korpora für die Historische Syntaxforschung: Anwendungsbeispiele anhand des Referenzkorpus Mittelhochdeutsch. Zeitschrift für Germanistische Linguistik, 43(3), 516–563. 1

ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

ANNIS und die Referenzkorpora

Mittelhochdeutsch und Mittelniederdeutsch

Elisabeth Witzenhausen, Ghent University

12. Februar 2018

1 Korpusabfragen in ANNIS

In diesem Handout sollen kurz und einfach die wichtigsten Funktionen undMöglichkeiten der Korpusabfrage mit dem Suchtool ANNIS 1 sowie Export-möglichkeiten vorgestellt werden. ANNIS ermöglicht das Durchsuchen vonKorpora, welche auf mehreren Ebenen annotiert sind. Die Beispiele der Ab-frage beziehen sich auf die über ANNIS verfügbaren Referenzkorpora Mittel-hochdeutsch2 und Mittelniederdeutsch.3 Im letzten Abschnitt findet sich einVorschlag für ein Pythonskript, mit dem der etwas unübersichtliche Exportüber den Grid-Exporter in Annis einfach in eine Exceltabelle übertragen wer-den kann. Für Fragen, die im Handout nicht beantwortet werden, sei auf dieHandbücher des ReN und ReM verwiesen, die über die oben zitierten Home-pages verfügbar sind.4 Bei Unklarheiten oder Hinweisen zu Fehlern in diesemHandout bin ich über Feedback an [email protected] sehrdankbar.

2 Die Referenzkorpora Mittelhochdeutsch und Mit-

telniederdeutsch und ihre Annotationsebenen

Das Referenzkorpus Mittelhochdeutsch (1050-1350) ist unter der Leitung vonThomas Klein (Bonn), Klaus-Peter Wegera (Bochum), Stefanie Dipper (Bo-

1http://corpus-tools.org/annis/2https://www.linguistics.rub.de/rem/3https://vs1.corpora.uni-hamburg.de/ren/index.html4Zudem liefert folgender Beitrag viele Anwendungsbeispiele im ReM: Dipper, S. (2015).

Annotierte Korpora für die Historische Syntaxforschung: Anwendungsbeispiele anhanddes Referenzkorpus Mittelhochdeutsch. Zeitschrift für Germanistische Linguistik, 43(3),516–563.

1

Page 2: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

chum) und Claudia Wich-Reif (Bonn) entstanden. Das Referenzkorpus Mit-telniederdeutsch/Niederrheinisch (1200-1650) ist aktuell unter der Leitungvon Ingrid Schröder (Hamburg) und Robert Peters (Münster) im Aufbau.Beide Korpora enthalten eine zeitlich und räumlich ausgewogene Auswahlvon Texten. Dadurch sind verschiedene Überlieferungsformen (Vers, Prosaund Urkundentexte) vertreten. Das ReM wurde mit dem HiTS Tagset fürhistorische Sprachstufen des Deutschen annotiert.5 Das Referenzkorpus Mit-telniederdeutsch/Niederrheinisch mit dem Historisches-Niederdeutsch Tag-set (HiNTS), ein auf das Niederdeutsche angepasste Version des HiTS.

Beide Korpora sind auf mehreren Ebenen annotiert, die man im Screens-hot 1 für das ReM und im Screenshot 2 für das ReN jeweils links weiß unter-legt sehen kann. Besonders für das HiTS Tagset ist die Unterscheidung nachallgemeinem Lemma und PoS-Tag (‘lemmaLemma’,‘posLemma’) und dembelegspezifischem Lemma und PoS-Tag (‘lemma’,‘pos’). Dies macht es mög-lich, ambige Formen zu erfassen und Sprachwandelprozesse abzubilden. DieLemma-Wortart kodiert dabei die konservative Wortart, die Beleg-Wortartdie neuere Form (z.B. das Nomen man das als Indefinitpronomen verwendetwird).

Abbildung 1: Annotationsebenen des ReM

Die erste Ebene ‘tok_dipl’ enthält die diplomatische Transkription undTokenisierung entsprechend der Handschrift. Die Ebene ‘tok_anno’ enthältdie Tokenisierung ensprechend einem modernen syntaktischen bzw. morpho-logischen Verständnis von einer Worteinheit. In ‘tok_anno’ werden Getrennt-oder Zusammenschreibung bzw. eigentümliche Schreibungen aus der Hand-schrift aufgehoben. Diese Token werden als Referenzpunkte für alle weiterenlinguistischen Annotationen genutzt. Auf der normalisierten Ebene ‘norm’ist die ‘normalmittelhochdeutsche’ Wortform angegeben.

5http://www.jlcl.org/2013_Heft1/5Dipper.pdf

2

Page 3: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

Abbildung 2: Annotationsebenen des ReN

Damit eine einfach Suche nach allen Belegen eines Lemmas (unabhän-gig von der Flexion) gefunden werden können, sind die Texte lemmatisiert.Auf der Lemma-Ebene findet sich die oben erwähnte Unterscheidung nachbelegspezifischem Lemma und allgemeinem Lemma.

Im ReN sind die Ebenen etwas anders. Hier ist es möglich, die Annota-tionsebenen strukturiert einzeln anzuzeigen (z.B. nur lexikalische Annotati-onen).

Unter ‘Transkription’ finden sich:

• tok_dipl enthält den Text in diplomatischer Tokenisierung

• unreadable enthält schwer oder nicht lesbare Elemente des Textes

• deleted enthält Elemente des Textes, die im Original durchgestrichenerscheinen

• expanded enthält Auflösungen von Kürzungszeichen (Abbreviaturen),z.B. Nasalstrich über e für en

• para enthält paratextuelle Elemente, z.B. interlineare Korrekturen oderNotizen am Rand

3

Page 4: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

• tok_anno enthält den Text tokenisiert entsprechend den annotiertenWorteinheiten

• token enthält Token in der projektinternen Transkription, d.h. mitMarkup

• editorial comment zeichnet Teile der token-Spur als editorischenKommentar aus (d.h. nicht Teil des eigentlichen Textes)

• tok eine ANNIS-interne Spur, die oberflächlich leer ist und nicht fürSuchanfragen verwendet wird

Unter ‘Lexical Annotation’ finden sich:

• lemma_wsd: Lemma mit word sense disambiguation, d.h. Homonymen-differenzierung mithilfe hochgestellter Zahlen, und mit Diakritika

• lemma: Lemma mit Diakritika, aber ohne Homonymendifferenzierung

• lemma_simple: Lemma ohne Diakritika und Homonymendifferenzie-rung

• lemma_var: Lemma mit Variantenauflösung: Lemmata mit Klammer-formen, wie z.B. up(pe1), werden hier in sämtliche Varianten aufgelöst

• posLemma: Reduktion des PoS-Tags auf die Information zur Grund-wortart

• morph: Flexionsmorphologische Annotation nach dem HiNTS-Tagset

• comment: enthält Kommentare der Annotator*innen z.B. zu ungewöhn-lichen Formen oder zum Verständnis der Annotation

• posMWU: Spanne mit einem PoS-Tag über mehrere Token, die zusammeneine Mehrworteinheit (multi word unit) bilden

Unter ‘Graphical Annotation’ finden sich Seitenangabe, Informationen,ob der Text auf der Vorder- oder Rückseite geschrieben steht usw. Eine Be-sonderheit im ReN: Im Bereich ‘Sentence Annotation’ sind über mehrereToken spannend Sätze annotiert (bound-sent). Dies macht es möglich, in-nerhalb einer Satzeinheit zu suchen. Diese Satzannotation ist im ReM nichtdurchgeführt.

4

Page 5: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

3 Abfragen in ANNIS

Die Oberfläche in Annis gliedert sich in drei Bereiche (vgl. Abbildung 3).Oben links ist ein Suchfeld, in welches Suchabfragen manuell oder mit Hilfedes Query Builders eingegeben werden können. Darunter befindet sich eineListe von Subkorpora (darunter in der Abbildung ganz unten die aktuell ver-fügbaren Texte des ReN). Es muss stets mindestens ein Korpus ausgewähltwerden, um eine Abfrage zu stellen. Über das Info Feld zu jedem Subkorpuskönnen Metainformationen zum Korpus und über darin enthaltene Texteabgerufen werden. Der zweite Button neben dem Infofeld gibt eine Liste al-ler Texte im Subkorpus aus. Rechts befindet sich der Bereich, in dem dieverschiedenen Inhalte angezeigt werden.

Abbildung 3: ANNIS Oberfläche mit Suchfeld (oben links), Korpusliste (un-ten links) und Inhaltsanzeige (rechts)

3.1 Query Builder

Für ein leichteres Zusammenstellen von Suchabfragen ist der Query-Builderentwickelt worden. Klicken Sie hierfür auf das Symbol neben der Suchein-gabe wie in Abbildung 4 gezeigt und wählen Sie für morphologische undlexikalische Abfragen ‘Word sequences and meta information’.

5

Page 6: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

Abbildung 4: Suchabfragen mit dem Query Builder beginnen

In einem nächsten Schritt können Sie jeweils über den Button ‘Add’verschiedene Annotationsebenen ‘einschalten’. Abbildung 5 zeigt, wie bereitszwei Suchfelder hintereinander geschaltet wurden.

Abbildung 5: Suchabfragen mit dem Query Builder erstellen

Zwischen den Schaltkästen können sie wählen, wie die beiden Abfragen

6

Page 7: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

zueinander stehen sollen (Abbildung 6). Die vorgeschlagenen Parameter ‘di-rekt vorausgehend’, ‘indirekt vorausgehend’ usw. können manuell verändertoder ergänzt werden. So kann der Punkt wie in (7) durch ‘_=_’ ersetzt wer-den, um zwei Sucheinheiten auf das selbe Wort zu beziehen (z.B. um nachdem Lexem werden zu suchen, was allein als lexikalisches Verb verwendetwird). Auch können Tokenabstände, die über die vorgeschlagenen ein undzwei Abstände hinaus gehen, manuell angepasst werden.

Abbildung 6: Suchfelder aus dem Query Builder zueinander in Beziehungsetzen

7

Page 8: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

Abbildung 7: Manuelle Anpassung der Beziehung verschiedener Suchfelder

Um die Abfrage aus dem Query Builder in das Suchfeld zu übertragen,klicken Sie den Button ‘Create AQL Query’ (Abbildung 8).

Abbildung 8: Suchabfrage in das Suchfeld übertragen

3.2 Abfragen manuell erstellen

Um für wirklich alle linguistischen Fragestellungen Abfragen zu erstellen, istes notwendig, die Suchabfragen in AQL (Annotation Query Language) selbst

8

Page 9: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

zu schreiben. Abfragen folgen dem Schema Annotationsebene=/Wert/. DerWert muss dabei in doppelten Anführungsstrichen stehen, z.B. pos="NA".

Die Suche erlaubt auch reguläre Ausdrücke. Hierfür muss der Suchbe-griff aber anstatt in Anführungsstrichen in Schrägstrichen stehen. So findetpos=/N./ die PoS-Tags NA und NE. Für Informationen zu regulären Aus-drücken empfiehlt sich neben dem ANNIS Handbuch auch ein RegEx-Testerwie https://pythex.org. Praktisch ist, dass es hier ein cheat-sheet gibt, welchesdie wichtigsten Patzhalter, Quantoren und Operatoren einführt.

Die Kombination mehrerer Suchausdrücke wurde bereits im Abschnittzum Query Builder angedeutet: Für viele Suchanfragen ist eine Kombinationmehrerer Suchkriterien nötig. Die einzelnen Ausdrücke müssen dafür mitdem &-Zeichen verbunden werden. Im Anschluss werden die Nummern derKriterien (#1,#2 usw.) angefügt (der erste Ausdruck erhält #1 usw.). DurchOperatoren zwischen den Nummern wird das Verhältnis der Sucheinheitenzueinander angegeben (vgl. Abbildung 9).

Abbildung 9: Kombination mehrerer Suchausdrücke mit Regulären Aus-drücken

Der Punkt ‘.’ bedeutet direktes Aufeinanderfolgen, ‘.3’ bedeutet 3 TokenAbstand, ‘_=_’ bedeutet ‘gleich’ usw. Eine Liste aller Operatoren findet sichin ANNIS unter Help/Examples im Tutorial. Da die Annotationsebenen nichtin allen Subkorpora gleich sind, empfiehlt es sich, sich die Ebenen über denInfobutton, wie in Abschnitt 2 gezeigt, für die einzelnen Korpora anzeigen

9

Page 10: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

zu lassen.Im ReN ist das Suchen innerhalb von Satzgrenzen möglich. Über den

Operator ‘_i_’ (‘include’) kann angegeben werden, dass sich die anderenSuchparameter innerhalb einer Satzgrenze befinden. Folgender Ausdruck fin-det z.B. dreigliedrige Verbalkomplexe aus finitem Modalverb, infinitem Au-xiliarverb und Vollverb im Partizip Präteritum innerhalb einer Satzeinheit.

pos="VMFIN" & pos="VAINF" & pos="VVPP" & bound_sent

& #4 _i_ #1 & #4 _i_ #2 & #4 _i_ #3

Um sich nur Ergebnisse aus bestimmten Texten, Jahrhunderten oderSchreibsprachen ausgeben zu lassen, kann man über das Suchfenster den Me-takey für die jeweiligen Metainformationen nach dem Schema meta::annis:XXX="XXX"

eingeben. So sucht man nach einem bestimmten Text beispielsweise meta::annis:doc=MM-010-N1".

Um sich nur Ergebnisse aus bestimmten Texten, Jahrhunderten oderSchreibsprachen ausgeben zu lassen, kann man über das Suchfenster denMetakey für die jeweiligen Metainformationen nach folgendem dem Schemaeingeben:

meta::annis:XXX="XXX"

So sucht man nach einem bestimmten Text mit der Abfragemeta::annis:doc=M010-N1"

3.3 Frequenzanalyse

Um sich einen Überblick über Häufigkeiten von bestimmten Phänomenen(also Annotationen in den verschiedenen Annotationsspuren) zu verschaffen,bietet die Frequenzanalyse ein einfaches Tool, eine Suchabfrage graphischdarzustellen. Unterhalb der Eingabefläche für Suchanfragen kann über denButton ‘More’ die Option ‘Frequency Analysis’ ausgewählt werden. Zunächsterscheint die aktuelle Suchabfrage (Abbildung 10 oben).

10

Page 11: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

Abbildung 10: Frequency Analysis in ANNIS

Es muss nun der untere Button ‘Perform frequency analysis’ ausgewähltwerden und es erscheint eine Grafik, die wie im Beispielfall die Häufigkeitender verschiedenen Pluralformen von Nomen ausgibt (Abbildung 11). Es kön-nen aber auch individuell über den Button ‘Add’ unten links verschiedeneAnnotationsspuren hinzugefügt werden.

Abbildung 11: Ergebnis einer Frequency Analysis

11

Page 12: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

4 Export

Exportmöglichkeiten finden sich über den Button ‘More’ in der Option ‘Ex-port’. Hier erscheint ein Inhalt wie in Abbildung 12, über den verschiedeneExportmöglichkeiten angeboten werden. Hier wählen Sie ‘GridExporter’.

Abbildung 12: GridExporter in ANNIS auswählen

Wenn man nicht nur einzelne Wörter, sondern den gesamten Kontextexportieren möchte, bietet sich im ReM bisher nur der Grid-Exporter an.Der Output ist auf den ersten Blick eher unübersichtlich, doch liefert er,wenn nicht anders spezifiziert, alle Annotationsebenen, wie in Abbildung15 zu sehen ist. Im Exportfenster können verschiedene Metadaten angege-ben werden, die mit ausgegeben werden sollen. Dies erfolgt über die Einga-be von Metakeys im Fenster ‘Parameters’. Hier kann man sich z.B. durchmetakeys=doc,date, die Text-ID sowie den Entstehungszeitraum des Tex-tes, in dem ein Beleg vorkommt, ausgeben lassen. Die genaue Bezeichnungund der Umfang der Metadaten findet sich über den Infobutton zum jeweili-gen Korpus. Wenn nicht alle Annotationsebenen ausgegeben werden sollen,müssen im Feld ‘Annotation Keys’ zusätzlich, durch Komma getrennt, allegewünschten Ebenen angegeben werden. So fällt das Output etwas übersicht-licher aus.

Abbildung 13: Metainformationen beim Export in ANNIS ausgeben lassen

Zudem kann über eine Auswahl der linke und rechte Kontext, der beimExport neben dem Suchbegriff ausgegeben wird, erweitert werden (vgl. Ab-

12

Page 13: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

bildung 14). Über das Feld ‘Annotation Keys’ kann mit der Eingabe num-

bers=false die Einblendung der Nummerierung der einzelnen Token beimExport ausgestellt werden. Persönlich lasse ich die Nummern immer im Out-put, um später leichter z.B. einem Token ein PoS-Tag zuzuordnen.

Abbildung 14: Kontext beim Export in ANNIS erweitern

Ausgegeben wird eine csv-Datei, die über Excel importiert in (15) ab-gebildet ist. Da das Output eher unübersichtlich ist, empfiehlt es sich, ihnmit einem Skript wie in Abschnitt 5 vorgeschlagen, übersichtlich in Excel zuübertragen.

Abbildung 15: Importiertes ANNIS Output in Excel

5 Export in Exceltabelle übertragen

Im Folgenden soll beschrieben werden, wie automatisch ein Beleg (z.B. derZeile tok_anno in Abbildung 15) zusammen mit Quelle, Jahr und anderenMetainformationen (meta::doc, meta::time, meta::genre und meta::lang-

uage-area) in eine Zeile einer Exceltabelle übertragen werden kann. Hier-

13

Page 14: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

für wird ein Skript in Python vorgeschlagen, was sich leicht am heimischenWindows- oder Mac-Rechner reproduzieren lässt. Python ist nicht schwerzu benutzen. Auf Youtube stehen viele hilfreiche Tutorial-Videos zur Ver-fügung, wie das Skript zum Laufen gebracht werden kann. Um das Skriptauszuführen, müssen folgende Schritte beachtet werden:

• das Outputfile aus ANNIS in Excel importieren, sodass eine Tabellewie in (15) entsteht

• diese Datei als UTF8 csv speichern

• Skript (Abbildung 16) über dieses UTF-8 csv-Datei laufen lassen

• result-Datei wird im Ordner generiert, indem auch das UTF8-Inputliegt (Desktop im Bsp.)

Abbildung 16: Skript zum Übertragen von mehreren Zeilen aus dem Grid-Exporter Output in eine Zeile in Excel

In Abbildung 16 ist das Skript abgebildet. Der Pfad zum Input mussindividuell angepasst werden. Entsprechend der gewünschten Annotations-ebenen kann ab Zeile 21 jede beliebige Annotationsebene eingetragen werden.Im Beispiel sind es insgesamt 5 Zeilen aus dem GridExporter Output, diedann eine Zeile bilden. Wichtig ist, die letzte Spalte nicht mit dem Trenn-element ";" sondern mit einer Newline "\n" zu beenden.

Im Texteditor geöffnet erscheint die result-Datei wie in Abbildung 17.Über die Importfunktion in Excel, bei der ein Semikolon als Trennelement

14

Page 15: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

angegeben werden muss, entsteht eine Tabelle wie in (18). Wie in Abbil-dung 15 zu erkennen ist, ist die Spalte tok_anno doppelt im Output vor-handen, deswegen erscheint diese Information auch doppelt in der Tabelle.Über die Einschränkung der ausgegebenen Annotationsebenen über ‘Anno-tation Keys’ im Import, lässt sich diese Dopplung aber vermeiden. KleineNachbesserungen in der Excel-Tabelle sind meist nötig (in einigen unterenSpalten in (18) scheint ein Semikolon im Text dafür zu sorgen, dass eine un-erwünschte Spaltentrennung im Beleg erscheint), doch spart man sich durchdieses Skript wertvolle Copy-Paste Zeit.

Abbildung 17: result-Datei im Texteditor

15

Page 16: ANNIS und die Referenzkorpora Mittelhochdeutsch und ...staff.germanistik.rub.de/witzenhausen/wp-content/uploads/...Mittelhochdeutsch und Mittelniederdeutsch Elisabeth Witzenhausen,

Abbildung 18: result-Datei nach dem Import in Excel

16