Automatically Identifying Lexical Chains by Means of Identifying Lexical Chains by Means of Statistical Methods ... is the word “novelâ€‌ related to “thesisâ€‌

  • View
    216

  • Download
    0

Embed Size (px)

Text of Automatically Identifying Lexical Chains by Means of Identifying Lexical Chains by Means of...

  • Automatically Identifying Lexical Chainsby Means of Statistical MethodsA Knowledge-Free ApproachAutomatisches identifizieren lexikalischer Ketten mittels statistischer MethodenEin vorwissensfreier Ansatz

    Master-Thesis von Steffen RemusOktober 2012

    mailto:s_remus@rbg.informatik.tu-darmstadt.de

  • Automatically Identifying Lexical Chains by Means of Statistical MethodsA Knowledge-Free Approach

    Automatisches identifizieren lexikalischer Ketten mittels statistischer MethodenEin vorwissensfreier Ansatz

    Master-ThesisEingereicht von Steffen Remus

    1. Gutachten: Prof. Dr. Chris Biemann2. Gutachten: Dr. Sabine Bartsch

    Tag der Einreichung:

    Technische Universitt DarmstadtDepartment of Computer Science

    Ubiquitous Knowledge Processing (UKP) Lab

  • Erklrung zur Master-Thesis

    Hiermit versichere ich die vorliegende Master-Thesis ohne Hilfe Dritter nur mitden angegebenen Quellen und Hilfsmitteln angefertigt zu haben. Alle Stellen, dieaus Quellen entnommen wurden, sind als solche kenntlich gemacht. Diese Arbeithat in gleicher oder hnlicher Form noch keiner Prfungsbehrde vorgelegen.

    Darmstadt, den 24. Oktober 2012

    (S. Remus)

  • AbstractThe identification of lexical chains is an important building block in modern natural languageprocessing applications such as summarization or text-segmentation. In order to extract lexicalchains it is is necessary to identify the important lexico-semantic relations in a text.

    Traditional approaches mostly rely on the use of knowledge resources such as thesauri or lexicaldatabases like WordNet. Hence, the quality of the extracted lexical chains highly depends on thequality and quantity of the entries in the particular knowledge resource. Statistical methods on theother hand have proven to deliver good results in many natural language processing applicationswhere the only prerequisite is a sufficiently large and qualitatively good data collection.

    This thesis examines the suitability of statistical methods for the task of identifying lexico-semanticrelations in order to build proper lexical chains. Four algorithms are developed that utilize eitherlatent Dirichlet allocation (LDA) as a probabilistic topic modeling framework or the log-likelihoodratio (LLR) as an indicator for statistically significant co-occurring terms.

    An intrinsic evaluation of these algorithms against some trivial and established baseline algorithmsis performed which confirms the hypothesis. For this purpose a secondary issue of this thesis is themanual annotation of lexical chains and the development of a suitable lexical chain comparisonmeasure. Supporting annotation guidelines are developed and an annotation toolkit is adapted inorder to carry out an annotation project where two annotators annotated around 100 documentsfrom the Salsa 2.0 corpus.

    Further an extensive survey in the domain of clustering measures is performed in order to find aproper measure for the evaluation of the algorithms as well as for the quantification of the inter-annotator agreement. This measure is finally built of a combination of the adjusted Rand index(ARI) and the normalized basic merge distance (NBMD).

    Supplemental material can be found athttp://www.ukp.tu-darmstadt.de/data/lexical-chains-for-german

    http://www.ukp.tu-darmstadt.de/data/lexical-chains-for-german

  • ZusammenfassungDas Extrahieren von lexikalischen Ketten ist heutzutage ein wichtiger Bestandteil moderner sprach-verarbeitender Applikationen wie z.B. automatische Textzusammenfassung oder Textsegmentie-rung. Das erfolgreiche Extrahieren lexikalischer Ketten setzt die Identifikation von aussagekrfti-gen lexikalisch-semantischen Relationen in einem Text voraus.

    Traditionelle Anstze greifen hierzu auf Wissensressourcen wie Thesauri oder lexikalische Daten-banken zurck. Folglich ist die Qualitt der resultierenden lexikalischen Ketten im hohen Ma-e abhngig von der Qualitt und Quantitt der Eintrge in der Wissensressource. StatistischeMethoden hingegen liefern erwiesenermaen gute Ergebnisse in vielen sprachverarbeitenden An-wendungsgebieten mit einer hinreichend groen und qualitativ guten Textsammlung als einzigerVoraussetzung.

    Diese Arbeit untersucht die Tauglichkeit von statistischen Methoden fr die Identifikationlexikalisch-semantischer Relationen und somit lexikalischer Ketten. Vier Algorithmen wurden ent-wickelt welche die Hypothese sinnvoll untersttzen sollen. Diese Algorithmen basieren entwederauf latent Dirichlet allocation (LDA), einem probabilistischem Topic Modeling Framework, oderauf dem log-likelihood ratio (LLR) welches ein Indikator fr statistisch signifikante gleichzeitigauftretende Wrter ist.

    Die Hypothese wird anhand einer intrinsisch durchgefhrten Evaluation besttigt. Deshalb beschf-tigt sich diese Arbeit weiterhin mit der manuellen Annotation von lexikalischen Ketten sowie derEntwicklung eines geeigneten Vergleichsmaes. Annotationsrichtlininen wurden entwickelt undein Annotationsprogramm wurde adaptiert um ein Annotationsprojekt zu untersttzen in demzwei Annotatoren c.a. 100 Dokumente des Salsa 2.0 Korpus annotierten.

    Weiterhin wurden diverse Evaluationsmae der Clustering Domne ausfhrlich untersucht umein angemessenes Evaluations- sowie Inter-Annotator bereinstimmungsma auszuwhlen. Diesessetzt sich letztendlich aus einer Kombination des adjusted Rand index (ARI) und der normalizedbasic merge distance (NBMD) zusammen.

    Zustzliches Material ist verfgbar unterhttp://www.ukp.tu-darmstadt.de/data/lexical-chains-for-german

    http://www.ukp.tu-darmstadt.de/data/lexical-chains-for-german

  • AcknowledgmentsI want to sincerely thank Chris for giving me the

    opportunity to write this thesis and for being agreat knowledge resource, supervisor, annotator

    and motivator in doubtful times. I reallyappreciate all his efforts for guiding

    me trough this work.

    I also want to thank Richard and Thomas fortheir support and belief in my work.

    Next I want to thank all my friends that keptpatient with me while I was struggling so hard.

    Meinen Eltern Petra und Peter mchte ichzutiefst dafr danke das sie mich in allen

    Lebenslagen untersttzten und immer einoffenes Ohr fr mich hatten.

    Last but not least I want to express my deepestlove and gratitude to Katrin who was always

    there when she was needed most. Sheremembered me to live my life apart

    from desk to clear my thoughtsin times they got stuck.

  • Contents

    1. Introduction 11.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Hypothesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3. Outlook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    2. Lexical Chains 52.1. The Conception of Cohesion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2. Lexical Chain Extraction Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3. Desiderata for Lexical Chain Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3. Comparing Lexical Chains 213.1. Clustering Defintion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2. Lexical Chains as Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3. Comparing Clusterings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.3.1. Cluster Conformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3.2. Desirable Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.4. Clustering Comparison Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.1. Contingency table . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.2. Set based comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.3. Pairwise element comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.4.4. Information theory based comparison . . . . . . . . . . . . . . . . . . . . . . . . 343.4.5. B3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.4.6. Edit distance comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    3.5. Combining Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    4. Annotating Lexical Chains 454.1. Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.2. Annotation Scheme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.3. Annotation Toolkit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.4. Lexical Chain Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    5. Statistical Methods for Lexical Chaining 53

  • 5.1. Candidate Lexical Items . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.2. Probabilistic Topic Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    5.2.1. LDA Mode Method (LDA-MM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.2.2. LDA Graph Method (LDA-GM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.2.3. LDA Top-N Method (LDA-TM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    5.3. Term Co-Occurrence Significance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.4. Final Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    6. Empirical Analysis 696.1. Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .