19
Centrum für Informations- und Sprachverarbeitung (CIS) # 1 Pisa, 11.12.2014 Dr. Max Hadersbeck, DM2E AWARD, 2014 "Enabling humanities research in the Linked Open Web” DM2E final event, 11.12.2014, Pisa Open Humanities Awards DM2E track: FinderApp WiTTFind Wittgensteins Nachlass: Computational linguistics and philosophy Max Hadersbeck, Roman Capsamun, Yuliya Kalasouskaya, Stefan Schweter Centrum für Informations- und Sprachverarbeitung (CIS), LMU, München,

09 pisa finale

Embed Size (px)

Citation preview

Page 1: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

# 1Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

"Enabling humanities research in the Linked Open Web”

DM2E final event, 11.12.2014, Pisa

Open Humanities Awards DM2E track: FinderApp WiTTFind

Wittgensteins Nachlass: Computational linguistics and philosophy

Max Hadersbeck,

Roman Capsamun, Yuliya Kalasouskaya, Stefan Schweter

Centrum für Informations- und Sprachverarbeitung (CIS), LMU, München,

Page 2: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

# 2Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Ludwig Wittgenstein’s Nachlass

Ludwig Wittgenstein (1889-1951) left 20,000 pages, Wittgenstein's Nachlass

2000: Wittgenstein Archives, University Bergen (WAB):

Nachlass CD-ROM edition, Bergen Electronic Edition (BEE)

2009: WAB and net7 (Pisa) 5000 pages freely available on the web

Wittgenstein Source, including standard search tools

2010: WAB and CIS: “Wittgenstein in Co-Text”:

computational linguistic Wittgenstein’s advanced search tools with web-frontend

2011: first release: FinderApp WiTTFind

Patrick Sahle: “We solve your problem !!??”

Page 3: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

# 3Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

our project connected to DM2E

WiTTFind part of freely available tools, using DM2E project-data

our project for the AWARD

WiTTFind: fine-grained computational linguistic perspectives on editions

open source, XML-Input Data, tools and knowledge configurable

not like statistical indexing search machines

like google books, Open Library project, apache Solr

Page 4: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

# 4Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

computational perspective of WiTTFind

digital full-form lexicon

with 46000 entries

POS-Tagging,

rule based access,

local grammars,

in sentence frames

Wittenstein: Tractatus logico philosophicus [22, 3.3]:

„Nur der Satz hat Sinn; nur im Zusammenhang des Satzes hat ein Name

Bedeutung“.

Page 5: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

# 5Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

aims for our AWARD-project

1. extending data to 5000 pages of Wittgenstein’s Nachlass

2. finder openly available to other digital humanity projects defining APIs, a XML-TEI-P5 tagset

3. OCR tools for facsimile-integration

4. facsimile reader for multidoc

5. tools to convert and insert edition-documents .

6. interoperable distributed application (Linux, Macos, Windows)

7. browser and devices independence

8. software under git-server control

Page 6: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

# 6Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

FinderApp before the AWARDhttp://wittfind.cis.uni-muenchen.de

Publications:

35. Wittgenstein Symposium, Kirchberg am Wechsel, Austria, 5.-11. 08.2012,

1. Digital Humanities im deutschsprachigen Raum, Passau, 25.-28.03.2014

DATeCH 2014 – Digital Access to Textual Cultural Heritage, Madrid, 19.- 20.5.2014

Page 7: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

# 7Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

FinderApp for the AWARD (beta version) see http://wittfind15.cis.uni-muenchen.de

Page 8: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

September work for our AWARD

Team: Roman Capsamun, Yuliya Kalasouskaya and Stefan Schweter

Extending Nachlass-data for FinderApp WiTTFind

Visiting and meeting at WAB

HD-scans from Cambridge/WAB

Extending syntactic disambiguation

Nachlass-Data, POS

“ABBYY” or “Tesseract” for OCR

# 8Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 9: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

October work for our AWARD

Open-source software development tools: gitlab,

test driven development (TDD),

continuous integration (CI),

see : https://gitlab.cis.uni-muenchen.de

Git-platform: Wittgenstein Advanced Search Tools (WAST)

Feedback-app for errors and maintenance

Interoperable software

virtualization as docker-container, (see www.docker.com).

Pisa, 11.12.2014 # 9Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 10: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

November work for our AWARD

WEB-Design: University WEB-CI and “Nietzsche-Source”

Redesign of WiTTFind WEB-frontend for “multidoc”

Facsimile-reader for “multidoc”

Browser and device independence: bootstrap, see: http://getbootstrap.com

Video about git-activity,

see: http://wast.cis.uni-muenchen.de/tutorial/gitlab-log/

Wrote a paper: 2. Digital Humanities im deutschsprachigen Raum,

Graz, 23.-27.2.2015

# 10Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 11: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

November work for our AWARDStarting OCR tesseract facsimile highlighting

typescript

(rather good)

manuscripts

(very bad)

Developing a multiuser-semiautomatic WEB-based correction-tool for OCR-Errors.

# 11Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 12: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

December work for our AWARDWiTTFind AWARD beta version, see: http://wittfind15.cis.uni-muenchen.de

# 12Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 13: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

FinderApp WiTTFind components

Edition:

xml-TEI-P5 texts

<s n="Ts-213,i-r[7]_1" ana="facs:Ts-213,i-r abnr:7 satznr:15">

6)Man sagt: ein Wort verstehen heißt, wissen, wie es gebraucht wird.</s>

facsimile HD-quality

Wittgenstein Advanced Search Tools (WAST) - tools:

fullform lexikon WiTTLex, (ca. 46000 entries)

disambiguation:

PartOfSpeech Tagging, treetagger, local grammars

semantic search:

lexical entries with disambiguations

see: http://wittfind.cis.uni-muenchen.de (Hilfe-Seiten, Semantik Finding)

# 13Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 14: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

git Server for WAST - toolssee: https://gitlab.cis.uni-muenchen.de

important git branches are:

wf: rulebased finder

multithreaded C++ programs

wittfind-web:

WEB-Page, bootstrap

wittreader-coordinates-ocr

wab2cis: facsimile, (WAB)

xml programs, POS tagger

wast-feedback

erkenntnis:

lexicon, syntax, semantic

# 14Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 15: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

next developments

Video: WiTTFind tutorial (German, English)

Hit scoring

HD-facsimile integration

More disambiguations

More semantic (nouns, time, locations)

Secret-writings of Wittgenstein

Quadro- facsimile-reader

Scope search (indexing)

Word misspelling (Levenshtein)

Lemmatized autosuggestion

Symmetric index and autosuggestions SIS

Daniel Bruder, (see: http://sis.cis.lmu.de)

Pisa, 11.12.2014 # 15Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 16: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

summary: WiTTFind http://wittfind15.cis.uni-muenchen.de

multidoc DM2E texts

simple sentence separated TEI-5 XML (CISWAB),

electronical full-form lexcion (WiTTLex),

word/phrase input and syntactically/semantically disambiguation with POS

and local grammars,

Highlighting of hits and facsimile display and –reader,

git- based program development,

browser independent (bootstrap),

interoperable with virtualization (docker)

# 16Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 17: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

Ludwig Wittgenstein states:

"Wovon man nicht sprechen kann, darüber muss man schweigen." –

Satz 7, Tractatus logico-philosophicus

but

The computational linguists can help to find the most hidden remarks in the Edition.

Vielen Dank für Ihre Aufmerksamkeit – Molti grazie per gentile attentione

Thank you for your attention

# 17Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 18: 09 pisa finale

Centrum für Informations- und Sprachverarbeitung (CIS)

Zusammenarbeit Computerlinguistik und Philosophie

‚methodischer Brückenschlag oder "feindliche Übernahme"?‘

Philosoph Prof. Hrachovec(Wien):

“Ein neues Rastermikroskop für den Steinbruch”

FinderApp

Ludwig Wittgenstein im Ms111,178:

"Wenn ich etwas suche, so ist es wesentlich, daß ich das Finden ebenso ausführlich muß beschreiben können (ob es (je so) eintritt oder nicht) ehe der Gegenstand gefunden ist.“

# 18Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014

Page 19: 09 pisa finale

# 19Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014