View
867
Download
1
Embed Size (px)
Citation preview
Centrum für Informations- und Sprachverarbeitung (CIS)
# 1Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
"Enabling humanities research in the Linked Open Web”
DM2E final event, 11.12.2014, Pisa
Open Humanities Awards DM2E track: FinderApp WiTTFind
Wittgensteins Nachlass: Computational linguistics and philosophy
Max Hadersbeck,
Roman Capsamun, Yuliya Kalasouskaya, Stefan Schweter
Centrum für Informations- und Sprachverarbeitung (CIS), LMU, München,
Centrum für Informations- und Sprachverarbeitung (CIS)
# 2Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
Ludwig Wittgenstein’s Nachlass
Ludwig Wittgenstein (1889-1951) left 20,000 pages, Wittgenstein's Nachlass
2000: Wittgenstein Archives, University Bergen (WAB):
Nachlass CD-ROM edition, Bergen Electronic Edition (BEE)
2009: WAB and net7 (Pisa) 5000 pages freely available on the web
Wittgenstein Source, including standard search tools
2010: WAB and CIS: “Wittgenstein in Co-Text”:
computational linguistic Wittgenstein’s advanced search tools with web-frontend
2011: first release: FinderApp WiTTFind
Patrick Sahle: “We solve your problem !!??”
Centrum für Informations- und Sprachverarbeitung (CIS)
# 3Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
our project connected to DM2E
WiTTFind part of freely available tools, using DM2E project-data
our project for the AWARD
WiTTFind: fine-grained computational linguistic perspectives on editions
open source, XML-Input Data, tools and knowledge configurable
not like statistical indexing search machines
like google books, Open Library project, apache Solr
Centrum für Informations- und Sprachverarbeitung (CIS)
# 4Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
computational perspective of WiTTFind
digital full-form lexicon
with 46000 entries
POS-Tagging,
rule based access,
local grammars,
in sentence frames
Wittenstein: Tractatus logico philosophicus [22, 3.3]:
„Nur der Satz hat Sinn; nur im Zusammenhang des Satzes hat ein Name
Bedeutung“.
Centrum für Informations- und Sprachverarbeitung (CIS)
# 5Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
aims for our AWARD-project
1. extending data to 5000 pages of Wittgenstein’s Nachlass
2. finder openly available to other digital humanity projects defining APIs, a XML-TEI-P5 tagset
3. OCR tools for facsimile-integration
4. facsimile reader for multidoc
5. tools to convert and insert edition-documents .
6. interoperable distributed application (Linux, Macos, Windows)
7. browser and devices independence
8. software under git-server control
Centrum für Informations- und Sprachverarbeitung (CIS)
# 6Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
FinderApp before the AWARDhttp://wittfind.cis.uni-muenchen.de
Publications:
35. Wittgenstein Symposium, Kirchberg am Wechsel, Austria, 5.-11. 08.2012,
1. Digital Humanities im deutschsprachigen Raum, Passau, 25.-28.03.2014
DATeCH 2014 – Digital Access to Textual Cultural Heritage, Madrid, 19.- 20.5.2014
Centrum für Informations- und Sprachverarbeitung (CIS)
# 7Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
FinderApp for the AWARD (beta version) see http://wittfind15.cis.uni-muenchen.de
Centrum für Informations- und Sprachverarbeitung (CIS)
September work for our AWARD
Team: Roman Capsamun, Yuliya Kalasouskaya and Stefan Schweter
Extending Nachlass-data for FinderApp WiTTFind
Visiting and meeting at WAB
HD-scans from Cambridge/WAB
Extending syntactic disambiguation
Nachlass-Data, POS
“ABBYY” or “Tesseract” for OCR
# 8Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
October work for our AWARD
Open-source software development tools: gitlab,
test driven development (TDD),
continuous integration (CI),
see : https://gitlab.cis.uni-muenchen.de
Git-platform: Wittgenstein Advanced Search Tools (WAST)
Feedback-app for errors and maintenance
Interoperable software
virtualization as docker-container, (see www.docker.com).
Pisa, 11.12.2014 # 9Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
November work for our AWARD
WEB-Design: University WEB-CI and “Nietzsche-Source”
Redesign of WiTTFind WEB-frontend for “multidoc”
Facsimile-reader for “multidoc”
Browser and device independence: bootstrap, see: http://getbootstrap.com
Video about git-activity,
see: http://wast.cis.uni-muenchen.de/tutorial/gitlab-log/
Wrote a paper: 2. Digital Humanities im deutschsprachigen Raum,
Graz, 23.-27.2.2015
# 10Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
November work for our AWARDStarting OCR tesseract facsimile highlighting
typescript
(rather good)
manuscripts
(very bad)
Developing a multiuser-semiautomatic WEB-based correction-tool for OCR-Errors.
# 11Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
December work for our AWARDWiTTFind AWARD beta version, see: http://wittfind15.cis.uni-muenchen.de
# 12Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
FinderApp WiTTFind components
Edition:
xml-TEI-P5 texts
<s n="Ts-213,i-r[7]_1" ana="facs:Ts-213,i-r abnr:7 satznr:15">
6)Man sagt: ein Wort verstehen heißt, wissen, wie es gebraucht wird.</s>
facsimile HD-quality
Wittgenstein Advanced Search Tools (WAST) - tools:
fullform lexikon WiTTLex, (ca. 46000 entries)
disambiguation:
PartOfSpeech Tagging, treetagger, local grammars
semantic search:
lexical entries with disambiguations
see: http://wittfind.cis.uni-muenchen.de (Hilfe-Seiten, Semantik Finding)
# 13Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
git Server for WAST - toolssee: https://gitlab.cis.uni-muenchen.de
important git branches are:
wf: rulebased finder
multithreaded C++ programs
wittfind-web:
WEB-Page, bootstrap
wittreader-coordinates-ocr
wab2cis: facsimile, (WAB)
xml programs, POS tagger
wast-feedback
erkenntnis:
lexicon, syntax, semantic
# 14Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
next developments
Video: WiTTFind tutorial (German, English)
Hit scoring
HD-facsimile integration
More disambiguations
More semantic (nouns, time, locations)
Secret-writings of Wittgenstein
Quadro- facsimile-reader
Scope search (indexing)
Word misspelling (Levenshtein)
Lemmatized autosuggestion
Symmetric index and autosuggestions SIS
Daniel Bruder, (see: http://sis.cis.lmu.de)
Pisa, 11.12.2014 # 15Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
summary: WiTTFind http://wittfind15.cis.uni-muenchen.de
multidoc DM2E texts
simple sentence separated TEI-5 XML (CISWAB),
electronical full-form lexcion (WiTTLex),
word/phrase input and syntactically/semantically disambiguation with POS
and local grammars,
Highlighting of hits and facsimile display and –reader,
git- based program development,
browser independent (bootstrap),
interoperable with virtualization (docker)
# 16Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
Ludwig Wittgenstein states:
"Wovon man nicht sprechen kann, darüber muss man schweigen." –
Satz 7, Tractatus logico-philosophicus
but
The computational linguists can help to find the most hidden remarks in the Edition.
Vielen Dank für Ihre Aufmerksamkeit – Molti grazie per gentile attentione
Thank you for your attention
# 17Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
Centrum für Informations- und Sprachverarbeitung (CIS)
Zusammenarbeit Computerlinguistik und Philosophie
‚methodischer Brückenschlag oder "feindliche Übernahme"?‘
Philosoph Prof. Hrachovec(Wien):
“Ein neues Rastermikroskop für den Steinbruch”
FinderApp
Ludwig Wittgenstein im Ms111,178:
"Wenn ich etwas suche, so ist es wesentlich, daß ich das Finden ebenso ausführlich muß beschreiben können (ob es (je so) eintritt oder nicht) ehe der Gegenstand gefunden ist.“
# 18Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014
# 19Pisa, 11.12.2014Dr. Max Hadersbeck, DM2E AWARD, 2014