Upload
europeana-newspapers
View
109
Download
0
Embed Size (px)
Citation preview
Strukturelle Metadaten für historische Zeitungen.
Überlegungen zu einem Standardmodell
Günter Mühlberger
Universität Innsbruck
Digitalisierung und elektronische Archivierung
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Agenda
• Historische Zeitungen – ein kleiner Streifzug• Warum strukturelle Metadaten?• Konzepte / Standardisierung• Umsetzung im Europeana Newspaper Projekt• Ausblick
2
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Wiener Zeitung 1750
3
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Insprug, 7. Julii / 29. Juli 1750
4
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Lista deren Verstorbenen zu Wien, 1750
5
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Wiener Zeitung, 22. Jänner 1800
6
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Wiener Zeitung, 22. Jänner 1800
7
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Wiener Zeitung, 1800
8
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Grundriß der Handlungsgeschichte, 1799
9
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Die Presse, 18. Juni 1870
10
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Innsbrucker Nachrichten 4. Juni 1870
11
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
1925
12
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Arbeiterzeitung 2. Juni 1925
13
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Beobachtungen
• Zeitung = Neuigkeiten• Lange Reihe von einzelnen Ereignissen
• Ordnung = Zeit und Ort• Bis heute erhalten!
• Grundprinzip = Wiederholung• Makrostruktur bleibt über lange Zeiträume erhalten• Sektionen: Ort des Geschehens als die älteste Überschrift
• Ausdifferenzierungen• Nicht alles lässt sich unter Zeit und Ort subsummieren: inhaltliche und andere Kriterien• Titel (erste Worte eines Artikels, Worte in Klammer, etc.)
• Untertitel, Übertitel, etc.
• Verfasser eines Beitrags• Originalbeitrag, Verfasser,...
• Announcen und Werbung• Unterhaltung / Literarische Beiträge• Meinung• Etc.
14
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Warum strukturelle Metadaten?
• Volltextsuche• Treffsicherheit bei der Volltextsuche
• Typische Einheit für Volltextsuche ist derzeit die Ausgabe und Seite – kannpräzisiert werden
• Strukturelle Metadaten als Facetten für die Suche• Treffer in redaktionellem Inhalt hat andere Funktion als in einer Anzeige, Werbung,
etc.• Beispiel (Leonding)• Content Sections
• Crowd Sourcing• Beispiel der Australischen Nationalbibliothek ist bekannt• Was wäre, wenn Nutzer auch diverse strukturelle Metadaten korrigieren
könnten? Abgrenzung Werbung / Inhalt oder “Lista der Verstorbenen”, etc.
• Benutzer müssen angeleitet werden, bzw. die Klassifikation sollte zurVerfügung stehen
15
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Wert struktureller Metadaten
• OCR Korrektur• Viele Elemente wiederholen sich und können mit vergleichsweise wenig
Mühe (automatisch) korrigiert werden, da sie ja grundsätzlich bekannt sind • Bsp. Wiederkehrende Überschriften, Orte in Pre-Überschriften• Bsp. Werbeeinschaltungen, die über Jahre hinweg gleich oder sehr ähnlich
sind• Bsp. Regionale Zeitung: OCR Korrektur von allgemeinen Meldungen, die sich
besser und genauer in anderen Zeitungen der Epoche finden, wird weniger Sinn machen, als z.B. die Korrektur der lokalen Nachrichten, die ausschließlich in dieser Zeitung zu finden sind
• Voraussetzung für Natural Language Processing (NLP)• Named Entities Recognition• Topic Mining• Summarization• Verfahren benötigen möglichst klar abgegrenzte inhaltliche Einheiten
16
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Wert struktureller Metadaten
• Anreicherung durch Verlinkung mit externen, strukturierten Datenquellen
• Z.B. Buchanzeigen: Machen einen ganz wesentlichen Teil historischer Zeitungen aus – die genannten Titel lassen sich in modernen Bibliothekskatalogen identifizieren
• Detto Theateraufführungen, oder die Liste der Verstorbenen
• Detto Kolportageromane, Gedichte und ähnliches
• Event Detection and Linking• Viele der Content Unit beziehen sich auf Ereignisse, die an anderer Stelle
genauer beschrieben sind: Wikipedia Eintrag, Geschichtsbuch, etc.
• Zusammenführung von Zeitungsartikel mit standardisierter historischer Information
17
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Vorschlag für drei einfache Begriffe
• Newspaper Content Units• Klassifikation
• Newspaper Content Sections• Newspaper Structural Elements
18
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Newspaper Content Units
• Definition• Kriterium: Inhaltlich!
• In letzer Instanz entscheidet die inhaltliche Definition
• Eigenschaften• Inhaltlich klar abgegrenzte Einheit
• Bsp.: Goldenes Dachl und Maria-Hilf-Gnadenbild
• Definierter Inhalt• Als Abgrenzung gegen Sektionen
• Oftmals dezidierter Verfasser
• Oftmals im Layout abgegrenzt von anderen Einheiten
19
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Newspaper Content Section
• Definition• Sind nicht so sehr inhaltliche Einheiten, sondern dienen der
Makro-Gliederung.
• Eigenschaften• Wiederholen sich innerhalb der Zeitung über längere Zeiträume
und tendenziell ad infinito
• Meist im Layout klar abgehoben
• Enthalten (mehrere) inhaltliche Einheiten (NCI) zu dem vorgegeben Thema (Ort, Schlagwort, Kategorie)
20
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Newspaper Structural Elements
• Definition• Strukturelle Elemente werden durch ihre Funktion definiert – nicht
aber durch ihren Inhalt.
• Ihre Funktion liegt darin, dass sie dem Leser bei der Navigation, beim Verständnis, etc. helfen, die Zeitung (in Papierform) einfacher zu benutzen.
• Eigenschaften• Sind immer Teil einer Newspaper Content Section oder Items.
• Sie fügen dem Inhalt zusätzliche Funktionen hinzu• Bsp.: Titel: Früher gab es keine Titel von Artikeln, erst mit zunehmender
Größe der Seite, Mehrspaltigkeit, etc. war es nützlich dem Leser zu vermitteln wo die nächste inhaltliche Einheit beginnt und worüber sie handelt.
21
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Daumenregeln
• Wenn man eine historische Zeitung oder einen Artikel in ein eBook konvertieren würde, dann
• wären Newspaper Content Sections “Schlagworte” “Kategorien” unter denen man den Inhalt finden würde
• bliebe der Text eines Newspaper Content Items unverändert,
• würde man Struktural Elements für die nähere Beschreibung (Metadaten) bzw. für das neue Layout nützen, jedoch immer verändern.
22
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
NCU - Klassifikation
• Klassifikation• Wir haben ein unmittelbares Gefühl: Artikel, Wetterbericht,
Börsenbericht, Buchbesprechung, Werbung, Wohnungsverkauf, Mietgesuch, etc.
• These: 80% der NCUs lassen sich einfach zuordnen
• Kriterien• Was “bewirkt” ein NCU beim Leser?
• Bessere Informiertheit? Unterhaltung?...
23
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Texttypen - Klassen
• Fünf Klassen• Information
• Anzeigen (classified advertisement) und Werbung
• Unterhaltung
• Meinung
• Metainformation
• Historischer Ausdifferenzierungsprozess
24
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Information
• Information• Das wichtigste Konzept
• Neueste Nachrichten
• Der Leser sollte nachher “besser informiert” sein als vorher.
• Beispiele• Artikel, Hintergrundartikel, Kurzartikel, aber auch Wetterbericht,
Börsennotizen, etc.
25
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Advertisement
• Anzeigen/Werbung• Im englischen Sprachraum “classified advertisement” und
“advertisement” zusammengefasst
• Historisch gesehen relativ bald entstanden
• Typischerweise Information, die nicht direkt aus der Redaktion kommt und für die der Verfasser zahlen muss
• Der Leser wird nicht nur informiert, sondern aufgefordert eine bestimmte Handlung zu setzen: Ein Produkt zu kaufen, eine Wohnung zu besichtigen, sich auf ein Stellenangebot zu melden, an einem Begräbnis teilzunehmen, etc.
26
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Entertainment
• Unterhaltung• Eine Kategorie, die offenbar erst im Laufe des 19. Jahrunderts
Einzug in die Zeitung hält.
• Kolportageroman als das bekannteste Beispiel, starke Ausdifferenzierung.
• Der Leser soll emotional involviert werden, das bedeutet nicht unbedingt “oberflächliches Amusement” sondern kann eben auch die Liebesgeschichte, der Aphorismus, ein Gedicht sein
27
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Opinion
• Meinung• Klare Abgrenzung Information – Meinung ist ein Dogma der
modernen Zeitung, allerdings historisch gesehen sehr spät erfolgt.
• Feuilleton als das bekannteste Beispiel aus dem 19. Jahrhundert
• Leser soll in seinen Werthaltungen gefordert werden. Zustimmung oder Ablehnung als die intendierten Verhaltensweisen
• Beispiele wären Kommentare, Leitartikel, aber auch Leserbriefe, etc.
28
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Metainformation
• Metainformation• Kleine Kategorie, aber das Impressum oder die Richigstellung, etc.
können sonst eigentlich nicht subsummiert werden
• Wo spricht die Zeitung sozusagen über sich selbst?
29
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Beispiel
30
Innsbrucker Nachrichten, 4 Juni 1870
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Umsetzung in METS/ALTO
• ENMAP• Strukturelle Metadaten vs. deskriptive Metadaten
• Autor, Titel, Untertitel, Ort der Handlung, dazugehöriges Bild und Bildunterschrift, etc. sind “normale” bibliographische MD
• Sollten in METS DMD abgebildet werden, dort MODS als Schema
• Daumenregel: bibliographische MD sollten verläßlich sein (manuelleErfassung oder Korrektur)
• Sollten nur für NCU erstellt werden.
• Strukturelle Elemente• Logische StructMap in METS enthält NCUs und NCS als die wichtigsten
Gliederungselemente, diese sind verlinkt mit der DMD Section.
• Strukturelle Elemente finden sich in der StructMap gelistet.
31
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Ausblick
• ENP interner Workshop in Innsbruck• Praxistest
• Probe, ob diese Kategorien auch für andere Länder und Sprachen verwendet werden können, bzw. wie robust die Definitionen etc. sind
• Geplant: Workshop zur automatisierten Erkennung struktureller Metadaten
• Ende 2014
• In Vorbereitung
• Veröffentlichung zum Thema
32
Vielen Dank für die Aufmerksamkeit!
lGünter Mühlberger <[email protected]>