Präsentation von: Ghamdan Atef. Motivation Datensammlung Vorgeschichte Radio Oranje Collection...

Preview:

Citation preview

Präsentation von:Ghamdan Atef

Motivation• Datensammlung• Vorgeschichte

Radio Oranje Collection Projekt Experimente

• Erstellung von Transkriptionen• Akustische Modelle• Segment-Länge

Ergebnisse Fazit Live Demonstration Zukünftige Arbeit

2

Problem: • Beschränkung der Zugänglichkeit von

historischen Audio-Ansammlungen

Folge: • Erschwerte Suche nach bestimmten Inhalten in

historischen Reden

Lösung:• Digitalisierung der Tonaufnahmen• Erstellung eines Zeitstempel-Index• Einführung von Such-Technologien

3Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Radio Oranje Collection: Sammlung von im Radio ausgestrahlten Reden, die Königin Wilhelmina (1880-1962) während des Zweiten Weltkriegs an das niederländische Volk richtete.

4Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Unzugänglichkeit von Audio-Sammlungen des kulturellen Erbes (z. B. Radio Oranje Collection) durch:

I. Speicherung auf analoge DatenträgerVerschlechterung der Aufnahmequalität

II. Verwendung veralteter Wiedergabe-GeräteSchwierigkeit zu einer schnellen und einfachen Zugriff

auf bestimmten Inhalten

Frühere Digitalisierungs-Projekte:• EU IST PrestoSpace• Dutch Beelden Voor De Toekomst

5Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Digitalisierung der Bewahrten Aufnahmen und deren Original-Transkriptionen

Bedarf einer schriftlichen Transkription für die Stichwortsuche: Eine Reihe von Stichwörtern z. B. aus einer

Redeepisode Generierung von automatischen Zeitstempel-

Transkriptionen

6Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Spracherkennung: (was wird gesagt?)• Transkriptionen durch vollautomatische

Spracherkennung• Suboptimal wegen schlechter Tonqualität

Alignment: (wo wird etwas gesagt?)• Modell: Verwendung einer bereits vollständig

transkribierten Sammlung• Daten: Angleichung (Alignment) der

phonetischen Darstellung des Gesprochenen mit der des Modells.

Drei Experimente zur Auswertung von Alignments zwischen Text und Rede

7Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Verwendung derselben Modelle für Alignment und Spracherkennung:

• geschlechtsunabhängig• sprecherunabhängig

Verwendete Modelle / Nachrichtensendungen:

• triphone (kontextabhängige)• monophone (kontextunabhängig)

Ergebnis: neue sprecherabhängige Modelle Generierung und Evaluierung der letzten

akustischen Wilhelmina Modelle

8Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Bei gegebenem Ton das „passende“ akustischen Modell-Segment finden

Pruning-Verfahren

Ankerpunkte: Verknüpfung Tonband und Transkription an zwei gleichen Positionen

Mehr Ankerpunkte: Alignment wird leichter Pruning-Verfahren wird weniger angewendet

Einfluss der Segment-Länge auf die Qualität des Alignment

9Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Indirekte Text-Rede-Alignment über phonemischer Darstellung des Textes

• Orthographische Transkription in phon. Darstellung• Phonem auf dem Tonband Sequenz von ak. Modellen

Konverter:• Background-Wörterbuch• Regelbasiertes System• Entsprechende Schreibweise und Aussprache

Einfluss der Konvertierung aufs Alignment:• Vollautomatische Konvertierung• Konvertierung mit Referenztext• Manuelle phonetische Konvertierung

10Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

11

Ak. Modelle aus monophonen Sendungen um 60% besser als solche aus triphone Sendungen

Datenspezifische Modelle sind besser als gewöhnliche Nachrichtensendungen

Für jedes der drei ak. Modelle wird die Datenmenge im Hinblick auf die entsp. Divergenz von der Referenztranskription gezeigt.

Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

12

Gleichgültigkeit der Länge der Segmente beim Wilhelmina-Modell

Bei längeren Segmenten aus triphoner N-Sendungen war die benötigte Zeit länger (Reduzierung des Pruning-Verfahren)

Alignment Performance als Funktion von Segmentlängen für triphone Nachrichtensendungen Models und die Sprecher-spezifischen Wilhelmina Models.

Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

13

Modelle aus monophonen Nachrichten-Sendungen

Niedriger Einfluss veralteter Schreibweise auf Alignment-Performance

Schreib-weise

Veränderte Phone (%)

Divergenz- Mittelwert (ms)

Original 0 55

Modern 1 56

Manuelle Konv.

5 54

Die Auswirkung von der Grafem-zu-Phonem Konvertierungsmethode auf die Alignment Performance.

Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Alignment-Performance ist adäquat für Indezierungsarbeiten

Monophone Modelle ergeben bessere Alignment-Performance als triphone Modelle

Mit dem richtigen Modell ist die Länge der Segmente relativ belanglos

Bei Abweichung des Tonbands vom Modell wurde mehr Zeit beansprucht für ein akzeptables Alignment

Graphem-zu-Phomen hat keinen Einfluss aufs Lokalisieren von Wortgrenzen

14Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

15Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

16Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Fortschritt in der Digitalisierung von historischen Texten, Bildern und Pamphleten• Automatische Verlinkung zwischen Dokumenten• Anzeige verwandter Dokumente in einer Präsentation

Verknüpfung der Inhalte von Medien über die semantische Darstellung jedes Medientyps:• Direkt• Über ein Lexikon• Über eine Ontologie

Keine automatische Verlinkung von Radio Oranje Aufnahmen und den entsprechenden Bilder Manuelle Erstellung der Semantische Darstellung von

Reden

17Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

http://hmi.ewi.utwente.nl/choral/radiooranje.html

18Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Bessere Erforschung der semantischen Übereinstimmung der gesprochenen Worte mit dem Thema.

Reduktion der Stichwörter auf ein kontrolliertes Vokabular

Verwendung eines Lexikon- oder Ontology-Systems (z. B. „Wordnet“)

Einsatz von Expertenwissen bei bestimmten geschichtlichen Ereignissen

19Motivation

Projekt Ergebnisse

Fazit

Demo

Zukünftige Arbeit

Radio Oranje: Enhanced Access to a Historical Spoken Word CollectionLaurens van der Werff, Willemijn Heeren, Roeland Ordelman & Franciska de JongUniversity of Twente

http://hmi.ewi.utwente.nl/choral/radiooranje.html

20

Vielen Dank für die Aufmerksamkeit!

Fragen?

21

Recommended