Drongo: Zoeken in Audiovisuele Documenten

Preview:

Citation preview

DRONGOZoeken in AV-docs

Taal- en Spraaktechnologie voor het ontsluiten van opgenomen

AV-documenten

Arjan van Hessen

CLARIAHEen infrastructuurprogramma waarmee het mogelijk moet worden dat alle onderzoekers uit de geesteswetenschappen moderne Taal- en Spraaktechnologie op een eenvoudige wijze kunnen gebruiken HMI

Onderzoek naar het toepassen van Spraaktechnologie in multi-modale mens-machine communicatie.

TelecatsToepassen van de nieuwste ontwikkelingen op het gebied van TST in daadwerkelijk werkende applicaties voor men-machine communicatie

WAT IS DAT: TAAL?

Wat is Taal?

Taal heeft in het algemeen betrekking op elke min of meer complexe vorm van communicatie in de vorm van uitingen, die gezamenlijk een systeem vormen. De betekenis van de uitingen (spraak, gebaar, schrift) wordt bepaald door:• de vorm ervan• de volgorde waarin ze geuit worden

Het vermogen taal te leren is aangeboren.

De uitingsvorm van taal is aangeleerd

De mate waarin taal geleerd kan worden neemt sterk af na je 16de

Wat is Taal?TAAL

spraakschrift

gebaren-taal

lichaams-taal

De mens als talig wezenDe ontwikkeling van de menselijke taal (of spraak) is waarschijnlijk 100.000 jaar geleden begonnen.Daarvóór hadden de menselijke kaak, de mond en de larynx de verkeerde vorm om woorden te vormen. (iets dat we nu nog bij apen zien)

De mens als talig wezenHet pictografische schrift (3300 AD Sumer, Mesopotamië) is voor zover bekend, de oudste geschreven taal.

-3300schrift

-10.000landbouw

-100.000spraak

NU

Wat is Taal en Spraaktechnologie (TST)?Taal- en Spraaktechnologie (TST) is de technologie die zich richt op het imiteren door computers van het talige deel van de menselijke communicatie.

Doel:• Het mogelijk maken op “natuurlijke” wijze met

apparaten te communiceren• De Turingtest winnen

VASTLEGGEN VAN INFORMATIE

3300 BC – nuOmzetten van talige informatie in…....

Vastleggen van TaalHet pictografische schrift (3300 AD Sumer, Mesopotamië) is voor zover bekend, de oudste geschreven taal.

Stijging aantal boeken

Stijging AV-data

ONTSTLUITING WORDT EEN PROBLEEM

Juiste metadata nodig over:• Standaard zaken (naam, datum, drager, eigenaar, onderwerp)• Inhoud (overall, en per fragment)

Standaard metadata

Dynamic MetadataStatic Metadata

MetadataBestandsniveau

Bestandsniveau

Bestandsniveau

Bestandsniveau

Bestandsniveau

Topic 1( T1 T2)

Topic 2( T3 T4)

Topic 2( T5 T6)

Hfdst. 1( T1* T2*)

Hfdst. 2( T3* T4*)

Spreker 1( T1” T2”)

Spreker 2( T3” T4”)

Spreker 1( T5” T6”)

Spreker 1&2( T7” T8”)

? ? ? ?

Collectie niveau

Waar gaat het over?Wie spreken er?

Welke taal?Wat is het niveau?Hoe kan ik er bij?

ONTSLUITENZoeken en relevante resultaten terugkrijgen

Spraakherkenning

Zeer sterke verbetering door beschikbaarheid van:•Massieve hoeveelheid data

(spraak en tekst)• Bijna onbeperkte rekencapaciteit

(cloud computing)• Deep Learning Algoritmes

WORDT HET AL GEBRUIKT?

FIODspraak

Spraaktechnologie voor ondersteuning FIOD-medewerkersbij verwerken opgenomen AV-gesprekken

Voor zoeken naar- en terugluisteren van speciale passages

Partners

Tweede Kamer

Universiteit van Nederland

EN DIT WAS ÉÉN AV-BESTAND

Bepaal de topics-in-time van alle bestanden

A A A

B B B

C C C

B

CC

AAA

B

Ontstaan van Heelal

Eeuwige jeugd bereikbaar?Verliefdheid bij

honden

Terrorisme

Search

Omgangsrecht

Topic 7

MOOC X (T1-T2)MOOC X (T3-T4)

Interview Q (T5-T6)Documentary W (T7-

T8)PPT 12 (S10-S12)

PPT 19 (S1-S7)Keynote 99 (S9-S11)

Topic clustering• Bijeen brengen van verschillende bronnen

die over het zelfde onderwerp gaan.

TOPICWeekers

AUTOMATISCH VERTALENVergroten zichtbaarheid “lokale” AV-bestanden

Spraakherkenning• Niet (=nooit) perfect, maar is ondertiteling noodzakelijk?• Doe eerste stap met de machine, vraag daarna “mensen”

om hulp

SpraakherkenningImperfect resultaat Crowd sourcing Perfect

resultaat

Imperfect resultaat

Crowd sourcingPerfect resultaat

Fase A Fase B

Fase CFase D

WAT MISSEN WE NOG?

Zoeken en Tonen 2016

Zoeken• String-match• Semantisch zoeken• Conceptueel zoeken

Presenteren zoekresultaten• Alfabetisch?• Op tijd?• Op relevantie?

Zoeken en Tonen 2016Zoekwoord:

10x in document

Document bevat 8000 woorden

Heeft 4§ en zoek-woorden zijn homogeen verdeeld

Zoekwoord: 15x in document

Document bevat 20000 woorden

Heeft 2§ en in 1§ komen alle zoekwoorden voor

Social Signals in Spraak

EMOTIE

HOE GAAN WE DIT DOEN?AI, KI, ML, DNN

Deep Learning

Deep Learning

Het leren gebeurt door het aanpassen van de verschil-lende gewichten (wi) en hoe je dat doet (lineaire, of anders)

See: http://www.amax.com/blog/?p=804

VRAGEN ?

Recommended