20
PRiSMHA la prima stagione Anna Goy Dipartimento di Informatica Università di Torino Anna Goy - marzo 2020 1

PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

PRiSMHAla prima stagione

Anna Goy Dipartimento di Informatica

Universitagrave di TorinoAnna Goy - marzo 20201

progetto di ricerca (2017-2020)finanziato da Compagnia di San Paolo e Universitagrave di Torinocoinvolge Dip di Informatica (Unito)Dip di Studi Storici (Unito)Fondaz Ist piemontese

A Gramsci (Polo del 900)

persone Anna Goy Rossana Damiano Diego Magro Daniele Radicioni Antonio Lieto Enrico Mensa Marco Rovera Davide Colla Marco Leontino Cristina Re Linda Carretta Fabrizio Loreto Cristina Accornero Stefano Musso Dunia Astrologo Bruno Boniolo Matteo DAmbrosio Elisa Elmi Valeria Mosca Claudio Salin Alice Montanaro

PRiSMHAProviding Rich Semantic Metadata for Historical Archives

obiettivo coinvolgere gliutenti nella costruzione di un archivista virtuale basatosu tecnologie di Intelligenza Artificiale e Web Semanticodiunitoitprismhawwwgramscitorinoitprismhahtml

2 Anna Goy - marzo 2020

Episodio 1Tecnologie e risorse culturali

questo matrimonio sha da fare

Episodio 2Tre personaggi in cerca di storie

Episodio 3Il backstage

Episodio 4I bit che corrono Anna Goy - marzo 20203

ARCHITETTURA COMPLESSIVA

4

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

121120195

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LONTOLOGIA HERO - I

HERO (Historical Event Representation Ontology)

bull egrave un vocabolario comune condiviso trao il sistema gli utenti della piattaforma di crowdsourcing

e gli utenti finali che cercano storie e documentio informaticiontologi (che progettano e realizzano il

sistema) e storici (che forniscono la prospettiva storica sui documenti)

bull egrave il risultato dellintegrazione di o unanalisi dei modelli esistentio lesito del dialogo tra informatici e storici

sulla nozione di evento con le sue proprietagrave(es partecipazione ruoli) e relazioni con altrieventi (es causa influenza)6

LONTOLOGIA HERO - II

Anna Goy - marzo 2020

Struttura di HERO (httpsw3idorgheroHERO)

bull HERO-TOP classi e proprietagrave generali (entitagrave astratta oggetto (non)fisico essere parte di essere sotto-classe di )

bull Moduli con classi e proprietagrave utili per caratterizzarebull HERO-EVENT eventi (evento azione partecipare in un

evento giocare un certo ruolo in un evento causare )bull HERO-ROCS ruoli organizzazioni collettivi

insiemi (ruolo organizzazione giocare un ruolo (sociale) esseremembro di un collettivoinsieme )

bull HERO-PLACE luoghi (pianura montagna fiume mare luogo antropizzato )

bull HERO-TIME intervalli di tempo (giorni anni periodi relazioni di Allen ndash primadopo durante )

7

LONTOLOGIA HERO - III

Anna Goy - marzo 2020

Il modello semantico top-level (HERO)ha guidato lanalisi e la selezione dei documentidallarchivio dellIst Gramsci (relativialle proteste del 68) gli storici hannoanalizzato i documenti e costruito delleschede analitiche strutturate in base alle classi definite in HERO (eventi persone organizzazioni collettivi hellip)

Le schede insieme allaconsulenza diretta deglistorici sono state usate per costruire lontologia di

dominio (HERO-900) = modello semantico specificoche raffina HERO definendo concetti e proprietagrave specifici

8

LONTOLOGIA HERO - IV

Anna Goy - marzo 2020

HERO-900 definisce concetti e proprietagrave specificirelativi al dominio prescelto (le proteste del 68)bull seme di unontologia della

storia del XX secolobull moduli che estendono HERO

bull HERO-EVENT-900 eventi es azioni conflittuali (scontri di piazza cariche della polizia) azioni di protesta (scioperi cortei) eventi della vita (matrimoni nascite)

bull HERO-ROCS-900 ruoli (es mestieri) organizzazioni(es sindacati partiti) collettivi (es classi sociali gruppinazionali gruppi di lavoratori)

bull HERO-PLACE-900 luoghi (es cittagrave paesi strade piazze edifici infrastrutture)9

LONTOLOGIA HERO-900 - I

Anna Goy - marzo 2020

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 2: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

progetto di ricerca (2017-2020)finanziato da Compagnia di San Paolo e Universitagrave di Torinocoinvolge Dip di Informatica (Unito)Dip di Studi Storici (Unito)Fondaz Ist piemontese

A Gramsci (Polo del 900)

persone Anna Goy Rossana Damiano Diego Magro Daniele Radicioni Antonio Lieto Enrico Mensa Marco Rovera Davide Colla Marco Leontino Cristina Re Linda Carretta Fabrizio Loreto Cristina Accornero Stefano Musso Dunia Astrologo Bruno Boniolo Matteo DAmbrosio Elisa Elmi Valeria Mosca Claudio Salin Alice Montanaro

PRiSMHAProviding Rich Semantic Metadata for Historical Archives

obiettivo coinvolgere gliutenti nella costruzione di un archivista virtuale basatosu tecnologie di Intelligenza Artificiale e Web Semanticodiunitoitprismhawwwgramscitorinoitprismhahtml

2 Anna Goy - marzo 2020

Episodio 1Tecnologie e risorse culturali

questo matrimonio sha da fare

Episodio 2Tre personaggi in cerca di storie

Episodio 3Il backstage

Episodio 4I bit che corrono Anna Goy - marzo 20203

ARCHITETTURA COMPLESSIVA

4

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

121120195

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LONTOLOGIA HERO - I

HERO (Historical Event Representation Ontology)

bull egrave un vocabolario comune condiviso trao il sistema gli utenti della piattaforma di crowdsourcing

e gli utenti finali che cercano storie e documentio informaticiontologi (che progettano e realizzano il

sistema) e storici (che forniscono la prospettiva storica sui documenti)

bull egrave il risultato dellintegrazione di o unanalisi dei modelli esistentio lesito del dialogo tra informatici e storici

sulla nozione di evento con le sue proprietagrave(es partecipazione ruoli) e relazioni con altrieventi (es causa influenza)6

LONTOLOGIA HERO - II

Anna Goy - marzo 2020

Struttura di HERO (httpsw3idorgheroHERO)

bull HERO-TOP classi e proprietagrave generali (entitagrave astratta oggetto (non)fisico essere parte di essere sotto-classe di )

bull Moduli con classi e proprietagrave utili per caratterizzarebull HERO-EVENT eventi (evento azione partecipare in un

evento giocare un certo ruolo in un evento causare )bull HERO-ROCS ruoli organizzazioni collettivi

insiemi (ruolo organizzazione giocare un ruolo (sociale) esseremembro di un collettivoinsieme )

bull HERO-PLACE luoghi (pianura montagna fiume mare luogo antropizzato )

bull HERO-TIME intervalli di tempo (giorni anni periodi relazioni di Allen ndash primadopo durante )

7

LONTOLOGIA HERO - III

Anna Goy - marzo 2020

Il modello semantico top-level (HERO)ha guidato lanalisi e la selezione dei documentidallarchivio dellIst Gramsci (relativialle proteste del 68) gli storici hannoanalizzato i documenti e costruito delleschede analitiche strutturate in base alle classi definite in HERO (eventi persone organizzazioni collettivi hellip)

Le schede insieme allaconsulenza diretta deglistorici sono state usate per costruire lontologia di

dominio (HERO-900) = modello semantico specificoche raffina HERO definendo concetti e proprietagrave specifici

8

LONTOLOGIA HERO - IV

Anna Goy - marzo 2020

HERO-900 definisce concetti e proprietagrave specificirelativi al dominio prescelto (le proteste del 68)bull seme di unontologia della

storia del XX secolobull moduli che estendono HERO

bull HERO-EVENT-900 eventi es azioni conflittuali (scontri di piazza cariche della polizia) azioni di protesta (scioperi cortei) eventi della vita (matrimoni nascite)

bull HERO-ROCS-900 ruoli (es mestieri) organizzazioni(es sindacati partiti) collettivi (es classi sociali gruppinazionali gruppi di lavoratori)

bull HERO-PLACE-900 luoghi (es cittagrave paesi strade piazze edifici infrastrutture)9

LONTOLOGIA HERO-900 - I

Anna Goy - marzo 2020

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 3: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

Episodio 1Tecnologie e risorse culturali

questo matrimonio sha da fare

Episodio 2Tre personaggi in cerca di storie

Episodio 3Il backstage

Episodio 4I bit che corrono Anna Goy - marzo 20203

ARCHITETTURA COMPLESSIVA

4

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

121120195

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LONTOLOGIA HERO - I

HERO (Historical Event Representation Ontology)

bull egrave un vocabolario comune condiviso trao il sistema gli utenti della piattaforma di crowdsourcing

e gli utenti finali che cercano storie e documentio informaticiontologi (che progettano e realizzano il

sistema) e storici (che forniscono la prospettiva storica sui documenti)

bull egrave il risultato dellintegrazione di o unanalisi dei modelli esistentio lesito del dialogo tra informatici e storici

sulla nozione di evento con le sue proprietagrave(es partecipazione ruoli) e relazioni con altrieventi (es causa influenza)6

LONTOLOGIA HERO - II

Anna Goy - marzo 2020

Struttura di HERO (httpsw3idorgheroHERO)

bull HERO-TOP classi e proprietagrave generali (entitagrave astratta oggetto (non)fisico essere parte di essere sotto-classe di )

bull Moduli con classi e proprietagrave utili per caratterizzarebull HERO-EVENT eventi (evento azione partecipare in un

evento giocare un certo ruolo in un evento causare )bull HERO-ROCS ruoli organizzazioni collettivi

insiemi (ruolo organizzazione giocare un ruolo (sociale) esseremembro di un collettivoinsieme )

bull HERO-PLACE luoghi (pianura montagna fiume mare luogo antropizzato )

bull HERO-TIME intervalli di tempo (giorni anni periodi relazioni di Allen ndash primadopo durante )

7

LONTOLOGIA HERO - III

Anna Goy - marzo 2020

Il modello semantico top-level (HERO)ha guidato lanalisi e la selezione dei documentidallarchivio dellIst Gramsci (relativialle proteste del 68) gli storici hannoanalizzato i documenti e costruito delleschede analitiche strutturate in base alle classi definite in HERO (eventi persone organizzazioni collettivi hellip)

Le schede insieme allaconsulenza diretta deglistorici sono state usate per costruire lontologia di

dominio (HERO-900) = modello semantico specificoche raffina HERO definendo concetti e proprietagrave specifici

8

LONTOLOGIA HERO - IV

Anna Goy - marzo 2020

HERO-900 definisce concetti e proprietagrave specificirelativi al dominio prescelto (le proteste del 68)bull seme di unontologia della

storia del XX secolobull moduli che estendono HERO

bull HERO-EVENT-900 eventi es azioni conflittuali (scontri di piazza cariche della polizia) azioni di protesta (scioperi cortei) eventi della vita (matrimoni nascite)

bull HERO-ROCS-900 ruoli (es mestieri) organizzazioni(es sindacati partiti) collettivi (es classi sociali gruppinazionali gruppi di lavoratori)

bull HERO-PLACE-900 luoghi (es cittagrave paesi strade piazze edifici infrastrutture)9

LONTOLOGIA HERO-900 - I

Anna Goy - marzo 2020

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 4: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

ARCHITETTURA COMPLESSIVA

4

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

121120195

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LONTOLOGIA HERO - I

HERO (Historical Event Representation Ontology)

bull egrave un vocabolario comune condiviso trao il sistema gli utenti della piattaforma di crowdsourcing

e gli utenti finali che cercano storie e documentio informaticiontologi (che progettano e realizzano il

sistema) e storici (che forniscono la prospettiva storica sui documenti)

bull egrave il risultato dellintegrazione di o unanalisi dei modelli esistentio lesito del dialogo tra informatici e storici

sulla nozione di evento con le sue proprietagrave(es partecipazione ruoli) e relazioni con altrieventi (es causa influenza)6

LONTOLOGIA HERO - II

Anna Goy - marzo 2020

Struttura di HERO (httpsw3idorgheroHERO)

bull HERO-TOP classi e proprietagrave generali (entitagrave astratta oggetto (non)fisico essere parte di essere sotto-classe di )

bull Moduli con classi e proprietagrave utili per caratterizzarebull HERO-EVENT eventi (evento azione partecipare in un

evento giocare un certo ruolo in un evento causare )bull HERO-ROCS ruoli organizzazioni collettivi

insiemi (ruolo organizzazione giocare un ruolo (sociale) esseremembro di un collettivoinsieme )

bull HERO-PLACE luoghi (pianura montagna fiume mare luogo antropizzato )

bull HERO-TIME intervalli di tempo (giorni anni periodi relazioni di Allen ndash primadopo durante )

7

LONTOLOGIA HERO - III

Anna Goy - marzo 2020

Il modello semantico top-level (HERO)ha guidato lanalisi e la selezione dei documentidallarchivio dellIst Gramsci (relativialle proteste del 68) gli storici hannoanalizzato i documenti e costruito delleschede analitiche strutturate in base alle classi definite in HERO (eventi persone organizzazioni collettivi hellip)

Le schede insieme allaconsulenza diretta deglistorici sono state usate per costruire lontologia di

dominio (HERO-900) = modello semantico specificoche raffina HERO definendo concetti e proprietagrave specifici

8

LONTOLOGIA HERO - IV

Anna Goy - marzo 2020

HERO-900 definisce concetti e proprietagrave specificirelativi al dominio prescelto (le proteste del 68)bull seme di unontologia della

storia del XX secolobull moduli che estendono HERO

bull HERO-EVENT-900 eventi es azioni conflittuali (scontri di piazza cariche della polizia) azioni di protesta (scioperi cortei) eventi della vita (matrimoni nascite)

bull HERO-ROCS-900 ruoli (es mestieri) organizzazioni(es sindacati partiti) collettivi (es classi sociali gruppinazionali gruppi di lavoratori)

bull HERO-PLACE-900 luoghi (es cittagrave paesi strade piazze edifici infrastrutture)9

LONTOLOGIA HERO-900 - I

Anna Goy - marzo 2020

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 5: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

121120195

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LONTOLOGIA HERO - I

HERO (Historical Event Representation Ontology)

bull egrave un vocabolario comune condiviso trao il sistema gli utenti della piattaforma di crowdsourcing

e gli utenti finali che cercano storie e documentio informaticiontologi (che progettano e realizzano il

sistema) e storici (che forniscono la prospettiva storica sui documenti)

bull egrave il risultato dellintegrazione di o unanalisi dei modelli esistentio lesito del dialogo tra informatici e storici

sulla nozione di evento con le sue proprietagrave(es partecipazione ruoli) e relazioni con altrieventi (es causa influenza)6

LONTOLOGIA HERO - II

Anna Goy - marzo 2020

Struttura di HERO (httpsw3idorgheroHERO)

bull HERO-TOP classi e proprietagrave generali (entitagrave astratta oggetto (non)fisico essere parte di essere sotto-classe di )

bull Moduli con classi e proprietagrave utili per caratterizzarebull HERO-EVENT eventi (evento azione partecipare in un

evento giocare un certo ruolo in un evento causare )bull HERO-ROCS ruoli organizzazioni collettivi

insiemi (ruolo organizzazione giocare un ruolo (sociale) esseremembro di un collettivoinsieme )

bull HERO-PLACE luoghi (pianura montagna fiume mare luogo antropizzato )

bull HERO-TIME intervalli di tempo (giorni anni periodi relazioni di Allen ndash primadopo durante )

7

LONTOLOGIA HERO - III

Anna Goy - marzo 2020

Il modello semantico top-level (HERO)ha guidato lanalisi e la selezione dei documentidallarchivio dellIst Gramsci (relativialle proteste del 68) gli storici hannoanalizzato i documenti e costruito delleschede analitiche strutturate in base alle classi definite in HERO (eventi persone organizzazioni collettivi hellip)

Le schede insieme allaconsulenza diretta deglistorici sono state usate per costruire lontologia di

dominio (HERO-900) = modello semantico specificoche raffina HERO definendo concetti e proprietagrave specifici

8

LONTOLOGIA HERO - IV

Anna Goy - marzo 2020

HERO-900 definisce concetti e proprietagrave specificirelativi al dominio prescelto (le proteste del 68)bull seme di unontologia della

storia del XX secolobull moduli che estendono HERO

bull HERO-EVENT-900 eventi es azioni conflittuali (scontri di piazza cariche della polizia) azioni di protesta (scioperi cortei) eventi della vita (matrimoni nascite)

bull HERO-ROCS-900 ruoli (es mestieri) organizzazioni(es sindacati partiti) collettivi (es classi sociali gruppinazionali gruppi di lavoratori)

bull HERO-PLACE-900 luoghi (es cittagrave paesi strade piazze edifici infrastrutture)9

LONTOLOGIA HERO-900 - I

Anna Goy - marzo 2020

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 6: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

HERO (Historical Event Representation Ontology)

bull egrave un vocabolario comune condiviso trao il sistema gli utenti della piattaforma di crowdsourcing

e gli utenti finali che cercano storie e documentio informaticiontologi (che progettano e realizzano il

sistema) e storici (che forniscono la prospettiva storica sui documenti)

bull egrave il risultato dellintegrazione di o unanalisi dei modelli esistentio lesito del dialogo tra informatici e storici

sulla nozione di evento con le sue proprietagrave(es partecipazione ruoli) e relazioni con altrieventi (es causa influenza)6

LONTOLOGIA HERO - II

Anna Goy - marzo 2020

Struttura di HERO (httpsw3idorgheroHERO)

bull HERO-TOP classi e proprietagrave generali (entitagrave astratta oggetto (non)fisico essere parte di essere sotto-classe di )

bull Moduli con classi e proprietagrave utili per caratterizzarebull HERO-EVENT eventi (evento azione partecipare in un

evento giocare un certo ruolo in un evento causare )bull HERO-ROCS ruoli organizzazioni collettivi

insiemi (ruolo organizzazione giocare un ruolo (sociale) esseremembro di un collettivoinsieme )

bull HERO-PLACE luoghi (pianura montagna fiume mare luogo antropizzato )

bull HERO-TIME intervalli di tempo (giorni anni periodi relazioni di Allen ndash primadopo durante )

7

LONTOLOGIA HERO - III

Anna Goy - marzo 2020

Il modello semantico top-level (HERO)ha guidato lanalisi e la selezione dei documentidallarchivio dellIst Gramsci (relativialle proteste del 68) gli storici hannoanalizzato i documenti e costruito delleschede analitiche strutturate in base alle classi definite in HERO (eventi persone organizzazioni collettivi hellip)

Le schede insieme allaconsulenza diretta deglistorici sono state usate per costruire lontologia di

dominio (HERO-900) = modello semantico specificoche raffina HERO definendo concetti e proprietagrave specifici

8

LONTOLOGIA HERO - IV

Anna Goy - marzo 2020

HERO-900 definisce concetti e proprietagrave specificirelativi al dominio prescelto (le proteste del 68)bull seme di unontologia della

storia del XX secolobull moduli che estendono HERO

bull HERO-EVENT-900 eventi es azioni conflittuali (scontri di piazza cariche della polizia) azioni di protesta (scioperi cortei) eventi della vita (matrimoni nascite)

bull HERO-ROCS-900 ruoli (es mestieri) organizzazioni(es sindacati partiti) collettivi (es classi sociali gruppinazionali gruppi di lavoratori)

bull HERO-PLACE-900 luoghi (es cittagrave paesi strade piazze edifici infrastrutture)9

LONTOLOGIA HERO-900 - I

Anna Goy - marzo 2020

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 7: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

Struttura di HERO (httpsw3idorgheroHERO)

bull HERO-TOP classi e proprietagrave generali (entitagrave astratta oggetto (non)fisico essere parte di essere sotto-classe di )

bull Moduli con classi e proprietagrave utili per caratterizzarebull HERO-EVENT eventi (evento azione partecipare in un

evento giocare un certo ruolo in un evento causare )bull HERO-ROCS ruoli organizzazioni collettivi

insiemi (ruolo organizzazione giocare un ruolo (sociale) esseremembro di un collettivoinsieme )

bull HERO-PLACE luoghi (pianura montagna fiume mare luogo antropizzato )

bull HERO-TIME intervalli di tempo (giorni anni periodi relazioni di Allen ndash primadopo durante )

7

LONTOLOGIA HERO - III

Anna Goy - marzo 2020

Il modello semantico top-level (HERO)ha guidato lanalisi e la selezione dei documentidallarchivio dellIst Gramsci (relativialle proteste del 68) gli storici hannoanalizzato i documenti e costruito delleschede analitiche strutturate in base alle classi definite in HERO (eventi persone organizzazioni collettivi hellip)

Le schede insieme allaconsulenza diretta deglistorici sono state usate per costruire lontologia di

dominio (HERO-900) = modello semantico specificoche raffina HERO definendo concetti e proprietagrave specifici

8

LONTOLOGIA HERO - IV

Anna Goy - marzo 2020

HERO-900 definisce concetti e proprietagrave specificirelativi al dominio prescelto (le proteste del 68)bull seme di unontologia della

storia del XX secolobull moduli che estendono HERO

bull HERO-EVENT-900 eventi es azioni conflittuali (scontri di piazza cariche della polizia) azioni di protesta (scioperi cortei) eventi della vita (matrimoni nascite)

bull HERO-ROCS-900 ruoli (es mestieri) organizzazioni(es sindacati partiti) collettivi (es classi sociali gruppinazionali gruppi di lavoratori)

bull HERO-PLACE-900 luoghi (es cittagrave paesi strade piazze edifici infrastrutture)9

LONTOLOGIA HERO-900 - I

Anna Goy - marzo 2020

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 8: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

Il modello semantico top-level (HERO)ha guidato lanalisi e la selezione dei documentidallarchivio dellIst Gramsci (relativialle proteste del 68) gli storici hannoanalizzato i documenti e costruito delleschede analitiche strutturate in base alle classi definite in HERO (eventi persone organizzazioni collettivi hellip)

Le schede insieme allaconsulenza diretta deglistorici sono state usate per costruire lontologia di

dominio (HERO-900) = modello semantico specificoche raffina HERO definendo concetti e proprietagrave specifici

8

LONTOLOGIA HERO - IV

Anna Goy - marzo 2020

HERO-900 definisce concetti e proprietagrave specificirelativi al dominio prescelto (le proteste del 68)bull seme di unontologia della

storia del XX secolobull moduli che estendono HERO

bull HERO-EVENT-900 eventi es azioni conflittuali (scontri di piazza cariche della polizia) azioni di protesta (scioperi cortei) eventi della vita (matrimoni nascite)

bull HERO-ROCS-900 ruoli (es mestieri) organizzazioni(es sindacati partiti) collettivi (es classi sociali gruppinazionali gruppi di lavoratori)

bull HERO-PLACE-900 luoghi (es cittagrave paesi strade piazze edifici infrastrutture)9

LONTOLOGIA HERO-900 - I

Anna Goy - marzo 2020

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 9: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

HERO-900 definisce concetti e proprietagrave specificirelativi al dominio prescelto (le proteste del 68)bull seme di unontologia della

storia del XX secolobull moduli che estendono HERO

bull HERO-EVENT-900 eventi es azioni conflittuali (scontri di piazza cariche della polizia) azioni di protesta (scioperi cortei) eventi della vita (matrimoni nascite)

bull HERO-ROCS-900 ruoli (es mestieri) organizzazioni(es sindacati partiti) collettivi (es classi sociali gruppinazionali gruppi di lavoratori)

bull HERO-PLACE-900 luoghi (es cittagrave paesi strade piazze edifici infrastrutture)9

LONTOLOGIA HERO-900 - I

Anna Goy - marzo 2020

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 10: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

bull La versione di HERO e HERO-900 utilizzata nelprototipo egrave scritta in OWL 2

bull OWL egrave un linguaggio logico derivato dalla logica dei predicati del primo ordine egrave una specifica del W3C

(wwww3org)

10

LONTOLOGIA HERO-900 - II

Anna Goy - marzo 2020

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 11: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

1211201911

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

LA BASE DI CONOSCENZA SEMANTICA - I

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 12: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

bull la Semantic KB contiene le rappresentazionisemantiche del contenuto dei documenti darchivio

bull egrave implementata come un RDF triplestorebull RDF egrave un modello in cui i dati sono rappresentati da

triple o asserzioni (statements) della forma langsoggetto predicato oggettorang graficamente

bull soggetto predicato e oggetto sono risorsebull le risorse sono univocamente identificate da IRIbull RDF egrave una specifica del W3C (wwww3org)

12 Anna Goy - marzo 2020

LA BASE DI CONOSCENZA SEMANTICA - II

soggetto oggettopredicato

httpTorino httpAvogadrohttpbirthPlace

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 13: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

Il 20 Novembre gli studenti sono stati aggrediti dai carabinieri armati di catene

hasDescribingConcept

isAbout

studenti aggrediti dai carabinieri

Carabinieri

studenti

201168 hasTime

hasPatient

hasAgentinstance-of

IsA

studenteinstance-of

catene

instance-of

instance-of

IsA

ConfrontationalAction

Day PoliceCharge

Organization

LawEnforce-mentAgency

Set RolePhysicalObject

Rappresentazione grafica (semplificata) di un insieme di triple RDF nella Semantic KB (IRI sostituiti da etichette per maggiore leggibilitagrave)

Anna Goy - marzo 202013

LA BASE DI CONOSCENZA SEMANTICA - III

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 14: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

1211201914

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

ACCESSO DIRETTO AI DATI - I

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 15: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

I dati nella Semantic KB saranno accessibiliattraverso uno SPARQL Endpoint e API RESTbull SPARQL egrave un protocollo e un linguaggio di

interrogazione e manipolazione di RDF triplestorebull uno SPARQL endpoint egrave un Server che risponde a

richieste SPARQLbull REST = insieme di principi architetturali basati su HTTP

per la progettazione e realizzazione di interfacce di accessoa servizi e dati

In questo modo egrave possibili utilizzare i dati di PRiSMHA (le rappresentazioni semantiche contenute nella Semantic KB)allinterno di applicazioni di terze parti (es app turistiche educative culturali)

15 Anna Goy - marzo 2020

ACCESSO DIRETTO AI DATI - II

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 16: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

1211201916

CrowdsourcingPlatform

Semantic KB (RDF triplestore)

SPARQL endpointREST API

HERO + HERO-900

Final UI

OCR-ized documents

provides structure (and content) of the UI of the Crowdsourcing Platform

provides vocabulary used in Semantic KB

non-textual

documents

Information Extraction

module

CROWDSOURCING X ANNOTAZIONE - I

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 17: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

Prototipo della piattaforma di crowdsourcingbull permette agli utenti di annotare in modo collaborativo

i documenti darchivio con le rappresentazionisemantiche formali del loro contenuto (popolandocosigrave la Semantic KB)NB annotazione = link tra un documento(frammento testuale) e una rappresentazionesemantica

bull il processo egrave guidatodellontologia(HERO-900)

17 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - II

annotazione

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 18: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

bull Il sistema aiuta gli utenti nellannotazione collaborativa dei documenti individuando le entitagrave presenti nei testi

bull Utilizza tecniche di Named Entity Recognition settore del Natural Language Processing che individua in un testo le persone le organizzazioni le date i luoghi menzionati

18 Anna Goy - marzo 2020

CROWDSOURCING X ANNOTAZIONE - III

Sergio Garavini nasce a Torino il 18 maggio 1926 Figlio di Eusebio lavoratoreimmigrato romagnolo poi imprenditore fondatore della carrozzeria GaraviniSergio studia al Liceo Gioberti Diplomato nellrsquoautunno del 1943 si iscrive alPolitecnico nella Facoltagrave drsquoIngegneria che abbandoneragrave a tre esami dalla laurea[] Nel 1945 si iscrive alla federazione giovanile del Partito Socialista di UnitagraveProletaria e nei primi mesi del 1946 entra a far parte del coordinamento deiconsigli di gestione dove entra in contatto con importanti esponenti del PartitoComunista come Egidio Sulotto e Ruggero Cominotti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 19: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

Server-side bull Spring (httpsspringio)bull OWL Api (httpowlcsgithubioowlapi)bull Konclude (httpswwwderivodeenproductskonclude)bull Apache JENA TDB (httpjenaapacheorgdocumentationtdb)bull MySQL (httpswwwmysqlcom)bull Jackson Libraries (httpsgithubcomFasterXMLjackson)bull Log4J (httpsloggingapacheorglog4j2x)

Client-side (UI)bull Bootstrap (httpsgetbootstrapcom)bull JQuery (httpsjquerycom)bull D3 (httpsd3jsorg)bull PDFObject (httpspdfobjectcom)

Information Extractionbull TINT (httptintfbkeu)bull BabelNet (httpsbabelnetorg)bull BabelFy (httpbabelfyorg)bull DBPedia (httpswikidbpediaorg)bull Wikidata (httpswwwwikidataorgwikiWikidataMain_Page)

Project Managementbull Gradle (httpsgradleorg)19 Anna Goy - marzo 2020

GLI STRUMENTI SOFTWARE

for technical eyesonly

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III
Page 20: PRiSMHA la prima stagionegoy/materiale/1920/goy3.pdf · 2020-04-11 · il. sistema, gli. utenti. della piattaforma di . crowdsourcing. e gli. utenti finali. che cercano storie e documenti

La strada egrave ancora lunga

Nuove sinergie possono essere messe in gioco

Se siete interessaticontattateci

annamariagoyunitoit

Il progetto ha generatosinergie fruttose trabull informatici storici

e archivistibull accademia e

istituzioni culturalidel territorio

Licence CC0

LicenceCC0

Licence CC0

FINE EPISODIO III

Anna Goy - marzo 202020

  • Diapositiva numero 1
  • Diapositiva numero 2
  • Diapositiva numero 3
  • ARCHITETTURA COMPLESSIVA
  • Diapositiva numero 5
  • Diapositiva numero 6
  • Diapositiva numero 7
  • Diapositiva numero 8
  • Diapositiva numero 9
  • Diapositiva numero 10
  • Diapositiva numero 11
  • Diapositiva numero 12
  • Diapositiva numero 13
  • Diapositiva numero 14
  • Diapositiva numero 15
  • Diapositiva numero 16
  • Diapositiva numero 17
  • Diapositiva numero 18
  • gli strumenti software
  • FINE EPISODIO III