Data Scraping, Data Organization

Preview:

Citation preview

Milano, 13.12.2012Milano, 13.12.2012

DATA SCRAPING, DATA ORGANIZATION

OvveroPERCHÉ EXCEL È NOSTRO AMICO

Milano, 13.12.2012

Chi sono?

• Marco Montanari@ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com

• Sviluppatore, Appassionato di giochi, Nerd…– passione per i dati

• “I am a journalist looking for coder friends.”– Jens Finnäs (HacksHackers Helsinki)

• “I am a coder with journalist friends.”– Marco Montanari

Milano, 13.12.2012

Indice

• Il Fatto• Le Dimensioni

• DEMO• Descrivere fatti• Aggregazioni

• DEMO

• I Formati

• DEMO• Trovare dati on-line

• DEMO

Milano, 13.12.2012

Il Fatto

Milano, 13.12.2012

Il Fatto

• 5W: – Who is it about?– What happened?– When did it take place?– Where did it take place?– Why did it happen?

Milano, 13.12.2012

Le Dimensioni

Fatto

Chi

Cosa

QuandoPerché

Dove

Milano, 13.12.2012

Le Dimensioni

Vendita di un

prodotto

Cliente1

ProdottoX

12.12.2012 09:24:22

Amazon.it

Milano, 13.12.2012

Le Dimensioni

Utente visita sito

Nome utente: sirmmo

Pagina: /area1/p2

Orario di ingresso:

13.12.2012 09:24:22

Orario di uscita:

13.12.2012 09:27:12

Durata: 2m50s

Modalità di uscita: clic su

link

Destinazione: /area1/p3

Milano, 13.12.2012

Analisi delle dimensioni del fatto

DEMO

Milano, 13.12.2012

Descrivere i fatti

Pro• Disaggregato• Semplice• Atomico

Contro• Disaggregato• Tanti elementi • Da tenere sempre

organizzato

Ogni dimensione è una colonna

Milano, 13.12.2012

Descrivere i fatti

Pro• Disaggregato• Semplice• Atomico

Contro• Disaggregato• Tanti elementi • Da tenere sempre

organizzato

Ogni dimensione è una colonna

Milano, 13.12.2012

• Dal mondo del management

• Tabella Pivot (analisi multidimensionale)– Impossibile con dati già aggregati– Le dimensioni sono correlabili come si vuole

Aggregazioni

DataCube

Milano, 13.12.2012

AggregazioniPivoting

Dati disaggregati

Pivoting

Milano, 13.12.2012

AggregazioniPivoting

Criteri di aggregazione

Risultato: la tabella pivot

Milano, 13.12.2012

AggregazioniPivoting

Milano, 13.12.2012

Si utilizza un dataset molto disaggregato per vedere come giocare con le tabelle pivot

DEMO

Milano, 13.12.2012

I Formati

• Tabellari– xls xlsx csv tsv ods dbf

• Strutturati– xml json (shp)

• Linked data– RDF

• Altro…– HTML

75%

20%

5%

50%

Milano, 13.12.2012

I Formati

• Tabellari– xls xlsx csv tsv ods dbf

• Strutturati– xml json (shp)

• Linked data– RDF

• Altro…– HTML

75%

20%

5%

50%

Milano, 13.12.2012

Analisi rapida dei principali formati: • CSV, TSV• SHP• HTML

DEMO

Milano, 13.12.2012

• Il browser (non IE) come strumento di analisi • Chrome

– Scraper • https://

chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd

– Table Capture• https://chrome.google.com/webstore/detail/table-capt

ure/iebpjdmgckacbodjpijphcplhebcmeop

Trovare dati on-lineLa versione facile

Milano, 13.12.2012

• Firefox– Outwit

• http://www.outwit.com/products/hub/

Trovare dati on-lineLa versione facile

Milano, 13.12.2012

• Strumenti più specialistici ma anche più «fragili»• Excel

Trovare dati on-lineLa versione intermedia

Milano, 13.12.2012

• Google Refine - https://code.google.com/p/google-refine/

Trovare dati on-lineLa versione intermedia

Milano, 13.12.2012

Trovare dati on-lineLa versione difficile

Amico sviluppatore

(Vincenzo Patruno)

Milano, 13.12.2012

Esperimenti di importazione dati• Plugin per Chrome• Excel• Refine

DEMO

Milano, 13.12.2012

• Decidere le dimensioni di interesse

• Descrivere i fatti in base alle dimensioni

• Trovare i dati, pulirli e adattarli alle dimensioni

• Analizzare le aggregazioni

Riassumendo

Milano, 13.12.2012

• Decidere le dimensioni di interesse

• Descrivere i fatti in base alle dimensioni

• Trovare i dati, pulirli e adattarli alle dimensioni

• Analizzare le aggregazioni

Riassumendo

Parlate con il

vostro amico

programmatore!!!

Milano, 13.12.2012

Qualche link utile

• http://dataist.wordpress.com/ - Jens Finnäs– Ottimo blog dove seguire le escursioni in terra di

codice di un giornalista• https://code.google.com/p/google-refine/ -

Google Refine – Strumento di Google per l’elaborazione e la pulizia

dei dati

Milano, 13.12.2012

Qualche link utile

• https://scraperwiki.com/ - ScraperWiki– Strumento per trovare e collezionare script di

scraping scritti in python, ruby o php• https://github.com/ - GitHub

– Repository di progetti open source tra i quali anche tantissimi strumenti di scraping più specifici

Milano, 13.12.2012

GRAZIE!

Per qualsiasi domanda:

That’s all folks!

@ingmmomarco.montanari@gmail.comsirmmo.blogspot.com, …sirmmohttp://it.linkedin.com/in/montanarim/

marco.montanari

Recommended