34
D. Massidda, F. Cabiddu, G. Alto` e Universit` a di Cagliari www.insular.it Cagliari, 24 Maggio 2013

InsulaR: una comunità cagliaritana di utenti di R

Embed Size (px)

DESCRIPTION

Presentazione del gruppo "IsulaR" alla giornata di metodologia e statistica per le scienze umane del 24.05.2013 presso l'Università di Cagliari.

Citation preview

Page 1: InsulaR: una comunità cagliaritana di utenti di R

D. Massidda, F. Cabiddu, G. Altoe

Universita di Cagliari

www.insular.it

Cagliari, 24 Maggio 2013

Page 2: InsulaR: una comunità cagliaritana di utenti di R

Indice

1 L’era dei dati

2 Il progetto R

3 Utilizzare R

4 InsulaR

Page 3: InsulaR: una comunità cagliaritana di utenti di R

L’era dei dati

Page 4: InsulaR: una comunità cagliaritana di utenti di R

L’era dei dati

La corsa ai dati

• Il XXI secolo guarda sempre piu ai dati come a una risorsa: essi pos-sono essere utilizzati per rappresentare la realta, capirla, interpretarlae quindi governarla.

• Ormai l’hanno capito tutti: centri di ricerca, aziende, pubbliche ammi-nistrazioni.

• E un’opportunita da non lasciarsi sfuggire... ma dobbiamo attrezzarciadeguatamente!

• Infatti, i dati sono importanti in quanto contengono informazioni. Maqueste informazioni richiedono opportune tecniche e adeguati stru-menti per essere estratte.

Page 5: InsulaR: una comunità cagliaritana di utenti di R

L’era dei dati

Dai dati all’informazione

• Le discipline statistiche offrono una soluzione.

• La statistica si occupa dell’analisi quantitativa e qualitativa di fenomeni,adeguatamente misurati e quindi trasformati in un codice numerico.

• Attraverso specifiche elaborazioni statistiche, e possibile risalire dalvalore numerico all’informazione sul comportamento di un fenomeno.

Page 6: InsulaR: una comunità cagliaritana di utenti di R

L’era dei dati

Page 7: InsulaR: una comunità cagliaritana di utenti di R

L’era dei dati

Cosa e un data scientist?

• Un atleta in grado di nuotare in mezzo ai dati, capace di esplora-re i numeri attraverso opportune analisi statistiche e visualizzazionigrafiche.

• Una tecnico in grado di utilizzare gli strumenti informatici per il trat-tamento dei dati.

• Un esperto conoscitore del fenomeno sotto analisi, capace di guidarelo studio del dato e individuare le strade piu fertili su cui orientare illavoro.

• Un artista creativo, in grado di intrecciare dati preesistenti per trovaresoluzioni originali a un problema.

Page 8: InsulaR: una comunità cagliaritana di utenti di R

L’era dei dati

Come trovare un data scientist?

Davenport e Patil (2012):

“Esamina i membri dei gruppi di utenti dedicati agli strumenti della datascience. Gli R User Group (strumento statistico open source privilegiato daidata scientist) e i Python Interest Group sono dei buoni punti di partenza.”

Due importanti aspetti da segnalare:

• L’importanza di conoscere strumenti open source come R o Python.

• L’importanza di essere sul web e di lasciarvi una traccia evidente.

Page 9: InsulaR: una comunità cagliaritana di utenti di R

L’era dei dati

Come trovare un data scientist?

Davenport e Patil (2012):

“Esamina i membri dei gruppi di utenti dedicati agli strumenti della datascience. Gli R User Group (strumento statistico open source privilegiato daidata scientist) e i Python Interest Group sono dei buoni punti di partenza.”

Due importanti aspetti da segnalare:

• L’importanza di conoscere strumenti open source come R o Python.

• L’importanza di essere sul web e di lasciarvi una traccia evidente.

Page 10: InsulaR: una comunità cagliaritana di utenti di R

Il progetto R

Page 11: InsulaR: una comunità cagliaritana di utenti di R

Il progetto R

Il progetto R

• R e un pacchetto statistico che permette di elaborare dati, eseguirecalcoli ed effettuare rappresentazioni grafiche (...e molto altro!)

• E nato attorno al 1995 presso il Dipartimento di Statistica dell’Univer-sita di Auckland. I primi sviluppatori furono Robert Gentleman e RossIhaka.

• Fin dall’inizio, il progetto R aveva l’obiettivo di fornire un ambientestatistico di alta qualita e a costo zero.

• Oggi, R e diventato il riferimento per le analisi statistiche nel mondoaccademico, e negli ultimi anni sta entrando prepotentemente anche inquello aziendale.

Page 12: InsulaR: una comunità cagliaritana di utenti di R

Il progetto R

Un progetto di successo

• Gratuito: svincola l’utilizzatore dalla dipendenza da costose licenzesoftware che difficilmente un privato potrebbe permettersi.

• Potente: permette di gestire modelli statistici dai piu semplici ai piucomplessi e di realizzare rappresentazioni grafiche di alto livello.

• Personalizzabile: e concepito come un linguaggio di programmazio-ne, per cui consente all’utente di creare istruzioni personalizzate perrisolvere problemi nuovi, originariamente non previsti dal programma,oppure per migliorare istruzioni gia esistenti.

• All’avanguardia: difficilmente l’ultima frontiera dell’analisi statisti-ca non ha un’implementazione in R. E se non ce l’ha oggi, moltoprobabilmente ce l’avra domani (se non tra qualche ora).

Page 13: InsulaR: una comunità cagliaritana di utenti di R

Il progetto R

Un software open source

• R e un software libero, distribuito con licenza GNU GPL: l’utente haliberta di utilizzo, copia, modifica e ridistribuzione del prodotto.

• R e anche un software open source: i suoi codici sorgenti sono noti,per cui chiunque puo modificarli e utilizzarli come base per prodottiderivati.

• Gli utenti possono collaborare attivamente allo sviluppo di R, principal-mente creando e diffondendo nuovi pacchetti di istruzioni (ce ne sonotantissimi... dall’analisi di dati fMRI al sudoku!)

Page 14: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

Page 15: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Page 16: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Page 17: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Page 18: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

La sintassi R

R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.

R come calcolatrice

> 2+2 > log(1)[1] 4 [1] 0

Lettura di un file di dati

> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)

Analisi della varianza

> model < − lm(resp ∼ block * stimulus, data=dataset)

Page 19: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

Interfacce: R Commander

http://www.rcommander.com

Page 20: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

Interfacce: R Studio

http://www.rstudio.com

Page 21: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

Interfacce: RKWard

http://rkward.sourceforge.net

Page 22: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

Principali usi di R

Manipolazione dei dati

Analisi statistica dei dati

Creazione di grafici

Reportistica

Web scraping

...e tanto altro ancora!

Il tutto puo essere eseguito in maniera automatizzata preparando degliscript di istruzioni.

Page 23: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

Avvertenze

Maneggiare con cura

• In quanto strumento per l’analisi statistica, R permette di comprenderemeglio i dati che abbiamo a disposizione, estraendo l’informazione dalvalore numerico.

• A differenza di altri software, pero, non e un “punta e clicca”: richiedeall’utente un uso consapevole della metodologia d’analisi.

Page 24: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

Avvertenze

Maneggiare con cura

• In quanto strumento per l’analisi statistica, R permette di comprenderemeglio i dati che abbiamo a disposizione, estraendo l’informazione dalvalore numerico.

• A differenza di altri software, pero, non e un “punta e clicca”: richiedeall’utente un uso consapevole della metodologia d’analisi.

Page 25: InsulaR: una comunità cagliaritana di utenti di R

Utilizzare R

Avvertenze

Agitare bene (l’utente) prima dell’uso

• L’utente necessita di un adeguato addestramento all’uso del linguag-gio: il principale pregio di R si rivela essere anche un ostacolo per chivorrebbe usarlo senza avere nozioni di programmazione.

• L’utente necessita anche di un adeguato addestramento all’uso dellemetodologie statistiche.

Page 26: InsulaR: una comunità cagliaritana di utenti di R

InsulaR

Page 27: InsulaR: una comunità cagliaritana di utenti di R

InsulaR

Le motivazioni

• In un mondo dove le risorse economiche sono sempre piu esigue, ma larichiesta di utilizzo dei dati e sempre maggiore, R puo rappresentare unagrande risorsa. E questo sia che si parli di Universita che di pubblicheamministrazioni o aziende private.

• Nonostante questo, R in Sardegna e ancora poco diffuso.

• L’idea di un gruppo di “useR” cagliaritani scaturisce dalla forte richiestaproveniente da alcuni studenti dei corsi di laurea di psicologia di Cagliaridi imparare a utilizzare il software.

• Da questa necessita, nasce la prima community di utenti cagliaritaniutilizzatori di R.

Page 28: InsulaR: una comunità cagliaritana di utenti di R

InsulaR

Le motivazioni

• In un mondo dove le risorse economiche sono sempre piu esigue, ma larichiesta di utilizzo dei dati e sempre maggiore, R puo rappresentare unagrande risorsa. E questo sia che si parli di Universita che di pubblicheamministrazioni o aziende private.

• Nonostante questo, R in Sardegna e ancora poco diffuso.

• L’idea di un gruppo di “useR” cagliaritani scaturisce dalla forte richiestaproveniente da alcuni studenti dei corsi di laurea di psicologia di Cagliaridi imparare a utilizzare il software.

• Da questa necessita, nasce la prima community di utenti cagliaritaniutilizzatori di R.

Page 29: InsulaR: una comunità cagliaritana di utenti di R

InsulaR

Gli scopi

• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.

- Corsi di formazione- Articoli sul blog

• Creare una rete di utilizzatori di R nell’Isola.

- Giornate d’incontro- Mailing list

• Divulgare dati secondo la filosofia “open”.

- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico

Page 30: InsulaR: una comunità cagliaritana di utenti di R

InsulaR

Gli scopi

• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.

- Corsi di formazione- Articoli sul blog

• Creare una rete di utilizzatori di R nell’Isola.

- Giornate d’incontro- Mailing list

• Divulgare dati secondo la filosofia “open”.

- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico

Page 31: InsulaR: una comunità cagliaritana di utenti di R

InsulaR

Gli scopi

• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.

- Corsi di formazione- Articoli sul blog

• Creare una rete di utilizzatori di R nell’Isola.

- Giornate d’incontro- Mailing list

• Divulgare dati secondo la filosofia “open”.

- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico

Page 32: InsulaR: una comunità cagliaritana di utenti di R

InsulaR

Corso “Introduzione all’ambiente R”

Il corso si propone di introdurre lo studente all’uso dell’ambiente R, permetterlo in grado di esplorare e analizzare dati in completa autonomia.

Al termine del corso, lo studente sara in grado di organizzare un dataset,importarlo in R ed eseguire le principali operazioni di pulizia, visualizzazionee analisi dei dati.

Il corso e organizzato in quattro moduli:

1 Il linguaggio R: primi passi

2 Manipolazione dei dati

3 Visualizzazione dei dati

4 Analisi statistica dei dati

Page 33: InsulaR: una comunità cagliaritana di utenti di R

InsulaR

Dove trovarci

www.insular.it

Page 34: InsulaR: una comunità cagliaritana di utenti di R

Grazie per l’attenzione

Contatti:

Davide Massidda [email protected]

Francesco Cabiddu [email protected]

Gianmarco Altoe [email protected]