Upload
jurjen-helmus
View
200
Download
1
Embed Size (px)
Citation preview
College 4 – Exploring Data
https://play.google.com/store/apps/details?id=com.ionicframework.evspotter711839
Verzoek aan de groep – gebruik de EV spotter APP
WITH THE CHARGING DATA AS CENTRAL DATASET, THE DATABASE IS CONTINUOUSLY EXPANDED, EXTENDED AND ENRICHED AND SCRAPED
Data Extension
Data enrichment Data Scraping
Data Expansion
OCPI
Hoofdstukken
Kortom: Wat is er blijven hangen van het vorige college?
Het doel van dit college is dat je • Een nieuwe dataset gestructureerd kunt
exploreren• Ggplot2 kunt inzetten voor data exploratie• In timeseries enkele transformaties kunt maken
om de data te exploreren
Exploring data volgens Pr Dt Sc
Time serie changes
Opdracht komende week
Stel je voor je bent klaar…. Wat heb je dan????Metadata
Legacy
OLTP
ERP
…
External
Datamart 1
ETLStagingArea
BusinessIntelligenceApplications
(Q&R,OLAP,Visualization,Data Mining)
Datamart 2
Datamart n
‘Production’ ‘Assembly & Logistics’ ‘Consumption’
‘closed loop’
EAIEII ODS
ETL
Data Warehouse
SCREENSHOT RSTUDIO MET VEEL DATASETS
Juist ja.. Een Rstudio vol met dataframes
Hfst3 exploring data
Feitelijk zijn we in een soort tussenfase beland waar we wel de schone en uniforme data hebben maar nog geen inzicht in de data
Exploring data – wat is de 0e functie die je uitvoert als je en dataset binnenkrijgt??
Hebben alle variabelen in de juiste class
Exploring data – wat is de 1e functie die je uitvoert als je en dataset binnenkrijgt??
Waar kijk je naar? • Per variabele• NA’s• Scheve verdeling /outliers / technische onmogelijkheden
Exploring data – wat is de 2e functie die je uitvoert als je en dataset binnenkrijgt??Pairs[data.frame[,kolommen]]
Opdracht – analyseer deze dataset
Exploring data – voorbeeld uit het boek
Exploring data – voorbeeld uit het boek
Wat kun je zoal vinden
Missing valuesInvalid and outliersData rangeUnit issues (1,000$ vs $)
Wat haal je uit de grafische dataWhat is the peak value of the distribution? How many peaks are there in the distribution (unimodality versus bimodality)?
How normal (or lognormal) is the data?
How much does the data vary? Is it concentrated in a certain interval or in a certain category
Maak een schets in 1 figuur van …
TTV: Hoe zou je je data science project voortzetten als je data als custdata$age eruit zou zien?
Normale plots versus Log plots
Leg uit wat je van deze plot vindt en wat deze plot je vertelt
Normale plots versus Log plots
TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg 48), geef voorbeelden..
Normale plots versus Log plots
TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg
Opdracht (10 minuten)
Zoek een wiskundige uit waarvan je denkt dat hij/zij jou iets uit kan leggen zodanig dat jij het ons uit kan leggen.
Wat is het verschil tussen een normale en een lognormale verdeling
Wat is skewness?
Wat is kurtosis?
2 dimensionele grafieken tonen je het volgende
De stacked bar laat verschillen zien tussen twee groepen op basis van een 2e variabele
Facetting toont groepen van variabelen nast elkaar
http://sachaepskamp.com/files/CCStalkEpskamp.pdf
Correlation networks met qgraph
library(radarchart) library(tidyr) radarDF <- top20 %>% select(player_name, 10:42) %>% as.data.frame() radarDF <- gather(radarDF, key=Label, value=Score, -player_name) %>% spread(key=player_name, value=Score) chartJSRadar(scores = radarDF, maxScale = 100, showToolTipLabel = TRUE)
www.kaggle.com/datasets
TransferMatrix <- na.omit(TransferDf) %>% ungroup() %>% group_by(FormerLeague, CurrentLeague) %>% summarise(sub = n()) %>% ungroup() %>% na.omit() %>% mutate_each(funs(factor), FormerLeague:CurrentLeague) %>% acast(FormerLeague ~ CurrentLeague, value.var = "sub")
Hoeveel feitelijke variabelen hebben we eigenlijk?
Opdracht komende vrijdagExploreer één van de datasets op Kaggle.com/datasets
Presenteer iig het volgende1. Schets de context van de data (wat is gemeten, wat is de data, gebruik
plaatjes/figuren/illustrateis) -> wij moeten het begrijpen2. Download en ETL de data (leg uit wat je binnen ETL gedaan hebt)3. Exploreer de data als geheel, per variabele, paarsgewijs en als totaal*4. Leg uit wat je opvalt in de data en maak daar een uitleg bij in de context van de data5. Welke kansen of onderzoeksvragen of praktijkvragen kun je met de data oplossen6. Stel hypotheses over wat je verwacht als je een (voorspel) model zou maken7. Reflectie slide(s) (1) welke problemen / onverwachtse dingen ben je
tegengekomen (2) wat heb je geleerd
Zorg voor• Backup slides van de code die je gebruikt hebt• Backup slides van alle figuren die je niet als basis verhaal hebt maar wel als ondersteuning
Tip: Steel jat en ontleen aan Kaggle en Google, maar niet zonder dat je zelf kun uitleggen wat de code doet!* iig Summary / pairs / heatmap / ggplot /qgraph en vele andere….
Typische Tentamenvragen• geef enkele voorbeelden (inclusief R code) voor het exploreren
van data