View
6
Download
0
Category
Preview:
Citation preview
www.cs.helsinki.fi
Data-analyysi tieteenalana
Professori, laitosjohtaja Sasu TarkomaTietojenkäsittelytieteen laitos
Helsingin yliopisto
9.5.2017Faculty of ScienceDepartment of Computer Science 1
www.cs.helsinki.fi
JohdantoData-analyysiDatatiedeBig Data –ratkaisutTutkimusesimerkkejä
Sisällys
Teknologia mahdollistaa esineiden ja asioiden reaali-aikaisenseurannan ja säätämisen
Tilat, liikenne, teollisuus, ketjut ja verkostot
Kehittyneet data-analytiikkaratkaisut mahdollistavatuudenlaisen lisäarvon löytämisen datasta
Kone-oppiminen ja tekoäly tulevat muuttamaan toimialoja jaluomaan uusia. ETLA ennustaa, että 36% työnimikkeistäkatoaa Suomessa tämän muutoksen seurauksena. Samallasyntyy myös uusia nimikkeitä, kuten datatieteen asiantuntija(data scientist)
Digitalisaatio
Data sisältää informaatiota liittyen asiaan tai ilmiöön.Tieto on hyvin perusteltu väite maailman tilasta.Data-analyysi käsittää menetelmiä ja metodeja kerätyn datanjalostamiseen korkeamman tason tiedoksi tavoitteenahyödyllisten johtopäätösten tekeminen.Data-analyysiä käytetään monilla alueilla hyödyntäen erilaisiamenetelmiä ja lähestymistapoja.
Data-analyysi
Data-analyysi luo pohjan datatieteelle, joka käsittää sekämenetelmät että niiden soveltamisen eri alueilla.Data-analyysin ja datatieteen tutkimusaloja ovat mm.hahmontunnistus (pattern recognition), tiedon louhinta (datamining) koneoppiminen (machine learning), bioinformatiikka(bioinformatics).Moderni datatiede ja data-analyysi keskittyy “big data”aineistoihin, joissa keskiössä ovat erittäin suuretjärjestelemättömät ja jatkuvasti lisääntyvät data-aineistot.
Data-analyysin monet kasvot
www.cs.helsinki.fi
TilastotiedeHavaintoaineiston tilastollinen analyysiTilastolliset mallit ja estimointimenetelmätTutkitaan ilmiöitä, joissa esiintyy vaihtelua(variation) ja pyritään erottelemaan vaihtelunsystemaattinen ja satunnainen osa toisistaan
TietojenkäsittelytiedeTiedon louhintaKoneoppiminenNeuroverkot, Deep learningBig Data
Data-analyysi
Käsitteitä
Koneoppiminen
Deep learning
Tekoäly
Big Data-analytiikkaTilastotiede Tietojen-
käsittelytiede
Datatieteen perusta
Kohti datatieteen määritelmää
Sovellusaluekohtainen osaaminen
Kone-oppiminen
Datatiede
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Datatieteen käytäntö
Datantutkiminen
Mallinrakentaminen
Suurenmittakaavan
hyödyntäminen
EvaluaatioTulkinta
Datanesikäsittely
Source: Databricks introduction slides
Data-analyysin haasteita
Skaalautuvuus ja Big DataMenetelmien automatisointiReaaliaikaisuusTietosuojaKeskitetty vs. hajautettu toimintaDatan moniulotteisuus,rakenteettomuus, hälyisyys
Suuressa data-aineistossa (Big Data) on arvoaPieni data on myös arvokasta!
Korrelaatio ja kausaatio
Haut sanalle “Facebook”
• Princetonin tutkijat ennustivat Googlehakudatan (MySpace hakusanana) rakennetunmallin avulla, että Facebookin käyttövähenee nopeasti muutamassa vuodessa
• Facebook käytti samaa mallia: Princetonilla eiole opiskelijoita 2021
• http://techcrunch.com/2014/01/23/facebook-losing-users-princeton-losing-credibility/
• Google Flu Trends toimi alkuun, muttasittemmin ennusteet eivät ole toimineet hyvin.
• Hakusanapohjainen malli on liian yksinkertainen.
• Pelkkä datavetoisuus ei riitä, tarvitaantilastollinen validius ja merkitsevyys
Laskentakeskukset ja pilvilaskenta
PalvelimetPalvelintehokkuudenlisääminen (scale up)Kalliit työvälineetluotettavuudenlisäämiseen
Virtualisoidut elastiset resurssitHajautetut konesalitVikasietoisuus sisäänrakennettunaSovellukset skaalautuvatvirtualisoidussa ympäristössä (scaleout)
Esimerkkejä Big Data -ratkaisuista
Datankerääminen
Datantallennus TuloksetData-analyysi
Lisätään uusi dataRinnakkaiset operaatiotMapReduceIteratiivinen laskenta
Lambda-arkkitehtuuri
Uusi data jasen keräys
Reali-aikainendatan tallennus
YhdistetyttuloksetData-analyysi
Kaikki dataEräajoonperustuva
prosessointi
Eräajontulokset
Integroituna esimerkiksi Apache Sparkissa
Google Tensor Processing Unit
15-30x nopeampi kuin perinteinen CPU deep learningtehtäviin
Lähde: Google
www.cs.helsinki.fi
Uudet kehittyneet menetelmät pyrkivät data-analyysinautomatisointiin
Tiedon keruun automatisointi
Algoritmien valinta ja parametrisointi
Tulosten hyödyntäminen reaali-aika sovelluksissa
Data-analyysin automatisointi
Tutkimusesimerkkejä
Datan välitys japrosessointi verkossa
(4G ja 5G)
Reaali-aikainenkäsittely
Reunalla tapahtuva analytiikka
Datan prosessointi pilvialustanja Big Data –kehikon avullahajautetussa ympäristössä
Reaali-aikainenkäsittely
Eräajo-käsittely
Big Data -kehikot
Datan kerääminen japrosessointi
Reaali-aikainenkäsittely
Kohti esineiden Internetinreaaliaikaista analytiikkaa
Platform View: Secure ScientificCloud for High Energy Physics
L. Osmani, S. Toor, M. Komu, M. J. Kortelainen, T. Lindén, J. White, R. Khan, P. Eerola, S. Tarkoma. SecureCloud Connectivity for Scientific Applications. IEEE Transactions on Services Computing, 2015.
Carat● Yhteistyöprojekti UC Berkeleyn ja Helsingin yliopiston
välillä● Ilmainen mobiilisovellus Androidille sekä iOSille● Yli 850 000 käyttäjää● Yli 5 vuotta dataa
● >2,5 TB dataa, > 250 miljoonaa näytettä● Yli 450 000 eri sovellusta● Tutkimusprojektilla on monta suuntaa● http://carat.cs.helsinki.fi
data miningdata analysisstatisticsmachine learningdistributed computing
natural sciences and engineeringlife sciences and medicinehumanities, social sciencespedagogics, economics
Information forthe general public
Educationof experts
Researchresults
Innovations
HiDATAHelsinki Centre for Data Science
Yhteenveto
Rakennamme datavetoista reaaliaikaista digitaalistainfrastruktuuria.Datatiede kehittää menetelmiä ja mahdollistaa niidenlaajan monitieteisen soveltamisen.Data-analytiikan ja tekoälyn alustat ovat kehittyneet paljonviime vuosina.Data-analytiikan ja datatieteen automatisointi on vastaalussa.
Recommended