17
Big Datan ja analytiikkamaailman käsitteiden läpikäyminen Jari Jussila / TTY Big Data ja data-analytiikka liiketoiminnan kehittämisessä Moduuli 1: Big Data nyt ja tulevaisuudessa 12.3.2014

Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Embed Size (px)

DESCRIPTION

Big datan ja analytiikkamaailman käsitteiden läpikäyminen. Kooste esityksestä 12.3.2014 Edutech Big Data ja data-analytiikka liiketoiminnan kehittämisessä, Moduuli 1: Big Data nyt ja tulevaisuudessa.

Citation preview

Page 1: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Big Datan ja analytiikkamaailman

käsitteiden läpikäyminen

Jari Jussila / TTY

Big Data ja data-analytiikka liiketoiminnan

kehittämisessä

Moduuli 1: Big Data nyt ja tulevaisuudessa

12.3.2014

Page 2: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Big Data

30.3.2014 2

Volyymi Vauhti Variaatio Varmuus

Data at Rest Data in Motion Data in Many Forms Data in Doubt

Terabittejä olemassa

olevaa dataa

prosessoitavaksi

Striimattua dataa, nopea

vasteaika millisekunneista

sekunteihin

Strukturoitua, ei-

strukturoitua, ja

semistrukturoitua dataa

Epävarmuutta liittyen

datan epätäydellisyyteen,

puutteellisuuteen, tai

virheellisyyteen

Lähde: Breuker 2014; Laney, Meta Group 2001 (3V:tä)

Page 3: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Big Data transaktioista

interaktioihin

30.3.2014 3

WEB

BIG DATA

Lähde: mukaillen Yli-Pietilä & Backman 2013; Valli & Ahlgren 2013

ERP

CRM

ostotiedot

maksutiedot

segmentointi

tarjoustiedot

asiakaskohtaamiset

tukikontaktit

weblogit

tarjoushistoria A/B testaaminen

Dynaaminen

hinnoittelu

Hakukonemarkkinointi

ja optimointi

Mainosverkostot

Käyttäytymispohjainen

kohdentaminen

Dynaamiset

funnellit

Sentimentti

Ulkopuolinen demografia

Kuvat ja videot

Puheen muuttaminen tekstiksi

Feedit

Anturi/sensoridata

Tuote / palvelu logit

SMS/MMS

Sosiaaliset verkostot

Sosiaalinen media

Käyttäjien luoma sisältö

Mobiilidata

Navigointihistorian analyysi

Sijaintidata

Page 4: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Datan lajeja

Datan laji Muoto Volyymi Kuvaus Esimerkkejä

Master Data Strukturoitu Matala Yritystason dataa jolla on

strategista arvoa organisaatiolle

Asiakas, tuote,

toimittaja

Transaktiodata Struktoroitu & semi-

strukturoitu

Keskinkertainen -

korkea

Transaktiot joita syntyy

liiketoiminta-prosesseissa

Tilaukset, ostot,

maksut

Referenssidata Struktoroitu & semi-

strukturoitu

Matala – keskin-

kertainen

Faktoja jotka tukevat

organisaation kykyä tehokkaasti

prosessoida transaktioita, hallita

masterdataa ja tukea päätöksiä

Demografiset kentät

Metadata Strukturoitu Matala ”Dataa datasta” Datan nimi, datan

dimensiot tai yksiköt,

ym.

Analytiikkadata Strukturoitu Keskinkertainen -

korkea

Liiketoimintaoperaatiosta tai

transaktioista jalostettua tietoa

raportoinnin ja analytiikan

tarpeisiin

Data joka sijaitsee

tietovarastoissa ja

päätöksenteon

tukijärjestelmissä

Big Data Struktoroitu, semi-

strukturoitu ja ei

strukturoitu

Korkea Isoja data settejä, joita on

haastava tallentaa, etsiä, jakaa,

visualisoida ja analysoida

Ihmisten ja koneiden

luomaa dataa

sosiaalisesta

mediasta, webistä,

mobiililaitteista,

sensoreista, ym.

30.3.2014 4

Lähde: Big Data and Analytics [Kaisler et al. 2014]

Page 5: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Master data

• organisaation ydintieto on usein kaikkein

tärkeintä liiketoiminnalle ja siinä menestymiselle

sekä data-lähtöiselle päätöksenteolle

• ydintietoa käytetään useissa yrityksen

prosesseissa ja tietojärjestelmissä, joten

ydintietojen muotojen standardointi ja arvojen

synkronointi on kriittistä järjestelmien

onnistuneelle integroinnille

• ydintiedoksi mielletään usein esimerkiksi

asiakastiedot ja tuotetiedot

30.3.2014 5

Lähde: Vilminko-Heikkinen & Pekkola 2013

Page 6: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Big Data, Data-analytiikka ja

lähikäsitteet

• Big Data can be defined as the amount of data just beyond

technology’s capability to store, manage and process efficiently.

(Kaisler et al. 2014)

• Data analytics is the science of examining raw data with the purpose

of drawing conclusions about that information. (Rouse 2008)

• Business analytics is the scientific process of transforming data into

insight for making better decisions (INFORMS)

• Business Intelligence refers to the technologies, applications, and

processes for gathering, storing, accessing, and analyzing data to

help its users make better decisions (Wixom and Watson, Teradata

University Network 2012)

30.3.2014 6

Page 7: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Datan käyttöön ja analysointiin

liittyvää terminologiaa

Termi Ajanjakso Kuvaus

Päätöksenteon tuki

[Decision Support]

1970-1985 Hyödynnetään data analyysiä

tukemaan päätöksentekoa

Johdon tukijärjestelmät

[Executive Support Systems]

1980-1990 Fokus data analyysissä

ylemmän johdon tueksi

Kuutioiden mallinnus

[Online Analytical Processing

OLAP]

1990-2000 Ohjelmistoja

multidimensionaalisten data

taulujen analysointiin

Liiketoimintatiedon hallinta

[Business Intelligence]

1989-2005 Työkaluja tukemaan

datalähtöistä päätöksentekoa,

painopiste raportoinnissa

Analytiikka

[Analytics]

2005-2010 Fokus tilastollisessa ja

matemaattisessa analyysissä

päätöksenteon tueksi

Iso Data

[Big Data]

2010- Fokus erittäin isossa,

monimuotoisessa ja nopeasti

liikkuvassa datassa

30.3.2014 7

Lähde: Big Data at Work [Davenport, 2014]

Page 8: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Kuka lunastaa Big Data toiveet?

Data Scientist – datatieteilijä?

• Mitä osaamista vaaditaan datatietelijältä /-tiimiltä?

– Liiketoimintaosaaminen

– Toimialakohtainen osaaminen

– Ohjelmointi

• ”most basic, universal skill is the ability to write code…”

– Tietojenkäsittely, mm. datan kerääminen, siivous, yhdistäminen

– Matematiikka, mm. tilastotiede, algoritmit, SNA, ym.

– Kommunikointikyky • ”…more enduring will be the need for data scientist to communicate in language that all

their stakeholders understand – and to demonstrate the special skills involved in

storytelling with data, whether verbally, visually, or –ideally –both”

– Big data tekniikat– “The ability to take data—to be able to understand it, to process it, to extract value from it, to

visualize it, to communicate it—that’s going to be a hugely important skill in the next decades.”

Hal Varian

30.3.2014 8

Lähde: Loukides 2010; Davenport & Patil 2012

Page 9: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Raportoinnista operationaaliseen

data-analytiikkaan

30.3.2014 9

Raportit

RAPORTOIDAAN

MITÄ

tapahtui?

ANALYSOIDAAN

MIKSI

se tapahtui?

Ad hoc

BI työkalut

ENNUSTETAAN

MITÄ TULEE

tapahtumaan?

Ennustavat

mallit

OPERATIONALISOIDAAN

MITÄ ON

tapahtumassa nyt?

Linkki operatiivisiin

järjestelmiin

AKTIVOIDAAN

PISTETÄÄN

tapahtumaan

Automaattiset

linkitykset

STRATEGINEN ÄLYKKYYS

OPERATIONAALINEN ÄLYKKYYS

Lähde: mukaillen Yli-Pietilä & Backman 2013

Page 10: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Eri analytiikka tyyppejä

• Deskriptiivinen analytiikka: tekniikoita joiden avulla voidaan

ymmärtää dataa ja analysoida liiketoiminnan suoriutumiskykyä

• Diagnostiivinen analytiikka: tekniikoita joiden avulla voidaan

ymmärtää mitä on tapahtunut ja miksi

• Prediktiivinen analytiikka: tekniikoita joiden avulla voidaan

analysoida nyky- ja historiatietoa jotta voidaan päätellä mitä

todennäköisesti tapahtuu tai ei tapahdu

• Preskriptiivinen analytiikka: tekniikoita joiden avulla voidaan

laskennallisesti kehittää ja analysoida vaihtoehtoja organisaation

toiminnalle

• Päätöksentekoa tukeva analytiikka: tekniikoita joiden avulla voidaan

visualisoida informaatiota päätöksen teon tueksi

30.3.2014 10

Lähde: Big Data and Analytics [Kaisler et al. 2014]

Page 11: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Analytiikkasykli

1. Määrittele liiketoimintaongelma tai kysymys johon haluat vastauksen

2. Tunnista, kerää, siivoa ja valmistele data kysymyksen vastausta varten

3. Deskriptiivinen analytiikka

– Perehdy dataan (descriptives, correlations, factor analysis, cluster

analysis, ym.)

– Luo mahdollisia hypoteeseja (data mining ym.)

4. Prediktiivinen analytiikka

– Muodosta hypoteesit

– Tunnista soveltuvimmat analytiikkamenetelmät

– Kehitä analyyttiset mallit (multivariate regression, logistic regression,

forecasting, non-linear models, decision trees, ym.)

– Aja mallit ja luo ennusteet

5. Preskriptiivinen analytiikka

– Kehitä päätös- ja optimointimallit

– Hyödynnä koneoppimista päätöksien ohjelmointiin

6. Kirjoita johtopäätökset ja suositukset

30.3.2014 11

Lähde: Introduction to Big Data [Kaisler et al. 2014]

Page 12: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Kuinka BI on muuttunut Big

Datan myötä?

Big Data Business analytiikka Business Intelligence

Vanhaa • Relaatiotietokannat

• SQL

• Tietovarastot

• Tiedonlouhinta

• Kvantitatiivinen

analyysi

• Tilastotiede

• Operaatiotutkimus

• Päätöksenteon

tukijärjestelmät

• Johdon

tietojärjestelmät

• OLAP

Uutta • 4V:tä

• Monimuotoista dataa

• Vähemmän struktuuria

• Big Data teknologiat

(MapReduce, Hadoop,

NoSQL, ym.)

• Ei strukturoitua dataa

• Dataa monesta

lähteestä

• Monimuotoista dataa

• Data liikkeessä

• Tekstianalytiikka

• Visuaalinen analytiikka

• Sosiaalisen median

analytiikka

• Helppokäyttöisyys

• Visuaalisuus

• Dynaamisuus

• Kattaa organisaation

prosessit

• Koneoppiminen

• RTAP

30.3.2014 12

Lähde: mukailtu Introduction to Big Data [Kaisler et al. 2014]

Page 13: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Liiketoimintatiedon hallinnan

prosessimalli ja keskeiset tehtävät

30.3.2014 13

Lähde: Tietojohtaminen [Laihonen et al. 2013]

Page 14: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Ymmärrys

Näkemys

Tiedon tasot

30.3.2014 14

Data

Informaatio

Tietämys

Lähde: Laihonen et al. 2013; Tuomi 1999; Thierauf 1999; Ackoff 1989

Älykkyys

Viisaus

Page 15: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Tiedon arvoketju BI-

näkökulmasta

30.3.2014 15

Lähde: Myllärniemi 2012

Page 16: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Tiedonhallinnan tasot

30.3.2014 16

Innovoiva

Erottuva

Arkistoiva

Mallinnus

Visualisointi

Ennustaminen

Optimointi

Raportointi

”Löytyisikö

täältä jotain?”

”Tiedän mitä

tarvitsen mutta

haluan tehdä

sen kilpailijoita

paremmin"

”Tätä tarvitaan

mutta tällä ei

erotuta"

Lähde: Informaatiosta kilpailuetua teollisuusyrityksiin [Valli & Ahlgren 2013]

tieto, joka on tallennettava esimerkiksi

määräysten perusteella

tieto, jonka avulla voidaan edistää ja

parantaa nykyistä liiketoimintaa

tieto, jonka avulla voidaan innovoida uutta

liiketoimintaa

Page 17: Big datan ja analytiikkamaailman käsitteiden läpikäyminen

Lähteitä

• Breuker, D. 2014. Towards Model-Driven Engineering for Big Data Analytics – An Exploratory Analysis of Domain-

Specific Languages for Machine Learning. 47th Hawaii International Conference on System Sciences.

• Davenport, T. H., Patil, D. J. 2012. Data Scientist. The Sexiest Job of the 21st Century. Harvard Business Review.

October 2012.

• Davenport, T. H. 2014. Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Harvard Business

Review.

• Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Introduction to Big Data. Presented at HICSS-47, January

6, 2014, Waikoloa, Hawai’i.

• Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Big Data and Analytics. Presented at HICSS-47, January

6, 2014, Waikoloa, Hawai’i.

• Kaisler, S. H., Armour, F. J., Espinosa, A., Money, W. H. Advanced Analytics – Issues and Challenges in the Global

Environment. 47th Hawaii International Conference on System Sciences.

• Laihonen, H., Hannula, M; Helander, N; Ilvonen, I; Jussila, J; Kukko, M; Kärkkäinen, H; Lönnqvist, A; Myllärniemi,

J; Pekkola, S; Virtanen, P; Vuori, V; Yliniemi, T. 2013. Tietojohtaminen. Laitosraportti. Tampereen teknillinen

yliopisto.

• Laney, D. 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. Retrieved 6 February

2001.

• Loukides, M. 2010. What is Data Science? O’ Reilly, Cambridge. http://www.kiwidatascience.it/wp-

content/uploads/2013/05/What_Is_Data_Science_.pdf

• Yli-Pietilä & Backman 2013. Management by analytics. Commercial and technical applications in the Big Data era.

Teradata

• Valli, K., Alhgren 2013. Informaatiosta kilpailuetua teollisuusyrityksiin. Teknologiateollisuus.

http://www.teknologiateollisuus.fi/file/16270/Informaatiostakilpailuetua.pdf.html

• Vilminko-Heikkinen, R., Pekkola, S. 2013. Establishing an Organization’s Master Data Management Function: A

Step-wise Approach. 46th Hawaii International Conference on System Sciences.

30.3.2014 17