Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab Big Data Konzeption einer Experimentierplattform
Dr. Michael May
Berlin, 10.12.2012
Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
www.iais.fraunhofer.de
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Agenda
n Ziele des Living Lab Big Data
n Living Lab Big Data Architektur
n Living Lab Big Data Anwendungen
n Ausblick
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Ausgangslage
n Viele Anwenderunternehmen sind in der Orientierungsphase
n Vorstellungen von Big Data in Unternehmen oft diffus, sowohl zu
n Einsatzmöglichkeiten als auch zu
n vorhandenen Techniken
n Ergebnisse Befragung und Zukunftsworkshops:
n Hoher Bedarf an Best Practices, Training, Schulung (95% der Befragten)
n Infrastruktur und Datenmanagement sind für sich genommen zu abstrakt, Lösungspotentiale zu bewerten
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Im Kontext von Big Data sind bereits viele Open-Source Projekte verfügbar (eine Auswahl)
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Big Data Anwendungen setzen auf eine Kombination von Tools aus verschiedenen Technologiekategorien
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
NoSQL Datenbanken – Verteilte nichtrelationale und schemafreie Datenbanken
Key/Value
BigTable/Columnar Document
Graph
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Im Kontext von Big Data sind bereits viele Anbieter am Markt (eine Auswahl)
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Barrieren
n Die Auswahl der richtigen Technologie ist eine Herausforderung
n keine Standardisierung
n unterschiedlicher Entwicklungsstand
n unzureichende Dokumentation
n uneinheitliche Terminologie, …
n Kaum Vergleichsmöglichkeiten, Benchmarks
n Kaum Personal mit Erfahrung vorhanden
n Anbieter reagieren mit „Out of the Box“-Lösungen (z.B. Appliance)
n Hohe Kosten als Einstiegshürde
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Ziele des Living Labs
n Lern- und Experimentierumgebung für Unternehmen
n Technik „anfassbar“ machen, Einstiegshürden herabsetzen
n Teil eines Schulungskonzeptes „Data Science“
n Präsentation von Big-Data-Problemlösungen am Beispiel einer durchgängigen Anwendung des gesamten Technologie-Stacks
n Verschiedene öffentlich verfügbare Big-Data-Datenbestände werden eingespielt und stehen zum Testen zur Verfügung.
n Analyseverfahren für Big Data, die im Rahmen des THESEUS-Programms zum Thema Smart Semantics (Quote und Eat&Drink) entwickelt wurden
n Hardwareinfrastruktur steht nicht im Fokus
n Vorwettbewerblich, herstellerneutral, erweiterbar
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Agenda
n Ziele des Living Lab Big Data
n Living Lab Big Data Architektur
n Living Lab Big Data Anwendungen
n Ausblick
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Design Living Lab
n Nicht eine einzelne Technologie (z.B. Hadoop, NoSQL), sondern eine Big Data Architektur, die flexibel genug ist,
n verschiedenste Einsatzzwecke in verschiedensten Branchen abzudecken
n es in den einzelnen Komponenten erlaubt, Technologien gegeneinander auszutauschen und z.B. auch eine individuelle Entscheidung zwischen OpenSource und kommerziellen Angeboten zu treffen
n Erst wenn man in Architekturen denkt, erschließen sich Stärken und Schwächen existierender Technologien
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
«Lambda Architecture»
Quelle: Nathan Marz. Big Data: Principles and Best Practices of Scalable Realtime Data Systems. 2013
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab - Architektur
Serving Layer
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Agenda
n Ziele des Living Lab Big Data
n Living Lab Big Data Architektur
n Living Lab Big Data Anwendungen
n Ausblick
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Big Data Experimentierplattform – Technologie zum Anfassen im Rahmen des Schulungsmoduls „Data Scientist Big Data“
Ausgewählte Technologien
Anwendungs- fälle
Big Data Datensatz
6 Milliarden Webseiten (Q1/2012)
~ 20TB nur Text
Batch-Anwendung
Analyse von Kundenfeedback
Realtime-Anwendung
Big Data Themenmonitor
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Anwendungsfall: Monitoring von Themen
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Batch Layer - Zyklus von Stunden oder Tagen
Hadoop
HDFS
Map Reduce - Cascading Smart Semantic Components
mime-type detection
mime-type filter
text + title extraction
hash
duplicate detection
language detection
lang. filter ('de' ,'en')
keyword extraction
geo-location
Voldemort
{ "name" : "Leibniz Rechenzentrum", "kind" : "F+E", "language" : "de,en", "url" : "http://www.lrz.de/", "lat" : 39.145271, "lon" : -75.418762, "keywords" : [ { "key" : "Big Data", "count" : 2 }, { "key" : "Hadoop", "count" : 2 } ], "time" : "2012-12-07T11:57+0100" } ……..
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Speed Layer – Streaming
Storm Bolt Sequence Smart Semantic Components
mime-type detection
mime-type filter
text + title extraction
language detection
Lang. filter ('de', 'en')
keyword extraction
geo-location
{ "name" : "Fraunhofer IAIS", "language" : "de,en", "url" : "http://www.iais.fraunhofer.de/", "lat" : 50.74899, "lon" 7.20575, "keywords" : [ {"key" : "MapReduce", "count" : 7 }, {"key" : "Big Data", "count" : 64}, {"key" : "Hadoop", "count" : 6 } ], "time" : "2012-12-07T11:57+0100", "kind" : "F+E" } ------------------------------------ ..,{ "url" : "http://www.iais.fraunhofer.de/sitemap.html", "keywords" : [ "Big Data" ], "institutionUrl" : "www.iais.fraunhofer.de", "title" : "Sitemap", "lang" : "de" }, { "url" : "http://www.iais.fraunhofer.de/4858.html", "keywords" : [ "MapReduce", "Big Data" ], "institutionUrl" : "www.iais.fraunhofer.de", "title" : "Integrated Data Mining", "lang" : "de }, …
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Anwendungsfall: Kundenfeedbackanalyse
App Eat&Drink
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab Use Case 2 – Workflow
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab Technologiealternativen
Oracle Exad
ata
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab Technologiealternativen
ParStream
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab Technologiealternativen
Teradata A
ster
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab Technologiealternativen
IBM Infosphere Stream
DB
2
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab Technologiealternativen
MapR
MapReduce
MapR
Filesystem
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab Technologiealternativen
Cloudera
MapReduce
Cloudera
HDFS
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Living Lab Technologiealternativen
Apache Drill
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Agenda
n Ziele des Living Lab Big Data
n Living Lab Big Data Architektur
n Living Lab Big Data Anwendungen
n Ausblick
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Wie kann das Living Lab genutzt werden?
n Zielgruppe: Data Scientists, Analysten, Entwickler
n Teil des Schulungskonzeptes Data Scientist – „Big Data Management“
n Schulungsmodul
n Individuelle Workshops
n „Bring your own Data“
n In-House-Installation möglich
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Geplante Data Scientist Schulungen von Fraunhofer IAIS
Big Data Management
Data Scientist Natural
Language Processing
(NLP)
Data Scientist Big Data Analytics
Basics
2-3 Tage 2 Tage 2 Tage
Ab März 2013 Ab Oktober 2012 Ab Februar 2013
Data Scientist Visual
Analytics
2 Tage
Ab Februar 2013
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Nächste Schritte
n Diskussion von Referenzarchitekturen im Arbeitskreis Big Data der BITKOM
n Gespräche mit Anbietern
n Public-Private-Partnership
n Living Lab Big Data@CEBIT 2013
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Zusammenfassung
n Das Living Lab macht Big Data „anfassbar“
n Ziel: Orientierung, Best Practices, Schulung
n Zentrales Architekturkonzept: Lambda Architektur
n Basiert auf Open-Source-Komponenten
n Durch kommerzielle Komponenten teilweise substituierbar
n Erlaubt Exploration von Alternativen
n Herstellerunabhängig, vorwettbewerblich