Microsoft on big data

Preview:

Citation preview

Bild durch Klicken auf Symbol hinzufügen

Microsoft on Big Data Bild durch Klicken auf Symbol hinzufügen

Bild durch Klicken auf Symbol hinzufügen

Donnerstag, 28.05.2015

Vorweg:

Wir sind heute live auf Meerkat

Agenda Was ist Big Data?

Funktionsweise und Ansätze

Microsoft Architektur

Hadoop und Map Reduce

Pig

Die 3 Vs

Quelle: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data

Was ist Big Data ?

Was ist Big Data?

Why Big Data? 2008: Google processes 20 PB a day

2009: Facebook has 2.5 PB user data + 15 TB/day

2009: eBay has 6.5 PB user data + 50 TB/day

2011: Yahoo! has 180-200 PB of data

2012: Facebook ingests 500 TB/day

Nächster Großer Datenlieferant

Funktionsweise und Ansätze

How to store data? Data storage is not trivial

Data volumes are massive

Reliably storing PBs of data is challenging

Disk/hardware/network failures

Probability of failure event increases with number of machines

For example: 1000 hosts, each with 10 disks a disk lasts 3 year how many failures per day?

Historical basics Hadoop is an open-source implementation based on GFS and MapReduce from

Google Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. (2003)

The Google File System Jeffrey Dean and Sanjay Ghemawat. (2004)

MapReduce: Simplified Data Processing on Large Clusters OSDI 2004

Klassische Big Data Architektur Hadop

Characteristics and Features Distributed file system

Redundant storage

Designed to reliably store data using commodity hardware

Designed to expect hardware failures

Intended for large files

Designed for batch inserts

The Hadoop Distributed File System

HDFS - files and blocks Files are stored as a collection of blocks

Blocks are 64 MB chunks of a file (configurable)

Blocks are replicated on 3 nodes (configurable)

The NameNode (NN) manages metadata about files and blocks

The SecondaryNameNode (SNN) holds a backup of the NN data

DataNodes (DN) store and serve blocks

Replication Multiple copies of a block are stored

Replication strategy: Copy #1 on another node on same rack Copy #2 on another node on different rack

Failure DataNode DNs check in with the NN to report health

Upon failure NN orders DNs to replicate under-replicated blocks

Microsoft

Distributed Storage(HDFS)

Query(Hive)

Distributed Processing

(MapReduce)

Scripting(Pig)

NoSQ

L Data

base

(HB

ase

)

Metadata(HCatalog)

Data

Inte

gra

tion

( OD

BC

/ SQ

OO

P/ REST)

Rela

tiona

l(S

QL

Serve

r)

Machine Learning(Mahout)

Graph(Pegasus)

Stats processin

g(RHadoo

p)

Eve

nt Pip

elin

e(Flu

me)

Active Directory (Security)

Monitoring & Deployment

(System Center)

C#, F#, .NET

JavaScript

Pipelin

e / w

orkflo

w(O

ozie

)

Azure Storage Vault (ASV)

PD

W Po

lybase

Busin

ess

Inte

lligence

(E

xcel, Po

wer

Vie

w, S

SA

S)

HDINSIGHT / HADOOP Eco-System

World's Data (Azure Data Marketplace)

Eve

nt

Drive

n

Proce

ssing

LegendRed = Core HadoopBlue = Data processingPurple = Microsoft integration points and value addsOrange = Data MovementGreen = Packages

Wie funktioniert Hadoop

Hadoop Distributed Architecture

FIRST, STORE THE DATA

Server

ServerServer

So How Does It Work?

Files

Server

SECOND, TAKE THE PROCESSING TO THE DATA

So How Does It Work?

// Map Reduce function in JavaScript

var map = function (key, value, context) {var words = value.split(/[^a-zA-Z]/);for (var i = 0; i < words.length; i++) {

if (words[i] !== "")context.write(words[i].toLowerCase(),1);}}};

var reduce = function (key, values, context) {var sum = 0;while (values.hasNext()) {sum += parseInt(values.next());

}context.write(key, sum);};

ServerServer

ServerServer

RUNTIME

Code

MapReduce – Workflow

Programming Models

PigData scripting language

HiveSQL-like set-oriented language

Pegasus, GiraphGraph processing

Demo

Example Video Streams

Meerkat API

Vorgehen

Ziel Verteilung von Streams über Tag und Nutzer

C# Dienst Daten sammeln

Persistierung in Azure

Aufbereitung und Analyse mit Hive

Analyse in Excel

Erwartetes Ergebnis

Weitere Beispiele

Beispiel: Social Media Analyse

Auswertung von sozialen Netzwerken

• Untersuchung des Medien-Konsumverhaltens • Quantitativ-statistische Auswertung von Kommunikationsinhalten• Erkennung von Trends, Influencern und Konkurrenzaktivitäten• Nutzung von Facebook, Twitter und anderen Sozialen Netzwerken als Datenquelle• Hohes Datenwachstum• Semi-strukturierte Datenformate• Häufige Änderungen der Datenstrukturen

Quelle: Facebook Graph API

Analyse der Ergebnisse mit Excel

Eigene Map Reduce Tasks

Beispiel: Analyse von Freitext

Textanalye von Sitzungs- protokollen

• Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten• Schnelle Erkennung von Kerninformationen der verarbeiteten Texte• Erkennung nicht bekannter Zusammenhänge• Hypothesen generieren, überprüfen und schrittweise verfeinern• Extraktion von Haltungen gegenüber einem Thema durch semantische Algorithmen• Hohes Datenwachstum

Quelle: Plenarprotokolle Bundestag

Verarbeitung der Daten mit Hadoop

Analyse der Ergebnisse mit Excel

DocumentDB

What is Azure DocumentDB?

It is a fully managed, highly scalable, queryable, schema-free document database, delivered as a service, for modern applications.

Query against Schema-Free JSONMulti-Document transactionsTunable, High PerformanceDesigned for cloud first

40

Azure DocumentDB Resources41

Source: http://azure.microsoft.com/en-us/documentation/articles/documentdb-introduction/

Document DB Data model

Verwaltung in Azure

Darstellung als Webseite

Traditional RDBMS vs. MapReduceTRADITIONAL RDBMS MAPREDUCE

Data Size Gigabytes (Terabytes) Petabytes (Hexabytes)

Access Interactive and Batch Batch

Updates Read / Write many times Write once, Read many times

Structure Static Schema Dynamic Schema

Integrity High (ACID) Low

Scaling Nonlinear Linear

DBA Ratio 1:40 1:3000

Reference: Tom White’s Hadoop: The Definitive Guide

Do I really need Hadoop?

Generalized

No SQL

Hadoop

Standard SQL

or MPP Appliances

Specialized No SQL

Streaming

In-MemoryAnalytics

Velocity

Variety

HighlyStructured

PolyStructured

Batch Realtime

Ausblick: Data Management Prozesse

Ziel: Big Data Pipeline kombinieren

Steuern und Administrieren von Diensten

Produkt: Azure Data Factory

Azure Blob Storage

Call Log Files

Customer Table

On Premises

Data Mart

Call Log Files

Customer Table

Azure DB

Customer Churn Table

Visualize

Data Set(Collection of files, DB table, etc)

Activity: a processing step (Hadoop job, custom code, ML model, etc)

Pipeline: a sequence of activities (logical group)

Data Factory Concepts

…Data Sources

Ingest Transform & Analyze Publish

Customer Call

Details

Customers Likely to Churn

Transform, Combine, etc

Analyze Move

Zusammenfassung Datenanalyse verändert sich

Technologien abwägen (JSON in Integration Services)

Daten Analysten sind nicht überflüssig

Das Toolset muss sich erweitern

Coole Vorlesung zum Weiter machen http://blogs.ischool.berkeley.edu/i290-abdt-s12/

Vielen Dank!

Recommended