Cloud computing e big data

Cloud Computing e Big Data

Rodolpho Ugolini - @rugolini

Amazon Web Services

Sem despesas de

capital antecipadas

Pague apenas

pelo que usa

Infraestrutura

Self-Service

Escalabilidade

simples e

automática

Agilidade e Time

to Market

Baixo custo

O que é Computação em Nuvem

Deploy

Deep experience in

building and

operating global web

scale systems

About Amazon

Web Services

?

…passou a oferecer Cloud Computing?

Como a Amazon…

Trafego do mês de Novembro da amazon.com

Quanto de capacidade devemos provisionar?

Infrestrutura Tradicional não é mais suficiente

Ambientes de Testes Volume de Dados

Eventos Sazonais Picos de Demanda

Desperdício

Insatisfação do cliente

Infraestrutura de computação tradicional é cara e

complexa

Precisamos de capacidade ajustável!

... e torça para que tudo dê certo...

Existe um outro jeito!

Plataforma de Computação AWS

Serviços Básicos

Compute Storage Database Networking

Infraestrutura Global Regiões

Zonas de Disponibilidade Pontos de

Distribuição CDN

Am

azon

Disponivel Globalmente

Region

US-WEST (N. California) EU-WEST (Ireland)

ASIA PAC

(Tokyo)

ASIA PAC

(Singapore)

US-WEST (Oregon)

SOUTH AMERICA (Sao

Paulo)

US-EAST (Virginia)

GOV CLOUD

Serviços Básicos

Compute Storage Database Networking

Infraestrutura Global Regiões

Zonas de Disponibilidade Pontos de

Distribuição CDN

Sua Aplicação

Sistema Operacional

Dados

Am

azon

Apoiando-se nos ombros do gigante…

Você

A cada dia, a AWS adiciona o

equivalente em capacidade

computacional, ao que era

necessário para manter a

Amazon.com de 2000

APIs e Automação

Automação Escale capacidade automaticamente

Utility computing

Utility computing

Compute

Storage

Security Scaling

Database

Networking Monitoring

Messaging

Workflow

DNS

Load Balancing

Backup CDN

6 am

10 am

10 am

10 am

7 pm

7 pm

7 pm

Num

ero

de I

nsta

ncia

s E

C2

4/12/2008 4/14/2008 4/15/2008 4/16/2008 4/18/2008 4/19/2008 4/20/2008 4/17/2008 4/13/2008

40 a 5000 em 3 dias

Pico de 5000

instancias

Divulagação

Viral

Lançamento da

Integração com

Facebook

40 instancias

Seu “Data Center” pessoal

0,000

250,000

500,000

750,000

1000,000

1 Trilhão

Pico de 750 mil transações por segundo

Objetos armazenados no S3

A análise de grandes volumes de dados está se tornando a

grande barreira para inovação, competição

e produtividade.

O que é Big Data?

Gerados por computador – estruturados, semi-estruturados ou não-estruturados

Logs (web sites, jogos)

Sensores (tempo, água)

Imagens/vídeos (cameras, segurança)

Gerados por pessoas Blogs/Resenhas/Emails/Fotos

Redes Sociais

Facebook, Linkedin, Twitter

Big Data está ficando cada vez maior

2.7 Zetabytes em 2012

Mais de 90% não estruturada

Dados espalhados em diversos silos

Precisamos de ferramentas para lidar com Big Data!

Onde se vê Big Data

Mídia/

Propaganda

Anuncios Dirigidos

Processa-mento de vídeos e imagens

Óleo e Gás

Análise Sismica

Varejo

Recomen-dações

Análise de Transações

Telecom

Cobrança

Log de Ligações

Uso dos Produtos

Instituições Financeiras

Simulações de Monte

Carlo

Análise de Riscos

Segurança

Anti-virus

Detecção de Fraudes

Reconheci-mento de Imagens

Marketing e Jogos

(sobretudo social)

Analise Comporta-

mental

Análise de Uso

Métricas “In-game”

O que é Hadoop?

Apache Hadoop Sistema de storage distribuído e tolerante a falhas

(HDFS)

Usa um algoritmo chamado MapReduce para realizar análises estatísticas exaustivas sobre um grande conjunto de dados distribuídos

Benefícios-chave Custo mais baixo – Escala linearmente

Provado em escala– Petabytes em milhares de nós

Flexível – Dados podem ser armazenados com ou sem schema

"Hadoop é um storage confiável e um sistema analítico"

HDFS MapReduce

RDBMS MapReduce (Hadoop)

Schema definido Schema não requerido

Explora índices para

recuperação rápida

Análises rápidas de dados e

performance uniforme de

queries

SQL apenas Suporta SQL + outras

linguagens

Não escala linearmente Escalabilidade linear para

reads + writes

Implantar um cluster hadoop é difícil

http://eddie.niese.net/20090313/dont-pity-incompetence/

Big Data requer infraestrutura flexível

Infraestrutura física leva a hardware e software estático e planejado para atender picos…

…e muitas vezes acaba gerando longas filas de processamento

+

Data Warehouse Elástico

Aumenta

para 25

instancias

Data Warehouse

(Estável)

Data Warehouse

(Processo Batch)

Diminui

para

9

instancias

Data Warehouse

(Estável)

Input data

S3

Elastic

MapReduce

Code

Input data

S3

Elastic

MapReduce

Code Name

node

Input data

S3

Elastic

MapReduce

Code Name

node

Input data

S3

Elastic

cluster

Elastic

MapReduce

Code Name

node

Input data

S3

Elastic

cluster

HDFS

Elastic

MapReduce

Code Name

node

Input data

S3

Elastic

cluster

HDFS Queries

+ BI

Via JDBC, Pig, Hive

Elastic

MapReduce

Code Name

node

Output

S3 + SimpleDB

Input data

S3

Elastic

cluster

HDFS Queries

+ BI

Via JDBC, Pig, Hive

Output

S3 + SimpleDB

Input data

S3

OBRIGADO! aws.amazon.com

Rodolpho Ugolini

Amazon Web Services

@rugolini

Education

Cloud computing e big data