Upload
pet-computacao
View
623
Download
3
Embed Size (px)
DESCRIPTION
Citation preview
Cloud Computing e Big Data
Rodolpho Ugolini - @rugolini
Amazon Web Services
Sem despesas de
capital antecipadas
Pague apenas
pelo que usa
Infraestrutura
Self-Service
Escalabilidade
simples e
automática
Agilidade e Time
to Market
Baixo custo
O que é Computação em Nuvem
Deploy
Deep experience in
building and
operating global web
scale systems
About Amazon
Web Services
?
…passou a oferecer Cloud Computing?
Como a Amazon…
Trafego do mês de Novembro da amazon.com
Quanto de capacidade devemos provisionar?
Infrestrutura Tradicional não é mais suficiente
Ambientes de Testes Volume de Dados
Eventos Sazonais Picos de Demanda
Desperdício
Insatisfação do cliente
Infraestrutura de computação tradicional é cara e
complexa
Precisamos de capacidade ajustável!
... e torça para que tudo dê certo...
Existe um outro jeito!
Plataforma de Computação AWS
Serviços Básicos
Compute Storage Database Networking
Infraestrutura Global Regiões
Zonas de Disponibilidade Pontos de
Distribuição CDN
Am
azon
Disponivel Globalmente
Region
US-WEST (N. California) EU-WEST (Ireland)
ASIA PAC
(Tokyo)
ASIA PAC
(Singapore)
US-WEST (Oregon)
SOUTH AMERICA (Sao
Paulo)
US-EAST (Virginia)
GOV CLOUD
Serviços Básicos
Compute Storage Database Networking
Infraestrutura Global Regiões
Zonas de Disponibilidade Pontos de
Distribuição CDN
Sua Aplicação
Sistema Operacional
Dados
Am
azon
Apoiando-se nos ombros do gigante…
Você
A cada dia, a AWS adiciona o
equivalente em capacidade
computacional, ao que era
necessário para manter a
Amazon.com de 2000
APIs e Automação
Automação Escale capacidade automaticamente
Utility computing
Utility computing
Compute
Storage
Security Scaling
Database
Networking Monitoring
Messaging
Workflow
DNS
Load Balancing
Backup CDN
6 am
10 am
10 am
10 am
7 pm
7 pm
7 pm
Num
ero
de I
nsta
ncia
s E
C2
4/12/2008 4/14/2008 4/15/2008 4/16/2008 4/18/2008 4/19/2008 4/20/2008 4/17/2008 4/13/2008
40 a 5000 em 3 dias
Pico de 5000
instancias
Divulagação
Viral
Lançamento da
Integração com
40 instancias
Seu “Data Center” pessoal
0,000
250,000
500,000
750,000
1000,000
1 Trilhão
Pico de 750 mil transações por segundo
Objetos armazenados no S3
A análise de grandes volumes de dados está se tornando a
grande barreira para inovação, competição
e produtividade.
O que é Big Data?
Gerados por computador – estruturados, semi-estruturados ou não-estruturados
Logs (web sites, jogos)
Sensores (tempo, água)
Imagens/vídeos (cameras, segurança)
Gerados por pessoas Blogs/Resenhas/Emails/Fotos
Redes Sociais
Facebook, Linkedin, Twitter
Big Data está ficando cada vez maior
2.7 Zetabytes em 2012
Mais de 90% não estruturada
Dados espalhados em diversos silos
Precisamos de ferramentas para lidar com Big Data!
Onde se vê Big Data
Mídia/
Propaganda
Anuncios Dirigidos
Processa-mento de vídeos e imagens
Óleo e Gás
Análise Sismica
Varejo
Recomen-dações
Análise de Transações
Telecom
Cobrança
Log de Ligações
Uso dos Produtos
Instituições Financeiras
Simulações de Monte
Carlo
Análise de Riscos
Segurança
Anti-virus
Detecção de Fraudes
Reconheci-mento de Imagens
Marketing e Jogos
(sobretudo social)
Analise Comporta-
mental
Análise de Uso
Métricas “In-game”
O que é Hadoop?
Apache Hadoop Sistema de storage distribuído e tolerante a falhas
(HDFS)
Usa um algoritmo chamado MapReduce para realizar análises estatísticas exaustivas sobre um grande conjunto de dados distribuídos
Benefícios-chave Custo mais baixo – Escala linearmente
Provado em escala– Petabytes em milhares de nós
Flexível – Dados podem ser armazenados com ou sem schema
"Hadoop é um storage confiável e um sistema analítico"
HDFS MapReduce
RDBMS MapReduce (Hadoop)
Schema definido Schema não requerido
Explora índices para
recuperação rápida
Análises rápidas de dados e
performance uniforme de
queries
SQL apenas Suporta SQL + outras
linguagens
Não escala linearmente Escalabilidade linear para
reads + writes
Implantar um cluster hadoop é difícil
http://eddie.niese.net/20090313/dont-pity-incompetence/
Big Data requer infraestrutura flexível
Infraestrutura física leva a hardware e software estático e planejado para atender picos…
…e muitas vezes acaba gerando longas filas de processamento
+
Data Warehouse Elástico
Aumenta
para 25
instancias
Data Warehouse
(Estável)
Data Warehouse
(Processo Batch)
Diminui
para
9
instancias
Data Warehouse
(Estável)
Input data
S3
Elastic
MapReduce
Code
Input data
S3
Elastic
MapReduce
Code Name
node
Input data
S3
Elastic
MapReduce
Code Name
node
Input data
S3
Elastic
cluster
Elastic
MapReduce
Code Name
node
Input data
S3
Elastic
cluster
HDFS
Elastic
MapReduce
Code Name
node
Input data
S3
Elastic
cluster
HDFS Queries
+ BI
Via JDBC, Pig, Hive
Elastic
MapReduce
Code Name
node
Output
S3 + SimpleDB
Input data
S3
Elastic
cluster
HDFS Queries
+ BI
Via JDBC, Pig, Hive
Output
S3 + SimpleDB
Input data
S3
OBRIGADO! aws.amazon.com
Rodolpho Ugolini
Amazon Web Services
@rugolini