Upload
amazon-web-services-latam
View
1.714
Download
3
Embed Size (px)
Citation preview
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Alex Coqueiro
Gerente de Arquitetura para o Setor Público
Amazon Web Services
Junho, 2016
Seu Primeiro Aplicativo
de Big Data
@alexbcbr
Luis Guerrero
Gerente de Engenharia
Viva Real
#AWSSummit
#bigdata
grande complexidade
Complexidade em função de uma grande variedade
Glacier
S3 DynamoDB
RDS
EMR
Redshift
Data PipelineKinesis
Cassandra Amazon
CloudSearch
Amazon
Machine
Learning
Amazon
QuickSightAmazon
ElasticSearch
Ingestão Processamento Análise
ArmazenamentoDa
do
s
Re
sp
osta
s
Ingestão
Info
rma
çõ
es
Tra
ns
ac
ion
ais
Processamento
Armazenamento Análise Visualização
Caso de Uso – Análise de Malha Aérea
Ingestão Processamento Análise
ArmazenamentoDa
do
s
Re
sp
osta
s
AMAZON S3SIMPLE STORAGE SERVICE
Amazon S3
YOUR-BUCKET-NAME
Ingestão Processamento Análise
ArmazenamentoDa
do
s
Re
sp
osta
s
AMAZON KINESISREAL TIME DATA STREAMING
Tipos de dados para a ingestão
Transacionais
• RDBMS
Arquivos
• Click-stream logs
• Texto livre
Stream
• IoT devices
• Tweets
Database
Cloud
Storage
Stream
Storage
Amazon Kinesis Firehose
Criaremos um stream com o Amazon Kinesis Firehose, para
os dados que serão coletados dos sistemas de origem
aws firehose create-delivery-stream \
--delivery-stream-name STREAM-NAME \
--s3-destination-configuration config.json
--region us-east-1
Exemplo do arquivo de log
Ingestão de dados no Kinesis Firehose
Faremos uma ingestão baseado em dados que estão sendo coletados de um sistema transacional
aws firehose put-record
--delivery-stream-name STREAM-NAME
--record Data=”JOAO DA SILVA\,CLE\,MCO\,14”
Ingestão Processamento Análise
ArmazenamentoDa
do
s
Re
sp
osta
s
AMAZON ELASTIC MAP
REDUCEHADOOP AS A SERVICE
Amazon EMR
Lançaremos um cluster de 3 nós em Amazon EMR com
Spark:
m3.xlarge
YOUR-AWS-SSH-KEY
Spark
• Motor para processamento de
dados em larga escala
• Suporte a aplicações escritas
em Java, Scala, Python ou R
• Combina SQL, streaming e
análises complexas
Desenvolvendo Spark/Python no Amazon EMR
## Interagindo com serviços como Amazon S3 via API (boto) ##
BUCKET-NAME
## Criando contexto no SPARK ##
PYTHON-APP
Desenvolvendo Spark/Python no Amazon EMR## Processamento da Lógica de Negócio ##
BUCKET_NAME
## Gravando resultados processados no S3 em formato compactado ##
BUCKET_NAME
Lançar Apps no Cluster Spark do Amazon EMR
Usamos SSH para conectar no cluster:
ssh -o TCPKeepAlive=yes -o ServerAliveInterval=30 \
-L 8001:localhost:18080
YOUR-AWS-SSH-KEY hadoop@YOUR-EMR-HOSTNAME
Iniciando o Spark shell:
spark-submit --master yarn-client PYTHON-APP.py
Ingestão Processamento Análise
ArmazenamentoDa
do
s
Re
sp
osta
s
SQL
AMAZON
REDSHIFTPETA-BYTE SCALE DATAWAREHOUSE
Amazon Redshift
\
CHOOSE-A-REDSHIFT-PASSWORD
Criar uma tabela no Amazon Redshift
Mas eu quero visualizar os
dados ?
Exemplo do arquivo de saída
Carregar os dados no Amazon Redshift
Comando “COPY” carrega dados em paralelo
COPY voos
FROM 's3://YOUR-S3-BUCKET/voos-log-processado'
CREDENTIALS
'aws_access_key_id=YOUR-IAM-ACCESS_KEY;
aws_secret_access_key=YOUR-IAM-SECRET-KEY'
DELIMITER ’,' IGNOREHEADER 0, REMOVEQUOTES,
MAXERROR 0
GZIP;
Conectando no Amazon Redshift
# usando o PostgreSQL CLI
YOUR-REDSHIFT-ENDPOINT
Ou usando uma ferramenta JDBC ou ODBC SQL client com
suporte a drivers em PostgreSQL 8.x ou nativamente com
suporte ao Amazon Redshift
• Aginity Workbench for Amazon Redshift
• SQL Workbench/J
• DBVisualizer
Queries no Amazon Redshift
-- Número de registros
-- Quem transporta mais passageiros ?
-- Quem transporta mais passageiros com milhas ?
AMAZON
QUICKSIGHTCLOUD-POWERED BUSINESS INTELLIGENCE
Amazon
Kinesis
Info
rma
çõ
es
Tra
ns
ac
ion
ais
Amazon
EMR
Amazon S3Amazon
RedshiftAmazon
Quicksight
O que vimos …
Map Reduce
Parallel
Copy
SQL Query
Experiência da Viva Real
Luis Guerrero
Gerente de Engenharia
©2016, Amazon Web Services, Inc. or its affiliates. All rights reserved
Serviços da AWS
Nosso Problema
A Solução
Aprenda mais AWS big data com
nossos especialistas
blogs.aws.amazon.com/bigdata
Muito ObrigadoAlex Coqueiro
Gerente de Arquitetura para o Setor Público
@alexbcbr#bigdata #AWSSummit