Servicios de Bases de Datos de AWS

Servicios de Bases de Datos de AWS

Damián Traverso, AWS Solutions Architect

Agosto, 2017

¿Qué esperar de esta sesión?

• Aprender la estrategia y visión general de nuestros

servicios de datos

• Conocer nuestra arquitectura y los clientes clave por

servicio

• Entender cuándo utilizar qué servicios para sus

aplicaciones

Estrategia

• Comenzar desde el cliente y retroceder.

• Ofrecer servicios administrados.

• Aprovechar la arquitectura de la nube.

• Soportar la migración de aplicaciones y datos de/hacia sus centrosde datos locales

• Múltiples servicios, cada uno optimizado para diferentes casos de uso.

Portafolio de Productos

Traditional Apps

Relational Databases

NoSQL & In-MemoryBig

Data

RDS

Aurora

Database Migration Service

Bases de Datos Relacionales

DynamoDB

ElastiCache

NoSQL y En Memoria

Amazon Redshift

EMR

Data Pipeline

Athena

Big Data

QuickSight

Elasticsearch

Amazon ML

Analítica

Uso de servicios de Base de Datos

• Amazon Aurora es el servicio de más rápido crecimiento en la

historia de AWS

• Se han migrado más de 20,000 bases de datos utilizando AWS


• En el “Prime Day” DynamoDB sirvió a más de 56,000 millones de

solicitudes adicionales en todo el mundo en comparación con el

mismo día de la semana anterior.

Clientes de Bases de Datos en AWS

Bases de Datos

Relacionales

Amazon RDS

Amazon Aurora


• Soporte de varios motores: Aurora, MySQL, MariaDB,

PostgreSQL, Oracle, SQL Server

• Aprovisionamiento automatizado, corrección, escalabilidad,

respaldo/restauración, recuperación en caso de fallo

• Uso con almacenamiento GP2 o con IOPS aprovisionados

• Alta disponibilidad con RDS Multi-AZ

– SLA de 99,95% para implementaciones de Multi-AZ

Amazon RDS

Amazon Aurora

Punto clave: las bases de datos relacionales

son complejas

• Nuestra experiencia con Amazon.com nos enseñó que

las bases de datos relacionales pueden ser complicadas

de gestionar y operar con alta disponibilidad

• ¡Las bases de datos relacionales mal administradas son

una de las causas principal de caídas en sistemas y por

tanto de pérdida de sueño en el mundo de la tecnología!

• Menor TCO porque tenemos mejor control

• Obtenga más apalancamiento de sus equipos de trabajo

• Concéntrese en las cosas que lo diferencian

• Alta disponibilidad y replicación en múltiples centros de datos incorporada.

• Disponible en todos los motores, incluidas las ediciones básicas/estándar, no sólo para las ediciones empresariales

• Cualquiera puede aprovechar múltiples centros de datos para diseñar aplicaciones con alta disponibilidad

Hemos hecho las cosas más baratas, más

fáciles y mejores

Solución de tolerancia a fallos de nivel

empresarial para Bases de Datos

en producción

Recuperación de fallo automático

Replicación síncrona

Económico y habilitado con un solo clic

Multi-AZ: Alta Disponibilidad

Clientes de Amazon RDS

Reinventando las Bases de Datos

Relacionales

Preguntas claves

• ¿Qué pasaría si partiéramos de cero con la única limitación de que

la base de datos fuera una base de datos relacional?

• ¿Un rendimiento mucho mejor aprovechando la escala masiva de

nuestra nube?

• ¿Durabilidad diseñada indistinguible del 100% y disponibilidad del

99.99%?

• ... ¿Mejores y más baratos que las bases de datos comerciales de

30 años de antigüedad en uso hoy en día?

Sí podemos. Respuesta: Amazon Aurora

• Un nuevo motor de base de datos relacional,

construido desde cero para aprovechar AWS

• Para todas las nuevas aplicaciones que requieren

lenguaje SQL, recomendamos Amazon Aurora

• Rendimiento de calidad comercial y

disponibilidad a precios de código abierto

• Conserva la compatibilidad con MySQL 5.6

Amazon RDS para Aurora

• Compatible con MySQL con hasta 5 veces mejor

rendimiento en el mismo hardware: 100,000

escrituras/seg. y 500,000 lecturas/seg.

• Escalable hasta 64 TB en una sola base de datos, hasta

15 réplicas de lectura

• Capa de almacenamiento SSD de alta disponibilidad,

duradera y tolerante a fallos: replicada 6 veces en 3

zonas de disponibilidad

• Cifrado transparente para datos en reposo utilizando

AWS KMS

• Procedimientos almacenados en Amazon Aurora pueden

invocar funciones AWS Lambda

Servicio con el crecimiento

más rápido en la historia

de AWS

Clientes de Amazon Aurora

Amazon Aurora ahora compatible con

PostgreSQL

• Compatibilidad con PostgreSQL 9.6 con soporte para PostGIS

• Todas las características que espera de Amazon Aurora incluyendo

15 réplicas de lectura con <10ms de retraso, almacenamiento

compartido, recuperación en caso de errores sin pérdida de datos,

6 veces replicada en 3 Zonas de disponibilidad, encriptación con

AWS KMS

• Disponible ahora en ”Preview”

Simplifique el monitoreo desde la

consola de administración de AWS

Carga de la base de datos:

identifica los cuellos de

botella de la base de datos

Fácil

Poderoso

Identifica la fuente del cuello de

botella

“Top SQL”

Periodo de tiempo ajustable

Hora, día, semana y más

Max CPU

Información de rendimiento para Amazon RDS

AWS Database Migration Service

• Servicio totalmente administrado para la migración

desde el centro de datos local hasta la nube de AWS

con un tiempo de inactividad mínimo

• Migra datos desde y hacia todos los motores

comerciales y de código abierto más utilizados

• Herramienta de conversión de esquemas que convierte

esquemas de base de datos, procedimientos

almacenados y código de aplicación a un formato de

destino diferente.

• Soporta reproducción homogénea y heterogénea de

datos

• Una base de datos de terabytes puede ser migrada por

tan solo unos $3

Capacidades de conversión de bases de datos

en SCT

Base de Datos Origen Base de Datos Destino

Microsoft SQL Server Amazon Aurora, MySQL, PostgreSQL

MySQL PostgreSQL

Oracle Amazon Aurora, MySQL, PostgreSQL

Oracle Data Warehouse Amazon Redshift

PostgreSQL Amazon Aurora, MySQL

Teradata, Netezza, Greenplum Amazon Redshift

NoSQL y En MemoriaDynamoDB

ElastiCache

Rápido, Flexible, Escalable

NoSQLAmazon

DynamoDB

Historia de NoSQL en Amazon

Preguntas claves

• Aurora fue diseñada con una sola restricción• Compatibilidad con SQL y semántica de la base de datos relacional

• ¿Y si dijéramos no a esta restricción?• No a SQL = NoSQL

• ¿Podríamos eliminar las cosas que no nos gustan de las

bases de datos relacionales?

Sí podemos. Respuesta = Amazon DynamoDB

• Base de datos que puede escalamiento ilimitado

• Puede comenzar de forma pequeña. No hay límite para el éxito de la

aplicación.

• Su aplicación se ejecuta rápidamente 10, 100, 1M, 10M o 100M de usuarios

usando su aplicación.

• Ofrece disponibilidad y durabilidad indistinguibles del 100%.

• 99.99% y 60 segundos recuperación en caso de error no son lo

suficientemente buenos

• No tienes que administrar nada. Ni siquiera necesita saber qué es una

instancia de base de datos. Solo crea una tabla

• No hay esquema. Todo lo que necesitas para decirnos es el número de

lecturas/seg. y escrituras/seg. que quieres ejecutar.

• Nosotros hacemos el resto

Clientes con Amazon DynamoDB

In-memory key-value store

Alto Rendimiento

Memcached y Redis

Totalmente administradoAmazon

ElastiCache

Capa de Caching para incrementar rendimiento o

optimizar costos de una base de datos

Almacenamiento de datos efímeros key-value

Patrones en aplicaciones de alto rendimiento,

como tableros de lideres (usuarios en juegos),

manejo de sesiones, contadores de eventos, listas

en memoria

Casos de uso comunes

* Throughput determined by Requests per Second. Commands: Average% across SET, GET, INCR, LPUSH, RPUSH, LPOP, RPOP, SADD, SPOP, LPUSH, LRANGE_100, LRANGE_300, LRANGE_500, MSET was used. Load: 1 Million Requests with Pipelined commands, Payload 3 bytes; Redis Instance compared: cache.m4.xlarge, cache.m3.xlarge; Same instance used to issue requests ( c4.xlarge with Redis Client/benchmark tool installed).

33

Passion for delivering constant innovation

ElastiCache for Redis delivers 34% greater throughput across various Redis commands using M4 instances vs. M3 instances.*

Amazon Web Services and Intel

Big Data

Amazon Redshift

Amazon EMR

Amazon Athena

Data Pipeline

Amazon Redshift

• Almacenamiento de datos relacional, MPP, y que

soporta Petabytes de información

• Totalmente administrado con plataformas SSD y

HDD

• Seguridad integrada de extremo a extremo,

incluidas las claves gestionadas por el cliente

• $1,000/TB/año; inicia en $0.25USD/hora

¿Por qué creamos Amazon Redshift?

• Los clientes estaban generando datos en la nube, pero

moviéndolos a su centro de datos local para analizarlos.

• Los clientes habían migrado todo a AWS, excepto sus

almacenes de datos locales.

• Querían cerrar estos centros de datos pero no podían hasta que

les ofreciéramos una solución en la nube

Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011

IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares

Disponibles para análisis

Datos generados

1990 2000 2010 2020

Puntos claves: La mayoría de los datos caen

al piso

90% de los datos en una

compañía nunca son

analizados

Los altos costos y la

complejidad de un almacén de

datos tradicional hace

complicado justificar el capital

necesario que se debe invertir.

Preguntas claves

• ¿Podríamos diseñar un sistema barato y

suficientemente escalable para permitirle analizar todos

sus datos?

• ¿Podríamos construir un servicio que fuera más rápido,

más barato y más fácil de usar que los sistemas de

almacenamiento de datos tradicionales?

Sí podemos. Respuesta = Amazon Redshift

• Un sistema de procesamiento masivamente paralelo (MPP) con hasta 128 nodos de poder

de cómputo para almacenar y procesar hasta 2PB de datos comprimidos

• A $1,000/TB/año, es tan barato que puedes analizar todos tus datos

• Puede aprovisionar un petabyte en menos de tres minutos y pagar por hora

• 10x de rendimiento y 1/10 del precio de otras soluciones

• Totalmente administrado con el aprovisionamiento automatizado, la aplicación de parches,

la seguridad, la copia de seguridad, la restauración y la tolerancia a errores integrada

Clientes de Amazon Redshift

Amazon EMR

• Hadoop, Hive, Presto, Spark, Tez, Impala etc.

• Versión 5.2: Hadoop 2.7.3, Hive 2.1, Spark 2.02, Zeppelin, Presto,

HBase 1.2.3 and HBase on S3, Phoenix, Tez, Flink

• Nuevas aplicaciones agregadas dentro de los 30 días de su versión

de código abierto

• Completamente administrado, escalando automáticamente los

clústeres con soporte para precios On-Demand y Spot

• Soporte para sistemas de archivos HDFS y S3 que permiten el

cálculo y almacenamiento de forma separada; Varios clústeres

pueden ejecutarse sobre los mismos datos en S3

• Soporte para encriptación de extremo a extremo, IAM / VPC,

encriptación de S3 con claves gestionadas por el cliente y AWS

KMS

¿Por qué construimos Amazon EMR?

• Los clientes querían utilizar los últimos recursos analíticos de

código abierto para analizar y transformar sus datos

• Los clientes querían utilizar tecnologías como Spark y Presto

en conjunto con servicios de AWS como Amazon S3 y

funciones como EC2 Spot Instances

• Los clientes querían beneficiarse de la elasticidad que AWS

ofrece

Clientes de Amazon EMR

Amazon Athena

• Servicio para consultar datos en S3 sin necesidad de

administrar infraestructura

• No se requiere carga de datos; consulta directamente

desde Amazon S3

• Utilice consultas SQL ANSI estándar con soporte para

joins, JSON y funciones de window.

• Soporte para múltiples formatos incluyendo texto, CSV,

TSV, JSON, Avro, ORC, Parquet

• Pague por consulta sólo cuando esté ejecutando

consultas; $5/TB escaneado; si comprime sus datos, sus

consultas cuestan menos.

¿Por qué construimos Amazon Athena?

• Los clientes querían una forma fácil de ejecutar consultas

sobre datos en Amazon S3 sin infraestructura que administrar

• Los clientes querían un servicio que pudiera complementar el

uso de Amazon Redshift y Amazon EMR

• Los clientes querían dar esta capacidad a cualquier persona

en su empresa y sólo pagar por consulta

Analítica QuickSight

Amazon ES

Amazon ML

Como servicio nativo en la nube,

QuickSight combina la velocidad, la

escalabilidad y la facilidad de

implementación de la que nuestros

clientes han llegado a depender con el

valor y la rentabilidad que usted espera

de AWS.

Amazon QuickSight

Servicio de analítica de negocios rápido y fácil de usar a

1/10 del costo de las soluciones de BI tradicionales.

Amazon QuickSight

• Reconocimiento automático de fuentes de datos AWS como Redshift de

Amazon, RDS y S3

• Conectividad con recursos fuente de terceros como Excel, Salesforce, y

otras bases de datos (en nube o en los centros de datos locales)

• Rendimiento super rápido con SPICE

• Visualizaciones instantáneas con Autograph

• Comparte y colabora en análisis, paneles e historias de forma segura

• Experiencia iPhone nativa y basado en web desde todos los demás

dispositivos

• Conjuntos de datos gobernados

• Controles de acceso de usuario

• Integración de Directorio Activo

¿Qué servicio debería usar?

Situación Solución

Aplicación existente

Use el motor actual en RDS• MySQL Amazon Aurora, RDS para MySQL

• PostgreSQL RDS para PostgreSQL

• Oracle, SQL Server RDS para Oracle, RDS para SQL

Server

Aplicación nueva• Si puede evitar características relacionales DynamoDB

• Si necesita características relacionales Amazon Aurora

Almacén de datos (DWH) y BI • Amazon Redshift y Amazon QuickSight

Análisis ad hoc de datos en S3 • Amazon Athena y Amazon QuickSight

Spark, Hadoop, Hive, HBase • Amazon EMR

Análisis de bitácoras, monitoreo

operacional y búsqueda• Amazon Elasticsearch Service

Remember to complete

your evaluations!Recuerde completar

sus evaluaciones

Technology

Servicios de Bases de Datos de AWS