Александр Богданов «Lambda - архитектура»

LAMBDA-АРХИТЕКТУРАНовая парадигма для Big Data

CREDITS

“Big Data” - Nathan Marz и James Warren

Принципы построения и лучшие практики

масштабируемых информационных систем

реального времени.

Nathan Marz – работал в Backtype, Twitter.

Автор фреймворков Storm, Cascalog, ElephantDb.

ХАРАКТЕРИСТИКИ BIG DATA СИСТЕМЫ

Характеристики Big Data системы

VOLUME

Всего за два дня мы генерируем столько же информации,

сколько было создано с начала человеческой истории

вплоть до 2003 года.

Ожидается, что к 2020 году объем существующей цифровой

информации вырастет с текущих 3,2 зеттабайт до 40

зеттабайт. (1 ZB = 1000000000000 GB)

Объем хранимых данных у большинства компаний в США –

100+ TB данных.

С появлением Internet of Things объем хранимых данных

будет увеличиваться еще быстрее.

Volume / Количество информации

INTERNET OF THINGS

У каждого девайса есть сенсоры, генерирующие

информацию, которую также надо хранить.

Интернет вещей - единая сеть, соединяющая

окружающие нас объекты реального мира и

виртуальные объекты.

VELOCITY

Velocity

Источники high-velocity данных

Лог-файлы: веб-сайты, базы данных, firewall.

Сетевое оборудование: роутеры, свитчи.

Пользовательские девайсы: смартфоны.

Социальная медиа информация: посты в социальных сетях

Онлайн игры

SaaS: яркий пример – LinkedIn.

VARIETY

Для Big Data типична ситуация, когда входные данные даже

близко не напоминают структурированные.

Документы в различных форматах

Социальные сети

E-mails

Geodata

Логи

Variety

ИНФОРМАЦИОННАЯ СИСТЕМА?Требования к системе, типы информации

ТРЕБОВАНИЯ К BIG DATA СИСТЕМА

Гибкость и отказоустойчивость

Низкая задержка при чтении и обновлении

Масштабируемость

Широкий спектр применения

Расширяемость

Возможность AdHoc-запросов

Минимальные расходы на обслуживание

Возможность отката к нужному состоянию

Требования к Big Data системе

Не вся информация одинаково важна

Люди генерируют события

Транзакции кредитной карты

Перемещение по карте

Добавление человека в список друзей

Хранение текущего состояния

Subscriber Balance

79092124038 50

79525468451 50

79033456789 114

Subscriber Balance

79092124038 150

79525468451 50

79033456789 114

Хранение событий

Subscriber Balance Timestamp

79092124038 50 2014-12-31

79525468451 50 2014-05-21

79033456789 114 2015-11-04

79092124038 50 2014-12-31

79525468451 50 2014-05-21

79033456789 114 2015-11-04

79092124038 150 2015-01-01

query = function ( all data )

Количество людей с одинаковым балансом

79092124038 50 2014-12-31

79525468451 50 2014-05-21

79033456789 114 2015-11-04

Balance Count

Все данные

Запрос

Предварительно рассчитанные данные

LAMBDA АРХИТЕКТУРА

Batch Layer

Speed Layer

Serving Layer

Incoming Data

Hadoop

ElephantDB

Cassandra

ИСТОЧНИКИ ДАННЫХ

Apache Kafka

RabbitMQ

ZeroMQ

Источники данных

BATCH LAYER

BATCH LAYER. ОБЗОР.

Incoming Data

Hadoop

ElephantDB

BATCH LAYER. ПЛЮСЫ И МИНУСЫ.

Вычисления производятся на всем объеме данных

Вычисления очень хорошо масштабируются

Большое время ожидания

Слой пакетной обработки хранит данные в режиме

“append only”

Batch Layer. Компоненты.

Apache Hadoop MapReduce

Apache Spark

Hive / Pig

SparkSQL – Shark successor

Cascading / Cascalog

Pangool

BATCH LAYER

“Сырые” данные

Витрина 1

Витрина 2

Витрина 3

Batch Layer. Создание витрин данных.

Batch Layer. MapReduce.

Берем большой объем данных и разделяем его на маленькие части

Output

REDUCE

DoWork() DoWork() DoWork()…

Применяем одну и ту же операцию к каждой из частей

Соединяем выходные данные каждой из частей

Необходимо отлавливать ошибочные данные как можно

раньше.

Проверка корректности данных на этапе записи лучше проверки на этапе чтения

Batch Layer. Сериализация данных.

СЕРИАЛИЗАЦИЯ ДАННЫХ

Используйте формат со схемой данных.

Thrift

Parquet

Бонус: больше скорость, меньше занятого дискового пространства

База данных “только для чтения”

Произвольная запись не требуется.

Каждая итерация Batch Layer заново генерирует витрины

Batch Layer. Базы данных.

ElephantDB

SploutSQL

Voldemort (+ Read-Only)

HBase (bulk loading)

БАЗЫ ДАННЫХ ДЛЯ BATCH LAYER

И на этом можно было бы закончить, но…

Информация, обработанная Batch Layer

Время

СейчасДанные за несколько часов

Еще не обработана

… но это еще не все

Speed Layer

Incoming Data

Cassandra

Speed Layer. Обзор.

Speed Layer

Обработка потоковых данных Непрерывные вычисления Операции над транзакциями

Проблемы с полученными данными могут возникнуть лишь

в Speed Layer

Если что-то пойдет не так в Speed Layer, то Batch Layer это

автоматически исправит

CAP-ТЕОРЕМА

Выберите два свойства

Availability / Доступностьлюбой запрос к распределённой

системе завершается корректным откликом

Consistency / Согласованностьво всех вычислительных узлах в один момент времени данные не противоречат друг другу

Partition Tolerance / Устойчивость к разделению

Расщепление распределённой системы на несколько изолированных секций не приводит к некорректности отклика

от каждой из секций

Speed Layer. Компоненты.

Apache Storm

Apache Spark Streaming

Apache S4

IBM InfoSphere Streams

Apache Samza

SqlStream Blaze

SPEED COMPONENTS

Speed Layer. Базы данных.

Cassandra

БАЗЫ ДАННЫХ ДЛЯ SPEED LAYER

Serving Layer

Incoming Data

Hadoop

ElephantDB

Cassandra

Serving Layer. Обзор.

Serving Layer.

Произвольный доступ Объединение Batch и Speed витрин

Итого

ВОЗМОЖНАЯ РЕАЛИЗАЦИЯ ЛЯМБДА АРХИТЕКТУРЫ

Ошибки исправляются повторным пересчетом витрины с использованием “сырых” данных.

Хранилища данных оптимизированы. Неизменяемость данных делает систему

надежнее.

Источники информации

Факты о Big Data - http://www.bigdata-madesimple.com/eye-opening-facts-everyone-should-know-about-big-data/

Инфографика “How Much Is A Petabyte” - http://mozy.com/blog/misc/how-much-is-a-petabyte/

Вопросы?БОГДАНОВ АЛЕКСАНДР

ABOGDANOV@AT-CONSULTING.RU

СПАСИБОБОГДАНОВ АЛЕКСАНДР

ABOGDANOV@AT-CONSULTING.RU

Александр Богданов «Lambda - архитектура»

Technology

Александр Чупахин "Архитектура API 2.0"

Богданов Геогрий 5а

Слоистая архитектура

Евгений Богданов

Архитектура хранилища бинарных данных на Одноклассниках (Александр Христофоров, Олег Анастасьев)

архитектура пк

УДК 72 - img-gorod.ru€¦ · архитектура Архитектура Древней Руси Ранне-христианская архитектура Архитектура

знаки препинания богданов д

DUMP-2015 «Микросервисная архитектура в теории и на практике» Иван Бурмистров, Александр Казаков, СКБ

Clouds NN 2012 Александр Демидов "Битрикс24 архитектура и опыт эксплуатации отказоустойчивого, масштабируемого,

Богдан Богданов - Л-рата на елинизма

архитектура востока

Почему бизнес-процессы — это не страшно / Александр Богданов (AGIMA)

Сергей Богданов – StartupSаmara: есть ли жизнь за МКАДом?

Архитектура Египта

богданов а. гбоу сош № 377

Инвестиции Додо. Дмитрий Богданов

Александр Киракозов "Архитектура загрузчика Яндекс.Диска"

архитектура кириков штиглиц архитектура ленинградского авангарда

Временная архитектура