30
1 © Copyright 2012 EMC Corporation. All rights reserved. Богатство данных: рынки, тренды и технологии BIG DATA в различных индустриях Cергей Золотарёв

Zolotarev 2 big datatelco_futurebd

Embed Size (px)

Citation preview

Page 1: Zolotarev 2 big datatelco_futurebd

1 © Copyright 2012 EMC Corporation. All rights reserved.

Богатство данных: рынки, тренды и технологии BIG

DATA в различных индустриях

Cергей Золотарёв

Page 2: Zolotarev 2 big datatelco_futurebd

2 © Copyright 2012 EMC Corporation. All rights reserved.

Sources: “How Much Information?” Peter Lyman and Hal Varian, UC Berkeley,. 2011 IDC Digital Universe Study.

В 2000 ГОДУ ВО ВСЁМ МИРЕ СОЗДАЁТСЯ

ДВА ЭКЗАБАЙТА НОВЫХ ДАННЫХ

Page 3: Zolotarev 2 big datatelco_futurebd

3 © Copyright 2012 EMC Corporation. All rights reserved.

В 2000 ГОДУ ВО ВСЁМ МИРЕ СОЗДАЁТСЯ

ДВА ЭКЗАБАЙТОВ

НОВЫХ ДАННЫХ В ДЕНЬ

Sources: “How Much Information?” Peter Lyman and Hal Varian, UC Berkeley,. 2011 IDC Digital Universe Study.

Page 4: Zolotarev 2 big datatelco_futurebd

4 © Copyright 2012 EMC Corporation. All rights reserved.

Тренды - Технологии

Page 5: Zolotarev 2 big datatelco_futurebd

5 © Copyright 2012 EMC Corporation. All rights reserved.

VOLUME

РАЗМЕР

VARIETY

МНОГООБРАЗИЕ

VELOCITY

ДИНАМИКА

Большие Данные: Больше чем данные

Page 6: Zolotarev 2 big datatelco_futurebd

6 © Copyright 2012 EMC Corporation. All rights reserved.

Сравнение архитектур MPP Shared Nothing

Scale-Out архитектура Scale-Up архитектура

… SAN

СХД

Пороги масштаби-руемости

Page 7: Zolotarev 2 big datatelco_futurebd

7 © Copyright 2012 EMC Corporation. All rights reserved.

Архитектура shared-nothing линейно масштабируема

• Т.е. мы можем вдвое увеличить количество узлов, и вдвое же увеличить скорость работы запросов

• Так же мы можем вдвое увеличить емкость системы, просто удвоив количество узлов, при этом оставляя скорость обработки все такой же быстрой…

• Все это благодаря тому что мы масштабируем одновременно вычислительную мощность, объем и скорость вввода-вывода

• При этом система работает на недорогом X86 оборудовании

Segment Segment Segment Segment Segment

МПП архитектура

Page 8: Zolotarev 2 big datatelco_futurebd

8 © Copyright 2012 EMC Corporation. All rights reserved.

Растущее разнообразие данных

УСТРОЙСТВА/ СЕНСОРЫ

Law Enforcement

Media

Banks

Delivery Services

Marketers

Government

Private Investigators

/Lawyers

Individuals Employers

Пользователи/ покупатели данных

Analytic Services

Advertising

Catalog Co-ops

List Brokers

Websites

Information Brokers

Credit Bureaus Media

Archives

Агрегаторы данных

ФИНАНСЫ

ПРАВИ-ТЕЛЬСТВО

ТЕЛЕФОНЫ/ТВ

ИНТЕРНЕТ МЕДИЦИНА

РОЗНИЦА

Page 9: Zolotarev 2 big datatelco_futurebd

9 © Copyright 2012 EMC Corporation. All rights reserved.

Большинство

Эволюция рынка Hadoop

В ПРОЦЕССЕ

Руководитель IT & CIO

Исследователи данных

Бизнес

Коммерческий продукт

Готовое решение

Сквозная защита данных

Fortune 1000

Финансовый сектор

Розница

УЖЕ

Пионеры и учёные

Архитекторы приложений

«Провидцы»

Открытый исходный код / сообщество разработчиков

Сделай сам сервер, приложение и инфраструктуру хранения данных

Оборудование стандартной архитектуры

Web 2.0

Университеты

Биологи

Ранние Пользователи Hadoop

Page 10: Zolotarev 2 big datatelco_futurebd

10 © Copyright 2012 EMC Corporation. All rights reserved.

Данные стали быстрыми

Данные

Корреляции и паттерны

Причинные связи, Предикторы

Реализация

Big Data позволяют находить возможности о которых вы раньше и не подозревали …

Fast Data позволяют реагировать на эти возможности пока они не исчезли....

Page 11: Zolotarev 2 big datatelco_futurebd

11 © Copyright 2012 EMC Corporation. All rights reserved.

Приложения > Данные

ЦЕНТРОМ ПРИТЯЖЕНИЯ

ПРИЛОЖЕНИЯ РАНЬШЕ БЫЛИ

Page 12: Zolotarev 2 big datatelco_futurebd

12 © Copyright 2012 EMC Corporation. All rights reserved.

Притяжение создало выделенную инфраструктуру

Page 13: Zolotarev 2 big datatelco_futurebd

13 © Copyright 2012 EMC Corporation. All rights reserved.

Время перемещения данных на скорости 10GB/сек.

Перемещать данные непрактично

1TB 14 МИНУТ

10 ДНЕЙ

1PB

1GB 01 СЕК.

Page 14: Zolotarev 2 big datatelco_futurebd

14 © Copyright 2012 EMC Corporation. All rights reserved.

ДАННЫЕ ЭТО НОВЫЙ ЦЕНТР ПРИТЯЖЕНИЯ

Данные > Приложения

Page 15: Zolotarev 2 big datatelco_futurebd

15 © Copyright 2012 EMC Corporation. All rights reserved.

Фильтрация

Анонимизация

обогащение

Преобразование

Проверка

Загрузка

Прогноз

Клиентская аналитика

Анализ рисков

Обнаружение мошенничества

Клиентские впечатления

Churn

Бизнес-правила

Сложные события

(CEP)

Триггеры

Актуальные данные

Сохранение

Предикативная

аналитика

Исторические

данные

Внутренние источники

•CRM

• ABS

• Billing •…

Внешние источники

•Facebook

•Twitter

•Weather

•Google •…

Сеть оператора

IT системы

(1) Загрузка в реальном времени

(2) Аналитика реального времени

(3) Действия в реальном времени

Платформа

Аналитические приложения

Универсальная Аналитическая Платформа

Page 16: Zolotarev 2 big datatelco_futurebd

16 © Copyright 2012 EMC Corporation. All rights reserved.

Внешние таблицы

Уровень хранения

В реальном времени

Глубокая аналитика

In-Memory

Загрузка

Пакетная

Неструктурированные данные, архив

По архиву

Аналитика

Универсальная Аналитическая Платформа

В реальном времени

MPP DB

Page 17: Zolotarev 2 big datatelco_futurebd

17 © Copyright 2012 EMC Corporation. All rights reserved.

Рынки – Индустрии

Типовые бизнес задачи

Примеры применения

Page 18: Zolotarev 2 big datatelco_futurebd

18 © Copyright 2012 EMC Corporation. All rights reserved.

Лидеры рынка первыми начинают и выигрывают….

Page 19: Zolotarev 2 big datatelco_futurebd

19 © Copyright 2012 EMC Corporation. All rights reserved.

Типовые бизнес-задачи для решения которых используются Большие Данные

Клиентская аналитика Target marketing\churn\campaign management\loyalty programs etc.

Отчетность и статистика

Противодействие мошенничеству

Оптимизация настроек оборудования

Page 20: Zolotarev 2 big datatelco_futurebd

20 © Copyright 2012 EMC Corporation. All rights reserved.

Телеком: Снижение оттока абонентов Моделирование поведения

абонентов осуществляется на

основе математической теории

и практики анализа социальных

сетей

Накладывая на построенную модель информацию о происходящих изменениях рассчитывается вероятностный прогноз персонального поведения абонентов

Page 21: Zolotarev 2 big datatelco_futurebd

21 © Copyright 2012 EMC Corporation. All rights reserved.

American Express выбирает Hadoop

• Формирование профиля клиента на базе информации о платежах • Повышение лояльности клиентов за программ поощрения • Расширение методов борьбы с мошенничеством

Бизнесс-задачи:

Выбор : После 6 месяцев тестирования открытых и коммерческих релизов

в финал вышли Cloudera и Greenplum MR

Причины:

Поддержка корпоративного уровня Отказоустойчивость платформы Скорость обработки в 2 раза выше

2PB

Page 22: Zolotarev 2 big datatelco_futurebd

22 © Copyright 2012 EMC Corporation. All rights reserved.

Банк «Тинькофф Кредитные Системы»

Проект: Онлайн Банк (Аналитика в реальном времени на растущих объёмах данных)

Производительность задач повысилась в среднем в 11 раз

Экономичное по стоимости линейное масштабирование серверных мощностей

Создание инфраструктуры, работоспособность которой не зависит от типов данных, их объема и темпов роста

Переход к обновлению данных в режиме онлайн в хранилище и аналитических витринах

Полный спектр аналитических решений для работы со сверхбольшими объемами данных, как структурированных, так и неструктурированных

Page 23: Zolotarev 2 big datatelco_futurebd

23 © Copyright 2012 EMC Corporation. All rights reserved.

Медицина:распространение диабета в США

Page 24: Zolotarev 2 big datatelco_futurebd

24 © Copyright 2012 EMC Corporation. All rights reserved.

«Умные электросети»/Smart Metering

Предотвращение веерных отключений электроэнергии

Нужно знать, каким будет потребление электроэнергии завтра… и на следующей неделе… и в следующем месяце.

Page 25: Zolotarev 2 big datatelco_futurebd

25 © Copyright 2012 EMC Corporation. All rights reserved.

«Умные сети»

Сетевое межсоединение

... ...

... ... Мастер - серверы

Планирование запросов и координация

Сегментные серверы

Обработка запросов и хранение данных

Массово-параллельная архитектура без разделения ресурсов

Page 26: Zolotarev 2 big datatelco_futurebd

26 © Copyright 2012 EMC Corporation. All rights reserved.

Анализ данных по энергопотреблению с помощью преобразования Фурье

Данные за 10 недель с 100.000 счётчиков, дискретность 5 секунд.

Page 27: Zolotarev 2 big datatelco_futurebd

27 © Copyright 2012 EMC Corporation. All rights reserved.

Обслуживание на основе контроля состояния Причинно-следственный анализ происшествий

Причинно-следственный анализ происшествий позволяет «перемотать

назад» время и восстановить контекст на момент события

«Перемотка назад» позволяет визуализировать удары молний, явившиеся причиной деградации

оборудования.

Page 28: Zolotarev 2 big datatelco_futurebd

28 © Copyright 2012 EMC Corporation. All rights reserved.

Визуализация c наложением на обслуживаемую

территорию

50 датчиков показывают напряжение

ниже минимального

уровня.

Page 29: Zolotarev 2 big datatelco_futurebd

29 © Copyright 2012 EMC Corporation. All rights reserved.

Спасибо за внимание!

-

Вопросы?

Page 30: Zolotarev 2 big datatelco_futurebd