Upload
svmgroup
View
219
Download
0
Tags:
Embed Size (px)
Citation preview
1 © Copyright 2012 EMC Corporation. All rights reserved.
Богатство данных: рынки, тренды и технологии BIG
DATA в различных индустриях
Cергей Золотарёв
2 © Copyright 2012 EMC Corporation. All rights reserved.
Sources: “How Much Information?” Peter Lyman and Hal Varian, UC Berkeley,. 2011 IDC Digital Universe Study.
В 2000 ГОДУ ВО ВСЁМ МИРЕ СОЗДАЁТСЯ
ДВА ЭКЗАБАЙТА НОВЫХ ДАННЫХ
3 © Copyright 2012 EMC Corporation. All rights reserved.
В 2000 ГОДУ ВО ВСЁМ МИРЕ СОЗДАЁТСЯ
ДВА ЭКЗАБАЙТОВ
НОВЫХ ДАННЫХ В ДЕНЬ
Sources: “How Much Information?” Peter Lyman and Hal Varian, UC Berkeley,. 2011 IDC Digital Universe Study.
4 © Copyright 2012 EMC Corporation. All rights reserved.
Тренды - Технологии
5 © Copyright 2012 EMC Corporation. All rights reserved.
VOLUME
РАЗМЕР
VARIETY
МНОГООБРАЗИЕ
VELOCITY
ДИНАМИКА
Большие Данные: Больше чем данные
6 © Copyright 2012 EMC Corporation. All rights reserved.
Сравнение архитектур MPP Shared Nothing
Scale-Out архитектура Scale-Up архитектура
… SAN
СХД
Пороги масштаби-руемости
7 © Copyright 2012 EMC Corporation. All rights reserved.
Архитектура shared-nothing линейно масштабируема
• Т.е. мы можем вдвое увеличить количество узлов, и вдвое же увеличить скорость работы запросов
• Так же мы можем вдвое увеличить емкость системы, просто удвоив количество узлов, при этом оставляя скорость обработки все такой же быстрой…
• Все это благодаря тому что мы масштабируем одновременно вычислительную мощность, объем и скорость вввода-вывода
• При этом система работает на недорогом X86 оборудовании
Segment Segment Segment Segment Segment
…
МПП архитектура
8 © Copyright 2012 EMC Corporation. All rights reserved.
Растущее разнообразие данных
УСТРОЙСТВА/ СЕНСОРЫ
Law Enforcement
Media
Banks
Delivery Services
Marketers
Government
Private Investigators
/Lawyers
Individuals Employers
Пользователи/ покупатели данных
Analytic Services
Advertising
Catalog Co-ops
List Brokers
Websites
Information Brokers
Credit Bureaus Media
Archives
Агрегаторы данных
ФИНАНСЫ
ПРАВИ-ТЕЛЬСТВО
ТЕЛЕФОНЫ/ТВ
ИНТЕРНЕТ МЕДИЦИНА
РОЗНИЦА
9 © Copyright 2012 EMC Corporation. All rights reserved.
Большинство
Эволюция рынка Hadoop
В ПРОЦЕССЕ
Руководитель IT & CIO
Исследователи данных
Бизнес
Коммерческий продукт
Готовое решение
Сквозная защита данных
Fortune 1000
Финансовый сектор
Розница
УЖЕ
Пионеры и учёные
Архитекторы приложений
«Провидцы»
Открытый исходный код / сообщество разработчиков
Сделай сам сервер, приложение и инфраструктуру хранения данных
Оборудование стандартной архитектуры
Web 2.0
Университеты
Биологи
Ранние Пользователи Hadoop
10 © Copyright 2012 EMC Corporation. All rights reserved.
Данные стали быстрыми
Данные
Корреляции и паттерны
Причинные связи, Предикторы
Реализация
Big Data позволяют находить возможности о которых вы раньше и не подозревали …
Fast Data позволяют реагировать на эти возможности пока они не исчезли....
11 © Copyright 2012 EMC Corporation. All rights reserved.
Приложения > Данные
ЦЕНТРОМ ПРИТЯЖЕНИЯ
ПРИЛОЖЕНИЯ РАНЬШЕ БЫЛИ
12 © Copyright 2012 EMC Corporation. All rights reserved.
Притяжение создало выделенную инфраструктуру
13 © Copyright 2012 EMC Corporation. All rights reserved.
Время перемещения данных на скорости 10GB/сек.
Перемещать данные непрактично
1TB 14 МИНУТ
10 ДНЕЙ
1PB
1GB 01 СЕК.
14 © Copyright 2012 EMC Corporation. All rights reserved.
ДАННЫЕ ЭТО НОВЫЙ ЦЕНТР ПРИТЯЖЕНИЯ
Данные > Приложения
15 © Copyright 2012 EMC Corporation. All rights reserved.
Фильтрация
Анонимизация
обогащение
Преобразование
Проверка
Загрузка
Прогноз
Клиентская аналитика
Анализ рисков
Обнаружение мошенничества
Клиентские впечатления
Churn
Бизнес-правила
Сложные события
(CEP)
Триггеры
Актуальные данные
Сохранение
Предикативная
аналитика
Исторические
данные
Внутренние источники
•CRM
• ABS
• Billing •…
Внешние источники
•Weather
•Google •…
Сеть оператора
IT системы
(1) Загрузка в реальном времени
(2) Аналитика реального времени
(3) Действия в реальном времени
Платформа
Аналитические приложения
Универсальная Аналитическая Платформа
16 © Copyright 2012 EMC Corporation. All rights reserved.
Внешние таблицы
Уровень хранения
В реальном времени
Глубокая аналитика
In-Memory
Загрузка
Пакетная
Неструктурированные данные, архив
По архиву
Аналитика
Универсальная Аналитическая Платформа
В реальном времени
MPP DB
17 © Copyright 2012 EMC Corporation. All rights reserved.
Рынки – Индустрии
Типовые бизнес задачи
Примеры применения
18 © Copyright 2012 EMC Corporation. All rights reserved.
Лидеры рынка первыми начинают и выигрывают….
19 © Copyright 2012 EMC Corporation. All rights reserved.
Типовые бизнес-задачи для решения которых используются Большие Данные
Клиентская аналитика Target marketing\churn\campaign management\loyalty programs etc.
Отчетность и статистика
Противодействие мошенничеству
Оптимизация настроек оборудования
20 © Copyright 2012 EMC Corporation. All rights reserved.
Телеком: Снижение оттока абонентов Моделирование поведения
абонентов осуществляется на
основе математической теории
и практики анализа социальных
сетей
Накладывая на построенную модель информацию о происходящих изменениях рассчитывается вероятностный прогноз персонального поведения абонентов
21 © Copyright 2012 EMC Corporation. All rights reserved.
American Express выбирает Hadoop
• Формирование профиля клиента на базе информации о платежах • Повышение лояльности клиентов за программ поощрения • Расширение методов борьбы с мошенничеством
Бизнесс-задачи:
Выбор : После 6 месяцев тестирования открытых и коммерческих релизов
в финал вышли Cloudera и Greenplum MR
Причины:
Поддержка корпоративного уровня Отказоустойчивость платформы Скорость обработки в 2 раза выше
2PB
22 © Copyright 2012 EMC Corporation. All rights reserved.
Банк «Тинькофф Кредитные Системы»
Проект: Онлайн Банк (Аналитика в реальном времени на растущих объёмах данных)
Производительность задач повысилась в среднем в 11 раз
Экономичное по стоимости линейное масштабирование серверных мощностей
Создание инфраструктуры, работоспособность которой не зависит от типов данных, их объема и темпов роста
Переход к обновлению данных в режиме онлайн в хранилище и аналитических витринах
Полный спектр аналитических решений для работы со сверхбольшими объемами данных, как структурированных, так и неструктурированных
23 © Copyright 2012 EMC Corporation. All rights reserved.
Медицина:распространение диабета в США
24 © Copyright 2012 EMC Corporation. All rights reserved.
«Умные электросети»/Smart Metering
Предотвращение веерных отключений электроэнергии
Нужно знать, каким будет потребление электроэнергии завтра… и на следующей неделе… и в следующем месяце.
25 © Copyright 2012 EMC Corporation. All rights reserved.
«Умные сети»
Сетевое межсоединение
... ...
... ... Мастер - серверы
Планирование запросов и координация
Сегментные серверы
Обработка запросов и хранение данных
Массово-параллельная архитектура без разделения ресурсов
26 © Copyright 2012 EMC Corporation. All rights reserved.
Анализ данных по энергопотреблению с помощью преобразования Фурье
Данные за 10 недель с 100.000 счётчиков, дискретность 5 секунд.
27 © Copyright 2012 EMC Corporation. All rights reserved.
Обслуживание на основе контроля состояния Причинно-следственный анализ происшествий
Причинно-следственный анализ происшествий позволяет «перемотать
назад» время и восстановить контекст на момент события
«Перемотка назад» позволяет визуализировать удары молний, явившиеся причиной деградации
оборудования.
28 © Copyright 2012 EMC Corporation. All rights reserved.
Визуализация c наложением на обслуживаемую
территорию
50 датчиков показывают напряжение
ниже минимального
уровня.
29 © Copyright 2012 EMC Corporation. All rights reserved.
Спасибо за внимание!
-
Вопросы?