9
Сергей Сухарев Руководитель BI-практики ЗАО «БиАй Партнер» Использование технологий Big Data в хранилищах данных нового поколения Sergey Sukharev Head of BI-practice in BI Partner JSC Using Big Data technologies in next-generation Data Warehouse

Использование технологий Big Data в хранилищах данных нового поколения

Embed Size (px)

Citation preview

Сергей Сухарев Руководитель BI-практики ЗАО «БиАй Партнер»

Использование технологий Big Data в хранилищах данных нового

поколения

Sergey Sukharev Head of BI-practice in BI Partner JSC

Using Big Data technologies in next-generation Data Warehouse

Сергей Сухарев

• Архитектор BI/DWH

> 20 лет в IT

> 16 лет в DWH

• Руководитель практики BI компании BI Partner

© Сергей Сухарев, BI Partner, www.bipartner.ru

Hadoop – вносит изменения в традиционную парадигму хранилищ данных

Hadoop не заменяет реляционные базы данных или платформы традиционных хранилищ данных, но его лучше соотношение цена\производительность может помочь организациям снизить затраты, сохраняя при этом существующую инфраструктуру отчетности

Hadoop может содержать в себе все виды данных: структурированных, частично структурированных и не структурированных. Одно из важных свойств среды – низкая стоимость хранения и легкость масштабирования

Одним из эффективных способов использования технологий Big Data является применение этой технологии в организации корпоративных хранилищ данных второго поколения.

Озеро Данных (Data Lake) – это не Корпоративное Хранилище Данных!

Озеро Данных Корпоративное

Хранилище Данных

Озеро Данных представляет собой информационную систему, имеющую следующие характеристики: • Система должна хранить большой объем данных и

выполнять над ним работу в параллельном режиме

• Система должна выполнять вычисления над данными, не перемещая данные между составными частями системы

Разница между озером данных и хранилищем данных в том, что в хранилище данных, данные предварительно классифицированы и обработаны в момент загрузки, правила классификации диктуются правилами анализа данных т.е. тем как бизнес пользователи будут данные анализировать.

Место КХД в архитектуре BI системы

Oracle Information Management and Big Data Reference Architecture

Корпоративное Хранилище Данных V2.0

ОСНОВНЫЕ ЦЕЛИ : – Гибкость – Производительность – Отказоустойчивость – Масштабируемость – Легкость в поддержке и развитии – Легкость аудита данных

Трансформация данных, согласно бизнес-правилам перемещается ближе к бизнесу, это улучшает время реакции, снижает стоимость и минимизирует последствия изменений в корпоративном хранилище данных (EDW)

ENTERPRISE DATA WAREHOUSE Продажи

Финансы

Контракты

SOA

STAGING

Неструктурированные данные

EDW (DATA VAULT)

Star Schemas

Error Mart

Report Collection

REAL TIME

BATCH

Сложные бизнес-правила и зависимости

Data Vault V2.0

Data Vault – это детальная, логически связанная, структура, хранящая полную историю изменения данных в источниках. Закрывает одну или несколько бизнес-областей предприятия. Гибридный подход, в котором применяется 3НФ и схема «звезда». Преимущество при переходе с ХД традиционной структуры (ER, Dimensional Modeling) на ХД, организованное по схеме Data Vault: • Гибкость. Быстрое внесение массовых изменений в

структуру ХД без переделки предыдущей структуры.

• Масштабируемость. Нет ограничений по увеличению размеров и масштабов ХД

• Производительность. Позволяет снижать стоимость и сложность процессов загрузки данных

Модель данных подходит для реализации на HIVE: • Данные не удаляются и не обновляются • Используется для хранения гибридных данных

(NoSQL + Relational)

Преимущество применения технологий Big Data для построения КХД

• Непомерно высокая стоимость масштабирования традиционных КХД приводит к экономически неоправданным затратам, и даже если это масштабирование достигнуто, производительность традиционных систем не позволяет производить обработку большого объема данных.

• Применение технологий Big Data многократно снижает стоимость аппаратных средств для организации КХД, по сравнению с традиционными СУБД на аналогичных объемах данных.

Практический опыт

• Завершен коммерческий проект по созданию КХД по методологии Data Vault

• Развернут тестовый кластер Hadoop из 6 узлов в ЦОД «Трастинфо»

• Проведены эксперименты по использованию бизнес-аналитики (SAP BusinessObjects) на данных Hadoop

ДОБРО ПОЖАЛОВАТЬ В ТЕСТОВУЮ СРЕДУ!!!

Сергей Сухарев. Руководитель BI-практики. [email protected]