Upload
sergey-sukharev
View
70
Download
8
Embed Size (px)
Citation preview
Сергей Сухарев Руководитель BI-практики ЗАО «БиАй Партнер»
Использование технологий Big Data в хранилищах данных нового
поколения
Sergey Sukharev Head of BI-practice in BI Partner JSC
Using Big Data technologies in next-generation Data Warehouse
Сергей Сухарев
• Архитектор BI/DWH
> 20 лет в IT
> 16 лет в DWH
• Руководитель практики BI компании BI Partner
© Сергей Сухарев, BI Partner, www.bipartner.ru
Hadoop – вносит изменения в традиционную парадигму хранилищ данных
Hadoop не заменяет реляционные базы данных или платформы традиционных хранилищ данных, но его лучше соотношение цена\производительность может помочь организациям снизить затраты, сохраняя при этом существующую инфраструктуру отчетности
Hadoop может содержать в себе все виды данных: структурированных, частично структурированных и не структурированных. Одно из важных свойств среды – низкая стоимость хранения и легкость масштабирования
Одним из эффективных способов использования технологий Big Data является применение этой технологии в организации корпоративных хранилищ данных второго поколения.
Озеро Данных (Data Lake) – это не Корпоративное Хранилище Данных!
Озеро Данных Корпоративное
Хранилище Данных
Озеро Данных представляет собой информационную систему, имеющую следующие характеристики: • Система должна хранить большой объем данных и
выполнять над ним работу в параллельном режиме
• Система должна выполнять вычисления над данными, не перемещая данные между составными частями системы
Разница между озером данных и хранилищем данных в том, что в хранилище данных, данные предварительно классифицированы и обработаны в момент загрузки, правила классификации диктуются правилами анализа данных т.е. тем как бизнес пользователи будут данные анализировать.
Место КХД в архитектуре BI системы
Oracle Information Management and Big Data Reference Architecture
Корпоративное Хранилище Данных V2.0
ОСНОВНЫЕ ЦЕЛИ : – Гибкость – Производительность – Отказоустойчивость – Масштабируемость – Легкость в поддержке и развитии – Легкость аудита данных
Трансформация данных, согласно бизнес-правилам перемещается ближе к бизнесу, это улучшает время реакции, снижает стоимость и минимизирует последствия изменений в корпоративном хранилище данных (EDW)
ENTERPRISE DATA WAREHOUSE Продажи
Финансы
Контракты
SOA
STAGING
Неструктурированные данные
EDW (DATA VAULT)
Star Schemas
Error Mart
Report Collection
REAL TIME
BATCH
Сложные бизнес-правила и зависимости
Data Vault V2.0
Data Vault – это детальная, логически связанная, структура, хранящая полную историю изменения данных в источниках. Закрывает одну или несколько бизнес-областей предприятия. Гибридный подход, в котором применяется 3НФ и схема «звезда». Преимущество при переходе с ХД традиционной структуры (ER, Dimensional Modeling) на ХД, организованное по схеме Data Vault: • Гибкость. Быстрое внесение массовых изменений в
структуру ХД без переделки предыдущей структуры.
• Масштабируемость. Нет ограничений по увеличению размеров и масштабов ХД
• Производительность. Позволяет снижать стоимость и сложность процессов загрузки данных
Модель данных подходит для реализации на HIVE: • Данные не удаляются и не обновляются • Используется для хранения гибридных данных
(NoSQL + Relational)
Преимущество применения технологий Big Data для построения КХД
• Непомерно высокая стоимость масштабирования традиционных КХД приводит к экономически неоправданным затратам, и даже если это масштабирование достигнуто, производительность традиционных систем не позволяет производить обработку большого объема данных.
• Применение технологий Big Data многократно снижает стоимость аппаратных средств для организации КХД, по сравнению с традиционными СУБД на аналогичных объемах данных.
Практический опыт
• Завершен коммерческий проект по созданию КХД по методологии Data Vault
• Развернут тестовый кластер Hadoop из 6 узлов в ЦОД «Трастинфо»
• Проведены эксперименты по использованию бизнес-аналитики (SAP BusinessObjects) на данных Hadoop
ДОБРО ПОЖАЛОВАТЬ В ТЕСТОВУЮ СРЕДУ!!!
Сергей Сухарев. Руководитель BI-практики. [email protected]