View
79
Download
0
Category
Preview:
DESCRIPTION
Технологическая платформа IBM для создания аналитических хранилищ данных. Сергей Лихарев (SLikharev@ru.ibm.com) IBM Information Management Software 24 апреля 2009. Information On Demand Полный спектр возможностей по управлению информацией. Оптимизация операций. Анализ финансовых рисков. - PowerPoint PPT Presentation
Citation preview
© 2009 IBM Corporation
Технологическая платформа IBM для создания аналитических хранилищ данных
Сергей Лихарев (SLikharev@ru.ibm.com)IBM Information Management Software
24 апреля 2009
IBM Software Group | Information Management
© 2009 IBM Corporation
Flexible Architecture for Leveraging Existing Investments
Оптимизация бизнеса
IBM InfoSphere WarehouseIBM InfoSphere MDM Server
IBM Information Server
DB2, IMS, InformixIBM Content Manager,
IBM FileNet
Решения IBM
Industry Models, Blueprints & Frameworks
Information On DemandПолный спектр возможностей по управлению информацией
Other Information & Application Sources
IBM Cognos 8 BIIBM Cognos Financial
Performance Management
Прибыльность продуктови клиентов
Оптимизацияопераций Эффективность
маркетинга
Анализ финансовыхрисков
IBM Software Group | Information Management
© 2009 IBM Corporation
DB2 Data Server
Analytical Acceleration
No CopyAnalytics
Advanced Design & Management
Extreme Performance
C-Class D-Class E-Class Linux/Windows
AIX/SUN/HP
Platform
Universal Access
Advanced Capability
Portals & Web Apps Reporting Solutions MS Office / Share-point
On-line Analytical Processing
(OLAP)
Data Mining
Design Studio
Data Compression
Workload Management
Data RetentionRemote Data
Access
Web Services SQL/MDX MDX
Text Analytics
Embedded Data
Movement
IBM InfoSphere Warehouse 9.5
IBM Software Group | Information Management
© 2009 IBM Corporation
IBM InfoSphere Balanced Warehouse – классы решений
1 3 10 30 100
C-ClassBusiness Partner / IBM
D-Class
Modular for flexible Scale out
E-Class
Modular for flexible Scale out
Данные, Tb
Сложность нагрузки
D5100 – высокая доступность
D5000 – цена/качество
E7100 большие объемы и сложные нагрузки
C4000 – IBM/BP - до 4TB C3000 – BP - до 1.5TBC1000 - BP - до 500GB
C1000 C3000 C4000
The IBM Balanced Warehouse может быть разделен на 3 разных класса для разных целевых сегментов.
4
IBM Software Group | Information Management
© 2009 IBM Corporation
DB2 в сердце InfoSphere Warehouse
DB2 предоставляет уникальные, запатентованные и лидирующие в индустрии возможности
–Продвинутый оптимизатор запросов
–Гибкие возможности партицирования данных
–Запатентованная технология Multi-dimensional Clustering (MDC)
–Materialized Query Tables (MQT)
–Возможности автономной работы
–Лидирующие в отрасли технологии компрессии
–Управление рабочей нагрузкой
–…
IBM Software Group | Information Management
© 2009 IBM Corporation
Оптимизатор – автоматическая параллелизация
“Условный параллелизм”
DB2“безусловный параллелизм”
Final Result S
et
Join
Aggregate
Sort
Convergence
Query Starts
Query Optimization
Scan
Оценка стоимости (cost) каждого шага
– No Hints
Параллелизм автоматический
Параллелизм безусловный
Нет операций, выполняемых в один поток
– Scans, Joins, Index access, Aggregation, Sort, Insert, Update, Delete
Визуальное пояснение плана запроса
IBM Software Group | Information Management
© 2009 IBM Corporation
Обработка параллельных запросов
table_a
Catalog
table_b
Part1 Part2 Part3 PartN
Coord
Read A Read B
Join
Sum
Optimize
Getstatistics
A B
Join
Sum
A B
Join
Sum
A B
Join
Sum
A B
Join
Sum
sum=10 sum=12 sum=13 sum=11
connectselect sum(x) from table_a,table_b where a = b
46
sum(…)
Agent Agent Agent Agent
IBM Software Group | Information Management
© 2009 IBM Corporation
Параллельный ввод/вывод
select … from table
FCM network
Table(logical)
Server(s)
Storage
Partition 1
Array 2
hdisk1 hdisk2
Array 1
I/O I/O
Partition 2
Array 2
hdisk1 hdisk2
Array 1
I/O I/O
Partition 3
Array 2
hdisk1 hdisk2
Array 1
I/O I/O
Partition 4
Array 2
hdisk1 hdisk2
Array 1
I/O I/O
DB2 Database
IBM Software Group | Information Management
© 2009 IBM Corporation
DB2 MPP архитектура Shared-Nothing для максимальной масштабируемости
IBM Balanced WarehouseTM
Users network
Private network (FCM)
Storage server
I/O Channels
SMP server SMP server
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
Storage server
I/O Channels
SMP server SMP server
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
DB2 Partition
SMP server
DB2 CoordinatorPartition
DB2 CoordinatorPartition
SMP server
DB2 CoordinatorPartition
DB2 CoordinatorPartition
IBM Software Group | Information Management
© 2009 IBM Corporation
Management switchFCM switchFCM switch
Console
Cluster e1350 – rack 1
Пакеты и масштабируемость – пример D5100 (System x)Аналогичный рост для System p
x3650
2U
2U
2U
DS3400
DS3400
Data BCU
x3650
DS3400
x3650
DS3400
DS3400
x3650
DS3400
DS3400
x3650
DS3400
DS3400…
Admin
Data 1 Data 2 Data n
Cluster e1350 – rack 2
Data BCU
Data BCU
Data BCU
Data BCU
Data BCU
Data BCU
Data BCU
Data BCU
Data BCU
Data BCU
2U
2U
2U
Admin BCU
x3650
DS3400
DS3400
Admin BCU
SAN switchSAN switch
Hot Spare BCU
Hot Spare BCU
SAN switchSAN switch
Management node
IBM Software Group | Information Management
© 2009 IBM Corporation
IBM InfoSphere™ Balanced Warehouse и далееПрозрачная модульная архитектура
Foundation Module
Data Module
User Module
Failover Module
Шаг 1: Начните с одного базового модуля, общий этап для любого Balanced Warehouse (Примечание: минимум 1 Data Module также требуется Balanced Warehouse)
Шаг 2: Если необходимы дополнительные модули для обработки данных, дополнительных пользователей или отказоустойчивости, добавьте узлы из соответствующей группы.
Шаг 3: Когда структурные модули выбраны, при необходимости могут быть добавлены дополнительные модули. Ie: Application Module,
+ +
1 Module 1 to x Modules 0 to y Modules 0 or (x/4 to x/6) Modules
Выбирайте способ создания аналитического приложения. Начните с базового модуля и добавляйте остальные по мере необходимости.
Application Module
Foundation Structure Add-On Modules
Need to extend end to end!
IBM Software Group | Information Management
© 2009 IBM Corporation
IBM InfoSphere Balanced Warehouse и далееНаправление развития – новые дополнительные модули
Information ServerModule
Cognos 8 BI Module Optim Module
Не тратьте время на интеграцию внешних компонентов с хранилищем. С Balanced Warehouse просто выберите из набора преднастроенных модулей для интеграции приложений.
3rd Party Modules
Add-On Modules
Application Module
+ +Information
Server
=
IBM Software Group | Information Management
© 2009 IBM Corporation
No Copy Analytics
Преобразование данных внутри БД в ценную бизнес информацию.
Подход No Copy имеет ряд преимуществ
• Малая задержка при анализе данных• Более гибкая и быстрая реакция на изменения• Сокращение затрат на разработку и управление• Гибкость в добавлении и изменении аналитических приложений
Лучшие результаты в следующих областях
• Выявление и анализ тенденций• Обнаружение мошенничества• Предсказание ухода клиентов• Принятие решений на основании событий
13
IBM Software Group | Information Management
© 2009 IBM Corporation
InfoSphere Warehouse Cubing Services
Преимущества
– Масштабируемый OLAP с малым временем ожидания
– Очень большие измерения на очень больших объемах данных
– Оптимизирован для InfoSphere Warehouse
– Интегрированное проектирование и поддержка
– Универсальный доступ к аналитике
InfoSphere Warehouse
Cubing Services
Universal Access
Office 3rd Party
14
IBM Software Group | Information Management
© 2009 IBM Corporation15
Цель: Панели управления и аналитика в режиме чтения
– Многомерные расчеты, агрегаты и анализ временных рядов
Объемы данных и задержка
– Кубы до 1TB фактических данных
– Ежедневное обновление
Поддержка клиентов
– Cognos (XMLA)
– Excel, Cubeware (ODBO)
– Alphablox
OLAP приложение в InfoSphere Warehouse
Dashboards Mainstream R/O Advanced Financials
Planning / Budgeting
75% of Applications 5-10% 10-15%
Data: Multiple TBsCubes: 1TB of Fact
IBM Software Group | Information Management
© 2009 IBM Corporation
Универсальный доступДоставка информации бизнес пользователям
InfoSphere Warehouse
Universal Cube Access(MDX, ODBO, XMLA)
IBM Cognos 8 BIIBM DataQuant
& DB2 QMFMicrosoft Excel
Порталы, Web приложений, Панели управления, интерактивные отчеты,произвольные отчеты, настольные пакеты
16
IBM Software Group | Information Management
© 2009 IBM Corporation
Методы Data Mining в InfoSphere Warehouse
Обнаружение… поиск шаблонов и взаимосвязей
– Кластеризация
– Как группируются мои данные?
– Ассоциации
– Какова степень родства данных?
– Последовательности
– Какие есть шаблоны последовательностей?
Предсказание… предсказание результатов
– Классификация
– К какой группе отнести данные?
– Регрессия
– Как предсказать значение данных?
Tenure > 2.5 (yrs)
Services < 3
yes
yes
no
no
STAY
STAYLEAVE
Tenure > 2.5 (yrs)
Services < 3
yes
yes
no
no
STAY
STAYLEAVE
+ =
17
IBM Software Group | Information Management
© 2009 IBM Corporation
Анализ неструктурированной информации
Полностью интегрированный инструмент в InfoSphere Warehouse для созданий и внедрений проверки и сопоставления по словарям.
Бизнес преимущества
– Приложение будет работать с информацией, которая была спрятана в тексте
– Повышение отдачи от инвестиций в приложение
Примеры
– Лучшая категоризация продуктов
– Профилирование клиентов
– Анализ дефектов в продукции
Structured Data
Text
InfoSphere Warehouse Framework
Basiclinguisticanalysis
Annotated Structured Data
Расширение структурированной аналитики
(e.g., cubing и data mining) с помощью прежде
недоступной текстовой информации.
18
IBM Software Group | Information Management
© 2009 IBM Corporation
Как работает no-copy analytics?
Нет извлечения данных
Данные всегда в хранилище
Полный (универсальный) доступ ко всей информации
Быстрое обновление при добавлении данных
InfoSphere Warehouse
Text
Unstructured TextAnnotation
Data MiningCubing
Universal Access
Microsoft Office Cubeware and 3rd Party
19
IBM Software Group | Information Management
© 2009 IBM Corporation
InfoSphere Design Studio и Admin Console
DeployDeploy
ManageManage
GovernGovern
DevelopDevelop
DesignDesignIBM
Eclipse WebShared
Разработчик БД
• Coding• Debugging• Teaming• Testing• Integrating
Разработчик приложения
Администратор БД
• Packaging / versioning• Application Merging • Change Management
• Security• Auditing• Logging
Администратор приложения
Архитектор BI
• Data Modeling • OLAP• ELT Modeling• Data Mining
Аналитик
20
IBM Software Group | Information Management
© 2009 IBM Corporation
InfoSphere Warehouse Design Studio ModelingИнтеграция со средствами моделирования данных
Использует и расширяет RDA: – Проектирование и изменение физических схем (schema & storage design, etc)
– Проектирование и создание объектов OLAP
– Проектирование и создание потоков преобразования и добычи данных
Ключевые возможности:
Проектирование или обратное проектирование БД (RDA)
– Просмотр/изменение схемы
– Сравнение/синхронизация объектов DB
– Анализ проекта (зависимости), проверка
– DB2 Storage Modeling: Table Space, Buffer Pool, Partition
Генерация скриптов: модели данных
Анализа влияния: модели данных и потоков данных
21
IBM Software Group | Information Management
© 2009 IBM Corporation
Встроенная технология перемещения и преобразования данныхSQL Warehousing Tool (SQW)
Преимущества
Легкость использования
– Графический построитель преобразований в DB2
– Контроль потоков работ и расписаний
Интеграция
– Автоматизация потоков связанных с анализом текста и Data Mining
– Возможность получать данные не из СУБД DB2
– Возможность интеграции с IBM Information Server /DataStage
Контроль
– Управление версиями
– Мониторинг выполнения заданий
22
IBM Software Group | Information Management
© 2009 IBM Corporation
Оптимизация хранения
– Повышение емкости хранилища
Управление нагрузкой
– Оптимизация потоков запросов и приоритетов
Управление производительностью
– Выявление сценариев использования и тенденций
Сохранение данных
– Создание политик сохранения данных на основе сценариев использования и стратегии управления данными
ОптимизациОптимизация храненияя хранения
Управление Управление производительностьпроизводительность
юю
СохраненСохранение ие
данных данных
Управление Управление нагрузкойнагрузкой
Полный цикл управления жизненным циклом данных
23
IBM Software Group | Information Management
© 2009 IBM Corporation
Мониторинг запросов
Аналитика и отчетность
Системный мониторинг
Managed Query Environment
InfoSphere Warehouse Performance Suite
Performance Optimization
Feature
Performance Monitoring
Feature (Appfluent)
Всестороннее решение для управления BI/ DW Мониторинг запросов, БД и системы Анализ и отчетность Managed Query Environment
В чем польза? Связь ИТ сервисов с бизнес активностью Рационализация инвестиций и оправдание бюджетов Поддержка роста хранилища
24
IBM Software Group | Information Management
© 2009 IBM Corporation
Performance Management Process
Analysis & Alerts
Balanced Warehouse
DB2
USERS PROCESSES
AddressValidation
CustomerScoring
CreateCustomer Record
ExternalScore Service
Interfaces
• Config• CPU• Memory• Storage
DB2• Config• Apps• Buffers• Storage• Locks• SQL
• 100% of SQL• Users/Apps• Tables/Columns• Functions/Operations• Data Stage jobs Metrics• Cost• Execution Metrics
System Snapshots
Database Snapshots
Workload Activity
Analyzer
DB2 DW Performance Management RepositoryDB2 DW Performance
Management Repository
IBM Software Group | Information Management
© 2009 IBM Corporation
DB2 Warehouse Performance Management Suite
Data
Applications
DB Systems. Engine, OSCPU, IO, Buffers, LocksPartitioning, Sorts, Alerts
Метрики движка БД, системы и операционной системы
Полный цикл мониторингаETL PROCESSES
AddressValidation
CustomerScoring
CreateCustomer Record
ExternalScore Service
USERS
Application User IDClient Host IDClient User ID
Application IDDocument Object IDReport ID
Активность пользователей/ETL
Job NamePX_IDDB2NODE
Read operationsWrite operationsLookup operations
Information Server
Query FrequencyRows ReturnedElapsed Time
Functions/Operations UsedTables /Columns Accessed Активность запросов и метрики
производительности; Операции над даннымиQuery Frequency
Rows Returned / IUDElapsed Time
Functions/Operations UsedTables /Columns Accessed
IBM Software Group | Information Management
© 2009 IBM Corporation
Определение использования ресурсов• Определение затрат и плана для ресурсов
на основе метрик использования (по пользователям/группам/подразделениям)
• Измерение по использованным данным, объемам запросов и использованию времени сервера
Определение использования ресурсов• Определение затрат и плана для ресурсов
на основе метрик использования (по пользователям/группам/подразделениям)
• Измерение по использованным данным, объемам запросов и использованию времени сервера
DB2 Warehouse Performance Management Suite
Измерение использования данных• Оценка того, как данные используются
бизнесом – какие наиболее часто и как это влияет на производительность?
• Идентификация неиспользуемых данных для оптимизации инфраструктуры (ETL, Хранение.)
Измерение использования данных• Оценка того, как данные используются
бизнесом – какие наиболее часто и как это влияет на производительность?
• Идентификация неиспользуемых данных для оптимизации инфраструктуры (ETL, Хранение.)
IBM Software Group | Information Management
© 2009 IBM Corporation
DB2 Warehouse Performance Management Suite
Сокращение сложности• Выявление повторяющихся операций над
данными, которые вызывают проблемы• Анализ Joins, Functions, Operations,
Aggregations on Tables and Columns
Сокращение сложности• Выявление повторяющихся операций над
данными, которые вызывают проблемы• Анализ Joins, Functions, Operations,
Aggregations on Tables and Columns
Оценка качества сервиса• Измерение активностей, нарушающих
сервисное соглашение, анализ причин, тенденций и влияния
• Определение кандидатов на оптимизацию и дополнительную настройку
Оценка качества сервиса• Измерение активностей, нарушающих
сервисное соглашение, анализ причин, тенденций и влияния
• Определение кандидатов на оптимизацию и дополнительную настройку
IBM Software Group | Information Management
© 2009 IBM Corporation
DB2 Warehouse Performance Management Suite
Оптимизация системы• Соотношение между потоками запросов и
системными метриками I/O,CPU, Memory. • Анализ влияния и оптимизация системных
параметров для оптимальной производительности
Оптимизация системы• Соотношение между потоками запросов и
системными метриками I/O,CPU, Memory. • Анализ влияния и оптимизация системных
параметров для оптимальной производительности
Выделение ресурсов в соответствии с нагрузкой
• Оценка и подтверждение нагрузки, которая захватывает системные ресурсы
• Использование оптимальных «классов» нагрузки и распределение системных ресурсов для оптимизации производительности
Выделение ресурсов в соответствии с нагрузкой
• Оценка и подтверждение нагрузки, которая захватывает системные ресурсы
• Использование оптимальных «классов» нагрузки и распределение системных ресурсов для оптимизации производительности
IBM Software Group | Information Management
© 2009 IBM Corporation
Позволяет консолидацию приложений в одном хранилище
– Управление нагрузкой на основании пользовательских приоритетов
– Предотвращение неконтролируемогороста количества витрин
– Отсечение «вечных» запросов
Обеспечивает конвергенцию OLTP и BI нагрузок в рамках одной платформы
– Анализ в реальном времени
– Operational Data Stores
Мониторинг в реальном времени
Управление нагрузкой
Позволяет выполнять требования по качеству обслуживания для разных приложений и пользователей
User Database Requests
Workload A
System Database Requests
M:1 N:1
Workload B
Workload C
Default workload
Workload D
Superclass 1
Default User Class
Default System Class
Subclass1.1Work Action Set
Subclass1.2
Subclass1.3
IBM Software Group | Information Management
© 2009 IBM Corporation
Optim Data RetentionЭффективное хранение Off-Line
архивТекущее История/отчетность
Online архив
Production Database
Flat Files
Время
Production Data Warehouse Archive
Database
Tape
SAN / NAS
Files
Dispose
Report Writer
XMLODBC / JDBC
Открытый доступ к текущим и архивным данным
Application
31
IBM Software Group | Information Management
© 2009 IBM Corporation
Синергия семейства InfoSphere с InfoSphere WarehouseСовместно еиспользования схем данных
Source Systems
IBM Information Server
InfoSphere WarehouseInfoSphere Warehouse
Reverse Engineer
Physical Schema
Design Studio
Data Marts
OLAP Cubes
Data Mining and Text Analytics
Database design and optimization
Design StudioИспользование схем из InfoSphere Warehouse для создания и управления аналитических структур данных.
32
Party Account Product Location
SOA Business Services Batch Data Integration Data Stewardship
Master Data Management
IBM Software Group | Information Management
© 2009 IBM Corporation
Взаимодействие компонентов в проекте
Models Cleansing ETL MDMData
WarehouseBI
++ ++ ++ ++ ++
++ ++ ++ ++ ++++ ++
Q: Кто инвестирует в интеграцию? A: Вы
A: IBM
IBM Software Group | Information Management
© 2009 IBM Corporation
Решение на компонентах разных вендоровРиски заставить вместе работать все компоненты лежат на заказчике
++ ++ ++ ++ ++
Models Cleansing ETL MDM Data Warehouse BI
Реализация - медленно– Сложные внедрения, разные продукты и
технологии Планирование затрат – туманно?
– Разные ценовые стратегии, оценки, затраты на интеграцию
Риски интеграции– Вы принимаете на себя всю ответственность за
совместную работу компонентов. Поддержка
– Разные команды, разные проблемы, нет одной точки воздействия
A: Вы
IBM Software Group | Information Management
© 2009 IBM Corporation
Синергия компонентов от IBMМы заботимся о платформе чтобы вы заботились о решении
++ ++ ++ ++ ++++ ++
A: IBM
Models Cleansing ETL MDM Data Warehouse BI
Быстрая реализация!– Получение результатов и отдачи быстрее
Планирование затрат– Один вендор, одна оценка цены, одна точка
переговоров Все преимущества лидеров в своем классе
– Стратегия приобретения лучших компонентов Нет рисков интеграции
– IBM несет ответственность за интеграцию лучших в своем классе компонентов
Внимание не отвлекается на интеграцию систем– IBM отвечает за платформу, вы можете
сфокусироваться на решении
IBM Software Group | Information Management
© 2009 IBM Corporation
Преимущество InfoSphere Warehouse Лидер в каждом элементе цепочки…
Data Quality Data IntegrationETLWarehousing
PIMCDICustomer Hubs
IBM Software Group | Information Management
© 2009 IBM Corporation
Лучшее с обеих сторонЕдиная интегрированная среда из лучших технологий
++ ++ ++ ++ ++
A: Вы
Models Cleansing ETL MDM Data Warehouse BI
++ ++ ++ ++ ++++ ++
A: IBM
Models Cleansing ETL MDM Data Warehouse BI
Преимущества интеграции:
Сокращение риска 53%Повышение вовлечения бизнеса
83%Ускорение получения результата
75%Сокращение потребности в персонале на проекте 90%
Global CEO Study
IBM Software Group | Information Management
© 2009 IBM Corporation 38
Recommended