1© Корпорация EMC, 2012 г. Все права защищены.
Построение процесса управления операционными ИТ рисками
Click icon to add picture
Иван ЕрмаковEMC ConsultingRussia & CIS
21 ноябряМинск
2© Корпорация EMC, 2012 г. Все права защищены.
Содержание
• Роль ИТ в современной финансовой организации
• Методология управление ИТ рисками на примере реализованного проекта
• Достигнутые результаты
3© Корпорация EMC, 2012 г. Все права защищены.
Роль ИТ в современной финансовой организации
• « … банк это ит- провайдер с банковской лицензией …»
• Тенденции • Автоматизация бизнес-процессов• рост значимости электронных каналов
взаимодействия с клиентами • быстрое развитие сервисов
самообслуживания • Развитие Интернет – банков
4© Корпорация EMC, 2012 г. Все права защищены.
Риск профиль банка
• Риск профиль банка – Операционные риски – 15 – 30%.
• Эксперты: 30 – 70% операционных рисков приходится на ИТ риски.
• ИТ риски должны рассматриваться наравне с остальными видами риска.
• Управление ИТ рисками позволяет достичь значимых для Бизнеса результатов (рейтинг, страховые тарифы, резервирование средств)
5© Корпорация EMC, 2012 г. Все права защищены.
Риски, связанные с ИТ
• Операционные• Выполнение требований регуляторов• Финансовые
– Инвестиции в ИТ
6© Корпорация EMC, 2012 г. Все права защищены.
BIA & IT RA
Business Impact Analysis– Понимание влияния и стоимости простоя
информационных систем– Параметры восстановления – директивный срок и
допустимый диапазон потери данных
Анализ ИТ рисков– Сопоставление требований к бизнес-приложениям и
возможностей ИТ инфраструктуры
Выстроили процесс постоянно контроля ИТ рисков с участием эксперта ЕМС
7© Корпорация EMC, 2012 г. Все права защищены.
Стоимость простоя – На примере сбоя 13 марта 2012 (9:38–10:00)
Общие_потери:
Потери_доходов + Потери_от_снижения_производительности_труда + недополученные_будущие_доходы =
598 000 руб. + 350 000 руб. + 1 1 200 000 руб. = 2 193 000 руб.
Minutes DaysTime
$ Im
pac
t
8© Корпорация EMC, 2012 г. Все права защищены.
Анализ технических рисков в ИТ Обследование инфраструктуры на соответствие требованиям BCDR) • На основе BIA предложить требования к архитектуре технических решений в зависимости от класса критичности.
• Провести анализ соответствия текущих архитектур эталонным и выявить расхождения.
Class Application /
system name
Application protection Online data protection Offline data protection
(backup)
People backup Processes &
procedures
DC & Infrastructure Vendor support
arrangementsMC Основная БД Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
CS
MC Тарификатор
#1
Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
PBS
MC Тарификатор
#2
Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
PBS
Class Application /
system name
Application protection Online data protection Offline data protection
(backup)
People backup Processes &
procedures
DC & Infrastructure Vendor support
arrangementsMC Основная БД Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
CS
MC Тарификатор
#1
Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
PBS
MC Тарификатор
#2
Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
PBS
9© Корпорация EMC, 2012 г. Все права защищены.
Методология
• Disaster avoidance – Защита оперативных данных и приложений
• Понимание архитектуры ИТ сервисов
– Контроль изменение и управление проектами– Взаимоотношение с вендорами и
провайдерами услуг– Процессу управления ИТ– ЦОД
• Risk response– Планы аварийного восстановления – СРК
10© Корпорация EMC, 2012 г. Все права защищены.
Class Application /
system name
Application protection Online data protection Offline data protection
(backup)
People backup Processes &
procedures
DC & Infrastructure Vendor support
arrangementsMC Основная БД Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
CS
MC Тарификатор #1
Server hw description Online data protection descirption
Data backup practice & arrangement desciprion
Peolple arrangement description
Process arrangement & culture description
DC arrangement description
PBS
MC Тарификатор #2
Server hw description Online data protection descirption
Data backup practice & arrangement desciprion
Peolple arrangement description
Process arrangement & culture description
DC arrangement description
PBS
BC Тарификатор
#3
Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
PBS
BO БД системы HelpDesk
Server hw description Online data protection descirption
Data backup practice & arrangement desciprion
Peolple arrangement description
Process arrangement & culture description
DC arrangement description
None
BO HelpDesk Apps Server hw description Online data protection descirption
Data backup practice & arrangement desciprion
Peolple arrangement description
Process arrangement & culture description
DC arrangement description
нет
Class Application /
system name
Application protection Online data protection Offline data protection
(backup)
People backup Processes &
procedures
DC & Infrastructure Vendor support
arrangementsMC Основная БД Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
CS
MC Тарификатор #1
Server hw description Online data protection descirption
Data backup practice & arrangement desciprion
Peolple arrangement description
Process arrangement & culture description
DC arrangement description
PBS
MC Тарификатор #2
Server hw description Online data protection descirption
Data backup practice & arrangement desciprion
Peolple arrangement description
Process arrangement & culture description
DC arrangement description
PBS
BC Тарификатор
#3
Server hw description Online data protection
descirption
Data backup practice &
arrangement desciprion
Peolple arrangement
description
Process arrangement &
culture description
DC arrangement
description
PBS
BO БД системы HelpDesk
Server hw description Online data protection descirption
Data backup practice & arrangement desciprion
Peolple arrangement description
Process arrangement & culture description
DC arrangement description
None
BO HelpDesk Apps Server hw description Online data protection descirption
Data backup practice & arrangement desciprion
Peolple arrangement description
Process arrangement & culture description
DC arrangement description
нет
FANS
PROC
1
PROC
2
POWERSUPPLY
2POWERSUPPLY
1OVERTEMP
POWERCAP
1 2 3 4
9
8
7
6
5
4
3
2
1 1
2
3
4
5
6
7
8
9
ONLINESPARE
MIRROR
UID
2
1
4
3
6
5
8
76 5 4 3 2 14 3 2 16 5
PROC
1
PROC
2
POWERSUPPLY
2POWERSUPPLY
1OVERTEMP
POWERCAP
1 2 3 4
9
8
7
6
5
4
3
2
1 1
2
3
4
5
6
7
8
9
AMPSTATUS
FANS
DIMMS
HPProLiant
DL380 G7
MacroSrv-2
LicenseKey
Пример анализа на наличие единичных точек отказа (SPOF)
hp StorageWorksenterprise systems library
hp StorageWorksenterprise systems library
SAN
HP StorageWorks XP24000 Disk Array
ALARM
RE ADY
M ES S AG E
PUSH
Clustered application servers
FibreChannel switches
FibreChannel switches
C abinet N um ber
H K P
48V
G S P
Attention
Remote
hp Integrity Superdome
C abinet N um ber
H K P
48V
G S P
Attention
Remote
hp Integrity Superdome
C abinet N um ber
H K P
48V
G S P
Attention
Remote
hp Integrity Superdome
PUSH
READY
ALARM
MESSAGE
hp S t o r a g e W o r k s x p 1 2 0 0 0 d i s k a r r a y
FANSPROC
1
PROC
2
POWERSUPPL Y
2POWERSUPPL Y
1 OVERTEMP
POWERCAP
1 2 3 4
9
8
7
6
5
4
3
2
1 1
2
3
4
5
6
7
8
9
ONLINESPARE
MIRROR
UID
2
1
4
3
6
5
8
76 5 4 3 2 14 3 2 16 5
PRO C
1
PRO C
2
POWERSUPPLY
2POWERSUPPLY
1 OVERTEMP
POWERCAP
1 2 3 4
9
8
7
6
5
4
3
2
1 1
2
3
4
5
6
7
8
9
AMPSTATUS
FANS
DIMMS
HPProLiant
DL380 G7
FANSPROC
1
PROC
2
POWERSUPPL Y
2POWERSUPPL Y
1 OVERTEMP
POWERCAP
1 2 3 4
9
8
7
6
5
4
3
2
1 1
2
3
4
5
6
7
8
9
ONLINESPARE
MIRROR
UID
2
1
4
3
6
5
8
76 5 4 3 2 14 3 2 16 5
PRO C
1
PRO C
2
POWERSUPPLY
2POWERSUPPLY
1 OVERTEMP
POWERCAP
1 2 3 4
9
8
7
6
5
4
3
2
1 1
2
3
4
5
6
7
8
9
AMPSTATUS
FANS
DIMMS
HPProLiant
DL380 G7
FANSPROC
1
PROC
2
POWERSUPPL Y
2POWERSUPPL Y
1 OVERTEMP
POWERCAP
1 2 3 4
9
8
7
6
5
4
3
2
1 1
2
3
4
5
6
7
8
9
ONLINESPARE
MIRROR
UID
2
1
4
3
6
5
8
76 5 4 3 2 14 3 2 16 5
PRO C
1
PRO C
2
POWERSUPPLY
2POWERSUPPLY
1 OVERTEMP
POWERCAP
1 2 3 4
9
8
7
6
5
4
3
2
1 1
2
3
4
5
6
7
8
9
AMPSTATUS
FANS
DIMMS
HPProLiant
DL380 G7
FS Node 01 FS Node 02
MacroSrv-2
FibreChannel switches
12 links
32 links
6 links
8 links8 links
16 links
6 links
SD0 SD1
SD2 XP24000
XP12000
APP-01APP-02APP-03
BIS-01 BIS-02
LicenseKey
Tape backup Tape backup
Data Center 02 Data Center 01
ContinuousAccess
Data Center 03
DB Cluster
11© Корпорация EMC, 2012 г. Все права защищены.
Пример целевой архитектуры
12© Корпорация EMC, 2012 г. Все права защищены.
Пример целевой архитектуры
Primary server
Primary VOLsOn-line application
data
Snapshots
Business Copy
LAN
Disk volumesFast recovery
copy
LAN
COMPAQStorageWorks MSL 5026
COMPAQStorageWorks MSL 5026
Direct Attach
COMPAQStorageWorks MSL 5026
Data backup srv #1 Data backup srv #2
Primary DC
RemoteDC
Daily data vaulting:Two identical copies on removable media
Copy #1
Copy #2
Copy #3
Copy 4 & 4'
13© Корпорация EMC, 2012 г. Все права защищены.
Выделенный ИТ Архитектор
Работа над планомерном снижением рисков незапланированного простоя в инфраструктуре (disaster avoidance)
Обладает экспертизой в смежных областях, включая области сопряжения технологий различных вендоров
Экспертиза проектов (снижение проектных рисков)
Взаимодействие с архитекторами Банка
14© Корпорация EMC, 2012 г. Все права защищены.
• Функции, задействованные в сквозном бизнес-процессе.
• Здесь «функция» = «информационная система».
5
4
3
2
1
.
-
Core Banking: МБР, Отчетность, РКО, …
Securities: CoreДепозитарий,
Дов. Упр.Retail Loans
Securities: Front-, Back- Office
Core: Гл. Книга, Шлюз ВТС, …
Основная БДИБС
15© Корпорация EMC, 2012 г. Все права защищены.
Разработка карт первичного реагирования и диагностики – резюме
• Карты особенно удобны для использования при аварийном восстановлении:
– Простой и понятный формат;– Наглядные диаграммы для типовых
действий;– Примеры системных команд.
• Гарант успешного реагирования на сбои.
1.1.1. Отказ процессорной ячейки (Cell)
Система Сервер SuperDome SD01 и SD02
Событие Отказ ячейки (cell)
Способ обнаружения Временное отсутствие связи с сервером; Временное отсутствие возможности
интерактивного взаимодействия (telnet, ssh, MP>CO);
Временное прекращение работы приложения; Сообщения от системы наблюдения за состоянием
комплекса; Сообщения от пользователей системы; Индикатор “Attention” на двери центрального
шкафа; Индикатор “Cell Power” на Cell power board; Индикатор “HB” (Heart Beat) на Cell power board; Вывод команды mstm Вывод команды cfg2html Вывод команды ioscan MP>VFP>Partition# MP>SL>SEL MP>CM>PS>B MP>CM>PS>C>Cell# EFI>SHELL>INFO CELL Автоматическое открытие заявки через RSP.
Оценка влияния на бизнес-приложение
Неисправность уровня 1.
При отказе процессорной ячейки (cell) происходит перегрузка раздела.
Влияние на другие компоненты данной системы
После перезагрузки, раздел продолжает функционировать с уменьшенным количеством процессорных ячеек (cells).
Способ устранения Ремонт процессорной ячейки (cell).
Требуется останов сервиса для устранения проблемы?
Нет.
Исполнитель восстановительных работ
HP, партнёры.
Контроль успешности восстановительных работ
Проверка состояния селлов через MP CLI, команды MP>CM>PS>B и MP>CM>PS>C>Cell#
Результат команды EFI CLI, efi>shell>info cell с нужным количеством ячеек (cells).
Результат команды parstatus с нужным количеством ячеек (cells) в разделе
1.1.1. Отказ процессорной ячейки (Cell)
Система Сервер SuperDome SD01 и SD02
Событие Отказ ячейки (cell)
Способ обнаружения Временное отсутствие связи с сервером; Временное отсутствие возможности
интерактивного взаимодействия (telnet, ssh, MP>CO);
Временное прекращение работы приложения; Сообщения от системы наблюдения за состоянием
комплекса; Сообщения от пользователей системы; Индикатор “Attention” на двери центрального
шкафа; Индикатор “Cell Power” на Cell power board; Индикатор “HB” (Heart Beat) на Cell power board; Вывод команды mstm Вывод команды cfg2html Вывод команды ioscan MP>VFP>Partition# MP>SL>SEL MP>CM>PS>B MP>CM>PS>C>Cell# EFI>SHELL>INFO CELL Автоматическое открытие заявки через RSP.
Оценка влияния на бизнес-приложение
Неисправность уровня 1.
При отказе процессорной ячейки (cell) происходит перегрузка раздела.
Влияние на другие компоненты данной системы
После перезагрузки, раздел продолжает функционировать с уменьшенным количеством процессорных ячеек (cells).
Способ устранения Ремонт процессорной ячейки (cell).
Требуется останов сервиса для устранения проблемы?
Нет.
Исполнитель восстановительных работ
HP, партнёры.
Контроль успешности восстановительных работ
Проверка состояния селлов через MP CLI, команды MP>CM>PS>B и MP>CM>PS>C>Cell#
Результат команды EFI CLI, efi>shell>info cell с нужным количеством ячеек (cells).
Результат команды parstatus с нужным количеством ячеек (cells) в разделе
1.1.1. Отказ платы PCI
Система Сервер SuperDome SD01 и SD02
Событие Отказ платы PCI.
Способ обнаружения Индикатор “Attention” на двери центрального шкафа;
Индикатор на плате PCI; Вывод команды mstm Вывод команды cfg2html Вывод команды ioscan MP>SL>SEL HP-UX>olrad –q HP-UX>ioscan –fn EFI>SHELL>reconnect -r EFI>SHELL>devices EFI>SHELL>io Автоматическое открытие заявки через RSP.
Оценка влияния на бизнес-приложение
Неисправность уровня 3.
Отказ платы PCI ведет к снижению производительности подключения сервера к одной из сетей, также возможна потеря путей до загрузочных дисков.
Влияние на другие компоненты данной системы
При отказе платы PCI устройства, подключенные только через неисправную плату, становятся недоступны.
Способ устранения Замена карты PCI.
Требуется останов сервиса для устранения проблемы?
Нет.
Исполнитель восстановительных работ
HP, партнеры.
Контроль успешности восстановительных работ
HP-UX>ioscan –fn HP-UX>olrad –q
Сбор данных для анализа
Сбор log-ов с MP, команда MP>SL>FPL>k>d. Отсылка log-ов в HP.
Регистрация события Регистрация произошедшего события во внутренних системах учета и контроля Заказчика.
1.1.1. Отказ платы PCI
Система Сервер SuperDome SD01 и SD02
Событие Отказ платы PCI.
Способ обнаружения Индикатор “Attention” на двери центрального шкафа;
Индикатор на плате PCI; Вывод команды mstm Вывод команды cfg2html Вывод команды ioscan MP>SL>SEL HP-UX>olrad –q HP-UX>ioscan –fn EFI>SHELL>reconnect -r EFI>SHELL>devices EFI>SHELL>io Автоматическое открытие заявки через RSP.
Оценка влияния на бизнес-приложение
Неисправность уровня 3.
Отказ платы PCI ведет к снижению производительности подключения сервера к одной из сетей, также возможна потеря путей до загрузочных дисков.
Влияние на другие компоненты данной системы
При отказе платы PCI устройства, подключенные только через неисправную плату, становятся недоступны.
Способ устранения Замена карты PCI.
Требуется останов сервиса для устранения проблемы?
Нет.
Исполнитель восстановительных работ
HP, партнеры.
Контроль успешности восстановительных работ
HP-UX>ioscan –fn HP-UX>olrad –q
Сбор данных для анализа
Сбор log-ов с MP, команда MP>SL>FPL>k>d. Отсылка log-ов в HP.
Регистрация события Регистрация произошедшего события во внутренних системах учета и контроля Заказчика.
Источник?
Сервис доступен?
Монитор доступности БИС / сообщения пользователей
1
Нет
2
Да
Отказ критический для сервиса?
Системы автоматизированного мониторинга оборудования
Да
Снижениенадежности?
Нет
3
Да
4
Нет
Входящее сообщение
Источник?
Сервис доступен?
Монитор доступности БИС / сообщения пользователей
1
Нет
2
Да
Отказ критический для сервиса?
Системы автоматизированного мониторинга оборудования
Да
Снижениенадежности?
Нет
3
Да
4
Нет
Входящее сообщение
16© Корпорация EMC, 2012 г. Все права защищены.
Эффект от программы
Повышение производительность труда– ИТ подразделение – Функциональные подразделения
Снижение аварийности (на 48%)
Повышение доступности
Снижение проектных рисков
Успешное прохождение Банком аудита системы BCM
17© Корпорация EMC, 2012 г. Все права защищены.
Портфель услуг ЕМС
BIA, CoD
Анализ ИТ рисков
BCDR и DRP
Резидентные сервисы