Upload
it-share
View
350
Download
1
Embed Size (px)
DESCRIPTION
IT_Share. Highload 2.0
Citation preview
Online backup: технологии хранения больших объемов данных
Белешев РоманIASO Backup
Online backup сервис (SaaS) Сотни тысяч пользователей Петабайты данных Партнеры по всему миру Десятки брендов И ни одной СУБД
О компании
Данные хранятся на сервере Необходимо малое бэкапное окно Простое копирование файлов – не
вариант
Online backup:определяющие особенности
Клиент как источник всех бед Сервер: и куда все это девать Что делать, когда сервера начинает не
хватать
Направления борьбы с Big data
Источники big data на клиенте
Много (мелких) объектов Структура файлов История изменений Порядок – десятки
миллионов
Большие объекты Базы данных Порядок -
терабайты
Мотивация: данные устроены «неплохо»
Файлы нарезаются на блоки
Блоки идентифицируются хэшами
Де-дупликация: принцип
«Блочный» состав файла фиксируется При бэкапе контент файла сравнивается
поблочно На сервер отправляются только новые
блоки
Де-дупликация в действии
1 2 3 4 5 6 7 8
1 9 3 4 5 6 7 10
1 9 3 11 5 6 7 10 12
1
2
3
Хранилище для: Структуры файлов Версий файлов Состава файлов из
блоков
Backup register
БД на сервере? Встроенная БД на
клиенте? А так ли надо SQL? Данные отдельно –
индексы отдельно Модификация:
вперед и только вперед
Дельта – заливка
Backup register: выбор технологии
Как БЛОБы в БД? Как файлы в файловой системе? Объекты должны быть среднего размера Не класть «яйца» в одну корзину
Как хранить контент на сервере
Кабинет – это набор блоков
Блоки сгруппированы оптимально
Кабинет формируется на клиенте
Кабинет атомарно отправляется на сервер
Кабинеты
Вычислительная нагрузка минимальна
«Интеллектуальность» сервера минимальна
Промышленный сетевой протокол
Большой быстрый диск с быстрой сетевой картой
Организация сервера
Много независимых серверов
Проблемы с расширяемостью и надежностью
Отсутствие общей картины
Неудобство управления
«Безоблачная» юность и проблемы дальнейшего роста
Бэкапы должны идти всегда Прозрачное масштабирование Централизованное управление и
мониторинг
Требования к облаку
Использовать готовый сервис Использовать готовое ПО Создать своё (узкоспециализированное)
облако Поделиться знанием с клиентом
Поиск «облачного» решения
Устройство облака
Много независимых узлов хранения
Один управляющий узел
Клиент взаимодействует с управляющим узлом и «своими» узлами хранения
Клиент «помнит» где лежат данные
Собственный управляющий процесс Управление узлами хранения Мониторинг клиентских агентов Отсутствие СУБД
Управляющий узел
Они лучше решают конкретную задачу Они удерживают систему от
«расползания» Иногда более дешевы (в перспективе) В конце концов, это интересно
Изобретайте велосипеды