25
Разработка аналитической системы для высоконагруженного медиа Олег Новиков

Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru

  • Upload
    ontico

  • View
    479

  • Download
    5

Embed Size (px)

DESCRIPTION

Доклад Олега Новикова и Ильи Салтанова на HighLoad++ 2014.

Citation preview

Разработка аналитической системы для высоконагруженного медиаОлег Новиков

Обо мне

!

!Олег Новиков, руководитель отдела аналитики Sports.ru, автор кандидатской диссертации «Высоконагруженные рекомендательные системы» в Высшей Школе Экономики

Зачем?

caйта

мобильных приложений

потоков в соцсетях

sports.ru ua.tribuna.com by.tribuna.com

• Много разных сервисов для аналитики

!• Нет доступа к «сырым»

данным

• Нужны свои отчеты и метрики

• Нельзя делать запросы к данным из разных источников

Где хранить данные?

• Нужен удобный доступ (SQL)

• Возможность обрабатывать много данных, например, clickstream

• Простота внедрения

• Способность легко масштабироваться

Amazon Redshift – плюсы

Распределенная колоночная СУБД

Поддерживает много функций и типов данных из PostgreSQL

Очень быстро выполняет типичные аналитические запросы с группировками и агрегирующими функциями на небольшое число полей

Очень легко мастштабируется, стоимость зависит от объема данных

Amazon Redshift – минусы

Не поддерживает ограничения целостности и триггеры

Не поддерживает много функций и типов данных из PostgreSQL

Медленно выполняет запросы с участием нескольких полей

(select * from table where id=<> будет работать несколько секунд)

Медленно работают инсерты (они и не нужны), загрузка данных – пачками из файлов, загруженных в Amazon S3

Amazon Redshift

• DISTKEY и SORTKEY • Гибкие настройки пользователей и ресурсов

Источники данных

Посещаемость

Хранилище Сырые данные

• Clickstream

• Активность

• Подписки + установки

Хранилище Сырые данные

• Clickstream

!• Активность

• Подписки + установки

(только за последний месяц, старые данные – в Amazon Glacier)

Агрегаты

• Сессии

• По дням/неделям/месяцам

• Профили пользователей

Ввод данных

PROFIT!

• Adhoc-анализ • Дашборды для всех отделов • Персонализация • Поиск ботов в системе рейтингов на сайте

Adhoc-анализ

• SQL-интерфейс • Любые аналитические запросы • Анализ сырых данных • Без семплирования

2 – Бизнес-анализ Панели для всех отделов: • Трафик • Пользовательская активность • Популярное #прямосейчас • Соцсети • Мобильные приложения • Инвентарь продаж • Редакционный процесс

Хранение персональных данных

Федеральный закон № 242-ФЗ

• У Amazon нет серверов в России

• В Redshift не отправляются персональные данные, только id

• Chart.io запрашивает персональные данные из БД сайта и джонит на таблицы из Redshift

Персонализация

• Нарезка пользователей для рассылок

• Персональные рекомендации

Расходы

Ежемесячно #прямосейчас: $500

$180x4

$300x2

_________

$1 820

!Chart.io 10 пользователей

ноды Amazon Redshift

фронтенд-сервера для логов

!

«Как мы используем инфраструктуру обработки данных» «Как устроена инфраструктура анализа данных?»

habrahabr.ru/company/sports_ru

!!

facebook.com/oleg.v.novikov