Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

Разработка
аналитической системы
для высоконагруженного
медиа
Олег Новиков

Обо мне
!
!
Олег Новиков,
руководитель отдела аналитики Sports.ru,
автор кандидатской диссертации
«Высоконагруженные рекомендательные
системы» в Высшей Школе Экономики

Зачем?
caйта
sports.ru ua.tribuna.com by.tribuna.com
мобильных приложений
потоков в соцсетях
• Много разных сервисов для
аналитики
!
• Нет доступа к «сырым»
данным
• Нужны свои отчеты и
метрики
• Нельзя делать запросы к
данным из разных
источников

Где хранить данные?
• Нужен удобный доступ (SQL)
• Возможность обрабатывать много данных,
например, clickstream
• Простота внедрения
• Способность легко масштабироваться

Amazon Redshift – плюсы
Распределенная колоночная СУБД
Поддерживает много функций и типов данных из
PostgreSQL
Очень быстро выполняет типичные аналитические
запросы с группировками и агрегирующими функциями
на небольшое число полей
Очень легко мастштабируется, стоимость зависит от
объема данных

Amazon Redshift – минусы
Не поддерживает ограничения целостности и триггеры
Не поддерживает много функций и типов данных из
PostgreSQL
Медленно выполняет запросы с участием нескольких полей
(select * from table where id=<> будет работать несколько
секунд)
Медленно работают инсерты (они и не нужны), загрузка
данных – пачками из файлов, загруженных в Amazon S3

Amazon Redshift
• DISTKEY и SORTKEY
• Гибкие настройки пользователей
и ресурсов

Источники данных

Хранилище
Сырые данные
• Clickstream
• Активность
• Подписки + установки

Хранилище
Сырые данные
• Clickstream
(старые !
только за последний месяц,
данные – в Amazon Glacier)
• Активность
• Подписки + установки
Агрегаты
• Сессии
• По дням/неделям/
месяцам
• Профили пользователей

PROFIT!
• Adhoc-анализ
• Дашборды для всех отделов
• Персонализация
• Поиск ботов в системе рейтингов на сайте

Adhoc-анализ
• SQL-интерфейс
• Любые аналитические запросы
• Анализ сырых данных
• Без семплирования

2 – Бизнес-анализ
Панели для всех отделов:
• Трафик
• Пользовательская активность
• Популярное #прямосейчас
• Соцсети
• Мобильные приложения
• Инвентарь продаж
• Редакционный процесс

Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

Хранение персональных данных
Федеральный закон № 242-ФЗ
• У Amazon нет серверов в России
• В Redshift не отправляются персональные
данные, только id
• Chart.io запрашивает персональные данные из
БД сайта и джонит на таблицы из Redshift

Персонализация
• Нарезка пользователей
для рассылок
• Персональные
рекомендации

Расходы
Ежемесячно #прямосейчас:
$500
$180x4
$300x2
_________
$1 820
!
Chart.io 10 пользователей
ноды Amazon Redshift
фронтенд-сервера для логов
!

«Как мы используем инфраструктуру обработки данных»
«Как устроена инфраструктура анализа данных?»
habrahabr.ru/company/sports_ru
!
!
facebook.com/oleg.v.novikov

Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

Related slideshows

More Related Content

What's hot

What's hot (19)

Similar to Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

Similar to Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com) (20)

More from Ontico

More from Ontico (20)

Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)