SlideShare a Scribd company logo
Разработка 
аналитической системы 
для высоконагруженного 
медиа 
Олег Новиков
Обо мне 
! 
! 
Олег Новиков, 
руководитель отдела аналитики Sports.ru, 
автор кандидатской диссертации 
«Высоконагруженные рекомендательные 
системы» в Высшей Школе Экономики
Зачем? 
caйта 
sports.ru ua.tribuna.com by.tribuna.com 
мобильных приложений 
потоков в соцсетях 
• Много разных сервисов для 
аналитики 
! 
• Нет доступа к «сырым» 
данным 
• Нужны свои отчеты и 
метрики 
• Нельзя делать запросы к 
данным из разных 
источников
Где хранить данные? 
• Нужен удобный доступ (SQL) 
• Возможность обрабатывать много данных, 
например, clickstream 
• Простота внедрения 
• Способность легко масштабироваться
Amazon Redshift – плюсы 
Распределенная колоночная СУБД 
Поддерживает много функций и типов данных из 
PostgreSQL 
Очень быстро выполняет типичные аналитические 
запросы с группировками и агрегирующими функциями 
на небольшое число полей 
Очень легко мастштабируется, стоимость зависит от 
объема данных
Amazon Redshift – минусы 
Не поддерживает ограничения целостности и триггеры 
Не поддерживает много функций и типов данных из 
PostgreSQL 
Медленно выполняет запросы с участием нескольких полей 
(select * from table where id=<> будет работать несколько 
секунд) 
Медленно работают инсерты (они и не нужны), загрузка 
данных – пачками из файлов, загруженных в Amazon S3
Amazon Redshift 
• DISTKEY и SORTKEY 
• Гибкие настройки пользователей 
и ресурсов
Источники данных
Посещаемость
Хранилище 
Сырые данные 
• Clickstream 
• Активность 
• Подписки + установки
Хранилище 
Сырые данные 
• Clickstream 
(старые ! 
только за последний месяц, 
данные – в Amazon Glacier) 
• Активность 
• Подписки + установки 
Агрегаты 
• Сессии 
• По дням/неделям/ 
месяцам 
• Профили пользователей
Ввод данных
PROFIT! 
• Adhoc-анализ 
• Дашборды для всех отделов 
• Персонализация 
• Поиск ботов в системе рейтингов на сайте
Adhoc-анализ 
• SQL-интерфейс 
• Любые аналитические запросы 
• Анализ сырых данных 
• Без семплирования
2 – Бизнес-анализ 
Панели для всех отделов: 
• Трафик 
• Пользовательская активность 
• Популярное #прямосейчас 
• Соцсети 
• Мобильные приложения 
• Инвентарь продаж 
• Редакционный процесс
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)
Хранение персональных данных 
Федеральный закон № 242-ФЗ 
• У Amazon нет серверов в России 
• В Redshift не отправляются персональные 
данные, только id 
• Chart.io запрашивает персональные данные из 
БД сайта и джонит на таблицы из Redshift
Персонализация 
• Нарезка пользователей 
для рассылок 
• Персональные 
рекомендации
Расходы 
Ежемесячно #прямосейчас: 
$500 
$180x4 
$300x2 
_________ 
$1 820 
! 
Chart.io 10 пользователей 
ноды Amazon Redshift 
фронтенд-сервера для логов 
!
«Как мы используем инфраструктуру обработки данных» 
«Как устроена инфраструктура анализа данных?» 
habrahabr.ru/company/sports_ru 
! 
! 
facebook.com/oleg.v.novikov

More Related Content

What's hot

Shadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событийShadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событий
Vyacheslav Nikulin
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)
Pavel Alexeev
 
ClickHouse
ClickHouseClickHouse
ClickHouse
Alexey Milovidov
 
Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark Scala
Roman Zykov
 
Анализируем данные с Clickhouse
Анализируем данные с  ClickhouseАнализируем данные с  Clickhouse
Анализируем данные с Clickhouse
Александр Сигачев
 
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
HOWWEDOIT
 
«Облачная платформа Windows Azure для высоконагруженных проектов»
«Облачная платформа Windows Azure для высоконагруженных проектов»«Облачная платформа Windows Azure для высоконагруженных проектов»
«Облачная платформа Windows Azure для высоконагруженных проектов»
Nata_Churda
 
Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)
Ontico
 
Cергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИСCергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИС
Ontico
 
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
2ГИС Технологии
 
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Ontico
 
Clickhouse
ClickhouseClickhouse
Clickhouse
Clickky
 
Hadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. BusinessHadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. Business
Roman Zykov
 
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцКак мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Mikhail Tabunov
 
Автоматизация анализа логов на базе Elasticsearch
Автоматизация анализа логов на базе ElasticsearchАвтоматизация анализа логов на базе Elasticsearch
Автоматизация анализа логов на базе Elasticsearch
Positive Hack Days
 
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Ontico
 
сервисы персонализации на основе данных
серв��сы персонализации на основе данныхсервисы персонализации на основе данных
сервисы персонализации на основе данных
Roman Zykov
 
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Ontico
 

What's hot (19)

Shadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событийShadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событий
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)
 
ClickHouse
ClickHouseClickHouse
ClickHouse
 
Olap
OlapOlap
Olap
 
Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark Scala
 
Анализируем данные с Clickhouse
Анализируем данные с  ClickhouseАнализируем данные с  Clickhouse
Анализируем данные с Clickhouse
 
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
 
«Облачная платформа Windows Azure для высоконагруженных проектов»
«Облачная платформа Windows Azure для высоконагруженных проектов»«Облачная платформа Windows Azure для высоконагруженных проектов»
«Облачная платформа Windows Azure для высоконагруженных проектов»
 
Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)
 
Cергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИСCергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИС
 
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
 
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
 
Clickhouse
ClickhouseClickhouse
Clickhouse
 
Hadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. BusinessHadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. Business
 
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцКак мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
 
Автоматизация анализа логов на базе Elasticsearch
Автоматизация анализа логов на базе ElasticsearchАвтоматизация анализа логов на базе Elasticsearch
Автоматизация анализа логов на базе Elasticsearch
 
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
 
сервисы персонализации на основе данных
сервисы персонализации на основе данныхсервисы персонализации на основе данных
сервисы персонализации на основе данных
 
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
 

Similar to Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина:  подготовка,этапы, проблемыПоисковое продвижение интернет-магазина:  подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
CIT TROYA
 
Преимущества инструментов Gilev.ru 2016 09
Преимущества инструментов Gilev.ru 2016 09Преимущества инструментов Gilev.ru 2016 09
Преимущества инструментов Gilev.ru 2016 09
Vyacheslav Gilyov
 
Как спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитикиКак спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитики
Mariia Bocheva
 
Как спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитикиКак спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитики
Маркетинг-аналитика с OWOX BI
 
Веб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrendsВеб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrends
Andrew Fadeev
 
Эффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эффективный анализ аудитории веб ресурса. Тонкости применения Google AnalyticsЭффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эльдар Нагорный
 
Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.
Евгений Курбанов
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
Евгений Летов
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
Playtini
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
Andrew Sovtsov
 
Что вы знаете о своем seo? @seoconference,2014
Что вы знаете о своем seo? @seoconference,2014Что вы знаете о своем seo? @seoconference,2014
Что вы знаете о своем seo? @seoconference,2014
mikeslivinsky
 
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архивSCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
«ОБЩЕСТВО АНАЛИТИКОВ И ПРОФЕССИОНАЛОВ КОНКУРЕНТНОЙ РАЗВЕДКИ»
 
Metadata.js
Metadata.jsMetadata.js
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
Ivan Begtin
 
10 основных метрик для анализа вашего сайта - 1.12.2014
10 основных метрик для анализа вашего сайта - 1.12.201410 основных метрик для анализа вашего сайта - 1.12.2014
10 основных метрик для анализа вашего сайта - 1.12.2014
O K
 
Аналитика мобильных приложений
Аналитика мобильных приложенийАналитика мобильных приложений
Аналитика мобильных приложений
Anatoly Sharifulin
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решения
Dell_Russia
 
Защищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центровЗащищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центров
Andrew Fadeev
 
Cергей Aверин, Badoo
Cергей Aверин, BadooCергей Aверин, Badoo
Cергей Aверин, Badoo
Ontico
 
Архитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай самАрхитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай сам
Sergey Xek
 

Similar to Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com) (20)

Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина:  подготовка,этапы, проблемыПоисковое продвижение интернет-магазина:  подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
 
Преимущества инструментов Gilev.ru 2016 09
Преимущества инструментов Gilev.ru 2016 09Преимущества инструментов Gilev.ru 2016 09
Преимущества инструментов Gilev.ru 2016 09
 
Как спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитикиКак спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитики
 
Как спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитикиКак спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитики
 
Веб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrendsВеб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrends
 
Эффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эффективный анализ аудитории веб ресурса. Тонкости применения Google AnalyticsЭффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
 
Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
 
Что вы знаете о своем seo? @seoconference,2014
Что вы знаете о своем seo? @seoconference,2014Что вы знаете о своем seo? @seoconference,2014
Что вы знаете о своем seo? @seoconference,2014
 
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архивSCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
 
Metadata.js
Metadata.jsMetadata.js
Metadata.js
 
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
 
10 основных метрик для анализа вашего сайта - 1.12.2014
10 основных метрик для анализа вашего сайта - 1.12.201410 основных метрик для анализа вашего сайта - 1.12.2014
10 основных метрик для анализа вашего сайта - 1.12.2014
 
Аналитика мобильных приложений
Аналитика мобильных приложенийАналитика мобильных приложений
Аналитика мобильных приложений
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решения
 
Защищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центровЗащищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центров
 
Cергей Aверин, Badoo
Cергей Aверин, BadooCергей Aверин, Badoo
Cергей Aверин, Badoo
 
Архитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай самАрхитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай сам
 

More from Ontico

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
Ontico
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Ontico
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Ontico
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Ontico
 

More from Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

  • 1. Разработка аналитической системы для высоконагруженного медиа Олег Новиков
  • 2. Обо мне ! ! Олег Новиков, руководитель отдела аналитики Sports.ru, автор кандидатской диссертации «Высоконагруженные рекомендательные системы» в Высшей Школе Экономики
  • 3. Зачем? caйта sports.ru ua.tribuna.com by.tribuna.com мобильных приложений потоков в соцсетях • Много разных сервисов для аналитики ! • Нет доступа к «сырым» данным • Нужны свои отчеты и метрики • Нельзя делать запросы к данным из разных источников
  • 4. Где хранить данные? • Нужен удобный доступ (SQL) • Возможность обрабатывать много данных, например, clickstream • Простота внедрения • Способность легко масштабироваться
  • 5. Amazon Redshift – плюсы Распределенная колоночная СУБД Поддерживает много функций и типов данных из PostgreSQL Очень быстро выполняет типичные аналитические запросы с группировками и агрегирующими функциями на небольшое число полей Очень легко мастштабируется, стоимость зависит от объема данных
  • 6. Amazon Redshift – минусы Не поддерживает ограничения целостности и триггеры Не поддерживает много функций и типов данных из PostgreSQL Медленно выполняет запросы с участием нескольких полей (select * from table where id=<> будет работать несколько секунд) Медленно работают инсерты (они и не нужны), загрузка данных – пачками из файлов, загруженных в Amazon S3
  • 7. Amazon Redshift • DISTKEY и SORTKEY • Гибкие настройки пользователей и ресурсов
  • 10. Хранилище Сырые данные • Clickstream • Активность • Подписки + установки
  • 11. Хранилище Сырые данные • Clickstream (старые ! только за последний месяц, данные – в Amazon Glacier) • Активность • Подписки + установки Агрегаты • Сессии • По дням/неделям/ месяцам • Профили пользователей
  • 13. PROFIT! • Adhoc-анализ • Дашборды для всех отделов • Персонализация • Поиск ботов в системе рейтингов на сайте
  • 14. Adhoc-анализ • SQL-интерфейс • Любые аналитические запросы • Анализ сырых данных • Без семплирования
  • 15. 2 – Бизнес-анализ Панели для всех отделов: • Трафик • Пользовательская активность • Популярное #прямосейчас • Соцсети • Мобильные приложения • Инвентарь продаж • Редакционный процесс
  • 22. Хранение персональных данных Федеральный закон № 242-ФЗ • У Amazon нет серверов в России • В Redshift не отправляются персональные данные, только id • Chart.io запрашивает персональные данные из БД сайта и джонит на таблицы из Redshift
  • 23. Персонализация • Нарезка пользователей для рассылок • Персональные рекомендации
  • 24. Расходы Ежемесячно #прямосейчас: $500 $180x4 $300x2 _________ $1 820 ! Chart.io 10 пользователей ноды Amazon Redshift фронтенд-сервера для логов !
  • 25. «Как мы используем инфраструктуру обработки данных» «Как устроена инфраструктура анализа данных?» habrahabr.ru/company/sports_ru ! ! facebook.com/oleg.v.novikov