Shadow Fight 2: архитектура системы аналитики для миллиарда событийVyacheslav Nikulin
Аудитория Shadow Fight 2, насчитывающая 50 миллионов игроков, ежедневно генерирует огромное количество событий, анализ которых происходит в реальном времени. Доклад посвящен архитектуре системы аналитики на основе поискового движка Elasticsearch. Будет рассмотрен технологический стек Elasticsearch, Logstash, Kibana, который позволяет в сжатые сроки создать гибкое и надежное решение. Также Вячеслав поможет разобраться со схемой обработки событий, моделью данных и особенностями настройки, расскажет о команде и трудозатратах на разработку и поддержку системы
High load++2016.highlights (dropbox+clickhouse)Pavel Alexeev
Highload++ 2016 short present of 3:
Оригинальные доклады, рекомендуемые к просмотру:
* Особенности архитектуры распределённого хранилища в Dropbox. Слава Бахмутов (SRE в группе разработки стораджа в Dropbox) - http://www.highload.ru/2016/abstracts/2257.html
* ClickHouse: очень быстро и очень удобно. Виктор Тарнавский (Руководитель разработки аналитических продуктов в Яндексе), Алексей Миловидов (Главный разработчик ClickHouse) - http://www.highload.ru/2016/abstracts/2327.html
* Переезжаем на Yandex ClickHouse - Александр Зайцев (LifeStreet) - http://www.highload.ru/2016/abstracts/2297.html
Электронная коммерция: от Hadoop к Spark ScalaRoman Zykov
Как обрабатывать большой объем данных быстро с наименьшими затратами? Мы смогли этого добиться в компании
RetailRocket. Обработка данных – это наш бизнес! У нас много данных: более 100 Тбайт, в сутки нам поступает более 100 млн
событий для обработки. До недавнего времени у нас все работало на кластере на базе Hadoop относительно устаревшего
дистрибутива Cloudera CDH 4.5, программный код был написан на Pig, Hive, Python и Java. Это порождало ряд проблем с
архитектурой, производительностью. Тестирование превращалось в настоящую головную боль. В конце лета RetailRocket
перешел на Yarn на базе CDH 5.1.2. Это открыло путь к более совершенным технологиям семейства Spark. Сейчас мы
находимся в фазе полного перехода на Spark на функциональном языке Scala. Это позволило нам избавиться от зоопарка
технологий, упростив архитектуру решений и автоматизировав тестирование. Первые результаты не заставили себя ждать –
получен прирост производительности на том же железе в три-пять раз. А это значит, что мы будем меньше инвестировать в
расширение парка серверов кластера. В докладе будет рассказано о проблемах, с которыми мы столкнулись, и о том как мы
их решили. Будут примеры исходного кода для оптимизации производительности и повышения удобства работы, который мы
закоммитили в наш публичный GitHub
Примеры использования базы clickhouse для анализа данных.
Экспорт данных access.log в clickhouse. Примеры анализа скорости пользователей на основе логов сервера.
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 20132ГИС Технологии
Нельзя, да и неправильно, проектировать веб-сервис как монолитное приложение. Рано или поздно это приведёт к его закостенелости или даже умиранию. С другой стороны, декомпозиция системы на несколько компонент приносит проблемы интеграционной зависимости, которые усложняют развёртывание или эксплуатацию приложения. В докладе я представлю систему, которая позволяет нам оперативно развёртывать многокомпонентное приложение 2ГИС API на три сервера в Новосибирске, Москве, Амстердаме. Особое внимание уделю гибкой архитектуре приложения, процессу развёртывания, версионированию кеша и индексов (Sphinx, C++-демоны), миграции схем БД (PostgreSQL), инструментам мониторинга и развёртывания (Zabbix, Chef, Phing, Yii).
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)Ontico
РИТ++ 2017, Backend Conf
Зал Сан-Паулу, 6 июня, 15:00
Тезисы:
http://backendconf.ru/2017/abstracts/2803.html
ClickHouse - высокопроизводительная аналитическая база данных с открытыми исходниками, разработанная в Яндексе. Изначально ClickHouse создавался для задач Яндекс.Метрики, но постепенно нашёл множество применений как внутри Яндекса, так и в других компаниях. Я расскажу, как ClickHouse устроен внутри с акцентом на то, какие у выбранной архитектуры следствия с точки зрения прикладного разработчика.
Будут затронуты следующие темы:
- Как ClickHouse хранит данные на диске и выполняет запрос, почему такой способ хранения позволяет на несколько порядков ускорить аналитические запросы, но плохо подходит для OLTP и key-value нагрузки.
- Как устроена репликация и шардирование, как добиться линейного масштабирования и что делать с eventual consistency.
- Как диагностировать проблемы на production-кластере ClickHouse.
Общие сведения о clickhouse и возможностях его применения для аналитики на примере нашего опыта.
More useful info on our:
- website: https://clickky.biz
- blog: https://clickky.biz/blog
Sign up!
Этот доклад я презентовал на конференции BI тренды 11 октября 2012 года в Москве. http://events.cnews.ru/events/programm/bi_instrumenty_v_rossii__poslednie_trendy.shtml
сервисы персонализации на основе данныхRoman Zykov
Персонализация как сервис на основе данных
Персонализация на основе данных о пользователях играет все большую роль в аналитических CRM системах. Самым первым шагом важно понять, какой продукт или сервис на основе данных вы готовы предложить своим клентам. Далее в докладе будут рассмотрены следующие вопросы:
Достаточно ли у вас данных для персонализации продукта?
Как оценить успешность проекта по персонализации?
Как подружить аналитический и операционный CRM?
Какие основные причины провала таких проектов?
Самостоятельная разработка или outsource?
Насколько важен вопрос правильных технологий?
Где место сегментации клиентов?
В докладе будут вкратце разобраны некоторые примеры российских и зарубежных компаний.
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Ontico
Несколько месяцев назад компания "Яндекс" совершила маленькую революцию, открыв свою внутреннюю систему хранения и аналитики больших данных ClickHouse в opensource для всех желающих.
ClickHouse стабильно показывает очень высокие результаты на тестах производительности запросов, часто догоняя и обгоняя лидеров рынка аналитических RDBMS, включая HP Vertica. Высокие результаты и авторитет "Яндекса" привлекают к этой системе заслуженное внимание разработчиков и архитекторов. Вместе с тем, архитектура ClickHouse довольно существенно отличается от привычных архитектур RDBMS, в ClickHouse отсутствует многое из привычной функциональности, есть ряд "неудобных" ограничений. Поэтому разработка новых и миграция существующих решений сопровождается значительными сложностями.
В докладе рассматриваются основные архитектурные особенности ClickHouse, отличия от традиционных RDBMS или NoSQL баз данных, и обсуждаются способы решения типичных задач, возникающих при разработке аналитических систем на ClickHouse.
Как спроектировать систему сквозной аналитикиMariia Bocheva
75% пользователей ищут товары в интернете, а покупают в офлайн-магазинах. 56% покупок в магазинах совершаются после изучения товаров в интернете. Эти цифры красноречивее любых аналитиков и маркетологов говорят, что интернет-магазинам и розничным сетям жизненно необходимо использовать сквозную аналитику, чтобы правильно оценивать эффективность рекламы. Несмотря на это, многие компании до сих пор не настроили систему сквозной аналитики, ошибочно полагая, что это сложно, дорого и небезопасно для их данных.
Softline и OWOX BI мы развеивают все страхи и предубеждения по поводу сквозной аналитики и рассказывают, как повысить эффективность рекламных кампаний в интернете, используя данные о продажах из внутренних IT-систем.
Вы узнаете:
-Как оценить текущие возможности аналитики в компании и определить зоны «провисания».
-Как выявить требования к системе сквозной аналитики и разработать целевую модель.
-Как поэтапно внедрить систему сквозной аналитики с расчетом эффекта для бизнеса.
-Как с помощью продуктов OWOX BI и Google объединить в Google BigQuery все данные, необходимые для сквозной аналитики: действия пользователей на сайте и в мобильных приложениях, расходы на рекламу, доходы, выполненные заказы, звонки и email-рассылки.
-Истории успеха наших клиентов: как они настроили систему сквозной аналитики и использовали полученные данные для достижения своих бизнес-целей.
Будет полезно:
Ecommerce и retail проектам, аналитикам и маркетологам.
Загрузить запись вебинара можно здесь: https://www.owox.com/c/1l9
На вебинаре вы узнаете:
➤Как оценить текущие возможности аналитики в компании и определить зоны «провисания».
➤Как выявить требования к системе сквозной аналитики и разработать целевую модель.
➤Как поэтапно внедрить систему сквозной аналитики с расчетом эффекта для бизнеса.
➤Как с помощью продуктов OWOX BI и Google объединить в Google BigQuery все данные, необходимые для сквозной аналитики: действия пользователей на сайте и в мобильных приложениях, расходы на рекламу, доходы, выполненные заказы, звонки и email-рассылки.
➤Истории успеха наших клиентов: как они настроили систему сквозной аналитики и использовали полученные данные для достижения своих бизнес-целей.
Вебинар будет полезен:
Ecommerce и retail проектам, аналитикам и маркетологам.
Аналитическая система для интернет-сайтов различного назначения - сайтов электронной коммерции, сайтов развлечений, электронных СМИ, сервисов самообслуживания, социальных медиа, социальных и мобильных приложений.
Поддерживается история посещений, интерграция с CRM и системами ретаргетинга.
Рост популярности NoSQL - одно из важнейших изменений технологий управления данными. За счет "не реляционности" достигается высочайшая гибкость, скорость работы и масштабируемость БД. NoSQL не исключает использование реляционных БД, обе технологии с пользой дополняют друг друга. Как можно моделировать NoSQL данные, не имеющие жестких схем, и какую пользу можно получить в результате. Слайды с вебинара Embarcadero. На русском языке
Что вы знаете о своем seo? @seoconference,2014mikeslivinsky
Реалии
Нет простых, малорисковых и масштабируемых способов получить быстрый прирост поискового трафика в коммерческих тематиках*.
* кроме “холодного старта”
Печальные картинки из сегодняшних новостей
К сожалению, мы продолжаем выявлять случаи эмуляции действий пользователей. В сентябре за использование подобных методов еще несколько сотен сайтов были понижены в результатах поиска.
Использование некорректных способов продвижения приводит к существенной потере трафика:
http://webmaster.ya.ru/replies.xml?item_no=19329
25.09.2014, 10:54
Что делать?
Технические требования ПС
Семантика и структура сайта
Внутренняя оптимизация
Улучшение качества сайта (ассортимент, ранжирование, сниппеты, etc)
Измерения
Что вы измеряете?
Кто регулярно измеряет что-то, кроме позиций по запросам?
Про позиции
В апдейт 8 сентября один популярный сайт* в категории “Электроника”:
+6% запросов в топ10 Яндекса
+31% запросов в топ3 Яндекса
Даже в простом измерении позиций есть нюансы:
* Не Викимарт. Да, мы измеряем и другие сайты :)
Зерна от плевел
Если вам недостаточно интегральных оценок - придется научиться подавлять шум.
Например, стабильность запроса можно рассчитать на основании исторических данных о позициях и ее дисперсии.
queries @ topx
wordstat @ topx
potential traffic
traffic
Про ctr
В августе у нас сломалась микроразметка.
Результат починки:
+9,5% трафика в Google*
* Уже за вычетом сезонного роста (+5,5%)
Про контент
Береги контент смолоду!
Народная мудрость
Находим дубликаты:
цитатным поиском по сайту
исключением известных типов страниц: site:domain.ru ~~ (inurl:brand | inurl:model)
частотным словарем по url’ам из accesslog’а
выгрузками из панелей вебмастера
Q: А ваши программисты уже затирали robots.txt?
У нас очень хорошие разработчики. Но большие и сложные системы иногда ломаются, это неизбежно.
При очередной выкладке в апреле 2012-го случайно добавили meta noindex на страницы всех листингов.
-13% трафика по Google
503 может помочь :)
Crawling
Количество документов, которые краулились последний раз более 20 дней назад:
Indexation
Количество документов* не в индексе,у которых дата последнего краулинга менее 30 дней от текущей даты:
* Особое внимание трафиковым документам и документам с высоким потенциалом по WS
Запросы, у которых найденный урл для [q s
Скрытые данные. Какие данные спрятаны на госсайтахIvan Begtin
О том как находить скрытые данные в среди открытых данных. О API скрытых в недрах сайтов, о поиске опубликованных XML и CSV файлов и том какие данные скрываются в сканах документов
Аналитика мобильных приложений: как настроить аналитику в приложении, какие инструменты выбрать (Flurry, Google Analytics, Fabric Answers, AppsFlyer), на что обращать внимание
http://light.mdday.ru
Защищенная веб-аналитика для банков, телекомов, медицинских центровAndrew Fadeev
Веб-аналитическая система Webtrends onPremises, обеспечивающая выполнение последних требований по защите персональных данных в Интернете для, банков, телекомов, медицинских центров.
Badoo — это большая социальная сеть с более чем 180 млн. пользователей. Большинство новых фич в нашей компании мы предварительно оцениваем посредством A/B тестирования. Вот уже примерно год мы используем собственный высоконагруженный фреймворк тестирования, при этом по моему мнению он очень прост, понятен, и не требует огромных ресурсов на разработку и поддержку. В докладе я расскажу вам о том, почему мы пришли к собственному решению, его архитектуру и принципы работы. Я уверен, каждый из вас может сделать что-то подобное для своего проекта и начать принимать более обоснованные решения.
Тезисы:
* Как мы раньше тестировали
* Почему мы сделали свой инструмент
* Архитектура: API, граф. интерфейсы, транспорт, скрипты, БД
* Структура теста
* Основные правила А/Б тестирования
* Оценка результатов, примеры отчетов
* И заключительная часть про то, что от человека с головой полностью не избавиться
Для кого доклад:
Для разработчиков и техн. менеджеров соц. сетей, сайтов объявлений, блогов с рассылками, проектов, продающих что-то через e-mail расслыки, разных коммьюнити-сайтов, банков и вообще проектов, где взаимодействие с каждым клиентом долгосрочное.
Сложность:
Несмотря на то, что конференция называется Highload++, я уверяю, что представленную здесь архитектуру может потянуть проект с посещаемостью в 1000 чел в день и тремя программистами в штате. Закодить все, что здесь рассказано на PHP займет меньше недели одного человека. А результат, между прочим, пожно вполне изменрять в живой прибыли.
Similar to Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com) (20)
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
HighLoad++ 2017
Зал «Калининград», 8 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2964.html
Одноклассники состоят из более чем восьми тысяч железных серверов, расположенных в нескольких дата-центрах. Каждая из этих машин была специализированной под конкретную задачу - как для обеспечения изоляции отказов, так и для обеспечения автоматизированного управления инфраструктурой.
...
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
HighLoad++ 2017
Зал «Калининград», 8 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/3032.html
Протокол DNS на семь лет старше, чем Всемирная паутина. Стандарты RFC 882 и 883, определяющие основную функциональность системы доменных имён, появились в конце 1983 года, а первая реализация последовала уже годом позже. Естественно, что у технологии столь старой и при этом по сей день активнейшим образом используемой просто не могли не накопиться особенности, неочевидные обыкновенным пользователям.
...
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
HighLoad++ 2017
Зал «Калининград», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/3010.html
В этом докладе я расскажу, как BigData-платформа помогает трансформировать Почту России, как мы управляем построением и развитием платформы. Расскажу про найденные удачные решения, например, как разбиение на продукты с понятными SLA и интерфейсами между ними помогло нам сохранять управляемость с ростом масштабов проекта.
...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 10:00
Тезисы:
http://www.highload.ru/2017/abstracts/2914.html
Казалось бы, что нужно для организации тестового окружения? Тестовая железка и копия боевого окружения - и тестовый сервер готов. Но как быть, когда проект сложный? А когда большой? А если нужно тестировать одновременно много версий? А если все это вместе?
Организация тестирования большого развивающегося проекта, где одновременно в разработке и тестировании около полусотни фич - достаточно непростая задача. Ситуация обычно осложняется тем, что иногда есть желание потрогать еще не полностью готовый функционал. В таких ситуациях часто возникает вопрос: "А куда это можно накатить и где покликать?"
...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 18:00
Тезисы:
http://www.highload.ru/2017/abstracts/2854.html
Из этого доклада вы узнаете о возможностях репликации и автофейловера PostgreSQL, в том числе о возможностях, ставших доступных в PostgreSQL 10.
Среди прочих, будет затронуты следующие темы:
* Виды репликации и решаемые с ее помощью проблемы.
* Настройка потоковой репликации.
* Настройка логической репликации.
* Настройка автофейловера / HA средствами Stolon и Consul.
После прослушивания доклада вы сможете самостоятельно настраивать репликацию и автофейловер PostgreSQL.
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 17:00
Тезисы:
http://www.highload.ru/2017/abstracts/3096.html
PostgreSQL is the world’s most advanced open source database. Indeed! With around 270 configuration parameters in postgresql.conf, plus all the knobs in pg_hba.conf, it is definitely ADVANCED!
How many parameters do you tune? 1? 8? 32? Anyone ever tuned more than 64?
No tuning means below par performance. But how to start? Which parameters to tune? What are the appropriate values? Is there a tool --not just an editor like vim or emacs-- to help users manage the 700-line postgresql.conf file?
Join this talk to understand the performance advantages of appropriately tuning your postgresql.conf file, showcase a new free tool to make PostgreSQL configuration possible for HUMANS, and learn the best practices for tuning several relevant postgresql.conf parameters.
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/3115.html
During this session we will cover the last development in ProxySQL to support regular expressions (RE2 and PCRE) and how we can use this strong technique in correlation with ProxySQL's query rules to anonymize live data quickly and transparently. We will explain the mechanism and how to generate these rules quickly. We show live demo with all challenges we got from the Community and we finish the session by an interactive brainstorm testing queries from the audience.
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/2957.html
Расскажем о нашем опыте разработки модуля межсетевого экрана для MySQL с использованием генератора парсеров ANTLR и языка Kotlin.
Подробно рассмотрим следующие вопросы:
— когда и почему целесообразно использовать ANTLR;
— особенности разработки ANTLR-грамматики для MySQL;
— сравнение производительности рантаймов для ANTLR в рамках задачи синтаксического анализа MySQL (C#, Java, Kotlin, Go, Python, PyPy, C++);
— вспомогательные DSL;
— микросервисная архитектура модуля экранирования SQL;
— полученные результаты.
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 14:00
Тезисы:
http://www.highload.ru/2017/abstracts/3114.html
ProxySQL aims to be the most powerful proxy in the MySQL ecosystem. It is protocol-aware and able to provide high availability (HA) and high performance with no changes in the application, using several built-in features and integration with clustering software. During this session we will quickly introduce its main features, so to better understand how it works. We will then describe multiple use case scenarios in which ProxySQL empowers large MySQL installations to provide HA with zero downtime, read/write split, query rewrite, sharding, query caching, and multiplexing using SSL across data centers.
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/2954.html
MySQL Replication is powerful and has added a lot of advanced features through the years. In this presentation we will look into replication technology in MySQL 5.7 and variants focusing on advanced features, what do they mean, when to use them and when not, Including.
When should you use STATEMENT, ROW or MIXED binary log format?
What is GTID in MySQL and MariaDB and why do you want to use them?
What is semi-sync replication and how is it different from lossless semi-sync?
...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
HighLoad++ 2017
Зал «Кейптаун», 8 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/3120.html
Количество разработчиков мобильных приложений Сбербанк Онлайн с начала 2016 года выросло на порядок. Для того чтобы продолжать выпускать качественный продукт, мы кардинально перестраиваем процесс разработки.
Количество внутренних заказчиков тех или иных доработок в какой-то момент выросло настолько, что разработчики стали узким местом. Мы внедрили культуру разработки, которую можно условно назвать "внутренним open-source", сохранив за собой контроль над архитектурой и качеством проекта, но позволив разрабатывать новые фичи всем желающим.
...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 18:00
Тезисы:
http://www.highload.ru/2017/abstracts/2836.html
При использовании Eventually Consistent распределенных баз данных нет гарантий, что чтение возвращает результаты последних изменений данных, если чтение и запись производятся на разных узлах. Это ограничивает пропускную способность системы. Поддержка свойства Causal Consistency снимает это ограничение, что позволяет улучшить масштабируемость, не требуя изменений в коде приложения.
...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 16:00
Тезисы:
http://www.highload.ru/2017/abstracts/2858.html
Аудитория Одноклассников превышает 73 миллиона человек в России, СНГ и странах дальнего зарубежья. При этом ОК.ru - первая социальная сеть по просмотрам видео в рунете и крупнейшая сервисная платформа.
Качественный и количественный рост DDoS-атак за последние годы превращает их в одну из первоочередных проблем для крупнейших интернет-ресурсов. В зависимости от вектора атаки “узким” местом становится та или иная часть инфраструктуры. В частности, при SYN-flood первый удар приходится на систему балансировки трафика. От ее производительности зависит успех в противостоянии атаке.
...
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 15:00
Тезисы:
http://www.highload.ru/2017/abstracts/3008.html
Никогда не было и вот снова случилось! Компания Google в результате перенаправления трафика сделала недостпуными в Японии несколько тысяч различных сервисов, большинство из которых никак не связано с самой компанией Google. Однако, подобные инциденты происходят с завидной регулярностью, вот только не всегда попадают в большие СМИ. У таких инцидентов могут быть разные причины, начиная от ошибок сетевых инженеров и заканчивая государственным регулированием.
...
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 14:00
Тезисы:
http://www.highload.ru/2017/abstracts/2925.html
Облака и виртуализация – современные тренды развития IT-технологий. Операторы связи строят свои TelcoClouds на стандартах NFV (Network Functions Virtualization) и SDN (Software-Defined Networking). В докладе начнем с основ виртуализации, далее разберемся, для чего используются NFV и SDN, потом полетим к облакам и вернемся на землю для решения практических задач!
...
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
HighLoad++ 2017
Зал «Мумбай», 8 ноября, 10:00
Тезисы:
http://www.highload.ru/2017/abstracts/3045.html
Как мы заставили Druid работать в Одноклассниках.
«Druid is a high-performance, column-oriented, distributed data store» http://druid.io.
Мы расскажем о том, как, внедрив Druid, мы справились с ситуацией, когда MSSQL-based система статистики на 50 терабайт стала:
- медленной: средняя скорость ответа была в разы меньше требуемой (и увеличилась в 20 раз);
- нестабильной: в час пик статистика отставала до получаса (теперь ничего не отстает);
- дорогой: изменилась политика лицензирования Microsoft, расходы на лицензии могли составить миллионы долларов.
...
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 18:00
Тезисы:
http://www.highload.ru/2017/abstracts/2905.html
Прошло более года с того момента, как Microsoft выпустила первую версию своего нового фреймворка для разработки web-приложений ASP.NET Core, и с каждым днем он находит все больше поклонников. ASP.NET Core базируется на платформе .NET Core, кроссплатформенной версии платформы .NET c открытым исходным кодом. Теперь у С#-разработчиков появилась возможность использовать Mac в качестве среды разработки, и запускать приложения на Linux или внутри Docker-контейнеров.
...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 14:00
Тезисы:
http://www.highload.ru/2017/abstracts/2913.html
Изначально будут раскрыты базовые причины, которые заставили появиться такой части механизма СУБД, как кэш результатов, и почему в ряде СУБД он есть или отсутствует.
Будут рассмотрены различные варианты кэширования результатов как sql-запросов, так и результатов хранимой в БД бизнес-логики. Произведено сравнение способов кэширования (программируемые вручную кэши, стандартный функционал) и даны рекомендации, когда и в каких случаях данные способы оптимальны, а порой опасны.
...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/2947.html
Apache Ignite — Open Source платформа для высокопроизводительной распределенной работы с большими данными с применением SQL или Java/.NET/C++ API. Ignite используют в самых разных отраслях. Сбербанк, ING, RingCentral, Microsoft, e-Therapeutics — все эти компании применяют решения на основе Ignite. Размеры кластеров разнятся от всего одного узла до нескольких сотен, узлы могут быть расположены в одном ЦОД-е или в нескольких геораспределенных.
...
HighLoad++ 2017
Зал «Рио-де-Жанейро», 8 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/3005.html
Когда мы говорим о нагруженных системах и базах данных с большим числом параллельных коннектов, особый интерес представляет практика эксплуатации и сопровождения таких проектов. В том числе инструменты и механизмы СУБД, которые могут быть использованы DBA и DevOps-инженерами для решения задач мониторинга жизнедеятельности базы данных и ранней диагностики возможных проблем.
...
2. Обо мне
!
!
Олег Новиков,
руководитель отдела аналитики Sports.ru,
автор кандидатской диссертации
«Высоконагруженные рекомендательные
системы» в Высшей Школе Экономики
3. Зачем?
caйта
sports.ru ua.tribuna.com by.tribuna.com
мобильных приложений
потоков в соцсетях
• Много разных сервисов для
аналитики
!
• Нет доступа к «сырым»
данным
• Нужны свои отчеты и
метрики
• Нельзя делать запросы к
данным из разных
источников
4. Где хранить данные?
• Нужен удобный доступ (SQL)
• Возможность обрабатывать много данных,
например, clickstream
• Простота внедрения
• Способность легко масштабироваться
5. Amazon Redshift – плюсы
Распределенная колоночная СУБД
Поддерживает много функций и типов данных из
PostgreSQL
Очень быстро выполняет типичные аналитические
запросы с группировками и агрегирующими функциями
на небольшое число полей
Очень легко мастштабируется, стоимость зависит от
объема данных
6. Amazon Redshift – минусы
Не поддерживает ограничения целостности и триггеры
Не поддерживает много функций и типов данных из
PostgreSQL
Медленно выполняет запросы с участием нескольких полей
(select * from table where id=<> будет работать несколько
секунд)
Медленно работают инсерты (они и не нужны), загрузка
данных – пачками из файлов, загруженных в Amazon S3
7. Amazon Redshift
• DISTKEY и SORTKEY
• Гибкие настройки пользователей
и ресурсов
11. Хранилище
Сырые данные
• Clickstream
(старые !
только за последний месяц,
данные – в Amazon Glacier)
• Активность
• Подписки + установки
Агрегаты
• Сессии
• По дням/неделям/
месяцам
• Профили пользователей
15. 2 – Бизнес-анализ
Панели для всех отделов:
• Трафик
• Пользовательская активность
• Популярное #прямосейчас
• Соцсети
• Мобильные приложения
• Инвентарь продаж
• Редакционный процесс
22. Хранение персональных данных
Федеральный закон № 242-ФЗ
• У Amazon нет серверов в России
• В Redshift не отправляются персональные
данные, только id
• Chart.io запрашивает персональные данные из
БД сайта и джонит на таблицы из Redshift