Антон ИВАНОВ
Как команда SRE делает HeadHunter стабильным
HeadHunter - сайт, где соискатели находят работу, а работодатели - сотрудников. Днем к нам приходит 3K запросов в секунду (без статики), что превращается в 25K rps к бэкендам и 50K rps к базам данных. Раньше стабильность сайта могла быть ниже 99%. Теперь - это 99.9% и лучше. В докладе расскажу о том, как мы постоянно улучшаем стабильность сайта. В частности: - как распределяем ответственность между эксплуатацией, командой SRE и другими командами; - как мы определяем, когда сайт работает, а когда - нет; - что делаем, когда сайт лежит; - какие инструменты используем, чтобы быстро находить причину проблемы; - как нагружаем продакшн, чтобы заранее выявить узкое место. Чтобы не было абстрактно и скучно, расскажу о конкретных кейсах: - как мы масштабировали реплики базы данных; - почему отказались от PgBouncer (это такой пул соединений перед PostgreSQL); - почему нам не подошел Graylog, и как мы ищем в логах другим гораздо более простым способом; - какие проблемы есть с ретраями; - и др.

Антон Иванов - тим лид команды SRE (site reliability engineering) в HeadHunter.

Made on
Tilda