День SRE на конференции Teх.Диалог

2 мин
День SRE на конференции Teх.Диалог

Все, кто так или иначе занимается сопровождением и обслуживанием высоконагруженных систем сталкиваются с отказами. Просто потому что если взять среднее время наработки на отказ условной виртуалки в 500 дней, то при наличии тысячи виртуальных серверов чисто математически сегодня у вас должны упасть два и это если просто ничего не трогать. А мы трогаем. Релизы, работы, рост данных, внешние факторы (такие как подъем нагрузки и отказы внешних сервисов, телеграм, ты читаешь?) стабильности не добавляют.

Как со всем этим жить, подробно и по шагам расскажем на втором дне конференции Teх.Диалог. Собрали для Вас основные лекции и мастер классы по обеспечению и управлению стабильностью:

Начнем как обычно с мониторинга, просто потому что ехать на машине с заклеенной старыми газетами лобовухой некоторое количество непродуктивно. Поэтому для начала погрузимся в принципы наблюдаемости систем, пройдемся по основным метрикам бизнеса, сервисов и инфры, зацепим трейсы, логи и поиск девиаций в них

Продолжим большим блоком работы с инцидентами и расчетом доступности. Поговорим о том, чем инцидент отличается от алерта, как быстро определить степень влияния и организовать работу на инциденте, экономя драгоценные секунды. Что делать когда починили, как и зачем писать постмортем, когда инцидент считается завершенным и сколько минут писать в черную книжечку прода, если по как-ой причине легли не полностью.

Третий блок посвящен техническим приемам работы с доступностью: чем проектирование сложных высокодоступных систем отличается от проектирования обычных сервисов, нужно ли заморачиваться отказоустойчивостью на этапе MVP, какие методы используются для повышения доступности приложения для пользователя в инфраструктуре и коде и как готовится к подъему нагрузки заранее, что бы не падать в самый ответственный момент.

По результату получился плотный, хорошо дополняющий доклады первого дня мастер-класс с практическими примерами и веселыми историями, особенно для тех, кто в эти истории не попадал. Приходите учиться на чужих ошибках и перенимать опыт, который мы для вас кропотливо собирали многие годы работы с высокими нагрузками на сотнях и тысячах инцидентов.

Билеты по ссылке https://techdialogos.ru/

Увидимся!

Читают сейчас

В GitHub объяснили инциденты с недоступностью платформы

1 час назад

В GitHub объяснили инциденты с недоступностью платформы

Разработчики объяснили, с чем связаны два последних инцидента с доступностью GitHub — с процессами по увеличению мощности платформы для повышения её отказоустойчивости. Читать далее

Cбер2B обновила чекаут клиентских сайтов

1 час назад

Cбер2B обновила чекаут клиентских сайтов

Сбер2B — это экосистема сервисов для бизнеса, в которую входит и система интернет-торговли inSales. Один из продуктов экосистемы — модуль чекаута, который интернет-магазины на платформе подключают к с

РТК-ЦОД вложил более чем 38 млрд рублей в плагин сети дата-центров

1 час назад

РТК-ЦОД вложил более чем 38 млрд рублей в плагин сети дата-центров

IT-сервис-провайдер РТК-ЦОД заявил о завершении пятилетней инвестиционной программы по развитию собственной сети дата-центров и обновлению оборудования. Совокупный объём вложений превысил 38 млрд рубл

Google предлагает до $1,5 млн за обнаружение некоторых уязвимостей в Android

1 час назад

Google предлагает до $1,5 млн за обнаружение некоторых уязвимостей в Android

Google пересматривает свои программы вознаграждения за обнаружение уязвимостей в Android и Chrome. Организация предлагает вознаграждение до $1,5 млн за выявление самых сложных эксплойтов, одновременно

Физики создали экзотические формы вещества, манипулируя магнитными полями

1 час назад

Физики создали экзотические формы вещества, манипулируя магнитными полями

В недавнем исследовании, посвящённом изучению основ квантовой физики, учёные исследовали поведение материи на крайне малых масштабах — уровне атомов, электронов и фотонов. Работа, возглавляемая препод