ConveyorOps — платформа мониторинга для разработчиков. Внедрили AI-агента дежурной смены: разбирает алерты, классифицирует инциденты, готовит первичный фикс.
Платформа мониторит инфраструктуру 380 команд-клиентов. Поток алертов в дежурную смену — 1200 событий за сутки, 80% — повторы, ложные срабатывания или известные проблемы. Команда выгорала.
Усталость дежурных приводила к настоящему пропуску критичных инцидентов в потоке шума. Время реакции на серьёзные сбои у клиентов росло — отток подписок.Гипотеза: AI-агент с RAG по истории инцидентов и регламентам runbook-ов читает каждый алерт первым, классифицирует, готовит фикс по runbook и зовёт человека только если ничего не подходит.
38 000 алертов и 4200 инцидентов за два года. Разметка на 47 категорий. 180 runbook-ов.
RAG по корпусу, tool-calling: перезапустить сервис, проверить метрики, посмотреть релиз, эскалировать. Доступ через safe-list.
Запустили на дежурной смене одной команды-клиента. Замеряли качество классификации и time-to-resolve.
Раскатили на 380 команд по их расписанию. Дашборд эффективности AI-дежурного.
Система забирает данные из источников клиента, прогоняет через классификатор и парсер, обогащает справочниками и кладёт готовую карточку в учётную систему. Каждый шаг пишется в журнал: что пришло, как разобрано, кому ушло — всё проверяемо.
Дежурный больше не сидит и не отсеивает шум руками. Он реально работает с инцидентами, которые требуют головы. Мы сохранили команду — несколько ключевых SRE собирались уйти.
Десятки компаний уже автоматизировали рутину — освободили часы своим специалистам и убрали ошибки ручного переноса. Покажем, как это работает на ваших данных. Демо за 30 минут.