Урок 21 · Блок 3 · ~14 минут

Эксплуатация и экономика: жизнь после запуска

⌂ Все уроки · Актуально на 11 июня 2026 · источники — в тексте · термины — в глоссарии · ← урок 20
Главная мысль урока: у автоматизации с LLM два режима поломки — громкий (упало, все видят) и тихий (работает, отвечает «успех», но качество уехало). Громкий ловит обвязка из урока 19, тихий — только трейсы и регулярные проверки качества. Плюс две статьи расходов, которые не показывают в смете: «беговая дорожка моделей» (провайдеры выводят модели из эксплуатации — приходится переезжать) и поддержка после запуска. Без них расчёт окупаемости — самообман.

Трейсы: чёрный ящик самолёта для каждого прогона

Первое требование эксплуатации: каждый запуск автоматизации оставляет трейс — подробную запись полёта, как чёрный ящик: какие шаги выполнились, что вернула модель, сколько длилось, сколько стоило. Это вы уже знаете из урока 7 — теперь это пункт приёмки.

Стандарт открытых инструментов — Langfuse: иерархические трейсы каждого LLM-вызова и инструмента, фильтры по пользователю, стоимости, задержке; можно развернуть на своём сервере. Формулировка в ТЗ: «каждый прогон виден как трейс со стоимостью и задержкой; разбор любого инцидента начинается с трейса». (доки Langfuse)

Тихие поломки: весы, которые врут

Опаснейший режим отказа LLM-автоматизации: API отвечает «200 OK», мониторинг зелёный — а модель начала отвечать иначе. Классифицирует жалобы как вопросы. Пишет приветствия другим тоном. Как сломанные напольные весы: показывают всем 70 кг — «работают» же.

Аптайм-мониторинг такое не ловит в принципе: технически всё исправно. Ловят два инструмента: трейсы (видно, что именно отвечала модель) и регулярный прогон проверочного набора — те же evals из урока 7.

Проверочный набор — это 50–500 типовых случаев с известными правильными ответами, прогоняемых по расписанию. Ночной прогон стоит копейки, а дрейф качества показывает за дни до того, как его заметят клиенты.

Беговая дорожка моделей

Статья расходов, о которой не предупреждают: модели выводят из эксплуатации (deprecation). Anthropic закрыла Claude 3.5 Sonnet с ~2 месяцами предупреждения; OpenAI при запуске GPT-5 поначалу отключила старые модели вовсе без переходного периода. Ваша автоматизация, настроенная под конкретную модель, переезжает на новую — и ведёт себя иначе. (Model Deprecation Treadmill, апр. 2026)

Зрелая практика: пиннинг (фиксация конкретной версии модели, а не «последней») + прогон проверочного набора не только против текущей модели, но и против следующего кандидата. Тогда «дельта переезда» известна за недели до дедлайна, и миграция — плановая работа, а не пожар.

🔬 Под капотом: почему модель «дрейфует», даже если вы ничего не меняли

Откуда берётся тихая поломка, если код не трогали? Три источника. Первый: провайдер обновляет модель под тем же именем — у «умолчательных» алиасов поведение может измениться без предупреждения (поэтому пиннинг версии). Второй: меняется входящий поток — ученики начали спрашивать о новом курсе, которого нет в примерах промпта.

Третий, самый коварный: каскад. Вы поменяли промпт в одном шаге, чтобы починить кейс А — и незаметно сломали кейс Б, который полгода работал. Без проверочного набора это обнаружит клиент; с набором — ночной прогон.

Отсюда правило: у живой автоматизации проверочный набор — такой же обязательный артефакт, как код. Он растёт из инцидентов: каждая пойманная ошибка становится новым проверочным случаем, и больше не повторяется молча.

Окупаемость: честная таблица

Формула проста: экономия = (часы ручной работы × ставка) − полная стоимость владения. Самообман начинается, когда правую часть считают одной строкой «токены». Полная таблица:

СтатьяЧто этоТипичный масштаб
Токены / тариф сервисаОплата за работу модели или единицы SaaSПример: Fin — 2000 диалогов × ~60% решённых × $0.99 ≈ $1200/мес
ИнфраструктураСерверы, конструктор, наблюдаемость$0 (self-hosted) — десятки $/мес
ПоддержкаРазбор инцидентов, донастройка промптов, переезды моделейЧасы подрядчика ежемесячно — спросите ставку заранее
Человек в контуреВремя на согласования и эскалации (урок 20)Минуты в день × ставка — мало, но не ноль

И отрезвляющий контекст из отчёта MIT (300 внедрений): 95% корпоративных AI-пилотов не дали измеримого эффекта на прибыль. Главная причина — не модели, а то, что инструмент не встроили в реальный рабочий процесс. Перевод: автоматизация окупается не в момент запуска, а в момент, когда ей реально начали жить — и это отдельная работа. (Fortune об отчёте MIT)

Зачем это вам как заказчику

Проверьте себя

Повторение урока 20. Ученики стали жаловаться, что бот поддержки «не даёт поговорить с человеком». По уроку 20, что здесь нарушено?

Автоматизация три месяца работала отлично. Код не меняли. Качество ответов поползло вниз. Какая причина НЕ могла этого вызвать?

Почему аптайм-мониторинг («сервис отвечает? зелёная лампочка») не защищает LLM-автоматизацию?

Смета подрядчика: «разработка 300 тыс. ₽ + токены ~3 тыс. ₽/мес». Что в ней отсутствует?

Практика: посчитайте окупаемость одной автоматизации

🛠 Задание на 10 минут

  1. Возьмите процесс из практик уроков 18–20. Оцените: сколько часов ручной работы в месяц он съедает сейчас и по какой ставке.
  2. Спросите Claude Code: «Посчитай полную стоимость владения автоматизацией [процесс]: токены (типовой объём — [N] прогонов/мес), инфраструктура, поддержка, время человека на согласования. Сравни с ручной работой [X] часов × [Y] ₽. Когда окупится с учётом разработки? Какие статьи я мог недооценить?»
  3. Отдельно спросите: «какие три проверочных случая ты бы заложил в eval-набор этой автоматизации с первого дня?» — это начало вашего набора.

Что дальше

Все участки блока пройдены: лестница решений → анатомия → надёжность → человек в контуре → эксплуатация. Финал — собрать это в раздел «Автоматизация» вашего ТЗ, с чеклистом заказчика.