Урок 14 · Блок 2: ассистент по базе знаний · ~14 минут

Эксплуатация: обновления, деньги и агентная надстройка

⌂ Все уроки · Актуально на 10 июня 2026 · цены — с живых страниц вендоров · термины — в глоссарии · ← урок 13
Главная мысль урока: экономика RAG контринтуитивна. Сам поиск стоит копейки — эмбеддинги почти бесплатны, реранкер — доллары в месяц. Реальные деньги уходят на генерацию ответов и на работу людей по контролю качества. А самые неприятные счета приходят из двух засад: «переиндексировать всё» и скрытые минимальные платежи облачных сервисов.

Обновления базы: дёшево, если правильно

Документы школы живут: тарифы меняются, методички дополняются. Правильная механика обновлений — инкрементальная: у каждого документа есть «отпечаток» содержимого (хеш — короткая строка, меняющаяся при любом изменении файла). Изменился отпечаток → переиндексируется только этот документ. Обновление одного документа из двухсот стоит 1/200 базы, а не всю базу.

Вопрос разработчику: «что происходит при обновлении одного документа — и сколько это стоит?» Правильный ответ масштабируется от объёма изменений, не от размера базы.

А вот настоящая засада — из урока 10: смена эмбеддинг-модели или стратегии нарезки = переиндексация всего корпуса. Типичный проект проходит через это 1–3 раза за первые полгода (нашли настройку получше — пересчитали всё). Это нормально, но должно быть заложено в бюджет, а не приходить сюрпризом.

Сколько это стоит: порядок цифр

Оценка для ассистента школы: ~200 документов, ~100 вопросов в день (~3000 в месяц). Цены — с официальных страниц вендоров, июнь 2026:

СтатьяПорядок ценыКомментарий
Эмбеддинг всей базы (разово)$0,1–0,5Эмбеддинги — коммодити: $0,02–0,13 за 1 млн токенов; у Voyage первые 200 млн токенов бесплатно (~100 000 страниц)
Хранение индексаобычно $0OpenAI Vector Stores: первый 1 ГБ бесплатно; Vertex: первые 10 ГБ бесплатно
Поиск$5–8/месOpenAI File Search $2,5 за 1000 вызовов; Vertex $1,5/1000
Реранкер$3–8/мес$1–2,5 за 1000 запросов
Генерация ответов (LLM)$10–60/месГлавная статья: каждый ответ читает найденные чанки + пишет текст
Итого~$20–80/месПлюс работа людей: разбор логов, золотой набор — это время, не API

Источники цен: Voyage AI · OpenAI Retrieval · Vertex AI · Cohere

Запомните пропорцию: искать — дёшево, генерировать — дорого, а дороже всего — люди, которые следят за качеством. Поэтому экономить на реранкере ($5/мес) и потом платить за разбор жалоб — плохая арифметика.

🔬 Под капотом: ловушка дефолтного чекбокса — как «managed» становится в 10 раз дороже

Поучительный антипример с AWS. Их сервис Bedrock Knowledge Bases («RAG из коробки») по умолчанию создаёт векторное хранилище OpenSearch Serverless. У того есть минимальные «всегда включённые» мощности: ~$345 в месяц — даже если ассистенту не задали ни одного вопроса.

Для корпорации это мелочь, для малого бизнеса — весь бюджет проекта, утекающий в один невыключенный чекбокс. (У AWS есть и дешёвый вариант — S3 Vectors, до 90% дешевле, но его надо выбрать явно.) (разбор Cloudchipr, 2026)

Урок: у любого облачного сервиса спрашивайте не «сколько стоит запрос», а «сколько мы платим в месяц, если запросов НОЛЬ?» Это лучший детектор скрытых минимумов.

Готовый сервис или конструктор?

Для малого бизнеса в 2026 ответ почти всегда — готовый managed-сервис: нарезка, эмбеддинги, гибридный поиск и реранкер внутри, настройки наружу. Основные варианты:

Самосбор (своя векторная база, свой конвейер) оправдан на больших масштабах или особых требованиях приватности — для старта это лишние месяцы и поддержка.

Агентная надстройка: когда конвейера мало

Весь блок мы строили фиксированный конвейер: вопрос → нашёл → ответил. Для большинства вопросов этого достаточно. Но бывают вопросы, на которых он буксует: «сравни три курса и подбери под мой уровень» — тут нужно несколько поисков, сравнение, проверка.

Решение — агентный RAG (agentic RAG): поверх конвейера ставится агент из урока 1, который сам решает — где искать, не переформулировать ли вопрос, достаточно ли найденного, не поискать ли ещё раз. Минимальная форма — маршрутизатор: агент выбирает источник (база знаний? сайт? прошлые письма?). (Weaviate, What is Agentic RAG)

Цена знакома по уроку 5: каждый агентный шаг — вызов LLM, то есть +секунды задержки и +деньги. Здравый дизайн 2026: простые вопросы идут по дешёвому конвейеру, сложные — по агентному маршруту. Это та же маршрутизация из урока 5, применённая к знаниям.

Зачем это вам как заказчику

Проверьте себя

Повторение урока 13. Ассистент с правильно найденными документами выдал цифру, которой в них нет. Какие два инструмента это лечат?

Обновился 1 документ из 200. Что должна сделать правильно построенная система?

Какая статья расходов у работающего RAG-ассистента обычно самая большая?

Какой вопрос лучше всего вскрывает скрытые минимальные платежи облачного сервиса?

Когда стоит добавлять агентную надстройку (agentic RAG)?

Практика: посчитайте бюджет своего ассистента

🛠 Задание на 7 минут

  1. Возьмите свои цифры: сколько документов в базе (из практики урока 10) и сколько вопросов в день ожидаете.
  2. Откройте Claude Code и попросите: «Посчитай месячный бюджет RAG-ассистента: [N] документов, [M] вопросов в день. Разбей по статьям: эмбеддинги, хранение, поиск, реранкер, генерация. Используй актуальные цены OpenAI/Voyage/Cohere и покажи, какая статья главная. Отдельно: какие скрытые минимальные платежи возможны?»
  3. Сравните итог с ценностью: сколько часов поддержки в месяц ассистент сэкономит? Эта пара цифр — раздел «Экономика» вашего ТЗ.

Что дальше

Весь RAG-конвейер пройден: фильтр «нужен ли RAG» → подготовка базы → измеримый поиск → честная генерация → эксплуатация. Прежде чем собирать финальное ТЗ, разберём альтернативу, с которой RAG постоянно сравнивают: агентный поиск — ассистент без конвейера вообще, и дерево, которое разводит эти два пути по разным задачам.