Урок 14 · Блок 2: ассистент по базе знаний · ~14 минут

Эксплуатация: обновления, деньги и агентная надстройка

⌂ Все уроки · Актуально на 10 июня 2026 · цены — с живых страниц вендоров · термины — в глоссарии · ← урок 13

Главная мысль урока: экономика RAG контринтуитивна. Сам поиск стоит копейки — эмбеддинги почти бесплатны, реранкер — доллары в месяц. Реальные деньги уходят на генерацию ответов и на работу людей по контролю качества. А самые неприятные счета приходят из двух засад: «переиндексировать всё» и скрытые минимальные платежи облачных сервисов.

Обновления базы: дёшево, если правильно

Документы школы живут: тарифы меняются, методички дополняются. Правильная механика обновлений — инкрементальная: у каждого документа есть «отпечаток» содержимого (хеш — короткая строка, меняющаяся при любом изменении файла). Изменился отпечаток → переиндексируется только этот документ. Обновление одного документа из двухсот стоит 1/200 базы, а не всю базу.

Вопрос разработчику: «что происходит при обновлении одного документа — и сколько это стоит?» Правильный ответ масштабируется от объёма изменений, не от размера базы.

А вот настоящая засада — из урока 10: смена эмбеддинг-модели или стратегии нарезки = переиндексация всего корпуса. Типичный проект проходит через это 1–3 раза за первые полгода (нашли настройку получше — пересчитали всё). Это нормально, но должно быть заложено в бюджет, а не приходить сюрпризом.

Сколько это стоит: порядок цифр

Оценка для ассистента школы: ~200 документов, ~100 вопросов в день (~3000 в месяц). Цены — с официальных страниц вендоров, июнь 2026:

Статья	Порядок цены	Комментарий
Эмбеддинг всей базы (разово)	$0,1–0,5	Эмбеддинги — коммодити: $0,02–0,13 за 1 млн токенов; у Voyage первые 200 млн токенов бесплатно (~100 000 страниц)
Хранение индекса	обычно $0	OpenAI Vector Stores: первый 1 ГБ бесплатно; Vertex: первые 10 ГБ бесплатно
Поиск	$5–8/мес	OpenAI File Search $2,5 за 1000 вызовов; Vertex $1,5/1000
Реранкер	$3–8/мес	$1–2,5 за 1000 запросов
Генерация ответов (LLM)	$10–60/мес	Главная статья: каждый ответ читает найденные чанки + пишет текст
Итого	~$20–80/мес	Плюс работа людей: разбор логов, золотой набор — это время, не API

Источники цен: Voyage AI · OpenAI Retrieval · Vertex AI · Cohere

Запомните пропорцию: искать — дёшево, генерировать — дорого, а дороже всего — люди, которые следят за качеством. Поэтому экономить на реранкере ($5/мес) и потом платить за разбор жалоб — плохая арифметика.

🔬 Под капотом: ловушка дефолтного чекбокса — как «managed» становится в 10 раз дороже

Поучительный антипример с AWS. Их сервис Bedrock Knowledge Bases («RAG из коробки») по умолчанию создаёт векторное хранилище OpenSearch Serverless. У того есть минимальные «всегда включённые» мощности: ~$345 в месяц — даже если ассистенту не задали ни одного вопроса.

Для корпорации это мелочь, для малого бизнеса — весь бюджет проекта, утекающий в один невыключенный чекбокс. (У AWS есть и дешёвый вариант — S3 Vectors, до 90% дешевле, но его надо выбрать явно.) (разбор Cloudchipr, 2026)

Урок: у любого облачного сервиса спрашивайте не «сколько стоит запрос», а «сколько мы платим в месяц, если запросов НОЛЬ?» Это лучший детектор скрытых минимумов.

Готовый сервис или конструктор?

Для малого бизнеса в 2026 ответ почти всегда — готовый managed-сервис: нарезка, эмбеддинги, гибридный поиск и реранкер внутри, настройки наружу. Основные варианты:

OpenAI Vector Stores + File Search — всё в одном, бесплатный гигабайт хранения; самый короткий путь.
Google Vertex AI Search — то же «из коробки» с прозрачным прайсом за запрос.
Конструктор на Claude — у Anthropic нет своего векторного хранилища: поиск берёте любой (хоть OpenAI), а Claude даёт честные цитаты через Citations и search_result. Гибкий вариант, когда важна честность ответов.

Самосбор (своя векторная база, свой конвейер) оправдан на больших масштабах или особых требованиях приватности — для старта это лишние месяцы и поддержка.

Агентная надстройка: когда конвейера мало

Весь блок мы строили фиксированный конвейер: вопрос → нашёл → ответил. Для большинства вопросов этого достаточно. Но бывают вопросы, на которых он буксует: «сравни три курса и подбери под мой уровень» — тут нужно несколько поисков, сравнение, проверка.

Решение — агентный RAG (agentic RAG): поверх конвейера ставится агент из урока 1, который сам решает — где искать, не переформулировать ли вопрос, достаточно ли найденного, не поискать ли ещё раз. Минимальная форма — маршрутизатор: агент выбирает источник (база знаний? сайт? прошлые письма?). (Weaviate, What is Agentic RAG)

Цена знакома по уроку 5: каждый агентный шаг — вызов LLM, то есть +секунды задержки и +деньги. Здравый дизайн 2026: простые вопросы идут по дешёвому конвейеру, сложные — по агентному маршруту. Это та же маршрутизация из урока 5, применённая к знаниям.

Зачем это вам как заказчику

«Что происходит при обновлении документа и сколько стоит?» — ответ должен масштабироваться от изменений, не от базы.
«Сколько мы платим в месяц при нуле запросов?» — детектор скрытых минимумов.
«Почему самосбор, а не managed-сервис?» — пусть обоснует месяцы разработки против $10/мес.
«Какие вопросы пойдут по агентному маршруту и что это добавит к цене ответа?»

Проверьте себя

Повторение урока 13. Ассистент с правильно найденными документами выдал цифру, которой в них нет. Какие два инструмента это лечат?

Верно! Это провал верности источникам: цитаты переводят задачу в «подчеркни в тексте», а право на «не знаю» снимает давление «обязан ответить».

Урок 13: цифра «из ниоткуда» при правильном поиске — провал верности источникам. Лечение — Citations + право на «не знаю», а не мощность модели.

Обновился 1 документ из 200. Что должна сделать правильно построенная система?

Именно! Инкрементальное обновление: стоимость пропорциональна изменениям. Полная переиндексация нужна только при смене модели или нарезки.

Полная переиндексация при каждом изменении — расточительство, а «само обновится» — не бывает: индекс строится конвейером индексации. Правильно — точечно, по хешу изменённого документа.

Какая статья расходов у работающего RAG-ассистента обычно самая большая?

Верно! Эмбеддинги — копейки (а у Voyage первые 200 млн токенов бесплатно), хранение часто $0. Деньги уходят на генерацию каждого ответа и на людей, разбирающих качество.

Наоборот: эмбеддинги и хранение почти бесплатны. Главные статьи — LLM-генерация каждого ответа и человеческое время на контроль качества.

Какой вопрос лучше всего вскрывает скрытые минимальные платежи облачного сервиса?

Именно! Цена за запрос у всех красивая. А вот «всегда включённые» мощности (как $345/мес у дефолтного хранилища Bedrock) вскрываются только вопросом про ноль запросов.

Цена за запрос не покажет минимальные «всегда включённые» платежи. Вопрос «сколько при нуле запросов?» — единственный надёжный детектор (вспомните $345/мес у Bedrock по умолчанию).

Когда стоит добавлять агентную надстройку (agentic RAG)?

Верно! Маршрутизация из урока 5: простое — по конвейеру (быстро, дёшево), сложное — агенту (умнее, но каждый шаг = вызов LLM). Платить за агентность на вопросе «какой тариф?» — расточительство.

Ни «всегда», ни «никогда»: агентный маршрут оправдан для сложных вопросов, где конвейер буксует. Простые вопросы должны идти дешёвым путём — это маршрутизация из урока 5.

Практика: посчитайте бюджет своего ассистента

🛠 Задание на 7 минут

Возьмите свои цифры: сколько документов в базе (из практики урока 10) и сколько вопросов в день ожидаете.
Откройте Claude Code и попросите: «Посчитай месячный бюджет RAG-ассистента: [N] документов, [M] вопросов в день. Разбей по статьям: эмбеддинги, хранение, поиск, реранкер, генерация. Используй актуальные цены OpenAI/Voyage/Cohere и покажи, какая статья главная. Отдельно: какие скрытые минимальные платежи возможны?»
Сравните итог с ценностью: сколько часов поддержки в месяц ассистент сэкономит? Эта пара цифр — раздел «Экономика» вашего ТЗ.

Что дальше

Весь RAG-конвейер пройден: фильтр «нужен ли RAG» → подготовка базы → измеримый поиск → честная генерация → эксплуатация. Прежде чем собирать финальное ТЗ, разберём альтернативу, с которой RAG постоянно сравнивают: агентный поиск — ассистент без конвейера вообще, и дерево, которое разводит эти два пути по разным задачам.