Главная мысль урока: экономика RAG контринтуитивна. Сам поиск стоит копейки — эмбеддинги почти бесплатны, реранкер — доллары в месяц. Реальные деньги уходят на генерацию ответов и на работу людей по контролю качества. А самые неприятные счета приходят из двух засад: «переиндексировать всё» и скрытые минимальные платежи облачных сервисов.
Обновления базы: дёшево, если правильно
Документы школы живут: тарифы меняются, методички дополняются. Правильная механика обновлений — инкрементальная: у каждого документа есть «отпечаток» содержимого (хеш — короткая строка, меняющаяся при любом изменении файла). Изменился отпечаток → переиндексируется только этот документ. Обновление одного документа из двухсот стоит 1/200 базы, а не всю базу.
Вопрос разработчику: «что происходит при обновлении одного документа — и сколько это стоит?» Правильный ответ масштабируется от объёма изменений, не от размера базы.
А вот настоящая засада — из урока 10: смена эмбеддинг-модели или стратегии нарезки = переиндексация всего корпуса. Типичный проект проходит через это 1–3 раза за первые полгода (нашли настройку получше — пересчитали всё). Это нормально, но должно быть заложено в бюджет, а не приходить сюрпризом.
Сколько это стоит: порядок цифр
Оценка для ассистента школы: ~200 документов, ~100 вопросов в день (~3000 в месяц). Цены — с официальных страниц вендоров, июнь 2026:
Статья
Порядок цены
Комментарий
Эмбеддинг всей базы (разово)
$0,1–0,5
Эмбеддинги — коммодити: $0,02–0,13 за 1 млн токенов; у Voyage первые 200 млн токенов бесплатно (~100 000 страниц)
Хранение индекса
обычно $0
OpenAI Vector Stores: первый 1 ГБ бесплатно; Vertex: первые 10 ГБ бесплатно
Поиск
$5–8/мес
OpenAI File Search $2,5 за 1000 вызовов; Vertex $1,5/1000
Реранкер
$3–8/мес
$1–2,5 за 1000 запросов
Генерация ответов (LLM)
$10–60/мес
Главная статья: каждый ответ читает найденные чанки + пишет текст
Итого
~$20–80/мес
Плюс работа людей: разбор логов, золотой набор — это время, не API
Запомните пропорцию: искать — дёшево, генерировать — дорого, а дороже всего — люди, которые следят за качеством. Поэтому экономить на реранкере ($5/мес) и потом платить за разбор жалоб — плохая арифметика.
🔬 Под капотом: ловушка дефолтного чекбокса — как «managed» становится в 10 раз дороже
Поучительный антипример с AWS. Их сервис Bedrock Knowledge Bases («RAG из коробки») по умолчанию создаёт векторное хранилище OpenSearch Serverless. У того есть минимальные «всегда включённые» мощности: ~$345 в месяц — даже если ассистенту не задали ни одного вопроса.
Для корпорации это мелочь, для малого бизнеса — весь бюджет проекта, утекающий в один невыключенный чекбокс. (У AWS есть и дешёвый вариант — S3 Vectors, до 90% дешевле, но его надо выбрать явно.) (разбор Cloudchipr, 2026)
Урок: у любого облачного сервиса спрашивайте не «сколько стоит запрос», а «сколько мы платим в месяц, если запросов НОЛЬ?» Это лучший детектор скрытых минимумов.
Готовый сервис или конструктор?
Для малого бизнеса в 2026 ответ почти всегда — готовый managed-сервис: нарезка, эмбеддинги, гибридный поиск и реранкер внутри, настройки наружу. Основные варианты:
OpenAI Vector Stores + File Search — всё в одном, бесплатный гигабайт хранения; самый короткий путь.
Google Vertex AI Search — то же «из коробки» с прозрачным прайсом за запрос.
Конструктор на Claude — у Anthropic нет своего векторного хранилища: поиск берёте любой (хоть OpenAI), а Claude даёт честные цитаты через Citations и search_result. Гибкий вариант, когда важна честность ответов.
Самосбор (своя векторная база, свой конвейер) оправдан на больших масштабах или особых требованиях приватности — для старта это лишние месяцы и поддержка.
Агентная надстройка: когда конвейера мало
Весь блок мы строили фиксированный конвейер: вопрос → нашёл → ответил. Для большинства вопросов этого достаточно. Но бывают вопросы, на которых он буксует: «сравни три курса и подбери под мой уровень» — тут нужно несколько поисков, сравнение, проверка.
Решение — агентный RAG (agentic RAG): поверх конвейера ставится агент из урока 1, который сам решает — где искать, не переформулировать ли вопрос, достаточно ли найденного, не поискать ли ещё раз. Минимальная форма — маршрутизатор: агент выбирает источник (база знаний? сайт? прошлые письма?). (Weaviate, What is Agentic RAG)
Цена знакома по уроку 5: каждый агентный шаг — вызов LLM, то есть +секунды задержки и +деньги. Здравый дизайн 2026: простые вопросы идут по дешёвому конвейеру, сложные — по агентному маршруту. Это та же маршрутизация из урока 5, применённая к знаниям.
Зачем это вам как заказчику
«Что происходит при обновлении документа и сколько стоит?» — ответ должен масштабироваться от изменений, не от базы.
«Сколько мы платим в месяц при нуле запросов?» — детектор скрытых минимумов.
«Почему самосбор, а не managed-сервис?» — пусть обоснует месяцы разработки против $10/мес.
«Какие вопросы пойдут по агентному маршруту и что это добавит к цене ответа?»
Проверьте себя
Повторение урока 13. Ассистент с правильно найденными документами выдал цифру, которой в них нет. Какие два инструмента это лечат?
Верно! Это провал верности источникам: цитаты переводят задачу в «подчеркни в тексте», а право на «не знаю» снимает давление «обязан ответить».
Урок 13: цифра «из ниоткуда» при правильном поиске — провал верности источникам. Лечение — Citations + право на «не знаю», а не мощность модели.
Обновился 1 документ из 200. Что должна сделать правильно построенная система?
Именно! Инкрементальное обновление: стоимость пропорциональна изменениям. Полная переиндексация нужна только при смене модели или нарезки.
Полная переиндексация при каждом изменении — расточительство, а «само обновится» — не бывает: индекс строится конвейером индексации. Правильно — точечно, по хешу изменённого документа.
Какая статья расходов у работающего RAG-ассистента обычно самая большая?
Верно! Эмбеддинги — копейки (а у Voyage первые 200 млн токенов бесплатно), хранение часто $0. Деньги уходят на генерацию каждого ответа и на людей, разбирающих качество.
Наоборот: эмбеддинги и хранение почти бесплатны. Главные статьи — LLM-генерация каждого ответа и человеческое время на контроль качества.
Какой вопрос лучше всего вскрывает скрытые минимальные платежи облачного сервиса?
Именно! Цена за запрос у всех красивая. А вот «всегда включённые» мощности (как $345/мес у дефолтного хранилища Bedrock) вскрываются только вопросом про ноль запросов.
Цена за запрос не покажет минимальные «всегда включённые» платежи. Вопрос «сколько при нуле запросов?» — единственный надёжный детектор (вспомните $345/мес у Bedrock по умолчанию).
Когда стоит добавлять агентную надстройку (agentic RAG)?
Верно! Маршрутизация из урока 5: простое — по конвейеру (быстро, дёшево), сложное — агенту (умнее, но каждый шаг = вызов LLM). Платить за агентность на вопросе «какой тариф?» — расточительство.
Ни «всегда», ни «никогда»: агентный маршрут оправдан для сложных вопросов, где конвейер буксует. Простые вопросы должны идти дешёвым путём — это маршрутизация из урока 5.
Практика: посчитайте бюджет своего ассистента
🛠 Задание на 7 минут
Возьмите свои цифры: сколько документов в базе (из практики урока 10) и сколько вопросов в день ожидаете.
Откройте Claude Code и попросите: «Посчитай месячный бюджет RAG-ассистента: [N] документов, [M] вопросов в день. Разбей по статьям: эмбеддинги, хранение, поиск, реранкер, генерация. Используй актуальные цены OpenAI/Voyage/Cohere и покажи, какая статья главная. Отдельно: какие скрытые минимальные платежи возможны?»
Сравните итог с ценностью: сколько часов поддержки в месяц ассистент сэкономит? Эта пара цифр — раздел «Экономика» вашего ТЗ.
Что дальше
Весь RAG-конвейер пройден: фильтр «нужен ли RAG» → подготовка базы → измеримый поиск → честная генерация → эксплуатация. Прежде чем собирать финальное ТЗ, разберём альтернативу, с которой RAG постоянно сравнивают: агентный поиск — ассистент без конвейера вообще, и дерево, которое разводит эти два пути по разным задачам.