Урок 10 · Блок 2: ассистент по базе знаний · ~12 минут

Анатомия RAG-конвейера: от документа до ответа

⌂ Все уроки · Актуально на 10 июня 2026 · источники — в тексте · термины — в глоссарии · фундамент — урок 4
Главная мысль урока: RAG — это не один конвейер, а два. Первый готовит базу знаний (индексация), второй отвечает на вопросы. Понимая оба и зная семь мест, где они ломаются, вы сможете читать любое предложение разработчика как карту — и видеть, какие участки он забыл. Этим блок 2 и займётся: урок за уроком пройдём каждый участок.

Сначала фильтр: а нужен ли вам RAG вообще?

Прежде чем строить конвейер — проверка из дерева выбора урока 4, теперь с конкретным числом. Anthropic называет порог: если база знаний меньше ~200 тысяч токенов — это примерно 500 страниц текста — RAG не нужен. Кладите всё в промпт целиком.

Чтобы это не разоряло, есть кэширование промпта (prompt caching): провайдер запоминает уже обработанное начало запроса и не пересчитывает его заново при следующих обращениях. Повторные запросы становятся быстрее в 2 раза и дешевле до 90%. (Anthropic, Contextual Retrieval, сент. 2024)

Это первый вопрос приёмки любого RAG-предложения: «сколько страниц в нашей базе?» Если меньше пятисот — возможно, вам только что предложили построить завод ради одной табуретки.

Второй вопрос фильтра — «сколько запросов в день и кто спрашивает?» База больше порога, но спрашивает своя команда десяток раз в день? Тогда дешевле агентный поиск по файлам — без конвейера вообще (урок 15). RAG из этого блока — для третьего случая: запросов много, спрашивают клиенты, ответ нужен за секунды. Полное дерево — в справочнике «Дерево выбора».

Конвейер 1 · Индексация: готовим библиотеку

Этот конвейер работает до всяких вопросов — он превращает ваши документы в библиотеку с каталогом. Запускается при создании базы и потом при обновлениях.

документы → парсинг → нарезка на чанки → обогащение контекстом → точки на карте смыслов → хранилище

Конвейер 2 · Ответ: работаем с читателем

Этот конвейер запускается на каждый вопрос пользователя — и оплачивается каждый раз.

вопрос → гибридный поиск (топ-50 кандидатов) → реранкер (топ-5 лучших) → модель пишет ответ с цитатами
🔬 Под капотом: почему конвейера именно два

Индексация — тяжёлая и медленная работа: распарсить сотни документов, нарезать, посчитать точки. Делать её при каждом вопросе невозможно — ответ нужен за секунды. Поэтому всю тяжесть выносят «за скобки» и делают заранее.

Отсюда два следствия для денег. Первое: индексация оплачивается один раз, ответы — постоянно, и это разные статьи бюджета (урок 14). Второе: всё, что меняет правила индексации — другая нарезка, другая эмбеддинг-модель, — заставляет пересчитать всю библиотеку заново. Это главный скрытый расход RAG-проектов.

Семь мест, где конвейер ломается

Исследователи из Университета Дикина разобрали три реальных RAG-системы и выделили семь точек отказа — это самая цитируемая работа о провалах RAG. (Seven Failure Points When Engineering a RAG System, янв. 2024)

Группа «не нашли»:

  1. Ответа вообще нет в базе — а система отвечает, будто есть.
  2. Нужный документ есть, но не попал в топ выдачи поиска.
  3. Попал в выдачу, но не вошёл в контекст модели (не хватило места).

Группа «нашли, но ответ плохой»:

  1. Модель не сумела извлечь ответ из найденного текста.
  2. Ответ не в том формате (просили таблицу — получили эссе).
  3. Ответ неточный: близко, но мимо.
  4. Ответ неполный: половина правды.

Заметьте: только три из семи лечатся «лучшей моделью». Остальные — это качество базы, нарезки и поиска, то есть инженерная работа над конвейером.

И главный вывод той же работы: по-настоящему проверить RAG-систему можно только в эксплуатации. Реальные вопросы пользователей всегда отличаются от тестовых. Запуск — не конец проекта, а начало его настройки.

Зачем это вам как заказчику

Проверьте себя

Повторение блока 1. База знаний школы — 80 страниц FAQ и условий, меняется раз в месяц. Разработчик предлагает RAG с векторной базой. Что ответите?

Что из этого оплачивается при КАЖДОМ вопросе пользователя?

Какое изменение заставит пересчитать ВСЮ базу заново (самый дорогой сценарий)?

Разработчик: «Сдам ассистента через месяц, протестируем на 20 вопросах — и готово». Что не так?

Практика: проверьте свою базу на пороге

🛠 Задание на 5 минут

  1. Выберите реальную базу знаний для будущего ассистента (материалы школы, регламенты, FAQ).
  2. Откройте Claude Code в папке с этими документами и спросите: «Оцени общий объём этих документов в токенах. Порог — 200 тысяч токенов (~500 страниц): если меньше, RAG не нужен, достаточно длинного контекста с кэшированием. Что у нас?»
  3. Запишите результат — это первая строка раздела «Знания» вашего будущего ТЗ.

Что дальше

Если RAG всё-таки нужен — следующий урок про самый недооценённый участок: подготовку и нарезку базы. Именно там, по статистике, умирает большинство RAG-проектов — ещё до всякого ИИ.