🧭 Дерево выбора: как дать ассистенту знания

⌂ Все уроки · Канонический справочник курса · версия от 11 июня 2026 · это ЕДИНАЯ позиция курса по выбору «длинный контекст / агентный поиск / RAG» — уроки 4, 10, 15 и чеклист заказчика ссылаются сюда

Три пути дать ассистенту базу знаний: загрузить всё в контекст, дать агенту искать по файлам самому (агентный поиск) или построить поисковый конвейер (RAG). Споры «что лучше» почти всегда возникают из-за того, что спорящие молча подразумевают разные условия задачи. Этот справочник делает условия явными.

Четыре вопроса, которые решают всё

Сколько знаний? Меньше ~200 тысяч токенов (~500 страниц текста) — или больше?
Сколько вопросов в день — и кто спрашивает? Единицы-десятки от вас и команды — или сотни от клиентов и учеников?
Сколько спрашивающий готов ждать? Внутренний пользователь потерпит полминуты; ученик в чате поддержки уйдёт через десять секунд.
Как часто база меняется? Раз в квартал — или каждую неделю?

Заметьте: первый вопрос — про базу, а второй и третий — про нагрузку. Именно нагрузку чаще всего забывают, и именно она разводит агентный поиск и RAG по разным задачам с одной и той же базой.

Дерево

База меньше ~500 страниц? → Длинный контекст: вся база в промпт + кэширование (провайдер запоминает обработанное начало — повторные запросы дешевле до 90%). Никакого поиска, модель видит всё. Самый частый правильный ответ для малого бизнеса.
База больше, но вопросов немного (единицы-десятки в день), пользователи свои, полминуты ожидания — норм? → Агентный поиск по файлам (урок 15). Ноль инфраструктуры, данные всегда свежие, дороже и медленнее на каждый запрос — но запросов мало, так что это не больно.
Вопросов много (сотни в день и больше), спрашивают клиенты, ответ нужен за секунды и дёшево? → RAG по стандартам блока 2: гибридный поиск + реранкер, приёмка по золотому набору. Инфраструктура окупается, потому что каждый из сотен ответов быстрый и дешёвый.
Сомневаетесь? → Начните с пути проще (выше по списку). Миграция «контекст → агентный поиск → RAG» при росте дешёвая; демонтаж преждевременного RAG — обидный.

Три пути рядом

	Длинный контекст	Агентный поиск	RAG
Инфраструктура	Нет	Нет (файлы в папке)	Конвейер: парсинг, нарезка, индекс, поиск
Цена одного ответа	Средняя (вся база в токенах, кэш спасает)	Высокая: несколько витков цикла, каждый — вызов модели	Низкая: один поиск + одна генерация
Скорость ответа	Секунды	Десятки секунд	Секунды
Свежесть данных	Всегда свежие	Всегда свежие (читает оригиналы)	Свежесть индекса: обновили документ — нужна переиндексация
Потолок размера базы	~500 страниц	Малые и средние базы; на огромных буксует	Миллионы документов
Выгоден при нагрузке	Любой (в пределах размера)	Единицы–десятки запросов в день	Сотни запросов в день и больше

Качество: агентный поиск по ключевым словам даёт 90%+ качества RAG, но сжигает заметно больше токенов на запрос (arXiv 2605.15184, май 2026). Порог ~200K токенов и кэширование — Anthropic.

«Claude Code выбрал агентный поиск — значит, RAG устарел?»

Нет — и это самая частая путаница 2026 года. Anthropic действительно пробовала в раннем Claude Code векторный индекс, и агентный поиск победил «с большим отрывом». Но посмотрите на профиль задачи: один разработчик, десятки запросов в день, готов подождать полминуты, код меняется ежеминутно (индекс устаревал бы на глазах).

Это идеальный профиль агентного поиска — вопросы 2, 3 и 4 дерева в его пользу. А у ассистента поддержки онлайн-школы профиль противоположный: сотни учеников, ответ нужен за секунды, платить «агентскую» цену за каждый из сотен ответов разорительно. Та же база — другой ответ дерева.

Формула для запоминания: агентный поиск — инструмент для своих, RAG — сервис для толпы. Спор «что лучше» без вопроса «сколько запросов в день» — спор ни о чём.

Примеры-вилки (на задачах онлайн-школы)

📞 Поддержка учеников (вопросы про тарифы, доступы, условия — сотни в день, ответ нужен мгновенно). База обычно меньше 500 страниц → длинный контекст с кэшированием. Если выросла больше → RAG.

🎓 Куратор курса для учеников (вопросы по материалам всех курсов школы, десятки-сотни в день). База в тысячи страниц + внешние пользователи + нужна скорость → RAG со стандартами блока 2.

🗂 Внутренний помощник команды («что мы обещали в прошлом запуске?», «где регламент возвратов?» — единицы запросов в день от своих). → Агентный поиск: папка с материалами + Claude Code, ноль инфраструктуры.

🎙 Поиск по записям эфиров (большой архив транскриптов, обращаетесь редко, точность важнее скорости). → Агентный поиск; если откроете архив ученикам как сервис — пересчитать по дереву заново.

Когда переходить с пути на путь

Контекст → дальше: база переросла ~500 страниц, или счёт за токены стал заметным несмотря на кэш.
Агентный поиск → RAG: запросов стало много (счёт пошёл на сотни в день), пользователи жалуются на скорость, или счёт за токены растёт линейно с трафиком. Сами файлы при этом никуда не выбрасываются — они становятся источником для индексации.
Обратной дороги «RAG → проще» не бывает безболезненной: вы уже заплатили за конвейер. Поэтому дерево читают сверху вниз, а не снизу вверх.
На масштабе пути сочетают, а не выбирают: маршрутизация (уроки 5 и 14) пускает простые вопросы — а их обычно 80–90% — по дешёвому быстрому RAG-конвейеру, сложные — агентным маршрутом по той же базе. Агентская цена платится только за вопросы, которые её стоят.