🧭 Дерево выбора: как дать ассистенту знания
⌂ Все уроки · Канонический справочник курса · версия от 11 июня 2026 · это ЕДИНАЯ позиция курса по выбору «длинный контекст / агентный поиск / RAG» — уроки
4,
10,
15 и
чеклист заказчика ссылаются сюда
Три пути дать ассистенту базу знаний: загрузить всё в контекст, дать агенту искать по файлам самому (агентный поиск) или построить поисковый конвейер (RAG). Споры «что лучше» почти всегда возникают из-за того, что спорящие молча подразумевают разные условия задачи. Этот справочник делает условия явными.
Четыре вопроса, которые решают всё
- Сколько знаний? Меньше ~200 тысяч токенов (~500 страниц текста) — или больше?
- Сколько вопросов в день — и кто спрашивает? Единицы-десятки от вас и команды — или сотни от клиентов и учеников?
- Сколько спрашивающий готов ждать? Внутренний пользователь потерпит полминуты; ученик в чате поддержки уйдёт через десять секунд.
- Как часто база меняется? Раз в квартал — или каждую неделю?
Заметьте: первый вопрос — про базу, а второй и третий — про нагрузку. Именно нагрузку чаще всего забывают, и именно она разводит агентный поиск и RAG по разным задачам с одной и той же базой.
Дерево
- База меньше ~500 страниц? → Длинный контекст: вся база в промпт + кэширование (провайдер запоминает обработанное начало — повторные запросы дешевле до 90%). Никакого поиска, модель видит всё. Самый частый правильный ответ для малого бизнеса.
- База больше, но вопросов немного (единицы-десятки в день), пользователи свои, полминуты ожидания — норм? → Агентный поиск по файлам (урок 15). Ноль инфраструктуры, данные всегда свежие, дороже и медленнее на каждый запрос — но запросов мало, так что это не больно.
- Вопросов много (сотни в день и больше), спрашивают клиенты, ответ нужен за секунды и дёшево? → RAG по стандартам блока 2: гибридный поиск + реранкер, приёмка по золотому набору. Инфраструктура окупается, потому что каждый из сотен ответов быстрый и дешёвый.
- Сомневаетесь? → Начните с пути проще (выше по списку). Миграция «контекст → агентный поиск → RAG» при росте дешёвая; демонтаж преждевременного RAG — обидный.
Три пути рядом
| Длинный контекст | Агентный поиск | RAG |
| Инфраструктура | Нет | Нет (файлы в папке) | Конвейер: парсинг, нарезка, индекс, поиск |
| Цена одного ответа | Средняя (вся база в токенах, кэш спасает) | Высокая: несколько витков цикла, каждый — вызов модели | Низкая: один поиск + одна генерация |
| Скорость ответа | Секунды | Десятки секунд | Секунды |
| Свежесть данных | Всегда свежие | Всегда свежие (читает оригиналы) | Свежесть индекса: обновили документ — нужна переиндексация |
| Потолок размера базы | ~500 страниц | Малые и средние базы; на огромных буксует | Миллионы документов |
| Выгоден при нагрузке | Любой (в пределах размера) | Единицы–десятки запросов в день | Сотни запросов в день и больше |
Качество: агентный поиск по ключевым словам даёт 90%+ качества RAG, но сжигает заметно больше токенов на запрос (arXiv 2605.15184, май 2026). Порог ~200K токенов и кэширование — Anthropic.
«Claude Code выбрал агентный поиск — значит, RAG устарел?»
Нет — и это самая частая путаница 2026 года. Anthropic действительно пробовала в раннем Claude Code векторный индекс, и агентный поиск победил «с большим отрывом». Но посмотрите на профиль задачи: один разработчик, десятки запросов в день, готов подождать полминуты, код меняется ежеминутно (индекс устаревал бы на глазах).
Это идеальный профиль агентного поиска — вопросы 2, 3 и 4 дерева в его пользу. А у ассистента поддержки онлайн-школы профиль противоположный: сотни учеников, ответ нужен за секунды, платить «агентскую» цену за каждый из сотен ответов разорительно. Та же база — другой ответ дерева.
Формула для запоминания: агентный поиск — инструмент для своих, RAG — сервис для толпы. Спор «что лучше» без вопроса «сколько запросов в день» — спор ни о чём.
Примеры-вилки (на задачах онлайн-школы)
📞 Поддержка учеников (вопросы про тарифы, доступы, условия — сотни в день, ответ нужен мгновенно). База обычно меньше 500 страниц → длинный контекст с кэшированием. Если выросла больше → RAG.
🎓 Куратор курса для учеников (вопросы по материалам всех курсов школы, десятки-сотни в день). База в тысячи страниц + внешние пользователи + нужна скорость → RAG со стандартами блока 2.
🗂 Внутренний помощник команды («что мы обещали в прошлом запуске?», «где регламент возвратов?» — единицы запросов в день от своих). → Агентный поиск: папка с материалами + Claude Code, ноль инфраструктуры.
🎙 Поиск по записям эфиров (большой архив транскриптов, обращаетесь редко, точность важнее скорости). → Агентный поиск; если откроете архив ученикам как сервис — пересчитать по дереву заново.
Когда переходить с пути на путь
- Контекст → дальше: база переросла ~500 страниц, или счёт за токены стал заметным несмотря на кэш.
- Агентный поиск → RAG: запросов стало много (счёт пошёл на сотни в день), пользователи жалуются на скорость, или счёт за токены растёт линейно с трафиком. Сами файлы при этом никуда не выбрасываются — они становятся источником для индексации.
- Обратной дороги «RAG → проще» не бывает безболезненной: вы уже заплатили за конвейер. Поэтому дерево читают сверху вниз, а не снизу вверх.
- На масштабе пути сочетают, а не выбирают: маршрутизация (уроки 5 и 14) пускает простые вопросы — а их обычно 80–90% — по дешёвому быстрому RAG-конвейеру, сложные — агентным маршрутом по той же базе. Агентская цена платится только за вопросы, которые её стоят.