Урок 4 · Основы · ~15 минут

Доступ к знаниям: RAG, длинный контекст или агентный поиск?

⌂ Все уроки · Актуально на 10 июня 2026 · источники — в тексте · термины — в глоссарии · ← урок 3

Главная мысль урока: когда агенту нужна база знаний, которая не помещается в контекстное окно, есть три пути: загрузить всё (длинный контекст), искать векторным поиском (RAG) или дать агенту искать самому (агентный поиск). В 2023 ответ был один — RAG. В 2026 ответ — «зависит от размера и динамики базы», и чаще всего правильный вариант — самый простой. Этот урок даст вам дерево выбора.

Задача, которая возникает в каждом втором бизнес-приложении

«Хочу ассистента, который отвечает по нашим регламентам / курсам / переписке с клиентами». База знаний — сотни документов, в окно целиком не лезет (а если и лезет — вы помните из урока 2 про context rot и цену каждого токена). Значит, нужен механизм, который к каждому вопросу подтягивает в контекст только релевантное. Таких механизмов три.

Путь 1 · Длинный контекст: просто загрузить всё

Если база компактная (до ~сотни страниц) — кладём её в контекст целиком, без всякого поиска.

✚ Ноль инфраструктуры, модель видит всю картину сразу, нет риска «не нашли нужный кусок».

− Платите за все токены при каждом запросе; на больших объёмах — context rot и дорого.

Подходит: FAQ, один регламент, описание продуктовой линейки.

Путь 2 · Классический RAG: найти похожее по смыслу

RAG — конвейер. Сначала документы режутся на небольшие кусочки — их называют чанками (chunk — «ломоть»): абзац-два, чтобы кусочек был про одну вещь.

Дальше главный фокус. Представьте огромную карту, где у каждого кусочка текста есть своя точка, и расставлены точки по смыслу: «как вернуть деньги» и «процедура возврата средств» — соседи, а «график отпусков» — на другом краю карты.

Координаты точки на этой карте и называются эмбеддингом (embedding — «вложение»: текст как бы вкладывается в пространство смыслов). Для наглядности представляйте карту трёхмерной — в реальности измерений сотни.

Все точки складываются в векторную базу — хранилище, которое умеет молниеносно отвечать на один вопрос: «кто ближайшие соседи вот этой точки?».

Когда пользователь что-то спрашивает, его вопрос тоже получает точку на карте. База находит кусочки-соседи, кладёт их модели в контекст — и модель отвечает. Так и получается поиск по смыслу, а не по словам.

✚ Масштабируется на миллионы документов; дёшев и быстр на каждом запросе; появились сервисы «под ключ» (managed): вы просто загружаете документы, а нарезку, карту смыслов и поиск провайдер делает сам — OpenAI Vector Stores и аналоги. (доки OpenAI)

− Это конвейер из многих шагов, и каждый может подвести: неудачная нарезка, «не та» похожесть, устаревший индекс (добавили документ — надо переиндексировать).

− К тому же «чистого» поиска по карте смыслов в продакшне недостаточно — нужны две надстройки: гибридный поиск и реранкер.

Гибридный поиск — это когда к поиску по смыслу добавляют обычный поиск по точным словам. Карта смыслов отлично понимает перефразировки, но теряет точное: артикул «СБ-1042», фамилию, номер договора — для неё это странные слова без внятного смысла. Поиск по точным словам их добирает.

Реранкер (reranker — «пересортировщик») лечит другую слабость: быстрый поиск по карте работает приблизительно. Он приносит, скажем, 50 кандидатов, и нужные там перемешаны со случайными соседями.

Реранкер — внимательный «второй читатель»: отдельная модель перечитывает каждого кандидата рядом с вопросом и пересортировывает список — наверх поднимаются те, что действительно на вопрос отвечают.

Связка работает: по данным Anthropic, добавление контекста к чанкам + реранкер снижают долю неудачных поисков на 67%. (Anthropic, Contextual Retrieval, Weaviate, Hybrid Search)

🔬 Под капотом: эмбеддинг-модель и реранкер — две разные модели

Карту смыслов рисует эмбеддинг-модель — отдельная нейросеть, обученная на миллионах пар «эти тексты об одном / о разном». Она картограф: расставляет точки заранее, на этапе индексации, не зная, какие вопросы будут задавать. Весь смысл абзаца сжимается в одну точку — отсюда скорость, и отсюда же приблизительность.

Реранкер — модель другого типа: кросс-энкодер (cross-encoder — «перекрёстный кодировщик»). Она читает вопрос и кандидата вместе, одной парой, и может сопоставлять их слово со словом: «спрашивают про возврат аванса, а абзац — про возврат товара, мимо».

Почему тогда не искать реранкером сразу по всей базе? Цена. Эмбеддинг каждого документа считается один раз заранее, а реранкеру нужен отдельный прогон на каждую пару «вопрос + кандидат» — миллион документов так не перечитаешь. Отсюда двухэтажная схема: быстрая карта отбирает ~50 кандидатов, внимательный читатель перечитывает только их.

Реранкеры — небольшие специализированные модели, заметно дешевле чатовых LLM. Их берут готовыми: Cohere Rerank, Voyage Rerank, открытое семейство bge-reranker.

Подходит: большие базы (тысячи документов), высокая частота запросов, нужен дешёвый и быстрый ответ.

Путь 3 · Агентный поиск: дать агенту искать самому

Никакого индекса. Знания лежат файлами, а агент ищет по ним в цикле обычными инструментами: поиск по словам (grep), просмотр структуры, чтение найденного — и сам решает, где искать дальше, переформулирует запрос, проверяет соседние файлы. Это то, что Claude Code делает с вашими проектами каждый день.

✚ Ноль инфраструктуры; данные всегда свежие (читаем оригинал, а не индекс); агент «рассуждает» в процессе поиска. Anthropic пробовала в раннем Claude Code RAG с векторной базой — агентный поиск «победил с большим отрывом». (разбор с цитатами создателя Claude Code, март 2026)

− Каждый поиск — несколько витков цикла: медленнее и дороже по токенам на каждый запрос; на очень больших базах буксует. Исследования 2026: агентный поиск по ключевым словам даёт 90%+ качества RAG, но жжёт заметно больше токенов. (arXiv 2605.15184, май 2026)

Подходит: малые и средние базы, частые обновления, запросов немного, точность важнее скорости.

Дерево выбора (состояние индустрии на 2026)

База помещается в окно с запасом? → Длинный контекст. Не усложняйте.
База маленькая/средняя (сотни документов), часто меняется, запросов немного (единицы-десятки в день, от своих)? → Агентный поиск по файлам. Ноль инфраструктуры.
Запросов много (сотни в день, от клиентов) и нужен быстрый дешёвый ответ — или база огромная (тысячи+ документов)? → RAG. И тогда — по стандарту: гибридный поиск + реранкер, лучше managed-сервис, чем самосбор.
Сомневаетесь? → Начните с более простого пути. Перейти от файлов к RAG потом — несложно; выкинуть преждевременно построенный RAG — обидно.

Обратите внимание: пути 2 и 3 различает не столько размер базы, сколько нагрузка — сколько запросов в день и кто ждёт ответа. Агентный поиск — инструмент для своих, RAG — сервис для толпы. Это каноническое дерево курса, в развёрнутом виде с примерами — в справочнике «Дерево выбора»; уроки дальше ссылаются именно на него.

Важный сдвиг 2026 года, о котором ваш разработчик может не знать: векторная база перестала быть обязательной. В 2023 «ассистент по базе знаний» автоматически означал «векторная база + эмбеддинги». Сегодня для малых и средних баз чаще выигрывает связка «файлы + агентный поиск + длинный контекст» — без единого нового сервиса. (разбор Akita, апр. 2026; RAGFlow, итоги 2025)

Но не делайте из этого вывод «RAG умер» — это вторая крайность. RAG незаменим там, где запросов много и каждый ответ должен быть быстрым и дешёвым: ассистент для сотен учеников — это RAG, даже если та же база для внутреннего пользования прекрасно жила бы на агентном поиске. RAG просто перестал быть ответом по умолчанию — теперь это ответ на конкретный профиль задачи.

Оба пути курс разбирает всерьёз: RAG — уроки 10–14 (блок 2), агентный поиск на практике — урок 15.

Зачем это вам как заказчику

Если разработчик на любую задачу со знаниями отвечает «развернём векторную базу» — спросите: «какого размера база и как часто меняется? почему не файлы с агентным поиском?»
Если всё же RAG — проверьте слова «гибридный поиск» и «реранкер» в ответе. Чистый векторный поиск без них — стандарт 2023, не 2026.
Спросите: «что происходит, когда документ обновился?» У RAG должен быть ответ про переиндексацию; у агентного поиска этой проблемы нет.

Проверьте себя

Повторение урока 3. Разработчик подключил агенту 30 MCP-инструментов, агент стал чаще ошибаться в выборе. Что посоветуете?

Верно, урок 3 в деле! Меньше инструментов + ясные описания = точнее выбор и свободнее контекст.

Вспомните урок 3: избыток инструментов — причина путаницы, а не лекарство. Сокращение набора и ясные описания работают лучше смены модели.

Внутренний ассистент для команды школы: ~200 документов (методички, регламенты), обновляются еженедельно, вопросов — десятки в день от своих сотрудников. Что выбрать по дереву из урока?

Именно! Средняя живая база + умеренная нагрузка от своих = профиль агентного поиска: ноль инфраструктуры, всегда свежие данные. Внимание: откройте ту же базу сотням учеников — и ответ дерева сменится на RAG (скорость и цена каждого ответа станут решающими).

200 документов целиком — context rot и дорого; RAG возможен, но это инфраструктура + переиндексация при каждом еженедельном обновлении ради десятка внутренних запросов в день. Профиль «для своих, нагрузка умеренная» — про агентный поиск; RAG станет ответом, когда спрашивать начнут сотни учеников.

Чем агентный поиск принципиально отличается от RAG?

Точно! RAG — фиксированный конвейер (вопрос → похожие чанки → ответ), агентный поиск — это agent loop из урока 1, применённый к поиску: модель рассуждает между попытками.

Дело не в новизне нейросетей и не в языке. Разница архитектурная: конвейер с одним шагом поиска против цикла, где агент сам управляет поиском (вспомните agent loop из урока 1).

Разработчик предлагает для вашей задачи RAG. Какой набор слов в его ответе должен вас успокоить (стандарт 2026)?

Верно! Гибрид + реранкер — продакшн-стандарт: смысловой поиск теряет артикулы, фамилии и номера, поиск по словам их добирает, реранкер уточняет итог (−67% неудачных поисков по данным Anthropic).

Размер базы — не показатель качества, а «чистый векторный поиск» — стандарт 2023: он теряет точные совпадения (артикулы, фамилии). Ищите слова «гибридный поиск» и «реранкер».

Почему «начни с простого пути» — правило, а не лень?

Именно! Асимметрия стоимости ошибок: недостроить легко исправить, перестроить — дорого. Тот же принцип Anthropic из урока 1: начинайте с простейшего решения, усложняйте по необходимости.

Нет, простое не «всегда лучше», и RAG жив — на больших масштабах он незаменим. Суть в асимметрии: апгрейд с простого пути дёшев, а демонтаж лишней инфраструктуры — дорог.

Практика: примените дерево к своим задачам

🛠 Задание на 7 минут

Возьмите три реальных кейса из вашего бизнеса, где ассистенту нужны знания. Например: ① ответы по материалам курсов школы, ② поиск по записям прошлых эфиров, ③ FAQ по условиям участия в клубе.
Для каждого ответьте на три вопроса дерева: какого размера база? как часто меняется? сколько запросов в день ожидается?
Выберите путь для каждого кейса и запишите одной строкой: «кейс → путь → почему».
Проверка боем: откройте Claude Code и спросите: «Спроектируй доступ к знаниям для такой задачи: [ваш кейс №1]. Сравни RAG, длинный контекст и агентный поиск, дай рекомендацию». Совпал ли его выбор с вашим? Если нет — у вас теперь есть знания, чтобы аргументированно спорить. 🙂

Что дальше

Следующий урок — паттерны оркестрации: как из моделей и инструментов собираются системы посложнее — конвейеры, маршрутизаторы, оркестраторы с субагентами — и когда мультиагентность оправдана, а когда это дорогая игрушка.