Главная мысль урока: поиск — место, где RAG ломается чаще всего, и при этом единственный участок конвейера, который можно измерить цифрами до запуска. Два слова, которые превращают вас из «принимающего по демо» в настоящего заказчика: золотой набор и recall. По данным практиков, ~70% команд в продакшне вообще не меряют качество поиска — не будьте среди них.
Сначала сам поиск: что заказывать в 2026
Хорошая новость: правильную конструкцию поиска вы уже знаете из урока 4. Гибрид — два поисковика работают параллельно (карта смыслов + точные слова), их результаты сливаются в один список. Поверх — реранкер, «внимательный второй читатель». Всё это во всех крупных векторных базах есть из коробки — строить с нуля ничего не нужно. (дока Weaviate, Hybrid Search)
Новое — цены, снимающие страх «это дорого». Реранкер стоит порядка $1–2,5 за тысячу запросов (Cohere Rerank, Voyage и открытые аналоги). При сотне вопросов в день это $3–8 в месяц — самое дешёвое улучшение качества RAG на каждый вложенный доллар. (дока Cohere Rerank)
вопрос → [карта смыслов] + [точные слова] → слияние → топ-50 → реранкер → топ-5 → модели
🔬 Под капотом: как сливают два списка результатов
Два поисковика возвращают два разных списка с разными оценками — их надо честно объединить. Это называется fusion («слияние»). Два основных способа: привести оценки обоих поисковиков к общей шкале от 0 до 1 и сложить, либо смотреть только на позиции («этот документ — третий у одного и первый у другого»).
У слияния есть ползунок-баланс: ближе к «словам» или ближе к «смыслу». Для базы с артикулами и названиями тарифов его сдвигают к словам, для базы эссе и методичек — к смыслу. Это настраивается одним параметром, спросить про него — нормально.
Золотой набор: ваш главный инструмент приёмки
Золотой набор — это 50–100 пар «реальный вопрос → документ (чанк), где лежит ответ». Своего рода экзаменационные билеты для поиска: мы заранее знаем правильные ответы и можем проверить, находит ли их система.
Кто его собирает? В идеале — вы с командой: никто лучше вас не знает реальные вопросы учеников. Но есть и автоматический трюк: синтетические вопросы. Берём каждый чанк базы и просим LLM сгенерировать вопрос, на который этот чанк отвечает. Пара «вопрос → чанк» создаётся сама, без ручной разметки. (Evals FAQ, Hamel Husain & Shreya Shankar)
С синтетикой связано полезное правило от практика Джейсона Лю: на таких «лёгких» вопросах поиск обязан находить нужный чанк в ~97% случаев — вопрос ведь сделан из самого чанка! Если цифра ниже — поиск сломан на базовом уровне, и трогать промпты бессмысленно. (Jason Liu, Systematically Improving Your RAG)
Recall и precision: две цифры, которые нужно понимать
Recall@5 (полнота) — «из всех нужных документов — какая доля попала в первую пятёрку выдачи?» Recall@5 = 80% значит: в 8 случаях из 10 нужный документ оказался в топ-5, в 2 случаях — поиск его упустил, и модель будет отвечать вслепую.
Precision@5 (точность) — обратный взгляд: «из пяти найденных — сколько действительно по делу?» Низкая точность = модели подсунули мусор вперемешку с нужным.
Для RAG обычно важнее recall: модель прочитает всё, что ей дали, и сама отделит нужное — но только если нужное вообще принесли. Упущенный документ не компенсируется ничем. (Hamel Husain / Nandan Thakur, Modern IR Evals for RAG)
Это и есть формула приёмки: не «покажите красивое демо», а «покажите recall@5 на золотом наборе». Демо из пяти удачных вопросов делается за вечер; recall 85%+ на сотне реальных вопросов — это работающая система.
Почему нельзя выбирать модель по рейтингу
Разработчик может сказать: «возьмём эмбеддинг-модель №1 из рейтинга». Проблема: публичные рейтинги (бенчмарки) «протекли» — их вопросы попали в обучающие данные моделей, и модели выучили ответы как студент, укравший билеты. В крупнейшем рейтинге 400+ моделей с минимальными разрывами — выбор по нему почти лотерея. (лекция Nandan Thakur, соавтора бенчмарка BEIR)
Решение всё то же: мерить на своих данных золотым набором. Реальный пример Джейсона Лю: на одном наборе данных поиск по словам и карта смыслов сравнялись, на другом карта выиграла 65% против 55%. Ответ «что лучше» всегда зависит от ваших документов.
«А нужен ли нам GraphRAG?»
Возможно, вы слышали про GraphRAG — подход, где из документов строится граф связей «кто с кем и как связан», и поиск идёт по нему. В 2024 он был на пике хайпа. Вердикт 2026: не взлетел как стандарт, занял нишу.
Причины: построение графа сжигает в разы больше токенов, чем весь корпус документов; автоматическое извлечение связей ошибается; эксплуатация в 3–5 раз дороже обычного RAG. Ниша, где он оправдан, — вопросы-цепочки по связям («какие клиенты связаны с поставщиком X через общих партнёров?»). Для базы знаний школы — почти наверняка лишняя сложность. (Microsoft GraphRAG; RAGFlow, итоги 2025)
Зачем это вам как заказчику
В ТЗ — строка: «приёмка по recall@5 на золотом наборе из N вопросов, целевой уровень — 85%+». Это меняет весь разговор.
Вопрос разработчику: «какой recall на синтетических вопросах? (должен быть ~97%)» — дешёвая проверка, что поиск в принципе жив.
«Возьмём модель из топа рейтинга» → «а на наших данных мерили?»
«Предлагаю GraphRAG» → «какие у нас вопросы-цепочки по связям, оправдывающие 3–5× стоимости?»
Проверьте себя
Повторение урока 11. Чанк «выручка выросла на 3%» плохо ищется — непонятно, чья выручка. Какие два лекарства существуют?
Верно! Амнезия чанка лечится возвратом контекста: дописать словами (дороже, точнее) или дать впитать через эмбеддинг всего документа (дешевле, проще).
Гигантские чанки роняют точность, а база хранит точки, но не создаёт контекст. Лекарства из урока 11: contextual retrieval и late chunking.
Что такое золотой набор?
Именно! Мы заранее знаем, где лежит ответ, — и можем посчитать, в какой доле случаев поиск его находит. Это основа приёмки по цифрам.
Золотой набор — это проверочные пары «вопрос → где лежит ответ». По ним считается recall: доля случаев, когда поиск нашёл нужное.
Recall@5 на вашем золотом наборе = 60%. Что это значит на практике?
Верно! Recall — про поиск, а не про серверы или довольство. 40% упущенных документов означают: какой промпт ни пиши, модель не видит нужного текста.
Recall@5 = 60% значит: нужный документ попадает в первую пятёрку только в 6 случаях из 10. Остальные 4 раза модель отвечает, не видя ответа. Чинить — поиск.
Разработчик: «Возьмём эмбеддинг-модель №1 из мирового рейтинга». В чём подвох?
Именно! Модели «выучили билеты» публичных бенчмарков. Единственный честный тест — золотой набор на вашем корпусе: результаты на чужих данных не переносятся.
Дело не в цене. Вопросы рейтингов попали в обучение моделей, поэтому места в топе мало что значат. Мерить надо на своих данных.
Когда GraphRAG действительно оправдан?
Верно! GraphRAG — нишевый инструмент для multi-hop вопросов о связях. Для обычной базы знаний это дорогая лишняя сложность: дефолт 2026 — начинать без графа.
GraphRAG не «новее и лучше» — он дороже в разы и оправдан только для вопросов-цепочек по связям («кто связан с кем через что»). Размер базы сам по себе — не аргумент.
Практика: соберите мини-золотой набор
🛠 Задание на 10 минут
Выпишите 10 реальных вопросов, которые ученики/клиенты задают чаще всего (или попросите у службы поддержки).
Для каждого вопроса отметьте: в каком документе лежит ответ. Получились 10 пар «вопрос → документ» — зародыш золотого набора.
Бонус: откройте Claude Code в папке с документами и попросите: «Вот 10 вопросов и документы, где лежат ответы. Сгенерируй ещё по 2 синтетических вопроса к каждому из этих документов — расширим золотой набор до 30».
Сохраните файл — он пойдёт прямо в ТЗ (раздел «Качество») и сэкономит вам недели споров с исполнителем.
Что дальше
Поиск работает и измерен. Следующий урок — последний участок конвейера: генерация ответа. Как заставить модель отвечать только по найденному, честно говорить «не знаю» и подтверждать каждое утверждение цитатой из документа.