Урок 12 · Блок 2: ассистент по базе знаний · ~14 минут

Поиск: гибрид, реранкер и проверка цифрами

⌂ Все уроки · Актуально на 10 июня 2026 · источники — в тексте · термины — в глоссарии · ← урок 11

Главная мысль урока: поиск — место, где RAG ломается чаще всего, и при этом единственный участок конвейера, который можно измерить цифрами до запуска. Два слова, которые превращают вас из «принимающего по демо» в настоящего заказчика: золотой набор и recall. По данным практиков, ~70% команд в продакшне вообще не меряют качество поиска — не будьте среди них.

Сначала сам поиск: что заказывать в 2026

Хорошая новость: правильную конструкцию поиска вы уже знаете из урока 4. Гибрид — два поисковика работают параллельно (карта смыслов + точные слова), их результаты сливаются в один список. Поверх — реранкер, «внимательный второй читатель». Всё это во всех крупных векторных базах есть из коробки — строить с нуля ничего не нужно. (дока Weaviate, Hybrid Search)

Новое — цены, снимающие страх «это дорого». Реранкер стоит порядка $1–2,5 за тысячу запросов (Cohere Rerank, Voyage и открытые аналоги). При сотне вопросов в день это $3–8 в месяц — самое дешёвое улучшение качества RAG на каждый вложенный доллар. (дока Cohere Rerank)

вопрос → [карта смыслов] + [точные слова] → слияние → топ-50 → реранкер → топ-5 → модели

🔬 Под капотом: как сливают два списка результатов

Два поисковика возвращают два разных списка с разными оценками — их надо честно объединить. Это называется fusion («слияние»). Два основных способа: привести оценки обоих поисковиков к общей шкале от 0 до 1 и сложить, либо смотреть только на позиции («этот документ — третий у одного и первый у другого»).

У слияния есть ползунок-баланс: ближе к «словам» или ближе к «смыслу». Для базы с артикулами и названиями тарифов его сдвигают к словам, для базы эссе и методичек — к смыслу. Это настраивается одним параметром, спросить про него — нормально.

Золотой набор: ваш главный инструмент приёмки

Золотой набор — это 50–100 пар «реальный вопрос → документ (чанк), где лежит ответ». Своего рода экзаменационные билеты для поиска: мы заранее знаем правильные ответы и можем проверить, находит ли их система.

Кто его собирает? В идеале — вы с командой: никто лучше вас не знает реальные вопросы учеников. Но есть и автоматический трюк: синтетические вопросы. Берём каждый чанк базы и просим LLM сгенерировать вопрос, на который этот чанк отвечает. Пара «вопрос → чанк» создаётся сама, без ручной разметки. (Evals FAQ, Hamel Husain & Shreya Shankar)

С синтетикой связано полезное правило от практика Джейсона Лю: на таких «лёгких» вопросах поиск обязан находить нужный чанк в ~97% случаев — вопрос ведь сделан из самого чанка! Если цифра ниже — поиск сломан на базовом уровне, и трогать промпты бессмысленно. (Jason Liu, Systematically Improving Your RAG)

Recall и precision: две цифры, которые нужно понимать

Recall@5 (полнота) — «из всех нужных документов — какая доля попала в первую пятёрку выдачи?» Recall@5 = 80% значит: в 8 случаях из 10 нужный документ оказался в топ-5, в 2 случаях — поиск его упустил, и модель будет отвечать вслепую.

Precision@5 (точность) — обратный взгляд: «из пяти найденных — сколько действительно по делу?» Низкая точность = модели подсунули мусор вперемешку с нужным.

Для RAG обычно важнее recall: модель прочитает всё, что ей дали, и сама отделит нужное — но только если нужное вообще принесли. Упущенный документ не компенсируется ничем. (Hamel Husain / Nandan Thakur, Modern IR Evals for RAG)

Это и есть формула приёмки: не «покажите красивое демо», а «покажите recall@5 на золотом наборе». Демо из пяти удачных вопросов делается за вечер; recall 85%+ на сотне реальных вопросов — это работающая система.

Почему нельзя выбирать модель по рейтингу

Разработчик может сказать: «возьмём эмбеддинг-модель №1 из рейтинга». Проблема: публичные рейтинги (бенчмарки) «протекли» — их вопросы попали в обучающие данные моделей, и модели выучили ответы как студент, укравший билеты. В крупнейшем рейтинге 400+ моделей с минимальными разрывами — выбор по нему почти лотерея. (лекция Nandan Thakur, соавтора бенчмарка BEIR)

Решение всё то же: мерить на своих данных золотым набором. Реальный пример Джейсона Лю: на одном наборе данных поиск по словам и карта смыслов сравнялись, на другом карта выиграла 65% против 55%. Ответ «что лучше» всегда зависит от ваших документов.

«А нужен ли нам GraphRAG?»

Возможно, вы слышали про GraphRAG — подход, где из документов строится граф связей «кто с кем и как связан», и поиск идёт по нему. В 2024 он был на пике хайпа. Вердикт 2026: не взлетел как стандарт, занял нишу.

Причины: построение графа сжигает в разы больше токенов, чем весь корпус документов; автоматическое извлечение связей ошибается; эксплуатация в 3–5 раз дороже обычного RAG. Ниша, где он оправдан, — вопросы-цепочки по связям («какие клиенты связаны с поставщиком X через общих партнёров?»). Для базы знаний школы — почти наверняка лишняя сложность. (Microsoft GraphRAG; RAGFlow, итоги 2025)

Зачем это вам как заказчику

В ТЗ — строка: «приёмка по recall@5 на золотом наборе из N вопросов, целевой уровень — 85%+». Это меняет весь разговор.
Вопрос разработчику: «какой recall на синтетических вопросах? (должен быть ~97%)» — дешёвая проверка, что поиск в принципе жив.
«Возьмём модель из топа рейтинга» → «а на наших данных мерили?»
«Предлагаю GraphRAG» → «какие у нас вопросы-цепочки по связям, оправдывающие 3–5× стоимости?»

Проверьте себя

Повторение урока 11. Чанк «выручка выросла на 3%» плохо ищется — непонятно, чья выручка. Какие два лекарства существуют?

Верно! Амнезия чанка лечится возвратом контекста: дописать словами (дороже, точнее) или дать впитать через эмбеддинг всего документа (дешевле, проще).

Гигантские чанки роняют точность, а база хранит точки, но не создаёт контекст. Лекарства из урока 11: contextual retrieval и late chunking.

Что такое золотой набор?

Именно! Мы заранее знаем, где лежит ответ, — и можем посчитать, в какой доле случаев поиск его находит. Это основа приёмки по цифрам.

Золотой набор — это проверочные пары «вопрос → где лежит ответ». По ним считается recall: доля случаев, когда поиск нашёл нужное.

Recall@5 на вашем золотом наборе = 60%. Что это значит на практике?

Верно! Recall — про поиск, а не про серверы или довольство. 40% упущенных документов означают: какой промпт ни пиши, модель не видит нужного текста.

Recall@5 = 60% значит: нужный документ попадает в первую пятёрку только в 6 случаях из 10. Остальные 4 раза модель отвечает, не видя ответа. Чинить — поиск.

Разработчик: «Возьмём эмбеддинг-модель №1 из мирового рейтинга». В чём подвох?

Именно! Модели «выучили билеты» публичных бенчмарков. Единственный честный тест — золотой набор на вашем корпусе: результаты на чужих данных не переносятся.

Дело не в цене. Вопросы рейтингов попали в обучение моделей, поэтому места в топе мало что значат. Мерить надо на своих данных.

Когда GraphRAG действительно оправдан?

Верно! GraphRAG — нишевый инструмент для multi-hop вопросов о связях. Для обычной базы знаний это дорогая лишняя сложность: дефолт 2026 — начинать без графа.

GraphRAG не «новее и лучше» — он дороже в разы и оправдан только для вопросов-цепочек по связям («кто связан с кем через что»). Размер базы сам по себе — не аргумент.

Практика: соберите мини-золотой набор

🛠 Задание на 10 минут

Выпишите 10 реальных вопросов, которые ученики/клиенты задают чаще всего (или попросите у службы поддержки).
Для каждого вопроса отметьте: в каком документе лежит ответ. Получились 10 пар «вопрос → документ» — зародыш золотого набора.
Бонус: откройте Claude Code в папке с документами и попросите: «Вот 10 вопросов и документы, где лежат ответы. Сгенерируй ещё по 2 синтетических вопроса к каждому из этих документов — расширим золотой набор до 30».
Сохраните файл — он пойдёт прямо в ТЗ (раздел «Качество») и сэкономит вам недели споров с исполнителем.

Что дальше

Поиск работает и измерен. Следующий урок — последний участок конвейера: генерация ответа. Как заставить модель отвечать только по найденному, честно говорить «не знаю» и подтверждать каждое утверждение цитатой из документа.