📖 Глоссарий агентных систем

⌂ Все уроки · Справочник терминов учебной программы · обновлён 10 июня 2026 · пополняется с каждым уроком
Фундамент

LLM (Large Language Model, большая языковая модель)

Нейросеть (Claude, GPT, Gemini), которая получает текст на вход и предсказывает продолжение. Сама по себе ничего не «делает» — только читает и пишет. Всё агентное поведение строится вокруг неё внешней обвязкой.

Аналогия: очень эрудированный консультант, запертый в комнате, — общается только записками.

Токен (token)

Единица текста для модели, примерно ¾ слова в английском и ~½ слова в русском. Токенами измеряется всё: размер контекста, стоимость запросов, лимиты.

Контекстное окно (context window)

Максимальный объём текста (в токенах), который модель «видит» за один вызов: системный промпт + история диалога + результаты инструментов. Конечный ресурс — главное инженерное ограничение агентных систем. У современных моделей — от 200 тыс. до 1 млн+ токенов.

Аналогия: рабочий стол — сколько бумаг можно разложить одновременно. Архив (память) — отдельно.

Системный промпт (system prompt)

Инструкция, которую модель получает до диалога с пользователем: роль, правила, описания доступных инструментов. У Claude Code это его «прошивка» + ваш CLAUDE.md.

Агентное ядро

Инструмент / вызов инструментов (tool, tool use, function calling)

Способность модели вместо обычного текстового ответа вернуть структурированный запрос «выполни действие X с параметрами Y» (прочитай файл, выполни команду, найди в интернете). Внешний код выполняет действие и возвращает результат модели. Это руки агента.

Агентный цикл (agent loop)

Сердце любого агента: модель → вызов инструмента → результат → снова модель, и так до тех пор, пока модель не ответит обычным текстом без вызовов. Цикл и превращает «писателя текста» в «исполнителя задач».

Агент (agent)

Система, в которой LLM сама динамически решает, какие шаги и инструменты использовать для достижения цели. Маршрут заранее не задан — модель управляет процессом. Определение Anthropic (Building Effective Agents, 2024).

Workflow (воркфлоу, конвейер)

Система, где LLM и инструменты соединены по заранее прописанному маршруту: шаг 1 → шаг 2 → шаг 3. Модель выполняет отдельные шаги, но не выбирает маршрут. Дешевле, предсказуемее и часто правильнее агента — начинать стоит с workflow.

Харнесс (agent harness, обвязка)

Вся инфраструктура вокруг агентного цикла: набор инструментов, система прав и разрешений, управление контекстом (компакция), восстановление после ошибок, песочницы. Claude Code — это и есть готовый харнесс. Термин стал общепринятой категорией к 2026 году.

Аналогия: модель — двигатель, харнесс — весь остальной автомобиль.

Субагент (subagent)

Отдельный агент с чистым контекстным окном, которого главный агент запускает под подзадачу. Возвращает родителю только итог, а не весь свой процесс. Главный приём экономии контекста и распараллеливания.

Деградация контекста (context rot)

Падение качества работы модели по мере заполнения контекстного окна — раньше, чем кончается место. Модель упускает детали из середины, забывает исходную цель, повторяется. Причина: «бюджет внимания» конечен, отдача от каждого нового токена убывает. Термин Anthropic (2025).

Аналогия: заваленный рабочий стол — место ещё есть, но найти нужную бумагу всё труднее.

Компакция (compaction)

Автоматическое сжатие истории длинного диалога в краткую сводку, когда контекстное окно приближается к заполнению. Позволяет агенту работать над задачей дольше, чем вмещает окно.

Экосистема

MCP (Model Context Protocol)

Открытый стандарт подключения инструментов и источников данных к любым LLM-приложениям. «USB-C для AI»: один раз написанный MCP-сервер работает с Claude, ChatGPT, Gemini, Cursor и др. Создан Anthropic (нояб. 2024), с дек. 2025 — под Linux Foundation.

RAG (Retrieval-Augmented Generation)

Подход «найди, потом отвечай»: перед генерацией ответа система ищет релевантные фрагменты в базе знаний и подкладывает их модели в контекст. Классический конвейер: нарезка документов на чанки → эмбеддинги → векторный поиск. К 2026 — один из вариантов доступа к знаниям, а не единственный (конкуренты: длинный контекст, агентный поиск).

Контекст-инжиниринг (context engineering)

Дисциплина управления тем, что именно попадает в контекстное окно на каждом шаге работы агента. Вытеснила «промпт-инжиниринг» как главный навык: вопрос не «какие слова написать», а «какая конфигурация контекста даёт нужное поведение».

Знания и поиск

Чанк (chunk, «ломоть»)

Небольшой кусочек документа (обычно абзац-два про одну вещь), на которые база знаний нарезается перед индексацией в RAG. Качество нарезки сильно влияет на качество поиска: разрезали мысль пополам — оба куска стали бессмысленными.

Эмбеддинг (embedding, «вложение»)

Координаты кусочка текста на «карте смыслов». Специальная модель расставляет тексты точками в пространстве так, что близкие по смыслу оказываются рядом: «возврат денег» и «вернуть оплату» — соседи, «график отпусков» — на другом краю карты.

Представляйте карту трёхмерной; в реальности измерений сотни, а координаты — длинный список чисел. Смысловой поиск в RAG — это поиск ближайших соседей на этой карте.

Карту рисует отдельная эмбеддинг-модель, обученная на миллионах пар «эти тексты об одном / о разном». Точки считаются заранее, без знания будущего вопроса — поэтому поиск по карте быстрый, но приблизительный.

Векторная база (vector database)

База данных, хранящая эмбеддинги и умеющая быстро находить ближайшие к запросу. В 2023 считалась обязательной для любого ассистента по знаниям; к 2026 — опция для больших масштабов (для малых баз чаще выигрывают файлы + агентный поиск).

Реранкер (reranker, «пересортировщик»)

Внимательный «второй читатель» в RAG. Быстрый первый поиск работает приблизительно: приносит десятки кандидатов, где нужные перемешаны со случайными соседями.

Реранкер — отдельная модель, которая перечитывает каждого кандидата рядом с вопросом и пересортировывает список: наверх — те, что действительно отвечают. Дёшево и заметно поднимает качество: −67% неудачных поисков в связке с добавлением контекста к чанкам, по данным Anthropic.

Технически это кросс-энкодер (cross-encoder): он читает вопрос и кандидата одной парой, слово к слову. Эмбеддинг-модель, наоборот, обрабатывает тексты поодиночке и заранее — быстрее, но приблизительнее. Готовые реранкеры: Cohere Rerank, Voyage Rerank, открытые bge-reranker.

Компиляция знаний (LLM-вики, метод Карпати)

Агент по заданным правилам переписывает сырые материалы (папка raw/: статьи, PDF, заметки — с дублями и мусором) в организованную вики (папка wiki/): маленькие статьи-концепции без дублей, перелинкованные ссылками, с файлом-индексом. Человек — главный редактор: подкладывает сырьё и читает результат.

Паттерн показал Андрей Карпати (март 2026). Экономически это «индексация» для агентного поиска: разовая дорогая переработка, но результат — читаемые файлы, а не векторы. Ходит по такой вики агентный поиск, RAG не нужен. Риск: при переписывании агент может исказить — нужна выборочная сверка с сырьём.

Контекстное обогащение чанков (contextual retrieval)

Лекарство от «амнезии чанка» («выручка выросла на 3%» — чья?): перед индексацией LLM дописывает к каждому чанку 50–100 токенов контекста — из какого он документа и о чём. По данным Anthropic: −49% неудачных поисков, с реранкером −67%; разовая стоимость ~$1 за миллион токенов.

Поздняя нарезка (late chunking)

Второе лекарство от амнезии чанка: сначала весь документ проходит через эмбеддинг-модель, и только потом режется — каждый чанк «впитывает» контекст документа целиком. Дешевле контекстного обогащения (без LLM-вызовов), требует эмбеддинг-модели с длинным контекстом. Метод Jina AI, есть как готовый сервис.

Золотой набор (golden set)

50–100 пар «реальный вопрос → документ (чанк), где лежит ответ» — экзаменационные билеты для поиска. По нему считают recall и принимают работу цифрами, а не по демо. Расширяется синтетическими вопросами: LLM генерирует вопрос из самого чанка, пара создаётся автоматически.

Recall@k (полнота поиска)

«Из всех нужных документов — какая доля попала в топ-k выдачи?» Recall@5 = 80%: в 8 случаях из 10 нужный документ в первой пятёрке, в 2 — поиск его упустил, и модель отвечает вслепую. Парная метрика precision@k — «из k найденных сколько по делу». Для RAG важнее recall: упущенный документ не компенсируется ничем.

Верность источникам (faithfulness)

Опирается ли ответ только на найденные документы — или модель добавила «от себя»? Провал верности — главная форма галлюцинаций в RAG: документы нашлись правильные, а в ответе цифра из ниоткуда. Лечится цитатами (Citations) и правом на «не знаю», а не сменой модели.

Citations (нативные цитаты)

Режим Claude API: каждое утверждение ответа машинно привязывается к конкретным предложениям переданных документов. Задача меняется с «вспомни и расскажи» на «подчеркни в тексте» — выдумать ссылку почти невозможно (у внедривших выдуманные источники упали с 10% до 0%). Процитированный текст не тарифицируется как сгенерированные токены.

GraphRAG

RAG поверх графа связей «кто с кем и как связан», извлечённого из документов. Хайп 2024 года; вердикт 2026 — ниша: построение графа сжигает в разы больше токенов, чем корпус, эксплуатация в 3–5 раз дороже обычного RAG. Оправдан только для вопросов-цепочек по связям сущностей. Дефолт — начинать без графа.

Не путать с графом ссылок (урок 15): там связи между файлами-концепциями проставляет автор обычными ссылками, инфраструктуры ноль, а ходит по ним агентный поиск. GraphRAG — граф строит машина и хранит в отдельной графовой базе.

Агентный RAG (agentic RAG)

Агент поверх RAG-конвейера: сам решает, где искать, не переформулировать ли вопрос, достаточно ли найденного — и крутит цикл до результата. Минимальная форма — маршрутизатор между источниками (база, сайт, почта). Цена: каждый шаг — вызов LLM (+задержка, +деньги). Здравый дизайн: простые вопросы — по дешёвому конвейеру, сложные — агенту.

Не путать с агентным поиском: там индекса нет вообще (агент ищет по живым файлам), здесь агент управляет готовым индексным поиском.

Паттерны оркестрации

Цепочка (prompt chaining)

Выход одного вызова модели — вход следующего: задача разбита на фиксированные шаги. Самый простой и надёжный паттерн.

Маршрутизация (routing)

Первый вызов классифицирует запрос и направляет его в специализированную ветку — со своим промптом, инструментами и моделью (простое — дешёвой, сложное — мощной).

Параллелизация (parallelization)

Заранее определённые независимые подзадачи выполняются одновременно: разные аспекты одной задачи или «голосование» нескольких ответов.

Оценщик-оптимизатор (evaluator-optimizer)

Цикл «генератор создаёт → критик оценивает по критериям → генератор дорабатывает», пока критик не примет. Работает там, где критерии качества формулируемы.

Оркестратор с воркерами (orchestrator-workers)

Ведущая модель сама разбивает задачу на подзадачи и запускает субагентов-воркеров, затем сводит их результаты. Единственный агентный паттерн из пяти. Правило применения: read-задачи параллелятся хорошо, write-задачи — плохо; цена ≈ 15× токенов обычного чата.

Память

Memory tool (инструмент памяти)

Встроенная возможность Claude API (с сент. 2025): агент сам ведёт файлы памяти — создаёт, читает, обновляет — в директории, переживающей сессии. Долгосрочная память как файлы, а не векторная база.

Качество и безопасность

Evals (evaluations, оценки)

Дисциплина постоянной проверки качества LLM-систем: ручной разбор ошибок → тестовый набор с критериями → автоматические прогоны при каждом изменении → выборочный контроль продакшна.

Error analysis (разбор ошибок)

Ручное чтение ~100 реальных прогонов системы с записью, что именно пошло не так. Первый шаг любых evals: типы ошибок конкретной системы нельзя угадать — только увидеть. Работа владельца продукта, не делегируется.

Трейс (trace)

Полная запись одного прогона агента: входные сообщения, вызовы инструментов, их результаты, ответ. Без трейсов отладка агента — гадание. Инструменты: Langfuse и аналоги.

Аналогия: запись с камеры наблюдения — смотрят при инциденте.

LLM-судья (LLM-as-judge)

Отдельный вызов модели, оценивающий ответы системы по заданным критериям («дата верна? тон вежлив?») — чтобы не проверять сотни ответов вручную. Судью один раз калибруют по ручным оценкам.

Prompt injection (внедрение команд)

Атака: инструкции злоумышленника спрятаны в данных, которые агент обрабатывает (письмо, веб-страница, документ), — и агент их выполняет, потому что не отличает инструкции от данных. Официально признана нерешаемой полностью; защита — архитектурная (права, guardrails, человек в контуре). Термин Саймона Уиллисона (2022).

Смертельная триада (lethal trifecta)

Три возможности, которые нельзя давать агенту одновременно: доступ к ценным данным + чтение недоверенного контента + канал отправки наружу. Вместе они позволяют успешной инъекции украсть данные. Проектирование безопасности = разрыв хотя бы одного звена. Формулировка Саймона Уиллисона.

Guardrails (защитные ограждения)

Проверки и лимиты вокруг модели, написанные обычным кодом: фильтры входа, проверка выхода, ограничения частоты и сумм. В отличие от модели, код срабатывает одинаково каждый раз — его нельзя «уговорить».

Человек в контуре (human-in-the-loop)

Принцип: необратимые и дорогие действия (платежи, массовые рассылки, удаление данных) агент только готовит, а подтверждает человек. Третий эшелон защиты и здравый смысл автоматизации.