Нейросеть (Claude, GPT, Gemini), которая получает текст на вход и предсказывает продолжение. Сама по себе ничего не «делает» — только читает и пишет. Всё агентное поведение строится вокруг неё внешней обвязкой.
Аналогия: очень эрудированный консультант, запертый в комнате, — общается только записками.
Единица текста для модели, примерно ¾ слова в английском и ~½ слова в русском. Токенами измеряется всё: размер контекста, стоимость запросов, лимиты.
Максимальный объём текста (в токенах), который модель «видит» за один вызов: системный промпт + история диалога + результаты инструментов. Конечный ресурс — главное инженерное ограничение агентных систем. У современных моделей — от 200 тыс. до 1 млн+ токенов.
Аналогия: рабочий стол — сколько бумаг можно разложить одновременно. Архив (память) — отдельно.
Инструкция, которую модель получает до диалога с пользователем: роль, правила, описания доступных инструментов. У Claude Code это его «прошивка» + ваш CLAUDE.md.
Способность модели вместо обычного текстового ответа вернуть структурированный запрос «выполни действие X с параметрами Y» (прочитай файл, выполни команду, найди в интернете). Внешний код выполняет действие и возвращает результат модели. Это руки агента.
Сердце любого агента: модель → вызов инструмента → результат → снова модель, и так до тех пор, пока модель не ответит обычным текстом без вызовов. Цикл и превращает «писателя текста» в «исполнителя задач».
Система, в которой LLM сама динамически решает, какие шаги и инструменты использовать для достижения цели. Маршрут заранее не задан — модель управляет процессом. Определение Anthropic (Building Effective Agents, 2024).
Система, где LLM и инструменты соединены по заранее прописанному маршруту: шаг 1 → шаг 2 → шаг 3. Модель выполняет отдельные шаги, но не выбирает маршрут. Дешевле, предсказуемее и часто правильнее агента — начинать стоит с workflow.
Вся инфраструктура вокруг агентного цикла: набор инструментов, система прав и разрешений, управление контекстом (компакция), восстановление после ошибок, песочницы. Claude Code — это и есть готовый харнесс. Термин стал общепринятой категорией к 2026 году.
Аналогия: модель — двигатель, харнесс — весь остальной автомобиль.
Отдельный агент с чистым контекстным окном, которого главный агент запускает под подзадачу. Возвращает родителю только итог, а не весь свой процесс. Главный приём экономии контекста и распараллеливания.
Падение качества работы модели по мере заполнения контекстного окна — раньше, чем кончается место. Модель упускает детали из середины, забывает исходную цель, повторяется. Причина: «бюджет внимания» конечен, отдача от каждого нового токена убывает. Термин Anthropic (2025).
Аналогия: заваленный рабочий стол — место ещё есть, но найти нужную бумагу всё труднее.
Автоматическое сжатие истории длинного диалога в краткую сводку, когда контекстное окно приближается к заполнению. Позволяет агенту работать над задачей дольше, чем вмещает окно.
Открытый стандарт подключения инструментов и источников данных к любым LLM-приложениям. «USB-C для AI»: один раз написанный MCP-сервер работает с Claude, ChatGPT, Gemini, Cursor и др. Создан Anthropic (нояб. 2024), с дек. 2025 — под Linux Foundation.
Подход «найди, потом отвечай»: перед генерацией ответа система ищет релевантные фрагменты в базе знаний и подкладывает их модели в контекст. Классический конвейер: нарезка документов на чанки → эмбеддинги → векторный поиск. К 2026 — один из вариантов доступа к знаниям, а не единственный (конкуренты: длинный контекст, агентный поиск).
Дисциплина управления тем, что именно попадает в контекстное окно на каждом шаге работы агента. Вытеснила «промпт-инжиниринг» как главный навык: вопрос не «какие слова написать», а «какая конфигурация контекста даёт нужное поведение».
Небольшой кусочек документа (обычно абзац-два про одну вещь), на которые база знаний нарезается перед индексацией в RAG. Качество нарезки сильно влияет на качество поиска: разрезали мысль пополам — оба куска стали бессмысленными.
Координаты кусочка текста на «карте смыслов». Специальная модель расставляет тексты точками в пространстве так, что близкие по смыслу оказываются рядом: «возврат денег» и «вернуть оплату» — соседи, «график отпусков» — на другом краю карты.
Представляйте карту трёхмерной; в реальности измерений сотни, а координаты — длинный список чисел. Смысловой поиск в RAG — это поиск ближайших соседей на этой карте.
Карту рисует отдельная эмбеддинг-модель, обученная на миллионах пар «эти тексты об одном / о разном». Точки считаются заранее, без знания будущего вопроса — поэтому поиск по карте быстрый, но приблизительный.
База данных, хранящая эмбеддинги и умеющая быстро находить ближайшие к запросу. В 2023 считалась обязательной для любого ассистента по знаниям; к 2026 — опция для больших масштабов (для малых баз чаще выигрывают файлы + агентный поиск).
Комбинация смыслового поиска (по карте смыслов — эмбеддингам) и поиска по точным словам, как в классических поисковиках (алгоритм BM25): первый понимает перефразировки, второй не теряет артикулы, фамилии и номера. Продакшн-стандарт RAG 2026.
Внимательный «второй читатель» в RAG. Быстрый первый поиск работает приблизительно: приносит десятки кандидатов, где нужные перемешаны со случайными соседями.
Реранкер — отдельная модель, которая перечитывает каждого кандидата рядом с вопросом и пересортировывает список: наверх — те, что действительно отвечают. Дёшево и заметно поднимает качество: −67% неудачных поисков в связке с добавлением контекста к чанкам, по данным Anthropic.
Технически это кросс-энкодер (cross-encoder): он читает вопрос и кандидата одной парой, слово к слову. Эмбеддинг-модель, наоборот, обрабатывает тексты поодиночке и заранее — быстрее, но приблизительнее. Готовые реранкеры: Cohere Rerank, Voyage Rerank, открытые bge-reranker.
Доступ к знаниям без индекса: агент ищет по файлам в цикле обычными инструментами (поиск по словам, чтение), сам решая, где искать дальше. Так работает Claude Code. Плюсы: ноль инфраструктуры, всегда свежие данные (читает оригиналы). Минус: каждый ответ — несколько витков цикла, то есть дороже и медленнее RAG на каждый запрос.
Зона применения — «инструмент для своих»: единицы-десятки запросов в день. При сотнях запросов в день экономика переворачивается в пользу RAG («сервис для толпы») — см. справочник «Дерево выбора». Не путать с агентным RAG: там агент работает поверх готового индекса, здесь — вместо него.
Агент по заданным правилам переписывает сырые материалы (папка raw/: статьи, PDF, заметки — с дублями и мусором) в организованную вики (папка wiki/): маленькие статьи-концепции без дублей, перелинкованные ссылками, с файлом-индексом. Человек — главный редактор: подкладывает сырьё и читает результат.
Паттерн показал Андрей Карпати (март 2026). Экономически это «индексация» для агентного поиска: разовая дорогая переработка, но результат — читаемые файлы, а не векторы. Ходит по такой вики агентный поиск, RAG не нужен. Риск: при переписывании агент может исказить — нужна выборочная сверка с сырьём.
Лекарство от «амнезии чанка» («выручка выросла на 3%» — чья?): перед индексацией LLM дописывает к каждому чанку 50–100 токенов контекста — из какого он документа и о чём. По данным Anthropic: −49% неудачных поисков, с реранкером −67%; разовая стоимость ~$1 за миллион токенов.
Второе лекарство от амнезии чанка: сначала весь документ проходит через эмбеддинг-модель, и только потом режется — каждый чанк «впитывает» контекст документа целиком. Дешевле контекстного обогащения (без LLM-вызовов), требует эмбеддинг-модели с длинным контекстом. Метод Jina AI, есть как готовый сервис.
50–100 пар «реальный вопрос → документ (чанк), где лежит ответ» — экзаменационные билеты для поиска. По нему считают recall и принимают работу цифрами, а не по демо. Расширяется синтетическими вопросами: LLM генерирует вопрос из самого чанка, пара создаётся автоматически.
«Из всех нужных документов — какая доля попала в топ-k выдачи?» Recall@5 = 80%: в 8 случаях из 10 нужный документ в первой пятёрке, в 2 — поиск его упустил, и модель отвечает вслепую. Парная метрика precision@k — «из k найденных сколько по делу». Для RAG важнее recall: упущенный документ не компенсируется ничем.
Опирается ли ответ только на найденные документы — или модель добавила «от себя»? Провал верности — главная форма галлюцинаций в RAG: документы нашлись правильные, а в ответе цифра из ниоткуда. Лечится цитатами (Citations) и правом на «не знаю», а не сменой модели.
Режим Claude API: каждое утверждение ответа машинно привязывается к конкретным предложениям переданных документов. Задача меняется с «вспомни и расскажи» на «подчеркни в тексте» — выдумать ссылку почти невозможно (у внедривших выдуманные источники упали с 10% до 0%). Процитированный текст не тарифицируется как сгенерированные токены.
RAG поверх графа связей «кто с кем и как связан», извлечённого из документов. Хайп 2024 года; вердикт 2026 — ниша: построение графа сжигает в разы больше токенов, чем корпус, эксплуатация в 3–5 раз дороже обычного RAG. Оправдан только для вопросов-цепочек по связям сущностей. Дефолт — начинать без графа.
Не путать с графом ссылок (урок 15): там связи между файлами-концепциями проставляет автор обычными ссылками, инфраструктуры ноль, а ходит по ним агентный поиск. GraphRAG — граф строит машина и хранит в отдельной графовой базе.
Агент поверх RAG-конвейера: сам решает, где искать, не переформулировать ли вопрос, достаточно ли найденного — и крутит цикл до результата. Минимальная форма — маршрутизатор между источниками (база, сайт, почта). Цена: каждый шаг — вызов LLM (+задержка, +деньги). Здравый дизайн: простые вопросы — по дешёвому конвейеру, сложные — агенту.
Не путать с агентным поиском: там индекса нет вообще (агент ищет по живым файлам), здесь агент управляет готовым индексным поиском.
Выход одного вызова модели — вход следующего: задача разбита на фиксированные шаги. Самый простой и надёжный паттерн.
Первый вызов классифицирует запрос и направляет его в специализированную ветку — со своим промптом, инструментами и моделью (простое — дешёвой, сложное — мощной).
Заранее определённые независимые подзадачи выполняются одновременно: разные аспекты одной задачи или «голосование» нескольких ответов.
Цикл «генератор создаёт → критик оценивает по критериям → генератор дорабатывает», пока критик не примет. Работает там, где критерии качества формулируемы.
Ведущая модель сама разбивает задачу на подзадачи и запускает субагентов-воркеров, затем сводит их результаты. Единственный агентный паттерн из пяти. Правило применения: read-задачи параллелятся хорошо, write-задачи — плохо; цена ≈ 15× токенов обычного чата.
Встроенная возможность Claude API (с сент. 2025): агент сам ведёт файлы памяти — создаёт, читает, обновляет — в директории, переживающей сессии. Долгосрочная память как файлы, а не векторная база.
Дисциплина постоянной проверки качества LLM-систем: ручной разбор ошибок → тестовый набор с критериями → автоматические прогоны при каждом изменении → выборочный контроль продакшна.
Ручное чтение ~100 реальных прогонов системы с записью, что именно пошло не так. Первый шаг любых evals: типы ошибок конкретной системы нельзя угадать — только увидеть. Работа владельца продукта, не делегируется.
Полная запись одного прогона агента: входные сообщения, вызовы инструментов, их результаты, ответ. Без трейсов отладка агента — гадание. Инструменты: Langfuse и аналоги.
Аналогия: запись с камеры наблюдения — смотрят при инциденте.
Отдельный вызов модели, оценивающий ответы системы по заданным критериям («дата верна? тон вежлив?») — чтобы не проверять сотни ответов вручную. Судью один раз калибруют по ручным оценкам.
Атака: инструкции злоумышленника спрятаны в данных, которые агент обрабатывает (письмо, веб-страница, документ), — и агент их выполняет, потому что не отличает инструкции от данных. Официально признана нерешаемой полностью; защита — архитектурная (права, guardrails, человек в контуре). Термин Саймона Уиллисона (2022).
Три возможности, которые нельзя давать агенту одновременно: доступ к ценным данным + чтение недоверенного контента + канал отправки наружу. Вместе они позволяют успешной инъекции украсть данные. Проектирование безопасности = разрыв хотя бы одного звена. Формулировка Саймона Уиллисона.
Проверки и лимиты вокруг модели, написанные обычным кодом: фильтры входа, проверка выхода, ограничения частоты и сумм. В отличие от модели, код срабатывает одинаково каждый раз — его нельзя «уговорить».
Принцип: необратимые и дорогие действия (платежи, массовые рассылки, удаление данных) агент только готовит, а подтверждает человек. Третий эшелон защиты и здравый смысл автоматизации.