01Исследования

Автор: Инженерия Creative Ventures
Опубликовано: 22 янв 2026
Время чтения: 10 мин чтения

Оценка LLM: практичный плейбук для продакшен-агентов

Большинство команд застревает на vibes-evals. Вот eval-харнесс, который мы гоняем на каждом продакшен-агенте — golden-сеты, трёхслойное скоринг-правило и когда пора остановиться.

Дашборд оценки LLM — golden-сет и слои скоринга

Каждая команда, с которой мы говорим, в какой-то форме прогоняет LLM-evals. Большинство делает это неправильно. Обычно проблема не в модели — проблема в измерении. Вот плейбук оценки LLM, который мы гоняем на каждом продакшен-агенте — без частей, которые красиво звучат на конференциях.

Начни с golden-сета, не с метрики

Первый артефакт любой LLM-оценки — 40 вручную отобранных примеров, представляющих форму вашего трафика. Не 400, не 4 000 — 40. Мало, чтобы человек мог реально прочитать их, достаточно, чтобы ловить регрессии категории. Каждый всплывающий в продакшене баг уходит в golden-сет.

LLM golden-сет — вручную отобранные eval-примеры — Golden-сет — 40 примеров, по абзацу комментариев каждому, у каждого есть владелец-человек.

Трёхслойная модель скоринга для LLM-агентов

Мы оцениваем каждый ответ агента в три слоя. Жёсткие ограничения — вызвал ли нужный tool, валиден ли output по схеме. Корректность — для проверяемых задач, действительно ли ответ правильный. Суждение — оценила ли вторая модель ответ как usable. Слои не взвешиваются: провал на любом — это провал.

Чекер жёстких ограничений для LLM-output

Когда прекратить eval и начать слушать продакшен

Больше eval — не всегда лучше. Когда агент проходит golden-сет >95%, следующая регрессия почти наверняка придёт из категории, которую вы не предсказали. Это точка, в которой надо перестать добавлять покрытие и начать добавлять телеметрию из продакшена.

“Eval-харнесс — это forcing function для понимания собственного продукта. Если ты не можешь написать тест — ты не знаешь фичу достаточно, чтобы её выпустить.”

— Внутренняя инженерная заметка

02ЕЩЁ ИЗ СТУДИИ

Ещё кейсы с нашей полки.

Та же команда — другие задачи. Свежие проекты в смежных индустриях — каждый вели те же сеньоры, что отвечают за результат.

КЕЙС/01

Parsewise: парсинг вдвое дешевле

AI · Парсинг документов

КЕЙС/02

RLC Logistics: +30% к загрузке автопарка

Логистика · Операции

КЕЙС/03

AIChief: 12k MAU за 90 дней

AI · Маркетплейс

КЕЙС/04

Trywishboard: 5k в листе ожидания за 6 недель

SaaS · Продуктивность

03ЧТО ГОВОРЯТ КЛИЕНТЫ

Слова тех, кто уже запустился.

Настоящие отзывы — от тех, кому свой продукт важен. Фаундеры, CTO и продакты, с которыми мы вместе делали запуски. Без подобранных цитат.

ЧТО ОНИ ГОВОРЯТ/01

· Parsewise®

Перестроили всю платформу за 4 месяца. Скорость выросла в 3 раза, а наша команда наконец-то может поддерживать код сама.

АлексейCTO · Parsewise

ЧТО ОНИ ГОВОРЯТ/02

· Wishboard®

С нуля до 50k пользователей за полгода. Команда взяла на себя дизайн, код и запуск — мы спокойно занимались продуктом.

МаринаФаундер · Trywishboard

ЧТО ОНИ ГОВОРЯТ/03

· RLC®

Нам срочно нужны были пять сеньоров. Встроились в команду, переняли наши стандарты и катили фичи рядом с нашими разработчиками.

ДмитрийVP Engineering · RLC

ЧТО ОНИ ГОВОРЯТ/04

· Blured®

AI-агент, которого они собрали, закрывает 70% обращений в поддержку. Ответы теперь за секунды, а не за часы.

КатяProduct Lead · Blured

04ЧАСТЫЕ ВОПРОСЫ

Что нас обычно спрашивают перед стартом.

: Начинаем с изучения задачи. Говорим с вами, смотрим, что уже есть, изучаем конкурентов. Получаете подробный план до того, как мы напишем первую строку кода.

МАНИФЕСТ

Спринты по две недели. Сеньоры с первого дня. Код доходит до прода. Продукт, которым реально пользуются. Команда остаётся до запуска.

05ПОГОВОРИМ

Хватит планов. Пора запускать.

30 минут, чтобы понять следующие шаги. Без обязательств. Приходите с задачей, дедлайном или сырой идеей — уйдёте с планом на бумаге.

Записаться на звонок

/01