- Автор
- Инженерия Creative Ventures
- Опубликовано
- Время чтения
- 10 мин чтения
Оценка LLM: практичный плейбук для продакшен-агентов
Большинство команд застревает на vibes-evals. Вот eval-харнесс, который мы гоняем на каждом продакшен-агенте — golden-сеты, трёхслойное скоринг-правило и когда пора остановиться.

Каждая команда, с которой мы говорим, в какой-то форме прогоняет LLM-evals. Большинство делает это неправильно. Обычно проблема не в модели — проблема в измерении. Вот плейбук оценки LLM, который мы гоняем на каждом продакшен-агенте — без частей, которые красиво звучат на конференциях.
Начни с golden-сета, не с метрики
Первый артефакт любой LLM-оценки — 40 вручную отобранных примеров, представляющих форму вашего трафика. Не 400, не 4 000 — 40. Мало, чтобы человек мог реально прочитать их, достаточно, чтобы ловить регрессии категории. Каждый всплывающий в продакшене баг уходит в golden-сет.

Трёхслойная модель скоринга для LLM-агентов
Мы оцениваем каждый ответ агента в три слоя. Жёсткие ограничения — вызвал ли нужный tool, валиден ли output по схеме. Корректность — для проверяемых задач, действительно ли ответ правильный. Суждение — оценила ли вторая модель ответ как usable. Слои не взвешиваются: провал на любом — это провал.


Когда прекратить eval и начать слушать продакшен
Больше eval — не всегда лучше. Когда агент проходит golden-сет >95%, следующая регрессия почти наверняка придёт из категории, которую вы не предсказали. Это точка, в которой надо перестать добавлять покрытие и начать добавлять телеметрию из продакшена.
“Eval-харнесс — это forcing function для понимания собственного продукта. Если ты не можешь написать тест — ты не знаешь фичу достаточно, чтобы её выпустить.”
Ещё кейсы с нашей полки.
Та же команда — другие задачи. Свежие проекты в смежных индустриях — каждый вели те же сеньоры, что отвечают за результат.
Слова тех, кто уже запустился.
Настоящие отзывы — от тех, кому свой продукт важен. Фаундеры, CTO и продакты, с которыми мы вместе делали запуски. Без подобранных цитат.
· Parsewise®
Перестроили всю платформу за 4 месяца. Скорость выросла в 3 раза, а наша команда наконец-то может поддерживать код сама.
· Wishboard®
С нуля до 50k пользователей за полгода. Команда взяла на себя дизайн, код и запуск — мы спокойно занимались продуктом.
· RLC®
Нам срочно нужны были пять сеньоров. Встроились в команду, переняли наши стандарты и катили фичи рядом с нашими разработчиками.
· Blured®
AI-агент, которого они собрали, закрывает 70% обращений в поддержку. Ответы теперь за секунды, а не за часы.
Что нас обычно спрашивают перед стартом.
Начинаем с изучения задачи. Говорим с вами, смотрим, что уже есть, изучаем конкурентов. Получаете подробный план до того, как мы напишем первую строку кода.
МАНИФЕСТ
Спринты по две недели. Сеньоры с первого дня. Код доходит до прода. Продукт, которым реально пользуются. Команда остаётся до запуска.
Хватит планов. Пора запускать.
30 минут, чтобы понять следующие шаги. Без обязательств. Приходите с задачей, дедлайном или сырой идеей — уйдёте с планом на бумаге.
Созвонимся
30 минут. Обсуждаем задачу, сроки и что реально нужно сделать в первую очередь.
/02Дадим оценку
Письменное предложение за 48 часов — состав работ, команда, этапы и фиксированная цена.
/03Стартуем
Подписываем договор, оплачиваете первый этап — стартуем на этой же неделе. Без долгой подготовки.
/04Запуск за 2 недели
Первый рабочий результат через 14 дней. Живое демо по ссылке — можно показывать клиентам.





