01Исследования
Автор
Инженерия Creative Ventures
Опубликовано
Время чтения
10 мин чтения

Оценка LLM: практичный плейбук для продакшен-агентов

Большинство команд застревает на vibes-evals. Вот eval-харнесс, который мы гоняем на каждом продакшен-агенте — golden-сеты, трёхслойное скоринг-правило и когда пора остановиться.

Дашборд оценки LLM — golden-сет и слои скоринга

Каждая команда, с которой мы говорим, в какой-то форме прогоняет LLM-evals. Большинство делает это неправильно. Обычно проблема не в модели — проблема в измерении. Вот плейбук оценки LLM, который мы гоняем на каждом продакшен-агенте — без частей, которые красиво звучат на конференциях.

Начни с golden-сета, не с метрики

Первый артефакт любой LLM-оценки — 40 вручную отобранных примеров, представляющих форму вашего трафика. Не 400, не 4 000 — 40. Мало, чтобы человек мог реально прочитать их, достаточно, чтобы ловить регрессии категории. Каждый всплывающий в продакшене баг уходит в golden-сет.

LLM golden-сет — вручную отобранные eval-примеры
Golden-сет — 40 примеров, по абзацу комментариев каждому, у каждого есть владелец-человек.

Трёхслойная модель скоринга для LLM-агентов

Мы оцениваем каждый ответ агента в три слоя. Жёсткие ограничения — вызвал ли нужный tool, валиден ли output по схеме. Корректность — для проверяемых задач, действительно ли ответ правильный. Суждение — оценила ли вторая модель ответ как usable. Слои не взвешиваются: провал на любом — это провал.

Чекер жёстких ограничений для LLM-output
Дашборд слоя суждения LLM

Когда прекратить eval и начать слушать продакшен

Больше eval — не всегда лучше. Когда агент проходит golden-сет >95%, следующая регрессия почти наверняка придёт из категории, которую вы не предсказали. Это точка, в которой надо перестать добавлять покрытие и начать добавлять телеметрию из продакшена.

Eval-харнесс — это forcing function для понимания собственного продукта. Если ты не можешь написать тест — ты не знаешь фичу достаточно, чтобы её выпустить.
Внутренняя инженерная заметка
02ЕЩЁ ИЗ СТУДИИ

Ещё кейсы с нашей полки.

Та же команда — другие задачи. Свежие проекты в смежных индустриях — каждый вели те же сеньоры, что отвечают за результат.

03ЧТО ГОВОРЯТ КЛИЕНТЫ

Слова тех, кто уже запустился.

Настоящие отзывы — от тех, кому свой продукт важен. Фаундеры, CTO и продакты, с которыми мы вместе делали запуски. Без подобранных цитат.

ЧТО ОНИ ГОВОРЯТ/01

· Parsewise®

Перестроили всю платформу за 4 месяца. Скорость выросла в 3 раза, а наша команда наконец-то может поддерживать код сама.

Алексей
АлексейCTO · Parsewise
ЧТО ОНИ ГОВОРЯТ/02

· Wishboard®

С нуля до 50k пользователей за полгода. Команда взяла на себя дизайн, код и запуск — мы спокойно занимались продуктом.

Марина
МаринаФаундер · Trywishboard
ЧТО ОНИ ГОВОРЯТ/03

· RLC®

Нам срочно нужны были пять сеньоров. Встроились в команду, переняли наши стандарты и катили фичи рядом с нашими разработчиками.

Дмитрий
ДмитрийVP Engineering · RLC
ЧТО ОНИ ГОВОРЯТ/04

· Blured®

AI-агент, которого они собрали, закрывает 70% обращений в поддержку. Ответы теперь за секунды, а не за часы.

Катя
КатяProduct Lead · Blured
04ЧАСТЫЕ ВОПРОСЫ

Что нас обычно спрашивают перед стартом.

Начинаем с изучения задачи. Говорим с вами, смотрим, что уже есть, изучаем конкурентов. Получаете подробный план до того, как мы напишем первую строку кода.

МАНИФЕСТ

Спринты по две недели. Сеньоры с первого дня. Код доходит до прода. Продукт, которым реально пользуются. Команда остаётся до запуска.