01الأبحاث
الكاتب
هندسة Creative Ventures
تاريخ النشر
وقت القراءة
١٠ دقائق قراءة

تقييم LLM: دليل عملي لوكلاء الإنتاج

معظم الفِرَق لا تتجاوز تقييمات vibes-based. هذه منصّة التقييم التي نُشغّلها على كلّ وكيل إنتاج — مجموعات ذهبية، تسجيل ثلاثي الطبقات، ومتى تتوقّف عن إضافة التغطية.

لوحة تقييم LLM — المجموعة الذهبية وطبقات التسجيل

كلّ فريق نتحدّث إليه يُشغّل شكلاً من تقييم LLM. معظمهم يُشغّلونه بشكل خاطئ. عادةً المشكلة ليست النموذج — بل القياس. هذا هو دليل تقييم LLM الذي نُشغّله على كلّ وكيل إنتاج، مجرّداً من الأجزاء التي تبدو جميلة في المؤتمرات فقط.

ابدأ بمجموعة ذهبية، لا بمقياس

أوّل قِطعة في أيّ تقييم LLM هي ٤٠ مثالاً منتقىً يدوياً تُمثّل شكل حركة المرور. لا ٤٠٠، ولا ٤٬٠٠٠ — ٤٠. صغيرة بحيث يقرأها إنسان فعلاً، كبيرة بما يكفي لالتقاط انحدارات الفئة. كلّ بَق يظهر في الإنتاج يذهب إلى المجموعة الذهبية.

مجموعة ذهبية LLM — أمثلة تقييم منتقاة يدوياً
المجموعة الذهبية — ٤٠ مثالاً، فقرة تعليق لكلّ منها، ولكلٍّ منها مالك بشريّ.

نموذج التسجيل ثلاثي الطبقات لوكلاء LLM

نُسجّل كلّ استجابة وكيل في ثلاث طبقات. قيود صلبة — هل استدعى الأداة الصحيحة، هل المخرج يصدّق المخطّط. الصحّة — للمهامّ القابلة للتحقّق، هل الإجابة صحيحة فعلاً. الحكم — هل قيّم نموذج ثانٍ الاستجابة كقابلة للاستخدام. لا ترجيح بين الطبقات: الفشل في أيّها فشل.

مدقّق قيود صلبة لمخرجات LLM
لوحة تقييم طبقة الحكم LLM

متى تتوقّف عن التقييم وتبدأ بالإنصات للإنتاج

المزيد من التقييم ليس دوماً أفضل. حين يجتاز الوكيل المجموعة الذهبية >٩٥٪، الانحدار التالي سيأتي على الأرجح من فئة لم تتوقّعها. تلك هي نقطة التوقّف عن إضافة التغطية والبدء بإضافة القياس من الإنتاج.

منصّة التقييم دالة قسرية لفهمك منتجك. إن لم تقدر على كتابة الاختبار — فأنت لا تعرف الميزة بما يكفي لإطلاقها.
مذكّرة هندسية داخلية
03ماذا يقول العملاء

كلمات من أطلقوا فعلًا.

مراجعات حقيقية — من مؤسسين و CTO ومديري منتج عملنا معهم. بلا اقتباسات منتقاة — جمل فعلية من مراجعات ما بعد الإطلاق.

ماذا يقولون/01

· Parsewise®

أعادوا بناء المنصة بأكملها في 4 أشهر. السرعة تضاعفت 3 مرات، وأخيرًا يستطيع فريقنا صيانة الكود بنفسه.

أليكسي
أليكسيCTO · Parsewise
ماذا يقولون/02

· Wishboard®

من الصفر إلى 50 ألف مستخدم في نصف عام. أخذوا كل شيء على عاتقهم — التصميم، الكود، الإطلاق. ونحن انشغلنا بالمنتج بهدوء.

مارينا
مارينامؤسِّسة · Trywishboard
ماذا يقولون/03

· RLC®

احتجنا خمسة مهندسين كبار بشكل عاجل. اندمجوا مع الفريق، تبنّوا معاييرنا، وأطلقوا المزايا جنبًا إلى جنب مع مطورينا.

دميتري
دميتريVP Engineering · RLC
ماذا يقولون/04

· Blured®

وكيل الذكاء الاصطناعي الذي بنوه يغلق 70% من تذاكر الدعم. الردود الآن بالثواني، لا بالساعات.

كاتيا
كاتياProduct Lead · Blured
04الأسئلة الشائعة

ما يُسألون عنه عادةً قبل البدء.

نبدأ بدراسة المهمة. نتحدث معكم، ننظر فيما هو موجود، ندرس المنافسين. تحصلون على خطة مفصّلة قبل أن نكتب أول سطر من الكود.

البيان

سبرنتات أسبوعين. سينيور منذ اليوم الأول. كود يصل للإنتاج. منتج يستخدمه الناس فعلًا. فريق يبقى حتى الإطلاق.