- الكاتب
- هندسة Creative Ventures
- تاريخ النشر
- وقت القراءة
- ١٠ دقائق قراءة
تقييم LLM: دليل عملي لوكلاء الإنتاج
معظم الفِرَق لا تتجاوز تقييمات vibes-based. هذه منصّة التقييم التي نُشغّلها على كلّ وكيل إنتاج — مجموعات ذهبية، تسجيل ثلاثي الطبقات، ومتى تتوقّف عن إضافة التغطية.

كلّ فريق نتحدّث إليه يُشغّل شكلاً من تقييم LLM. معظمهم يُشغّلونه بشكل خاطئ. عادةً المشكلة ليست النموذج — بل القياس. هذا هو دليل تقييم LLM الذي نُشغّله على كلّ وكيل إنتاج، مجرّداً من الأجزاء التي تبدو جميلة في المؤتمرات فقط.
ابدأ بمجموعة ذهبية، لا بمقياس
أوّل قِطعة في أيّ تقييم LLM هي ٤٠ مثالاً منتقىً يدوياً تُمثّل شكل حركة المرور. لا ٤٠٠، ولا ٤٬٠٠٠ — ٤٠. صغيرة بحيث يقرأها إنسان فعلاً، كبيرة بما يكفي لالتقاط انحدارات الفئة. كلّ بَق يظهر في الإنتاج يذهب إلى المجموعة الذهبية.

نموذج التسجيل ثلاثي الطبقات لوكلاء LLM
نُسجّل كلّ استجابة وكيل في ثلاث طبقات. قيود صلبة — هل استدعى الأداة الصحيحة، هل المخرج يصدّق المخطّط. الصحّة — للمهامّ القابلة للتحقّق، هل الإجابة صحيحة فعلاً. الحكم — هل قيّم نموذج ثانٍ الاستجابة كقابلة للاستخدام. لا ترجيح بين الطبقات: الفشل في أيّها فشل.


متى تتوقّف عن التقييم وتبدأ بالإنصات للإنتاج
المزيد من التقييم ليس دوماً أفضل. حين يجتاز الوكيل المجموعة الذهبية >٩٥٪، الانحدار التالي سيأتي على الأرجح من فئة لم تتوقّعها. تلك هي نقطة التوقّف عن إضافة التغطية والبدء بإضافة القياس من الإنتاج.
“منصّة التقييم دالة قسرية لفهمك منتجك. إن لم تقدر على كتابة الاختبار — فأنت لا تعرف الميزة بما يكفي لإطلاقها.”
مشاريع أخرى من رفّنا.
الفريق نفسه، مهام مختلفة. حالات حديثة في صناعات مجاورة — كلٌّ منها أنجزها نفس كبار المهندسين المسؤولين عن النتيجة.
Parsewise: نصف تكلفة التحليل

الذكاء الاصطناعي · تحليل الوثائق
RLC Logistics: +30% في استخدام الأسطول

الخدمات اللوجستية · العمليات
AIChief: 12 ألف مستخدم نشط في 90 يومًا

الذكاء الاصطناعي · سوق إلكتروني
Trywishboard: 5 آلاف في قائمة الانتظار خلال 6 أسابيع

SaaS · إنتاجية
كلمات من أطلقوا فعلًا.
مراجعات حقيقية — من مؤسسين و CTO ومديري منتج عملنا معهم. بلا اقتباسات منتقاة — جمل فعلية من مراجعات ما بعد الإطلاق.
· Parsewise®
أعادوا بناء المنصة بأكملها في 4 أشهر. السرعة تضاعفت 3 مرات، وأخيرًا يستطيع فريقنا صيانة الكود بنفسه.
· Wishboard®
من الصفر إلى 50 ألف مستخدم في نصف عام. أخذوا كل شيء على عاتقهم — التصميم، الكود، الإطلاق. ونحن انشغلنا بالمنتج بهدوء.
· RLC®
احتجنا خمسة مهندسين كبار بشكل عاجل. اندمجوا مع الفريق، تبنّوا معاييرنا، وأطلقوا المزايا جنبًا إلى جنب مع مطورينا.
· Blured®
وكيل الذكاء الاصطناعي الذي بنوه يغلق 70% من تذاكر الدعم. الردود الآن بالثواني، لا بالساعات.
ما يُسألون عنه عادةً قبل البدء.
نبدأ بدراسة المهمة. نتحدث معكم، ننظر فيما هو موجود، ندرس المنافسين. تحصلون على خطة مفصّلة قبل أن نكتب أول سطر من الكود.
البيان
سبرنتات أسبوعين. سينيور منذ اليوم الأول. كود يصل للإنتاج. منتج يستخدمه الناس فعلًا. فريق يبقى حتى الإطلاق.
كفى تخطيطًا. حان وقت الإطلاق.
30 دقيقة، خطوات تالية واضحة. بلا التزامات. مهمة، موعد، أو فكرة خام — تخرج بخطة مكتوبة.
لنتحدث
30 دقيقة. نناقش المهمة والمواعيد وما يجب فعله أولًا.
/02نُعطي تقديرًا
عرض مكتوب خلال 48 ساعة — نطاق العمل، الفريق، المراحل وسعر ثابت.
/03ننطلق
نوقّع العقد، تدفعون المرحلة الأولى — نبدأ في الأسبوع نفسه. بلا تحضيرات طويلة.
/04إطلاق في أسبوعين
أول نتيجة فعلية خلال 14 يومًا. عرض حي عبر رابط — جاهز للعرض على العملاء.

