01الأبحاث

الكاتب: هندسة Creative Ventures
تاريخ النشر: ٢٢ يناير ٢٠٢٦
وقت القراءة: ١٠ دقائق قراءة

تقييم LLM: دليل عملي لوكلاء الإنتاج

معظم الفِرَق لا تتجاوز تقييمات vibes-based. هذه منصّة التقييم التي نُشغّلها على كلّ وكيل إنتاج — مجموعات ذهبية، تسجيل ثلاثي الطبقات، ومتى تتوقّف عن إضافة التغطية.

لوحة تقييم LLM — المجموعة الذهبية وطبقات التسجيل

كلّ فريق نتحدّث إليه يُشغّل شكلاً من تقييم LLM. معظمهم يُشغّلونه بشكل خاطئ. عادةً المشكلة ليست النموذج — بل القياس. هذا هو دليل تقييم LLM الذي نُشغّله على كلّ وكيل إنتاج، مجرّداً من الأجزاء التي تبدو جميلة في المؤتمرات فقط.

ابدأ بمجموعة ذهبية، لا بمقياس

أوّل قِطعة في أيّ تقييم LLM هي ٤٠ مثالاً منتقىً يدوياً تُمثّل شكل حركة المرور. لا ٤٠٠، ولا ٤٬٠٠٠ — ٤٠. صغيرة بحيث يقرأها إنسان فعلاً، كبيرة بما يكفي لالتقاط انحدارات الفئة. كلّ بَق يظهر في الإنتاج يذهب إلى المجموعة الذهبية.

مجموعة ذهبية LLM — أمثلة تقييم منتقاة يدوياً — المجموعة الذهبية — ٤٠ مثالاً، فقرة تعليق لكلّ منها، ولكلٍّ منها مالك بشريّ.

نموذج التسجيل ثلاثي الطبقات لوكلاء LLM

نُسجّل كلّ استجابة وكيل في ثلاث طبقات. قيود صلبة — هل استدعى الأداة الصحيحة، هل المخرج يصدّق المخطّط. الصحّة — للمهامّ القابلة للتحقّق، هل الإجابة صحيحة فعلاً. الحكم — هل قيّم نموذج ثانٍ الاستجابة كقابلة للاستخدام. لا ترجيح بين الطبقات: الفشل في أيّها فشل.

مدقّق قيود صلبة لمخرجات LLM

لوحة تقييم طبقة الحكم LLM

متى تتوقّف عن التقييم وتبدأ بالإنصات للإنتاج

المزيد من التقييم ليس دوماً أفضل. حين يجتاز الوكيل المجموعة الذهبية >٩٥٪، الانحدار التالي سيأتي على الأرجح من فئة لم تتوقّعها. تلك هي نقطة التوقّف عن إضافة التغطية والبدء بإضافة القياس من الإنتاج.

“منصّة التقييم دالة قسرية لفهمك منتجك. إن لم تقدر على كتابة الاختبار — فأنت لا تعرف الميزة بما يكفي لإطلاقها.”

— مذكّرة هندسية داخلية

02المزيد من الاستوديو

مشاريع أخرى من رفّنا.

الفريق نفسه، مهام مختلفة. حالات حديثة في صناعات مجاورة — كلٌّ منها أنجزها نفس كبار المهندسين المسؤولين عن النتيجة.

دراسة حالة/01

Parsewise: نصف تكلفة التحليل

Parsewise: نصف تكلفة التحليل

الذكاء الاصطناعي · تحليل الوثائق

دراسة حالة/02

RLC Logistics: +30% في استخدام الأسطول

RLC Logistics: +30% في استخدام الأسطول

الخدمات اللوجستية · العمليات

دراسة حالة/03

AIChief: 12 ألف مستخدم نشط في 90 يومًا

AIChief: 12 ألف مستخدم نشط في 90 يومًا

الذكاء الاصطناعي · سوق إلكتروني

دراسة حالة/04

Trywishboard: 5 آلاف في قائمة الانتظار خلال 6 أسابيع

Trywishboard: 5 آلاف في قائمة الانتظار خلال 6 أسابيع

SaaS · إنتاجية

03ماذا يقول العملاء

كلمات من أطلقوا فعلًا.

مراجعات حقيقية — من مؤسسين و CTO ومديري منتج عملنا معهم. بلا اقتباسات منتقاة — جمل فعلية من مراجعات ما بعد الإطلاق.

ماذا يقولون/01

· Parsewise®

أعادوا بناء المنصة بأكملها في 4 أشهر. السرعة تضاعفت 3 مرات، وأخيرًا يستطيع فريقنا صيانة الكود بنفسه.

أليكسي

أليكسيCTO · Parsewise

ماذا يقولون/02

· Wishboard®

من الصفر إلى 50 ألف مستخدم في نصف عام. أخذوا كل شيء على عاتقهم — التصميم، الكود، الإطلاق. ونحن انشغلنا بالمنتج بهدوء.

مارينا

مارينامؤسِّسة · Trywishboard

ماذا يقولون/03

· RLC®

احتجنا خمسة مهندسين كبار بشكل عاجل. اندمجوا مع الفريق، تبنّوا معاييرنا، وأطلقوا المزايا جنبًا إلى جنب مع مطورينا.

دميتري

دميتريVP Engineering · RLC

ماذا يقولون/04

· Blured®

وكيل الذكاء الاصطناعي الذي بنوه يغلق 70% من تذاكر الدعم. الردود الآن بالثواني، لا بالساعات.

كاتيا

كاتياProduct Lead · Blured

04الأسئلة الشائعة

ما يُسألون عنه عادةً قبل البدء.

: نبدأ بدراسة المهمة. نتحدث معكم، ننظر فيما هو موجود، ندرس المنافسين. تحصلون على خطة مفصّلة قبل أن نكتب أول سطر من الكود.

البيان

سبرنتات أسبوعين. سينيور منذ اليوم الأول. كود يصل للإنتاج. منتج يستخدمه الناس فعلًا. فريق يبقى حتى الإطلاق.

05لنتحدث

كفى تخطيطًا. حان وقت الإطلاق.

30 دقيقة، خطوات تالية واضحة. بلا التزامات. مهمة، موعد، أو فكرة خام — تخرج بخطة مكتوبة.

احجز مكالمة

لنتحدث

30 دقيقة. نناقش المهمة والمواعيد وما يجب فعله أولًا.

نُعطي تقديرًا

عرض مكتوب خلال 48 ساعة — نطاق العمل، الفريق، المراحل وسعر ثابت.

ننطلق

نوقّع العقد، تدفعون المرحلة الأولى — نبدأ في الأسبوع نفسه. بلا تحضيرات طويلة.

إطلاق في أسبوعين

أول نتيجة فعلية خلال 14 يومًا. عرض حي عبر رابط — جاهز للعرض على العملاء.