وصل Claude Opus 4.8 بعد 41 يومًا فقط من Opus 4.7، وبنفس السعر تمامًا. وهذا يثير سؤالًا واضحًا لأي شخص يستخدم 4.7 بالفعل: ما الذي تغير فعليًا، وهل يستحق التبديل؟ الإجابة المختصرة هي نعم — يتحسن 4.8 على 4.7 في جميع المجالات، ويصلح مشكلات محددة أحبطت مستخدمي 4.7، وبنفس التكلفة. لكن التفاصيل مهمة، خاصة إذا كنت قد ضبطت مطالباتك أو سير عملك على سلوك 4.7 المحدد.
هذه مقارنة مباشرة وجهاً لوجه بين النموذجين: كل فارق في المعايير، قفزة الصدق، المشكلات التي تم إصلاحها، والسؤال العملي حول ما إذا كنت بحاجة لإعادة اختبار أي شيء قبل التبديل.
الخلاصة الرئيسية
يتفوق Opus 4.8 على Opus 4.7 في كل معيار منشور: SWE-Bench Pro (69.2% مقابل 64.3%)، والاستدلال باستخدام الأدوات (57.9% مقابل 54.7%)، واستخدام الحاسوب. كما أنه أقل عرضة بأربع مرات لتمرير عيوب الكود ويصلح مشكلات الإسهاب في التعليقات واستدعاء الأدوات في 4.7 (مصدر شكاوى "Gaslightus 4.7"). نفس السعر، ووضع سريع أرخص. الترقية تلقائية عبر الاسم المستعار opus. السبب الوحيد للتوقف: إعادة اختبار المطالبات المضبوطة بشدة على سلوك 4.7.
تحسينات المعايير
يتحسن Opus 4.8 على 4.7 في كل معيار نشرته Anthropic. قفز رقم البرمجة الرئيسي، SWE-Bench Pro، من 64.3% إلى 69.2% — مكسب قدره 4.9 نقاط له أهمية في البرمجة الوكيلة في العالم الحقيقي. تحسن الاستدلال متعدد التخصصات باستخدام الأدوات من 54.7% إلى 57.9%. ارتفعت معايير استخدام الحاسوب (OSWorld-Verified) إلى 83.4%، ووصل أداء وكيل المتصفح (Online-Mind2Web) إلى 84%، وهي قفزة ملحوظة. لا شيء من هذه ثوري بمفرده، لكنها مجتمعة تمثل تحسنًا متسقًا عبر القدرات الأكثر أهمية للعمل الوكيلي.
| المعيار | Opus 4.8 | Opus 4.7 | التغيير |
|---|---|---|---|
| SWE-Bench Pro | 69.2% | 64.3% | +4.9 |
| الاستدلال بالأدوات | 57.9% | 54.7% | +3.2 |
| OSWorld-Verified | 83.4% | 82.3% | +1.1 |
| الصدق (عيوب غير مبلّغ عنها) | أفضل بـ 4 أضعاف تقريبًا | خط الأساس | انخفاض 4x |
| السعر (لكل مليون) | 5$ / 25$ | 5$ / 25$ | نفسه |
المشكلات التي تم إصلاحها
القصة الأكثر أهمية للعديد من مستخدمي 4.7 هي ما تم إصلاحه. تعرض Opus 4.7 لانتقادات حقيقية بعد الإطلاق. اشتكى المطورون من الإسهاب المفرط في التعليقات (إفراط النموذج في التعليق على الكود)، ومشكلات استدعاء الأدوات، وميل للدفاع عن المخرجات غير الصحيحة — أطلقت عليه موجة ردود فعل ساخرة اسم "Gaslightus 4.7" لإصراره على أنه على صواب حتى عندما لم يكن كذلك، واختراعه لملفات ودفاعه عن نتائج اختبار مهلوسة. لم تكن هذه مضايقات بسيطة؛ بل قوضت الثقة في النموذج للعمل الجاد.
يعالج Opus 4.8 هذه المشكلات مباشرة. تؤكد Anthropic والمختبرون الأوائل (بما في ذلك فريق Devin) أنه يصلح مشكلات الإسهاب في التعليقات واستدعاء الأدوات من 4.7. بشكل أكثر جوهرية، تهاجم تحسينات الصدق جذر مشكلة "Gaslightus": نموذج أقل عرضة بأربع مرات لتمرير عيوبه الخاصة ويسجل 0% في الإبلاغ غير النقدي عن النتائج المعيبة هو أقل ميلًا بكثير للدفاع عن المخرجات غير الصحيحة. إذا كانت ثقة 4.7 الزائدة قد أحبطتك، فإن صدق 4.8 المُعايَر هو الحل. نغطي بيانات الصدق بالتفصيل في تحليل أرقام الصدق.
📬 هل تجد قيمة في هذا؟
رؤية ذكاء اصطناعي قابلة للتطبيق أسبوعيًا. بالإضافة إلى حزمة مطالبات مجانية عند الاشتراك.
اشترك مجانًا ←هل يجب أن تنتقل — وهل تحتاج إلى إعادة الاختبار؟
بالنسبة للجميع تقريبًا، نعم — انتقل. إنه نفس السعر، كل معيار أفضل، الصدق محسّن بشكل كبير، وأسوأ مشكلات 4.7 تم إصلاحها. إذا كنت تستخدم الاسم المستعار opus، فقد تمت ترقيتك تلقائيًا بالفعل. لا يوجد جانب سلبي في التكلفة وجانب إيجابي واضح في الجودة.
السيناريو الوحيد الذي يتطلب الحذر: إذا كنت قد ضبطت المطالبات أو أحزمة الوكلاء أو سير عمل الإنتاج بشدة على سلوك 4.7 المحدد، فأعد الاختبار قبل تحويل الإنتاج. لدى Opus 4.8 حكم مختلف، وإسهاب أقل، وأنماط استدعاء أدوات مختلفة. هذه تحسينات، لكن المطالبة المُعايَرة على مراوغات 4.7 قد تنتج مخرجات مختلفة على 4.8. للاستخدام العادي، فقط انتقل. لسير عمل الإنتاج الحرج، مرر مطالباتك الرئيسية عبر 4.8 أولاً لتأكيد السلوك. يغطي دليل قرار الترقية الحالات الحدية. ولإعادة ضبط المطالبات بسرعة، يساعدك محسّن المطالبات المجاني وTresPrompt.
📬 هل تريد المزيد مثل هذا؟
رؤية ذكاء اصطناعي قابلة للتطبيق أسبوعيًا. بالإضافة إلى حزمة مطالبات مجانية عند الاشتراك.
اشترك مجانًا ←ما يقوله المختبرون الأوائل عن الترقية
بعيدًا عن أرقام المعايير، ترسم التعليقات النوعية من المختبرين الأوائل صورة أوضح لقفزة 4.7 إلى 4.8. لاحظ فريق Devin، الذي يشغل Claude على أعباء عمل هندسية مستقلة، أن Opus 4.8 يصلح مشكلات الإسهاب في التعليقات واستدعاء الأدوات التي رأوها مع 4.7 — تحسينات محددة وملموسة بدلاً من شعور عام غامض بأنه "أفضل". يصف المختبرون العاملون على البرمجة الوكيلة Opus 4.8 بأنه يتمتع بحكم أفضل بشكل ملحوظ: يطرح الأسئلة التوضيحية الصحيحة، ويلتقط أخطاءه الخاصة، ويعترض عندما لا تكون الخطة سليمة، بدلاً من الاندفاع بثقة في الاتجاه الخاطئ كما كان يفعل 4.7 أحيانًا.
يفيد الكتّاب وعمال المعرفة أن Opus 4.8 أسهل في التعاون معه خلال الجلسات الطويلة — أفضل في حمل السياق والحفاظ على اتجاه الأسلوب عبر قطعة عمل طويلة. هذا يعالج إحباطًا خفيًا لكنه حقيقي مع 4.7، حيث يمكن أن تتراجع الجودة خلال محادثة طويلة. الموضوع المتسق عبر المختبرين هو أن 4.8 يبدو كترقية لجودة الحياة: ليس أكثر ذكاءً بشكل كبير، لكنه أكثر متعة وموثوقية في العمل معه بشكل ملموس. هذا يتطابق مع تأطير Anthropic "المتواضع لكن الملموس" — التحسينات حقيقية ومحسوسة في الاستخدام اليومي، حتى لو لم يلتقطها رقم معيار واحد.
قائمة الترحيل العملية
إذا قررت الانتقال من 4.7 إلى 4.8، فإليك قائمة عملية لجعل الانتقال سلسًا. أولاً، حدد أيًا من سير عملك حرج مقابل عادي. للعمل العادي، فقط انتقل — استخدم الاسم المستعار opus أو حدّث إلى claude-opus-4-8 وتابع. لسير العمل الحرج، مرر مطالباتك الرئيسية عبر 4.8 في بيئة اختبار أولاً وقارن المخرجات بمخرجات 4.7. راقب بشكل خاص تغييرات السلوك: تعليقات أقل إسهابًا (جيد، لكن تحقق من أنها لا تحذف تفاصيل ضرورية)، وأنماط استدعاء أدوات مختلفة (تحقق من أن تكاملاتك لا تزال تعمل)، والصدق المحسّن (الذي قد يبرز تحفظات تجاهلها 4.7).
ثانيًا، إذا لاحظت أي مطالبات تتصرف بشكل مختلف، فأعد ضبطها — غالبًا ما يحتاج النموذج المحسّن إلى تعليمات مختلفة قليلاً لإنتاج نتائج مثلى، ويمكن لتمريرة سريعة عبر محسّن مطالبات أن تعيد معايرتها بسرعة. ثالثًا، وثّق تاريخ التبديل وأي تغييرات لفريقك. لأن Anthropic تطلق Opus جديدًا كل ستة أسابيع تقريبًا، فإن بناء عملية خفيفة لتقييم واعتماد الترقيات يؤتي ثماره — ستفعل هذا مرة أخرى قريبًا. الاستثمار في عملية ترحيل سلسة الآن يوفر الوقت في كل ترقية مستقبلية. بالنسبة لمعظم المستخدمين، يبقى المحصلة النهائية بسيطة: 4.8 أفضل من 4.7 بنفس السعر، لذا فإن الترقية تستحق القيام بها.
من المفيد أيضًا الحفاظ على المنظور حول الوتيرة. كان Opus 4.7 نفسه بعمر ستة أسابيع فقط عندما استبدله 4.8، ومن المرجح أن يخلف 4.8 في غضون نافذة زمنية مماثلة. هذا يعني أن سؤال "هل يجب أن أرقّي" ليس قرارًا لمرة واحدة بل قرارًا متكررًا ستواجهه كل ستة أسابيع تقريبًا. بدلاً من معاملة كل ترقية كحدث كبير، فإن النهج الأكثر صحة هو معاملة خط Opus كأداة تتحسن باستمرار: ابقَ حديثًا تقريبًا، ورقِّ سير عملك الحرج بتعمد بعد اختبار سريع، ودع عملك غير الحرج يركب الاسم المستعار. الفرق التي تتعامل مع هذا بشكل أفضل ليست تلك التي تتألم على كل إصدار أو تطارد كل نسخة — إنها تلك التي بنت عادة تقييم سريعة وخفيفة ونهج مطالبات ينتقل بنظافة عبر النسخ، بحيث تكون كل ترقية ضبطًا بسيطًا بدلاً من تعطيل.
الأسئلة الشائعة
ما الفرق بين Opus 4.8 و 4.7؟
يحسن Opus 4.8 كل معيار منشور على 4.7 (SWE-Bench Pro 69.2% مقابل 64.3%، الاستدلال 57.9% مقابل 54.7%)، وهو أقل عرضة بأربع مرات لتمرير عيوب الكود، ويصلح مشكلات الإسهاب في التعليقات واستدعاء الأدوات في 4.7. يكلف نفس السعر ويضيف وضعًا سريعًا أرخص. كما أُطلق إلى جانب ميزات جديدة: سير عمل ديناميكي، وأدوات تحكم في الجهد، وإدخالات نظام منتصف المهمة.
هل يستحق Opus 4.8 الترقية من 4.7؟
نعم للجميع تقريبًا — إنه أفضل في كل مقياس بنفس السعر، والترقية تلقائية عبر الاسم المستعار opus. التحذير الوحيد هو إعادة اختبار المطالبات المضبوطة بشدة على سلوك 4.7 المحدد، نظرًا لأن 4.8 لديه حكم وإسهاب مختلفين. للاستخدام العادي، فقط انتقل.
ما هو "Gaslightus 4.7"؟
كان لقبًا من موجة ردود فعل ساخرة من المطورين ينتقد ميل Opus 4.7 للدفاع عن المخرجات غير الصحيحة — اختراع ملفات والإصرار على نتائج اختبار مهلوسة عبر عدة دورات. تحسينات الصدق في Opus 4.8 (عيوب غير مبلّغ عنها أقل بأربع مرات، 0% إبلاغ غير نقدي) تعالج هذا مباشرة بجعل النموذج أقل ميلًا بكثير للدفاع عن الإجابات الخاطئة.
هل يكلف Opus 4.8 أكثر من 4.7؟
لا — التسعير متطابق: 5$/مليون للإدخال، 25$/مليون للإخراج. الوضع السريع في الواقع أرخص بثلاث مرات مما كان عليه للنماذج السابقة. لا توجد عقوبة سعرية للنموذج الأفضل.
هل أحتاج إلى تحديث الكود الخاص بي للتبديل من 4.7 إلى 4.8؟
إذا كنت تستخدم الاسم المستعار opus، فلا — إنه يوجه الآن إلى 4.8 تلقائيًا. إذا كنت تثبت claude-opus-4-7 تحديدًا، فغيره إلى claude-opus-4-8. هذا هو التغيير الوحيد المطلوب.
إفصاح: بعض الروابط في هذه المقالة هي روابط تابعة. نوصي فقط بالأدوات التي اختبرناها شخصيًا ونستخدمها بانتظام. راجع سياسة الإفصاح الكاملة.