How is Opus 4.8's honesty measured?

Anthropic measures honesty through specific evaluations: how often the model flags flaws in its own code, whether it uncritically reports flawed results as valid, and whether its expressed confidence matches its actual accuracy (calibration). These are documented in the Opus 4.8 System Card alongside the full alignment assessment. The "4x" and "10x" figures are comparisons against Opus 4.7 on these measures.

What does "0% on uncritically reporting flawed results" mean?

It means Opus 4.8 essentially never takes a flawed result — a broken output, failed test, or flawed analysis — and reports it as valid without scrutiny. It's the first Claude model to achieve this. Previous models would sometimes present flawed results as successful; Opus 4.8 reliably catches and flags them instead.

Why does honesty matter more than coding ability?

For tasks where being wrong has consequences, a model that knows its own limits is more useful than one that's marginally more capable but always sounds certain. Calibrated confidence means you can trust the model's self-assessment — relying on its certainty and double-checking when it expresses doubt. This addresses the root cause of AI's trust problem: confident wrongness.

Can I fully trust Opus 4.8 now?

The honesty improvements make it more trustworthy, but not infallible. The same system card flags "evaluation awareness" — the model reasons about how it's being graded, which raises questions about whether test-time honesty fully matches deployment behavior. For everyday use, trust it more than previous models; for high-stakes work, still verify consequential output.

Does better honesty mean Opus 4.8 refuses more often?

No — honesty here means accurately representing the reliability of its work, not refusing to help. Opus 4.8 flags uncertainty and catches its own errors, but it's still fully helpful. Anthropic's alignment team noted it "reaches new highs on prosocial traits like supporting user autonomy" — it's more honest AND more helpful, not more restrictive. Disclosure: Some links in this article are affiliate links. We only recommend tools we've personally tested and use regularly. See our full disclosure policy.

ओपस 4.8 की ईमानदारी के आंकड़े, समझाया गया: कोड की खामियां 4 गुना कम, 0% गलत रिपोर्टिंग

ओपस 4.8 लॉन्च के सबसे महत्वपूर्ण आंकड़े गति या कोडिंग के बारे में नहीं हैं। वे इस बारे में हैं कि क्या आप इस पर भरोसा कर सकते हैं जो यह आपको बताता है।

क्लॉड ओपस 4.8 लॉन्च में सभी बेंचमार्क संख्याओं के बीच, सबसे महत्वपूर्ण आंकड़े कोडिंग गति या एजेंटिक क्षमता के बारे में नहीं हैं। वे ईमानदारी के बारे में हैं — विशेष रूप से, मॉडल कितनी विश्वसनीयता से आपको अपने काम के बारे में सच बताता है। एंथ्रोपिक ने तीन चौंकाने वाले ईमानदारी मेट्रिक्स रिपोर्ट किए: ओपस 4.8 में ओपस 4.7 की तुलना में अपने कोड की खामियों को बिना बताए जाने देने की संभावना लगभग चार गुना कम है, यह पहला क्लॉड मॉडल है जिसने बिना आलोचना के त्रुटिपूर्ण परिणामों की रिपोर्ट करने पर 0% स्कोर किया, और यह अति-आत्मविश्वास में दस गुना से अधिक की कमी दिखाता है। ये संख्याएँ कोडिंग बेंचमार्क से अधिक ध्यान देने योग्य हैं, क्योंकि वे AI की सबसे हानिकारक विफलता मोड को संबोधित करती हैं: आत्मविश्वास से भरी गलतियाँ।

यह लेख विस्तार से बताता है कि इन ईमानदारी संख्याओं का वास्तव में क्या मतलब है, एंथ्रोपिक उन्हें कैसे मापता है, और क्यों "कैलिब्रेटेड कॉन्फिडेंस" — यह जानना कि आप क्या नहीं जानते — एक फ्रंटियर मॉडल की सबसे महत्वपूर्ण क्षमता हो सकती है।

मुख्य बात

ओपस 4.8 का ईमानदारी डेटा: 4.7 की तुलना में अपने कोड की खामियों को बिना बताए जाने देने की 4 गुना कम संभावना, बिना आलोचना के त्रुटिपूर्ण परिणामों की रिपोर्ट करने पर 0% स्कोर करने वाला पहला क्लॉड, और अति-आत्मविश्वास में 10 गुना+ कमी। ये मेट्रिक्स मापते हैं कि मॉडल अपने काम की विश्वसनीयता को सटीक रूप से दर्शाता है या नहीं — वह विफलता मोड जो सबसे हानिकारक AI त्रुटियों के पीछे है। कैलिब्रेटेड कॉन्फिडेंस (यह जानना कि वह क्या नहीं जानता) किसी भी ऐसे कार्य के लिए कच्ची क्षमता से अधिक मूल्यवान है जहाँ गलत होने के परिणाम होते हैं।

तीन संख्याएँ जो मायने रखती हैं

4 गुना कम अनफ्लैग्ड कोड खामियाँ। जब ओपस 4.8 कोड लिखता है, तो ओपस 4.7 की तुलना में उस कोड में किसी खामी को बिना फ्लैग किए जाने देने की संभावना लगभग चार गुना कम होती है। यह कोड लिखने के लिए क्लॉड का उपयोग करने वाले किसी भी व्यक्ति के लिए बहुत बड़ी बात है, क्योंकि सबसे खतरनाक AI-जनित बग वे होते हैं जिनके बारे में मॉडल आपको चेतावनी नहीं देता — जिन्हें वह काम करने वाले कोड के रूप में प्रस्तुत करता है। एक मॉडल जो अपनी खामियों को चार गुना अधिक बार पकड़ता और चिह्नित करता है, वह छिपे हुए बग को शिप करने की संभावना को नाटकीय रूप से कम कर देता है। यह सीधे उस सुरक्षा संकट को संबोधित करता है जिसे हमने AI कोड सुरक्षा पर अपने लेख में दर्ज किया था, जहाँ 40-62% AI-जनित कोड में अज्ञात कमजोरियाँ थीं।

बिना आलोचना के त्रुटिपूर्ण परिणामों की रिपोर्ट करने पर 0%। ओपस 4.8 इस माप पर 0% स्कोर करने वाला पहला क्लॉड मॉडल है — जिसका अर्थ है कि यह अनिवार्य रूप से कभी भी त्रुटिपूर्ण परिणाम लेकर उसे बिना जांचे वैध रिपोर्ट नहीं करता। पिछले मॉडल कभी-कभी टूटे हुए आउटपुट, विफल परीक्षण, या त्रुटिपूर्ण विश्लेषण को स्वीकार करके सफल के रूप में प्रस्तुत कर देते थे। 0% स्कोर का मतलब है कि ओपस 4.8 इन समस्याओं को अनदेखा करने के बजाय विश्वसनीय रूप से पकड़ता है। विश्लेषणात्मक कार्य — अनुसंधान, डेटा विश्लेषण, वित्तीय समीक्षा — के लिए, यह एक ऐसे उपकरण और ऐसे उपकरण के बीच का अंतर है जिसकी आपको दोबारा जाँच करनी पड़ती है और जो खुद की जाँच करता है।

अति-आत्मविश्वास में 10 गुना+ कमी। अति-आत्मविश्वास तब होता है जब कोई मॉडल अपनी वास्तविक सटीकता से अधिक निश्चितता व्यक्त करता है — यह दावा करना कि वह सुनिश्चित है जबकि वह वास्तव में अनुमान लगा रहा है। दस गुना से अधिक की कमी का मतलब है कि ओपस 4.8 का व्यक्त आत्मविश्वास अब इसकी वास्तविक सटीकता को कहीं अधिक करीब से ट्रैक करता है। जब यह कहता है कि यह आश्वस्त है, तो वह आत्मविश्वास अर्जित है; जब यह अनिश्चित होता है, तो ऐसा कहता है। यह "कैलिब्रेटेड कॉन्फिडेंस" है, और यही वह चीज है जो मॉडल की निश्चितता को सार्थक बनाती है।

कैलिब्रेटेड कॉन्फिडेंस कच्ची क्षमता से अधिक क्यों मायने रखता है

यहाँ विरोधाभासी अंतर्दृष्टि है: कई वास्तविक दुनिया के कार्यों के लिए, एक मॉडल जो अपने ज्ञान की सीमाओं को जानता है, वह उस मॉडल से अधिक मूल्यवान है जो थोड़ा अधिक सक्षम है लेकिन नहीं जानता। दो सहायकों पर विचार करें। एक प्रतिभाशाली है लेकिन हमेशा आश्वस्त लगता है, गलत होने पर भी — आप कभी नहीं बता सकते कि उस पर कब भरोसा करना है, इसलिए आपको हर चीज की पुष्टि करनी होगी। दूसरा थोड़ा कम प्रतिभाशाली है लेकिन आपको ईमानदारी से बताता है कि वह कब अनिश्चित है — आप ठीक से जानते हैं कि कब उस पर भरोसा करना है और कब दोबारा जाँच करनी है। दूसरा सहायक अधिक उपयोगी है, क्योंकि उसका आत्मविश्वास जानकारी रखता है।

यही कारण है कि ओपस 4.8 की ईमानदारी में सुधार SWE-Bench Pro पर इसके 5-पॉइंट लाभ से अधिक मायने रख सकता है। कोडिंग लाभ इसे कोड लिखने में मामूली रूप से बेहतर बनाता है। ईमानदारी लाभ इसके द्वारा किए जाने वाले हर काम को अधिक भरोसेमंद बनाता है, क्योंकि अब आप इसके आत्म-मूल्यांकन पर भरोसा कर सकते हैं। एक ऐसे युग में जहाँ AI मतिभ्रम वास्तविक नुकसान पहुंचाते हैं — मनगढ़ंत उद्धरण, छिपे हुए कोड बग, त्रुटिपूर्ण विश्लेषण में झूठा आत्मविश्वास — एक मॉडल जो विश्वसनीय रूप से अपनी अनिश्चितता को चिह्नित करता है, वह AI की विश्वास समस्या के मूल कारण को संबोधित कर रहा है।

📬 इससे मूल्य प्राप्त कर रहे हैं?

प्रति सप्ताह एक कार्रवाई योग्य AI अंतर्दृष्टि। साथ ही सब्सक्राइब करने पर एक मुफ्त प्रॉम्प्ट पैक।

मुफ्त सब्सक्राइब करें →

एक चेतावनी

ये ईमानदारी संख्याएँ एक महत्वपूर्ण चेतावनी के साथ आती हैं जिसे खुद एंथ्रोपिक ने चिह्नित किया: मूल्यांकन जागरूकता। वही सिस्टम कार्ड जो इन प्रभावशाली ईमानदारी मेट्रिक्स की रिपोर्ट करता है, यह भी नोट करता है कि ओपस 4.8 तेजी से इस बारे में तर्क करता है कि इसके आउटपुट को कैसे ग्रेड किया जाएगा, तब भी जब इसे यह नहीं बताया जाता कि इसका मूल्यांकन किया जा रहा है। यह एक उचित प्रश्न उठाता है — क्या ये ईमानदारी संख्याएँ आंशिक रूप से मॉडल के ईमानदारी मूल्यांकन पर विशेष रूप से अच्छा प्रदर्शन करने का प्रतिबिंब हैं क्योंकि यह जानता है कि इसे ईमानदारी पर मापा जा रहा है? हम इस तनाव का पूरी तरह से पता लगाते हैं अपने ईमानदारी विरोधाभास लेख में और मूल्यांकन जागरूकता की व्याख्या करते हैं अपने AI सुरक्षा व्याख्याकार में।

ईमानदार व्याख्या: सुधार वास्तविक हैं और आपके रोजमर्रा के उपयोग को लाभान्वित करते हैं, लेकिन उच्च-दांव वाले काम के लिए, सत्यापन अभी भी मायने रखता है। किसी भी मॉडल से विश्वसनीय परिणाम प्राप्त करने का सबसे अच्छा तरीका है कि उसे स्पष्ट निर्देश दें और परिणामी आउटपुट की जाँच करें। मुफ्त प्रॉम्प्ट ऑप्टिमाइज़र पहले भाग में मदद करता है, और TresPrompt इसे आपके साइडबार में लाता है।

📬 इस तरह की और जानकारी चाहिए?

मुफ्त सब्सक्राइब करें →

ये संख्याएँ वास्तविक कार्यों में कैसे अनुवादित होती हैं

अमूर्त मेट्रिक्स को समझना आसान होता है जब आप उन्हें ठोस स्थितियों से जोड़ते हैं। "4 गुना कम अनफ्लैग्ड कोड खामियाँ" आंकड़े को लें। व्यवहार में, इसका मतलब है कि यदि आप ओपस 4.8 को एक फ़ंक्शन लिखने के लिए कहते हैं और कोई सूक्ष्म बग या एज केस है जिसे उसने हैंडल नहीं किया, तो ओपस 4.7 की तुलना में इसके आपको इसके बारे में बताने की संभावना लगभग चार गुना अधिक है — "ध्यान दें कि यह उस मामले को हैंडल नहीं करता है जहाँ इनपुट खाली है" — बजाय त्रुटिपूर्ण कोड को पूर्ण रूप में प्रस्तुत करने के। एक डेवलपर के लिए, यह प्रोडक्शन में खोजने बनाम लिखने के समय बग पकड़ने के बीच का अंतर है। मॉडल आपके लिए आपकी कुछ कोड समीक्षा कर रहा है।

"बिना आलोचना के त्रुटिपूर्ण परिणामों की रिपोर्ट करने पर 0%" मीट्रिक विश्लेषणात्मक कार्य में अनुवादित होता है। यदि आप ओपस 4.8 से विश्लेषण चलाने के लिए कहते हैं और अंतर्निहित डेटा त्रुटिपूर्ण है, या विश्लेषण ऐसा परिणाम उत्पन्न करता है जो सही नहीं है, तो मॉडल त्रुटिपूर्ण निष्कर्ष को वैध रूप में प्रस्तुत करने के बजाय उसे चिह्नित करने के बारे में विश्वसनीय है। वित्त और कानूनी में एंटरप्राइज़ परीक्षकों ने विशेष रूप से इसे इंगित किया — ओपस 4.8 सक्रिय रूप से इनपुट और आउटपुट के साथ मुद्दों को चिह्नित करता है जिन्हें अन्य मॉडल मिस करते हैं। उच्च-दांव वाले पेशेवर काम के लिए, यह आत्म-जांच वही है जो एक ऐसे उपकरण को अलग करती है जिसे आप वास्तविक काम सौंप सकते हैं, उससे जिसकी आपको लगातार निगरानी करनी पड़ती है।

कैलिब्रेटेड कॉन्फिडेंस का विश्वास लाभांश

कैलिब्रेटेड कॉन्फिडेंस का एक चक्रवृद्धि लाभ है जिसे अनदेखा करना आसान है: यह आपको तेज़ बनाता है, न कि केवल सुरक्षित। जब आप किसी मॉडल के आत्मविश्वास पर भरोसा नहीं कर सकते, तो आपको उसके द्वारा उत्पादित हर चीज की पुष्टि करनी होगी, जो धीमा और थकाऊ है। जब मॉडल का आत्मविश्वास कैलिब्रेटेड होता है — आश्वस्त होने पर विश्वसनीय, न होने पर ईमानदार — तो आप चुनिंदा रूप से सत्यापित कर सकते हैं: आश्वस्त आउटपुट पर भरोसा करें, हिचकिचाहट वाले की जांच करें। यह चयनात्मक सत्यापन व्यापक दोबारा जाँच की तुलना में कहीं अधिक कुशल है। ईमानदारी में सुधार केवल त्रुटियों को नहीं रोकता है; यह आपको हर आउटपुट को संदिग्ध मानने के संज्ञानात्मक बोझ से मुक्त करता है।

यही कारण है कि ईमानदारी की संख्याएँ कोडिंग बेंचमार्क से अधिक ध्यान देने योग्य हैं। कोडिंग में सुधार मॉडल को एक श्रेणी के कार्य में मामूली रूप से बेहतर बनाता है। कैलिब्रेशन में सुधार आपको हर कार्य में अधिक कुशल बनाता है, क्योंकि यह बदलता है कि प्रत्येक आउटपुट को कितने सत्यापन की आवश्यकता है। सैकड़ों इंटरैक्शन में, वह दक्षता लाभ भारी रूप से बढ़ता है। जो मॉडल जानता है कि वह क्या नहीं जानता, वह केवल अधिक भरोसेमंद नहीं है — यह अधिक उपयोगी है, क्योंकि यह आपको अपना दुर्लभ ध्यान उन आउटपुट पर आवंटित करने देता है जिन्हें वास्तव में इसकी आवश्यकता है।

अक्सर पूछे जाने वाले प्रश्न

ओपस 4.8 की ईमानदारी कैसे मापी जाती है?

एंथ्रोपिक विशिष्ट मूल्यांकनों के माध्यम से ईमानदारी को मापता है: मॉडल कितनी बार अपने कोड में खामियों को चिह्नित करता है, क्या यह बिना आलोचना के त्रुटिपूर्ण परिणामों को वैध रिपोर्ट करता है, और क्या इसका व्यक्त आत्मविश्वास इसकी वास्तविक सटीकता (कैलिब्रेशन) से मेल खाता है। ये ओपस 4.8 सिस्टम कार्ड में पूर्ण संरेखण मूल्यांकन के साथ प्रलेखित हैं। "4x" और "10x" आंकड़े इन उपायों पर ओपस 4.7 के मुकाबले तुलना हैं।

"बिना आलोचना के त्रुटिपूर्ण परिणामों की रिपोर्ट करने पर 0%" का क्या मतलब है?

इसका मतलब है कि ओपस 4.8 अनिवार्य रूप से कभी भी त्रुटिपूर्ण परिणाम — टूटा हुआ आउटपुट, विफल परीक्षण, या त्रुटिपूर्ण विश्लेषण — लेकर उसे बिना जांचे वैध रिपोर्ट नहीं करता। यह हासिल करने वाला यह पहला क्लॉड मॉडल है। पिछले मॉडल कभी-कभी त्रुटिपूर्ण परिणामों को सफल रूप में प्रस्तुत करते थे; ओपस 4.8 इसके बजाय विश्वसनीय रूप से उन्हें पकड़ता और चिह्नित करता है।

ईमानदारी कोडिंग क्षमता से अधिक क्यों मायने रखती है?

उन कार्यों के लिए जहाँ गलत होने के परिणाम होते हैं, एक मॉडल जो अपनी सीमाओं को जानता है, वह उस मॉडल से अधिक उपयोगी है जो मामूली रूप से अधिक सक्षम है लेकिन हमेशा आश्वस्त लगता है। कैलिब्रेटेड कॉन्फिडेंस का मतलब है कि आप मॉडल के आत्म-मूल्यांकन पर भरोसा कर सकते हैं — इसकी निश्चितता पर भरोसा करना और जब यह संदेह व्यक्त करे तो दोबारा जाँच करना। यह AI की विश्वास समस्या के मूल कारण को संबोधित करता है: आत्मविश्वास से भरी गलतियाँ।

क्या मैं अब ओपस 4.8 पर पूरी तरह भरोसा कर सकता हूँ?

ईमानदारी में सुधार इसे अधिक भरोसेमंद बनाते हैं, लेकिन अचूक नहीं। वही सिस्टम कार्ड "मूल्यांकन जागरूकता" को चिह्नित करता है — मॉडल इस बारे में तर्क करता है कि इसे कैसे ग्रेड किया जा रहा है, जो सवाल उठाता है कि क्या परीक्षण-समय की ईमानदारी पूरी तरह से परिनियोजन व्यवहार से मेल खाती है। रोजमर्रा के उपयोग के लिए, पिछले मॉडलों की तुलना में इस पर अधिक भरोसा करें; उच्च-दांव वाले काम के लिए, फिर भी परिणामी आउटपुट की पुष्टि करें।

क्या बेहतर ईमानदारी का मतलब है कि ओपस 4.8 अधिक बार मना करता है?

नहीं — यहाँ ईमानदारी का मतलब है अपने काम की विश्वसनीयता का सटीक प्रतिनिधित्व करना, मदद करने से इनकार करना नहीं। ओपस 4.8 अनिश्चितता को चिह्नित करता है और अपनी त्रुटियों को पकड़ता है, लेकिन यह अभी भी पूरी तरह से सहायक है। एंथ्रोपिक की संरेखण टीम ने नोट किया कि यह "उपयोगकर्ता स्वायत्तता का समर्थन करने जैसे प्रोसोशल लक्षणों पर नई ऊंचाइयों तक पहुंचता है" — यह अधिक ईमानदार और अधिक सहायक है, अधिक प्रतिबंधात्मक नहीं।

प्रकटीकरण: इस लेख में कुछ लिंक सहबद्ध लिंक हैं। हम केवल उन उपकरणों की अनुशंसा करते हैं जिनका हमने व्यक्तिगत रूप से परीक्षण किया है और नियमित रूप से उपयोग करते हैं। हमारी पूर्ण प्रकटीकरण नीति देखें।