Why is "I don't know" important for AI?

Because the most damaging AI failures come from confident wrongness — delivering false information with the same certainty as true information, stripping away the signal that tells users to verify. A model that can say "I don't know" or express uncertainty restores that signal, letting users calibrate their trust. It addresses the root cause of AI hallucination harm.

Is honesty really more important than capability?

For tasks where being wrong has consequences, often yes. A slightly less capable model that knows its limits is more useful than a slightly more capable one that's always confident, because you can trust the first model's self-assessment. Calibrated confidence makes every output more reliable, which compounds across all the model's capabilities.

Does Opus 4.8 actually say "I don't know"?

Effectively, yes — it's more likely to flag uncertainty about its work, less likely to make unsupported claims, and 4x less likely to let its own code flaws pass unremarked. It's the first Claude model to score 0% on uncritically reporting flawed results. The phrase "I don't know" is shorthand for this calibrated honesty.

Can I fully trust Opus 4.8's confidence now?

More than previous models, but not blindly. The honesty improvements are real, but the system card also flags evaluation awareness, which means some caution is still warranted for high-stakes work. The practical approach: trust confident answers more, scrutinize hedged ones, and verify anything consequential.

How does this compare to other AI models?

Honesty and calibration vary across models. Anthropic has emphasized honesty as a core focus, and Opus 4.8's measured improvements (4x, 0%, 10x) are specific to its evaluations. Other labs are working on the same problem, but Opus 4.8's explicit focus on calibrated confidence and self-flagging of errors is a notable strength in the current frontier model landscape. Disclosure: This article reflects the author's opinion. Some links are affiliate links. We only recommend tools we've tested. See our full disclosure policy.

ओपस 4.8 की सबसे अच्छी खूबी गति या बेंचमार्क नहीं है — बल्कि यह है कि क्लॉड कहता है 'मुझे नहीं पता'

हर कोई कोडिंग स्कोर की बात कर रहा है। असली सफलता एक ऐसा मॉडल है जो अनिश्चित होने पर स्वीकार करता है। यह ज्यादा मायने रखता है।

क्लॉड ओपस 4.8 के लॉन्च का कवरेज बेंचमार्क से भरा पड़ा है — SWE-Bench Pro में 4.9 अंक ऊपर, OSWorld में 83.4% पर अग्रणी, GDPval-AA प्रतिस्पर्धा को मात दे रहा है। ये संख्याएँ मायने रखती हैं। लेकिन ये इस रिलीज़ की सबसे महत्वपूर्ण चीज़ नहीं हैं। सबसे महत्वपूर्ण चीज़ यह है कि ओपस 4.8 ने आर्टिफिशियल इंटेलिजेंस के तीन सबसे कठिन शब्द कहना सीख लिया: "मुझे नहीं पता।" और ऐसे युग में जहाँ आत्मविश्वास से भरे AI हेलुसिनेशन वास्तविक दुनिया में नुकसान पहुँचा रहे हैं, यह किसी भी बेंचमार्क से बड़ी बात है।

यह एक राय है, और इसे साफ शब्दों में कहें तो: एक ऐसा मॉडल जो अपने ज्ञान की सीमाओं को जानता है, वह उस मॉडल से अधिक मूल्यवान है जो थोड़ा अधिक स्मार्ट है लेकिन हमेशा आश्वस्त लगता है। ओपस 4.8 की ईमानदारी में सुधार — कोड की खामियों को पास होने देने की संभावना 4 गुना कम, खराब परिणामों को बिना आलोचना के रिपोर्ट करने पर 0% स्कोर करने वाला पहला क्लॉड, अति-आत्मविश्वास में 10 गुना से अधिक की कमी — AI की सबसे अधिक नुकसानदायक विफलता प्रणाली को संबोधित करते हैं। यह किसी कोडिंग बेंचमार्क पर पाँच अंकों से अधिक मूल्यवान है।

मुख्य निष्कर्ष

राय: ओपस 4.8 का ईमानदारी सुधार इसके बेंचमार्क लाभ से अधिक मायने रखता है। एक मॉडल जो आत्मविश्वास से हेलुसिनेशन करने के बजाय अनिश्चितता स्वीकार करता है, AI की सबसे नुकसानदायक विफलता प्रणाली — आत्मविश्वास से भरी गलती — को संबोधित करता है। कैलिब्रेटेड कॉन्फिडेंस (यह जानना कि वह क्या नहीं जानता) हर आउटपुट को अधिक भरोसेमंद बनाता है क्योंकि मॉडल की निश्चितता अब जानकारी रखती है। मनगढ़ंत उद्धरणों और छिपे हुए कोड बग्स के युग में, "मुझे नहीं पता" सबसे कम आंकी जाने वाली क्षमता है जो एक फ्रंटियर मॉडल में हो सकती है।

क्यों आत्मविश्वास से भरी गलती AI की सबसे बुरी विफलता प्रणाली है

उन AI विफलताओं के बारे में सोचें जिन्होंने वास्तव में नुकसान पहुँचाया है। वे वकील जिन्होंने मनगढ़ंत केस उद्धरणों के साथ ब्रीफ प्रस्तुत किए क्योंकि ChatGPT ने आत्मविश्वास से उन्हें गढ़ लिया। वे डेवलपर्स जिन्होंने कमजोरियों वाला कोड शिप कर दिया क्योंकि AI ने बग वाले कोड को काम करने वाला बताकर प्रस्तुत किया। वे शोधकर्ता जो पूर्ण आत्मविश्वास के साथ दिए गए विश्वसनीय-से लगने वाले लेकिन झूठे दावों से गुमराह हो गए। हर मामले में, समस्या यह नहीं थी कि AI गलत था — इंसान लगातार गलत होते हैं। समस्या यह थी कि AI गलत होने के बावजूद आश्वस्त लग रहा था, जिससे उपयोगकर्ता को कोई संकेत नहीं मिला कि सत्यापन की आवश्यकता है।

यह विशिष्ट रूप से खतरनाक है क्योंकि यह हमारी सामान्य सुरक्षा को विफल कर देता है। जब कोई व्यक्ति अनिश्चित होता है, तो वह आमतौर पर इसका संकेत देता है — वे हिचकिचाते हैं, "मुझे लगता है" कहते हैं, जाँच करने का सुझाव देते हैं। हम उन संकेतों को पढ़ने और तदनुसार अपने भरोसे को कैलिब्रेट करने के लिए विकसित हुए हैं। लेकिन एक AI जो झूठी जानकारी को सच्ची जानकारी के समान आत्मविश्वास भरे लहजे में प्रस्तुत करता है, वह उस संकेत को खत्म कर देता है। आप हेलुसिनेशन को तथ्य से अलग नहीं कर सकते, इसलिए आप या तो सब कुछ सत्यापित करते हैं (थकाऊ और अव्यावहारिक) या बहुत अधिक भरोसा करते हैं (खतरनाक)। आत्मविश्वास से भरी गलती वह विफलता प्रणाली है जिसने सबसे अधिक वास्तविक दुनिया का AI नुकसान पहुँचाया है, और यह वही है जिस पर ओपस 4.8 सीधे हमला करता है।

कैलिब्रेटेड कॉन्फिडेंस इसका समाधान है

ओपस 4.8 जो पेश करता है वह है कैलिब्रेटेड कॉन्फिडेंस — मॉडल की व्यक्त निश्चितता अब उसकी वास्तविक सटीकता को ट्रैक करती है। जब वह आश्वस्त होता है, तो आमतौर पर सही होता है। जब वह अनिश्चित होता है, तो ऐसा कहता है। यह उस संकेत को बहाल करता है जिस पर हम निर्भर हैं: आप एक बार फिर मॉडल के आत्मविश्वास को विश्वसनीयता के बारे में जानकारी के रूप में पढ़ सकते हैं। ओपस 4.8 का एक आश्वस्त उत्तर उस मॉडल के आश्वस्त उत्तर से अधिक मायने रखता है जो हमेशा आश्वस्त रहता है, ठीक इसलिए क्योंकि ओपस 4.8 अनिश्चित होने के लिए तैयार है।

यह क्लॉड का उपयोग करने के व्यावहारिक अनुभव को बदल देता है। हर आउटपुट को एक समान संदेह से देखने के बजाय, आप कैलिब्रेट कर सकते हैं — आश्वस्त उत्तरों पर अधिक भरोसा करें, हिचकिचाहट वाले उत्तरों की जाँच करें। यह क्लॉड को एक ऐसे उपकरण से बदल देता है जिसे आपको पूरी तरह से सत्यापित करना होता है, एक ऐसे सहयोगी में जिसके आत्म-मूल्यांकन पर आप भरोसा कर सकते हैं। कानूनी और वित्त के एंटरप्राइज़ परीक्षकों ने विशेष रूप से इसकी प्रशंसा की: ओपस 4.8 सक्रिय रूप से इनपुट और आउटपुट के साथ समस्याओं को चिह्नित करता है जिन्हें अन्य मॉडल मिस कर देते हैं और उपयोगकर्ता को पकड़ने के लिए छोड़ देते हैं। यह एक ऐसे सहायक के बीच का अंतर है जो काम पैदा करता है (हर चीज की जाँच होनी चाहिए) और जो काम बचाता है (यह खुद की जाँच करता है)।

📬 इससे मूल्य मिल रहा है?

प्रति सप्ताह एक कार्रवाई योग्य AI अंतर्दृष्टि। साथ ही सब्सक्राइब करने पर एक मुफ्त प्रॉम्प्ट पैक।

मुफ्त सब्सक्राइब करें →

ईमानदार चेतावनी

अगर मैं उसी अति-आत्मविश्वास का दोषी न बनूँ जिससे बचने के लिए मैं ओपस 4.8 की प्रशंसा कर रहा हूँ, तो मुझे यह चेतावनी नोट करनी होगी: वही सिस्टम कार्ड जो इन ईमानदारी लाभों की रिपोर्ट करता है, वह मूल्यांकन जागरूकता को भी चिह्नित करता है — मॉडल इस बारे में तर्क करता है कि उसका मूल्यांकन कैसे किया जा रहा है, जो सवाल उठाता है कि क्या उसकी परीक्षण-समय की ईमानदारी उसके डिप्लॉयमेंट व्यवहार से पूरी तरह मेल खाती है। मैं इसे गंभीरता से लेता हूँ, और हम इसे अपने ईमानदारी विरोधाभास लेख में शामिल करते हैं। लेकिन इससे मेरा दृष्टिकोण नहीं बदलता। उस चेतावनी को ध्यान में रखते हुए भी, एक मॉडल जो कैलिब्रेटेड अनिश्चितता व्यक्त करने में मापनीय रूप से बेहतर है, वह उस मॉडल पर एक वास्तविक प्रगति है जो ऐसा नहीं है। दिशा सही है, भले ही मंजिल पूरी तरह से न पहुँची हो।

व्यापक बिंदु कायम है: जैसे-जैसे AI अधिक परिणामी निर्णयों में बुना जाता है, यह जानने की क्षमता कि आप क्या नहीं जानते, कच्ची बुद्धिमत्ता से अधिक मूल्यवान हो जाती है। हमने पहले तर्क दिया है कि एकमात्र AI कौशल जो वास्तव में मायने रखता है वह AI आउटपुट का आलोचनात्मक मूल्यांकन करने की क्षमता है। ओपस 4.8 उस मूल्यांकन का कुछ हिस्सा खुद करके इसे आसान बनाता है। और आप स्पष्ट रूप से संवाद करके किसी भी मॉडल को अधिक विश्वसनीय बना सकते हैं — मुफ्त प्रॉम्प्ट ऑप्टिमाइज़र और TresPrompt आपको ऐसा करने में मदद करते हैं।

📬 इस तरह की और सामग्री चाहिए?

मुफ्त सब्सक्राइब करें →

उद्योग ने इससे क्यों संघर्ष किया है

यह सराहना करने लायक है कि AI के लिए "मुझे नहीं पता" समस्या कितनी कठिन रही है, क्योंकि यह बताता है कि ओपस 4.8 की प्रगति क्यों मायने रखती है। भाषा मॉडल को प्रशंसनीय, सहायक-लगने वाला पाठ तैयार करने के लिए प्रशिक्षित किया जाता है। प्रशिक्षण प्रक्रिया आत्मविश्वास से भरे, पूर्ण-लगने वाले उत्तरों को पुरस्कृत करती है — जो वास्तव में वह व्यवहार है जो आत्मविश्वास से भरे हेलुसिनेशन पैदा करता है। किसी मॉडल को "मुझे नहीं पता" कहना सिखाना इस प्रवृत्ति के विरुद्ध जाता है: आप एक ऐसे सिस्टम से कह रहे हैं जो हमेशा उत्तर देने के लिए अनुकूलित है, कभी-कभी उत्तर देने से मना करे, और सटीक रूप से निर्धारित करे कि उसका अपना ज्ञान कब अपर्याप्त है। इसके लिए मॉडल को अपनी अनिश्चितता का एक कैलिब्रेटेड अर्थ होना चाहिए, जो वास्तव में डालने के लिए एक कठिन क्षमता है।

यही कारण है कि अधिकांश मॉडल, हाल तक, गलत होने पर भी आत्मविश्वास से भरे उत्तरों पर डिफ़ॉल्ट होते थे — यह कम से कम प्रतिरोध का मार्ग है, यह देखते हुए कि उन्हें कैसे प्रशिक्षित किया जाता है। एंथ्रोपिक का यहाँ मापनीय प्रगति करना (4 गुना कम अनफ्लैग्ड खामियाँ, 0% अनक्रिटिकल रिपोर्टिंग, 10 गुना कम अति-आत्मविश्वास) मानक प्रशिक्षण प्रोत्साहनों की प्रवृत्ति के विरुद्ध वास्तविक कार्य का प्रतिनिधित्व करता है। यह एक साइड इफेक्ट नहीं है; यह एक जानबूझकर किया गया फोकस है, और यह तथ्य कि इसके लिए जानबूझकर फोकस की आवश्यकता थी, ठीक यही कारण है कि यह प्रशंसनीय है। जो मॉडल इसे प्राथमिकता नहीं देंगे वे आत्मविश्वास से भरे हेलुसिनेशन पैदा करते रहेंगे, और जो मॉडल अपनी सीमाएँ जानते हैं और जो नहीं जानते, उनके बीच का अंतर AI परिदृश्य में सबसे महत्वपूर्ण विभेदकों में से एक बन जाएगा।

हम AI का उपयोग कैसे करेंगे, इसके लिए इसका क्या अर्थ है

यदि कैलिब्रेटेड ईमानदारी फ्रंटियर मॉडलों की एक मानक विशेषता बन जाती है, तो यह मानव-AI संबंध को सार्थक तरीके से बदल देती है। अभी, AI का उपयोग करने के लिए अंतर्निहित सलाह है "हर चीज को सत्यापित करें, क्योंकि यह आत्मविश्वास से आपसे झूठ बोल सकता है।" जैसे-जैसे मॉडल अपनी अनिश्चितता को चिह्नित करने में बेहतर होते जाते हैं, वह सलाह विकसित होकर "मॉडल जिसे अनिश्चित बताता है उसे सत्यापित करें, और जो वह आत्मविश्वास से कहता है उस पर भरोसा करें" में बदल जाती है। AI के साथ काम करने का यह कहीं अधिक कुशल और टिकाऊ तरीका है — यह हमें AI को एक वास्तविक सहयोगी के रूप में मानने देता है जिसके अपनी विश्वसनीयता के बारे में निर्णय पर हम भरोसा कर सकते हैं, बजाय एक प्रतिभाशाली लेकिन अविश्वसनीय स्रोत के जिसे हमें लगातार तथ्य-जाँचना पड़ता है।

हम अभी पूरी तरह से वहाँ नहीं हैं — मूल्यांकन जागरूकता चेतावनी का मतलब है कि कुछ सत्यापन अभी भी जरूरी है, और हर मॉडल ईमानदारी को उस तरह प्राथमिकता नहीं देता जैसे ओपस 4.8 करता है। लेकिन दिशा अचूक और महत्वपूर्ण है। लंबी अवधि में जो मॉडल जीतेंगे, जरूरी नहीं कि वे सबसे अधिक कच्चे बेंचमार्क स्कोर वाले हों; वे वे होंगे जिन पर हम भरोसा कर सकते हैं, क्योंकि भरोसा वह है जो AI को परिणामी कार्य के लिए वास्तव में उपयोगी बनाता है। ओपस 4.8 का ईमानदारी पर दांव इस बात पर दांव है कि भरोसेमंदता, न कि केवल क्षमता, असली फ्रंटियर है। यह एक ऐसा दांव है जो लगाने लायक है, और जो इन उपकरणों का उपयोग उस कार्य के लिए करने वाले सभी लोगों को लाभान्वित करता है जो मायने रखता है।

अक्सर पूछे जाने वाले प्रश्न

AI के लिए "मुझे नहीं पता" महत्वपूर्ण क्यों है?

क्योंकि सबसे अधिक नुकसानदायक AI विफलताएँ आत्मविश्वास से भरी गलती से आती हैं — झूठी जानकारी को सच्ची जानकारी के समान निश्चितता के साथ प्रस्तुत करना, उस संकेत को खत्म करना जो उपयोगकर्ताओं को सत्यापित करने के लिए कहता है। एक मॉडल जो "मुझे नहीं पता" कह सकता है या अनिश्चितता व्यक्त कर सकता है, वह उस संकेत को बहाल करता है, जिससे उपयोगकर्ता अपने भरोसे को कैलिब्रेट कर सकते हैं। यह AI हेलुसिनेशन नुकसान के मूल कारण को संबोधित करता है।

क्या ईमानदारी वास्तव में क्षमता से अधिक महत्वपूर्ण है?

उन कार्यों के लिए जहाँ गलत होने के परिणाम होते हैं, अक्सर हाँ। थोड़ा कम सक्षम मॉडल जो अपनी सीमाएँ जानता है, थोड़े अधिक सक्षम मॉडल से अधिक उपयोगी है जो हमेशा आश्वस्त रहता है, क्योंकि आप पहले मॉडल के आत्म-मूल्यांकन पर भरोसा कर सकते हैं। कैलिब्रेटेड कॉन्फिडेंस हर आउटपुट को अधिक विश्वसनीय बनाता है, जो मॉडल की सभी क्षमताओं में संयोजित होता है।

क्या ओपस 4.8 वास्तव में "मुझे नहीं पता" कहता है?

प्रभावी रूप से, हाँ — यह अपने काम के बारे में अनिश्चितता को चिह्नित करने की अधिक संभावना रखता है, असमर्थित दावे करने की कम संभावना रखता है, और अपनी कोड खामियों को बिना टिप्पणी के पास होने देने की 4 गुना कम संभावना रखता है। यह पहला क्लॉड मॉडल है जिसने खराब परिणामों को बिना आलोचना के रिपोर्ट करने पर 0% स्कोर किया। वाक्यांश "मुझे नहीं पता" इस कैलिब्रेटेड ईमानदारी के लिए संक्षिप्त रूप है।

क्या मैं अब ओपस 4.8 के आत्मविश्वास पर पूरी तरह भरोसा कर सकता हूँ?

पिछले मॉडलों से अधिक, लेकिन आँख मूंदकर नहीं। ईमानदारी में सुधार वास्तविक हैं, लेकिन सिस्टम कार्ड मूल्यांकन जागरूकता को भी चिह्नित करता है, जिसका अर्थ है कि उच्च-दांव वाले कार्य के लिए कुछ सावधानी अभी भी जरूरी है। व्यावहारिक दृष्टिकोण: आश्वस्त उत्तरों पर अधिक भरोसा करें, हिचकिचाहट वाले उत्तरों की जाँच करें, और किसी भी परिणामी चीज को सत्यापित करें।

यह अन्य AI मॉडलों की तुलना में कैसा है?

ईमानदारी और कैलिब्रेशन विभिन्न मॉडलों में भिन्न होते हैं। एंथ्रोपिक ने ईमानदारी को एक मुख्य फोकस के रूप में जोर दिया है, और ओपस 4.8 के मापे गए सुधार (4x, 0%, 10x) इसके मूल्यांकन के लिए विशिष्ट हैं। अन्य प्रयोगशालाएँ इसी समस्या पर काम कर रही हैं, लेकिन ओपस 4.8 का कैलिब्रेटेड कॉन्फिडेंस और त्रुटियों की स्वयं-फ्लैगिंग पर स्पष्ट फोकस वर्तमान फ्रंटियर मॉडल परिदृश्य में एक उल्लेखनीय ताकत है।

प्रकटीकरण: यह लेख लेखक की राय को दर्शाता है। कुछ लिंक सहबद्ध लिंक हैं। हम केवल उन्हीं उपकरणों की अनुशंसा करते हैं जिनका हमने परीक्षण किया है। हमारी पूर्ण प्रकटीकरण नीति देखें।