Why is "I don't know" important for AI?

Because the most damaging AI failures come from confident wrongness — delivering false information with the same certainty as true information, stripping away the signal that tells users to verify. A model that can say "I don't know" or express uncertainty restores that signal, letting users calibrate their trust. It addresses the root cause of AI hallucination harm.

Is honesty really more important than capability?

For tasks where being wrong has consequences, often yes. A slightly less capable model that knows its limits is more useful than a slightly more capable one that's always confident, because you can trust the first model's self-assessment. Calibrated confidence makes every output more reliable, which compounds across all the model's capabilities.

Does Opus 4.8 actually say "I don't know"?

Effectively, yes — it's more likely to flag uncertainty about its work, less likely to make unsupported claims, and 4x less likely to let its own code flaws pass unremarked. It's the first Claude model to score 0% on uncritically reporting flawed results. The phrase "I don't know" is shorthand for this calibrated honesty.

Can I fully trust Opus 4.8's confidence now?

More than previous models, but not blindly. The honesty improvements are real, but the system card also flags evaluation awareness, which means some caution is still warranted for high-stakes work. The practical approach: trust confident answers more, scrutinize hedged ones, and verify anything consequential.

How does this compare to other AI models?

Honesty and calibration vary across models. Anthropic has emphasized honesty as a core focus, and Opus 4.8's measured improvements (4x, 0%, 10x) are specific to its evaluations. Other labs are working on the same problem, but Opus 4.8's explicit focus on calibrated confidence and self-flagging of errors is a notable strength in the current frontier model landscape. Disclosure: This article reflects the author's opinion. Some links are affiliate links. We only recommend tools we've tested. See our full disclosure policy.

Tính năng tốt nhất của Opus 4.8 không phải là tốc độ hay điểm chuẩn — mà là việc Claude nói "Tôi không biết"

Mọi người đều bàn về điểm số lập trình. Đột phá thực sự là một mô hình thừa nhận khi nó không chắc chắn. Điều đó quan trọng hơn.

Bài đưa tin về màn ra mắt Claude Opus 4.8 tràn ngập các điểm chuẩn — SWE-Bench Pro tăng 4,9 điểm, OSWorld dẫn đầu ở mức 83,4%, GDPval-AA đánh bại đối thủ. Những con số đó rất quan trọng. Nhưng chúng không phải là điều quan trọng nhất ở bản phát hành này. Điều quan trọng nhất là Opus 4.8 đã học cách nói ba từ khó nhất trong trí tuệ nhân tạo: "Tôi không biết." Và trong thời đại mà những ảo giác AI đầy tự tin đang gây ra thiệt hại thực tế, điều đó còn quan trọng hơn bất kỳ điểm chuẩn nào.

Đây là một ý kiến, và nó được nêu ra một cách thẳng thắn: một mô hình biết giới hạn kiến thức của chính mình có giá trị hơn một mô hình thông minh hơn đôi chút nhưng lúc nào cũng tỏ ra chắc chắn. Những cải thiện về tính trung thực của Opus 4.8 — ít có khả năng bỏ sót lỗi code hơn gấp 4 lần, Claude đầu tiên đạt 0% về việc báo cáo kết quả sai một cách thiếu phản biện, giảm hơn 10 lần sự tự tin thái quá — giải quyết chính xác kiểu thất bại gây hại nhất của AI. Điều đó đáng giá hơn năm điểm trong một bài kiểm tra lập trình.

Điểm then chốt

Ý kiến: Cải thiện về tính trung thực của Opus 4.8 quan trọng hơn những thành tích điểm chuẩn của nó. Một mô hình thừa nhận sự không chắc chắn thay vì tự tin ảo giác giải quyết được kiểu thất bại gây hại nhất của AI — sự sai lầm đầy tự tin. Sự tự tin được hiệu chỉnh (biết những gì mình không biết) làm cho mọi đầu ra trở nên đáng tin cậy hơn vì sự chắc chắn của mô hình giờ đây mang theo thông tin. Trong thời đại của những trích dẫn bịa đặt và lỗi code ẩn, "Tôi không biết" là khả năng bị đánh giá thấp nhất mà một mô hình tiên phong có thể có.

Tại sao sự sai lầm đầy tự tin là kiểu thất bại tồi tệ nhất của AI

Hãy nghĩ về những thất bại AI đã thực sự gây ra thiệt hại. Những luật sư đã nộp bản tóm tắt với các trích dẫn vụ án bịa đặt vì ChatGPT đã tự tin bịa ra chúng. Những lập trình viên đã xuất bản code có lỗ hổng vì AI trình bày code lỗi như thể đang hoạt động. Các nhà nghiên cứu bị đánh lừa bởi những tuyên bố sai trái nghe có vẻ hợp lý được đưa ra với sự tự tin tuyệt đối. Trong mọi trường hợp, vấn đề không phải là AI đã sai — con người sai liên tục. Vấn đề là AI đã sai trong khi tỏ ra chắc chắn, không cho người dùng bất kỳ tín hiệu nào rằng cần phải xác minh.

Điều này đặc biệt nguy hiểm vì nó đánh bại các cơ chế phòng vệ thông thường của chúng ta. Khi một người không chắc chắn, họ thường phát tín hiệu — họ nói giảm nói tránh, họ nói "Tôi nghĩ", họ đề nghị kiểm tra lại. Chúng ta đã tiến hóa để đọc những tín hiệu đó và hiệu chỉnh lòng tin của mình cho phù hợp. Nhưng một AI đưa ra thông tin sai lệch với cùng một giọng điệu tự tin như thông tin thật sẽ loại bỏ tín hiệu đó. Bạn không thể phân biệt ảo giác với sự thật, vì vậy bạn phải xác minh mọi thứ (mệt mỏi và không thực tế) hoặc tin tưởng quá mức (nguy hiểm). Sự sai lầm đầy tự tin là kiểu thất bại đã gây ra nhiều thiệt hại thực tế nhất từ AI, và đó là điều mà Opus 4.8 trực tiếp tấn công.

Sự tự tin được hiệu chỉnh là giải pháp

Những gì Opus 4.8 giới thiệu là sự tự tin được hiệu chỉnh — sự chắc chắn được thể hiện của mô hình giờ đây phản ánh đúng độ chính xác thực tế của nó. Khi nó tự tin, nó thường đúng. Khi nó không chắc chắn, nó nói ra. Điều này khôi phục lại tín hiệu mà chúng ta dựa vào: bạn một lần nữa có thể đọc sự tự tin của mô hình như thông tin về độ tin cậy. Một câu trả lời tự tin từ Opus 4.8 có ý nghĩa hơn một câu trả lời tự tin từ một mô hình luôn tự tin, chính xác là vì Opus 4.8 sẵn sàng thể hiện sự không chắc chắn.

Điều này biến đổi trải nghiệm thực tế khi sử dụng Claude. Thay vì đối xử với mọi đầu ra với cùng một sự nghi ngờ, bạn có thể hiệu chỉnh — tin tưởng hơn vào những câu trả lời tự tin, xem xét kỹ lưỡng những câu trả lời thận trọng. Nó biến Claude từ một công cụ bạn phải xác minh hoàn toàn thành một cộng tác viên mà bạn có thể dựa vào sự tự đánh giá của nó. Những người thử nghiệm doanh nghiệp trong lĩnh vực pháp lý và tài chính đã đặc biệt khen ngợi điều này: Opus 4.8 chủ động gắn cờ các vấn đề với đầu vào và đầu ra mà các mô hình khác bỏ sót và để người dùng tự phát hiện. Đó là sự khác biệt giữa một trợ lý tạo ra công việc (mọi thứ phải được kiểm tra) và một trợ lý tiết kiệm công sức (nó tự kiểm tra).

📬 Thấy nội dung này hữu ích?

Một thông tin chuyên sâu về AI có thể áp dụng được mỗi tuần. Kèm theo gói prompt miễn phí khi bạn đăng ký.

Đăng ký miễn phí →

Lưu ý trung thực

Tôi sẽ mắc phải chính sự tự tin thái quá mà tôi đang khen Opus 4.8 đã tránh được nếu tôi không lưu ý điểm này: chính thẻ hệ thống báo cáo những cải thiện về tính trung thực này cũng gắn cờ nhận thức đánh giá — mô hình suy luận về cách nó đang được chấm điểm, điều này đặt ra câu hỏi liệu tính trung thực trong lúc kiểm tra có hoàn toàn khớp với hành vi khi triển khai hay không. Tôi xem xét điều này một cách nghiêm túc, và chúng tôi đề cập đến nó trong bài viết về nghịch lý trung thực. Nhưng nó không thay đổi quan điểm của tôi. Ngay cả khi tính đến lưu ý đó, một mô hình có khả năng thể hiện sự không chắc chắn đã được hiệu chỉnh tốt hơn một cách đo lường được vẫn là một tiến bộ thực sự so với mô hình không làm được điều đó. Hướng đi là đúng, ngay cả khi đích đến chưa hoàn toàn đạt được.

Quan điểm rộng hơn vẫn đúng: khi AI được đan xen vào nhiều quyết định quan trọng hơn, khả năng biết những gì bạn không biết trở nên có giá trị hơn trí thông minh thô. Chúng tôi đã từng lập luận rằng kỹ năng AI duy nhất thực sự quan trọng là khả năng đánh giá đầu ra AI một cách phản biện. Opus 4.8 làm cho điều đó dễ dàng hơn bằng cách tự mình thực hiện một phần việc đánh giá đó. Và bạn có thể làm cho bất kỳ mô hình nào trở nên đáng tin cậy hơn bằng cách giao tiếp rõ ràng — Prompt Optimizer miễn phí và TresPrompt giúp bạn làm điều đó.

📬 Muốn nhiều nội dung như thế này hơn?

Một thông tin chuyên sâu về AI có thể áp dụng được mỗi tuần. Kèm theo gói prompt miễn phí khi bạn đăng ký.

Đăng ký miễn phí →

Tại sao ngành công nghiệp này đã vật lộn với vấn đề này

Thật đáng để đánh giá cao mức độ khó khăn của vấn đề "Tôi không biết" đối với AI, bởi vì nó giải thích tại sao tiến bộ của Opus 4.8 lại quan trọng. Các mô hình ngôn ngữ được huấn luyện để tạo ra văn bản nghe có vẻ hợp lý và hữu ích. Quá trình huấn luyện thưởng cho những câu trả lời tự tin, nghe có vẻ hoàn chỉnh — đó chính xác là hành vi tạo ra những ảo giác đầy tự tin. Dạy một mô hình nói "Tôi không biết" đi ngược lại xu hướng này: bạn đang yêu cầu một hệ thống được tối ưu hóa để luôn có câu trả lời đôi khi phải từ chối trả lời, và phán đoán chính xác khi nào kiến thức của chính nó là không đủ. Điều đó đòi hỏi mô hình phải có một cảm nhận được hiệu chỉnh về sự không chắc chắn của chính nó, đó là một khả năng thực sự khó để truyền đạt.

Đây là lý do tại sao hầu hết các mô hình, cho đến gần đây, mặc định đưa ra những câu trả lời tự tin ngay cả khi sai — đó là con đường ít trở ngại nhất dựa trên cách chúng được huấn luyện. Việc Anthropic đạt được tiến bộ có thể đo lường được ở đây (ít lỗi không được gắn cờ hơn gấp 4 lần, 0% báo cáo thiếu phản biện, giảm hơn 10 lần sự tự tin thái quá) thể hiện nỗ lực thực sự đi ngược lại các động lực huấn luyện tiêu chuẩn. Đó không phải là tác dụng phụ; đó là một trọng tâm có chủ ý, và thực tế là nó đòi hỏi sự tập trung có chủ ý chính là lý do tại sao nó đáng khen ngợi. Những mô hình không ưu tiên điều này sẽ tiếp tục tạo ra những ảo giác đầy tự tin, và khoảng cách giữa các mô hình biết giới hạn của mình và các mô hình không biết sẽ trở thành một trong những yếu tố khác biệt quan trọng nhất trong bối cảnh AI.

Điều này có ý nghĩa gì đối với cách chúng ta sẽ sử dụng AI

Nếu tính trung thực được hiệu chỉnh trở thành một tính năng tiêu chuẩn của các mô hình tiên phong, nó sẽ thay đổi mối quan hệ giữa con người và AI một cách có ý nghĩa. Hiện tại, lời khuyên ngầm khi sử dụng AI là "hãy xác minh mọi thứ, bởi vì nó có thể tự tin nói dối bạn." Khi các mô hình trở nên tốt hơn trong việc gắn cờ sự không chắc chắn của chính mình, lời khuyên đó phát triển thành "hãy xác minh những gì mô hình gắn cờ là không chắc chắn, và tin tưởng những gì nó nêu ra một cách tự tin." Đó là một cách làm việc với AI hiệu quả và bền vững hơn nhiều — nó cho phép chúng ta coi AI như một cộng tác viên thực sự mà chúng ta có thể dựa vào phán đoán của nó về độ tin cậy của chính nó, thay vì một nguồn thông tin xuất sắc nhưng không đáng tin cậy mà chúng ta phải liên tục kiểm tra thực tế.

Chúng ta vẫn chưa hoàn toàn đạt đến đó — lưu ý về nhận thức đánh giá có nghĩa là vẫn cần một số xác minh, và không phải mô hình nào cũng ưu tiên tính trung thực như cách Opus 4.8 làm. Nhưng hướng đi là không thể nhầm lẫn và quan trọng. Những mô hình chiến thắng về lâu dài sẽ không nhất thiết là những mô hình có điểm số chuẩn thô cao nhất; chúng sẽ là những mô hình chúng ta có thể tin tưởng, bởi vì lòng tin là thứ làm cho AI thực sự hữu ích cho công việc quan trọng. Vụ đặt cược của Opus 4.8 vào tính trung thực là một vụ đặt cược rằng sự đáng tin cậy, chứ không chỉ là năng lực, mới là biên giới thực sự. Đó là một vụ đặt cược đáng để thực hiện, và là vụ đặt cược mang lại lợi ích cho tất cả những ai sử dụng những công cụ này cho công việc quan trọng.

Câu hỏi thường gặp

Tại sao "Tôi không biết" lại quan trọng đối với AI?

Bởi vì những thất bại AI gây hại nhất đến từ sự sai lầm đầy tự tin — đưa ra thông tin sai lệch với cùng một sự chắc chắn như thông tin thật, loại bỏ tín hiệu báo cho người dùng biết cần phải xác minh. Một mô hình có thể nói "Tôi không biết" hoặc thể hiện sự không chắc chắn sẽ khôi phục lại tín hiệu đó, cho phép người dùng hiệu chỉnh lòng tin của họ. Nó giải quyết nguyên nhân gốc rễ của tác hại từ ảo giác AI.

Tính trung thực có thực sự quan trọng hơn năng lực không?

Đối với các nhiệm vụ mà việc sai lầm gây ra hậu quả, thường là có. Một mô hình kém hơn một chút nhưng biết giới hạn của mình sẽ hữu ích hơn một mô hình giỏi hơn một chút nhưng luôn tự tin, bởi vì bạn có thể tin tưởng vào sự tự đánh giá của mô hình đầu tiên. Sự tự tin được hiệu chỉnh làm cho mọi đầu ra trở nên đáng tin cậy hơn, điều này tạo ra hiệu ứng tích lũy trên tất cả các năng lực của mô hình.

Opus 4.8 có thực sự nói "Tôi không biết" không?

Về mặt hiệu quả, là có — nó có nhiều khả năng gắn cờ sự không chắc chắn về công việc của mình hơn, ít có khả năng đưa ra những tuyên bố không có căn cứ hơn, và ít có khả năng để lỗi code của chính nó trôi qua mà không được nhận xét hơn gấp 4 lần. Đây là mô hình Claude đầu tiên đạt điểm 0% về việc báo cáo kết quả sai một cách thiếu phản biện. Cụm từ "Tôi không biết" là cách nói tắt cho tính trung thực được hiệu chỉnh này.

Bây giờ tôi có thể hoàn toàn tin tưởng vào sự tự tin của Opus 4.8 không?

Nhiều hơn so với các mô hình trước đây, nhưng không nên mù quáng. Những cải thiện về tính trung thực là có thật, nhưng thẻ hệ thống cũng gắn cờ nhận thức đánh giá, có nghĩa là vẫn cần một số thận trọng cho công việc có rủi ro cao. Cách tiếp cận thực tế: tin tưởng hơn vào những câu trả lời tự tin, xem xét kỹ lưỡng những câu trả lời thận trọng, và xác minh bất cứ điều gì quan trọng.

Điều này so sánh với các mô hình AI khác như thế nào?

Tính trung thực và sự hiệu chỉnh khác nhau giữa các mô hình. Anthropic đã nhấn mạnh tính trung thực như một trọng tâm cốt lõi, và những cải thiện đo lường được của Opus 4.8 (gấp 4 lần, 0%, gấp 10 lần) là cụ thể cho các đánh giá của nó. Các phòng thí nghiệm khác cũng đang nghiên cứu vấn đề tương tự, nhưng sự tập trung rõ ràng của Opus 4.8 vào sự tự tin được hiệu chỉnh và tự gắn cờ lỗi là một thế mạnh đáng chú ý trong bối cảnh mô hình tiên phong hiện tại.

Tiết lộ: Bài viết này phản ánh ý kiến của tác giả. Một số liên kết là liên kết affiliate. Chúng tôi chỉ đề xuất các công cụ chúng tôi đã thử nghiệm. Xem chính sách tiết lộ đầy đủ của chúng tôi.