Claude Opus 4.8 ra mắt chỉ 41 ngày sau Opus 4.7, với cùng mức giá. Điều đó đặt ra một câu hỏi hiển nhiên cho bất kỳ ai đang dùng 4.7: điều gì đã thực sự thay đổi, và có đáng để chuyển không? Câu trả lời ngắn gọn là có — 4.8 cải thiện 4.7 trên mọi mặt, sửa các lỗi cụ thể từng gây khó chịu cho người dùng 4.7, và giá thì giữ nguyên. Nhưng chi tiết mới là thứ quan trọng, đặc biệt nếu bạn đã tinh chỉnh prompt hoặc quy trình làm việc theo hành vi cụ thể của 4.7.

Đây là so sánh trực tiếp, đối đầu giữa hai mô hình: từng chênh lệch benchmark, bước nhảy vọt về tính trung thực, các vấn đề đã được sửa, và câu hỏi thực tế liệu bạn có cần kiểm tra lại bất cứ thứ gì trước khi chuyển không.

Điểm then chốt

Opus 4.8 vượt Opus 4.7 trên mọi benchmark đã công bố: SWE-Bench Pro (69,2% so với 64,3%), suy luận với công cụ (57,9% so với 54,7%), và sử dụng máy tính. Mô hình ít có khả năng bỏ sót lỗi code hơn 4 lần và sửa các vấn đề về comment dài dòng và gọi công cụ của 4.7 (nguồn gốc của những phàn nàn "Gaslightus 4.7"). Cùng giá, chế độ nhanh rẻ hơn. Nâng cấp tự động qua alias opus. Lý do duy nhất để chần chừ: kiểm tra lại các prompt đã được tinh chỉnh nhiều theo hành vi của 4.7.

Các Cải Thiện Về Benchmark

Opus 4.8 cải thiện 4.7 trên mọi benchmark mà Anthropic đã công bố. Con số coding nổi bật, SWE-Bench Pro, tăng từ 64,3% lên 69,2% — mức tăng 4,9 điểm có ý nghĩa đối với coding tác tử trong thực tế. Suy luận đa ngành với công cụ cải thiện từ 54,7% lên 57,9%. Các benchmark sử dụng máy tính (OSWorld-Verified) tăng nhẹ lên 83,4%, và hiệu suất tác tử trình duyệt (Online-Mind2Web) đạt 84%, một bước nhảy đáng kể. Không cải thiện nào là cách mạng riêng lẻ, nhưng cùng với nhau chúng thể hiện sự tiến bộ nhất quán trên các năng lực quan trọng nhất cho công việc tác tử.

Benchmark Opus 4.8 Opus 4.7 Thay đổi
SWE-Bench Pro69,2%64,3%+4,9
Suy luận với công cụ57,9%54,7%+3,2
OSWorld-Verified83,4%82,3%+1,1
Trung thực (lỗi không bị phát hiện)~tốt hơn 4xcơ sởgiảm 4x
Giá (mỗi M)$5 / $25$5 / $25như cũ

Các Vấn Đề Đã Được Sửa

Câu chuyện quan trọng hơn với nhiều người dùng 4.7 là những gì đã được sửa. Opus 4.7 đã hứng chịu chỉ trích thực sự sau khi ra mắt. Các nhà phát triển phàn nàn về việc comment dài dòng quá mức (mô hình comment code quá nhiều), các vấn đề về gọi công cụ, và xu hướng bảo vệ các đầu ra sai — một luồng phản ứng dữ dội đã đặt biệt danh cho nó là "Gaslightus 4.7" vì cứ khăng khăng mình đúng ngay cả khi không đúng, bịa ra file và bảo vệ các kết quả kiểm tra ảo giác. Đây không phải là những phiền toái nhỏ; chúng làm xói mòn lòng tin vào mô hình cho công việc nghiêm túc.

Opus 4.8 trực tiếp giải quyết những điều này. Anthropic và những người thử nghiệm sớm (bao gồm đội ngũ tại Devin) xác nhận nó sửa các vấn đề về comment dài dòng và gọi công cụ từ 4.7. Căn bản hơn, các cải thiện về tính trung thực tấn công vào gốc rễ của vấn đề "Gaslightus": một mô hình ít có khả năng bỏ qua lỗi của chính mình hơn 4 lần và đạt 0% về việc báo cáo kết quả sai một cách thiếu phê phán thì ít có khả năng bảo vệ các đầu ra sai hơn nhiều. Nếu sự tự tin thái quá của 4.7 làm bạn thất vọng, thì sự trung thực được hiệu chỉnh của 4.8 chính là giải pháp. Chúng tôi đề cập chi tiết dữ liệu về tính trung thực trong bài phân tích các con số về tính trung thực.

📬 Thấy nội dung này hữu ích?

Một insight AI có thể hành động mỗi tuần. Kèm gói prompt miễn phí khi bạn đăng ký.

Đăng ký miễn phí →

Bạn Có Nên Chuyển Không — và Có Cần Kiểm Tra Lại Không?

Với hầu hết mọi người, có — hãy chuyển. Cùng mức giá, mọi benchmark đều tốt hơn, tính trung thực được cải thiện đáng kể, và các vấn đề tệ nhất của 4.7 đã được sửa. Nếu bạn dùng alias opus, bạn đã được tự động nâng cấp. Không có nhược điểm về chi phí và lợi thế rõ ràng về chất lượng.

Tình huống duy nhất cần thận trọng: nếu bạn đã tinh chỉnh nhiều prompt, harness tác tử, hoặc quy trình sản xuất theo hành vi cụ thể của 4.7, hãy kiểm tra lại trước khi chuyển sang môi trường sản xuất. Opus 4.8 có phán đoán khác, ít dài dòng hơn, và các mẫu gọi công cụ khác. Đây là những cải thiện, nhưng một prompt được hiệu chỉnh theo các điểm đặc biệt của 4.7 có thể tạo ra đầu ra khác trên 4.8. Với mục đích sử dụng thông thường, cứ chuyển thôi. Với các quy trình quan trọng trong sản xuất, hãy chạy các prompt chính của bạn qua 4.8 trước để xác nhận hành vi. Hướng dẫn quyết định nâng cấp của chúng tôi đề cập đến các trường hợp ngoại lệ. Và để tinh chỉnh lại prompt nhanh chóng, Trình Tối ưu Prompt miễn phíTresPrompt sẽ giúp ích.

📬 Muốn thêm nội dung như này?

Một insight AI có thể hành động mỗi tuần. Kèm gói prompt miễn phí khi bạn đăng ký.

Đăng ký miễn phí →

Những Người Thử Nghiệm Sớm Nói Gì Về Bản Nâng Cấp

Ngoài các con số benchmark, phản hồi định tính từ những người thử nghiệm sớm vẽ nên bức tranh rõ ràng hơn về bước nhảy từ 4.7 lên 4.8. Đội ngũ tại Devin, đơn vị vận hành Claude trên các khối lượng công việc kỹ thuật tự động, lưu ý rằng Opus 4.8 sửa các vấn đề về comment dài dòng và gọi công cụ mà họ từng thấy với 4.7 — những cải thiện cụ thể, rõ ràng thay vì cảm nhận mơ hồ kiểu "nó tốt hơn". Những người thử nghiệm làm việc về coding tác tử mô tả Opus 4.8 có phán đoán tốt hơn đáng kể: nó đặt đúng các câu hỏi làm rõ, tự bắt lỗi của mình, và phản biện khi một kế hoạch không hợp lý, thay vì lao về phía trước một cách tự tin theo hướng sai như cách 4.7 đôi khi làm.

Các nhà văn và người làm công việc tri thức báo cáo rằng Opus 4.8 dễ cộng tác hơn trong các phiên làm việc dài — tốt hơn trong việc duy trì ngữ cảnh và định hướng phong cách xuyên suốt một tác phẩm dài. Điều này giải quyết một sự thất vọng tinh tế nhưng có thực với 4.7, khi chất lượng có thể trôi đi qua một cuộc trò chuyện dài. Chủ đề nhất quán giữa những người thử nghiệm là 4.8 mang lại cảm giác như một bản nâng cấp chất lượng cuộc sống: không thông minh hơn đáng kể, nhưng dễ chịu và đáng tin cậy hơn một cách có ý nghĩa khi làm việc. Điều đó khớp với cách định hình "khiêm tốn nhưng hữu hình" của Anthropic — những cải thiện là thực và cảm nhận được trong sử dụng hàng ngày, ngay cả khi không có con số benchmark đơn lẻ nào nắm bắt được chúng.

Danh Sách Kiểm Tra Di Chuyển Thực Tế

Nếu bạn quyết định chuyển từ 4.7 lên 4.8, đây là danh sách kiểm tra thực tế để quá trình chuyển đổi diễn ra suôn sẻ. Đầu tiên, xác định quy trình nào của bạn là quan trọng và quy trình nào là thông thường. Với công việc thông thường, cứ chuyển thôi — dùng alias opus hoặc cập nhật lên claude-opus-4-8 và tiếp tục. Với các quy trình quan trọng, hãy chạy các prompt chính của bạn qua 4.8 trong môi trường kiểm thử trước và so sánh đầu ra với 4.7. Đặc biệt chú ý đến những thay đổi về hành vi: comment ít dài dòng hơn (tốt, nhưng kiểm tra xem có bỏ sót chi tiết cần thiết không), các mẫu gọi công cụ khác (xác minh tích hợp của bạn vẫn hoạt động), và tính trung thực được cải thiện (có thể làm lộ ra những điểm cần lưu ý mà 4.7 đã lướt qua).

Thứ hai, nếu bạn nhận thấy bất kỳ prompt nào hoạt động khác đi, hãy tinh chỉnh lại chúng — mô hình cải tiến thường cần các hướng dẫn hơi khác một chút để tạo ra kết quả tối ưu, và một lượt chạy nhanh qua trình tối ưu prompt có thể hiệu chỉnh lại chúng nhanh chóng. Thứ ba, ghi lại ngày chuyển đổi và bất kỳ thay đổi nào cho nhóm của bạn. Vì Anthropic ra mắt Opus mới khoảng mỗi sáu tuần, việc xây dựng một quy trình nhẹ nhàng để đánh giá và áp dụng các bản nâng cấp sẽ mang lại lợi ích — bạn sẽ sớm làm điều này lần nữa. Khoản đầu tư vào một quy trình di chuyển suôn sẻ bây giờ sẽ tiết kiệm thời gian cho mọi lần nâng cấp trong tương lai. Tuy nhiên, với hầu hết người dùng, điểm mấu chốt vẫn đơn giản: 4.8 tốt hơn 4.7 với cùng mức giá, vì vậy việc nâng cấp là đáng làm.

Cũng đáng để giữ góc nhìn về nhịp độ. Bản thân Opus 4.7 mới chỉ sáu tuần tuổi khi 4.8 thay thế nó, và 4.8 có thể sẽ được kế nhiệm trong một khoảng thời gian tương tự. Điều này có nghĩa câu hỏi "tôi có nên nâng cấp không" không phải là quyết định một lần mà là quyết định định kỳ bạn sẽ đối mặt khoảng mỗi sáu tuần. Thay vì coi mỗi lần nâng cấp là một sự kiện lớn, cách tiếp cận lành mạnh nhất là coi dòng Opus như một tiện ích liên tục cải tiến: luôn cập nhật gần đây, nâng cấp các quy trình quan trọng một cách có chủ đích sau khi kiểm tra nhanh, và để công việc không quan trọng của bạn chạy theo alias. Các nhóm xử lý việc này tốt nhất không phải là những người đau đáu về mọi bản phát hành hay chạy theo mọi phiên bản — mà là những người đã xây dựng được thói quen đánh giá nhanh, nhẹ nhàng và cách tiếp cận prompt có thể chuyển giao sạch sẽ qua các phiên bản, để mỗi lần nâng cấp chỉ là một lần tinh chỉnh nhỏ thay vì một sự gián đoạn.

Câu Hỏi Thường Gặp

Khác biệt giữa Opus 4.8 và 4.7 là gì?

Opus 4.8 cải thiện mọi benchmark đã công bố so với 4.7 (SWE-Bench Pro 69,2% so với 64,3%, suy luận 57,9% so với 54,7%), ít có khả năng bỏ sót lỗi code hơn 4 lần, và sửa các vấn đề về comment dài dòng và gọi công cụ của 4.7. Giá giữ nguyên và thêm chế độ nhanh rẻ hơn. Nó cũng ra mắt cùng với các tính năng mới: quy trình động, điều khiển nỗ lực, và mục nhập hệ thống giữa tác vụ.

Opus 4.8 có đáng nâng cấp từ 4.7 không?

Có với hầu hết mọi người — nó tốt hơn trên mọi chỉ số với cùng mức giá, và việc nâng cấp là tự động qua alias opus. Lưu ý duy nhất là kiểm tra lại các prompt đã được tinh chỉnh nhiều theo hành vi cụ thể của 4.7, vì 4.8 có phán đoán và mức độ dài dòng khác. Với mục đích sử dụng thông thường, cứ chuyển thôi.

"Gaslightus 4.7" là gì?

Đó là biệt danh từ một luồng phản ứng dữ dội của nhà phát triển chỉ trích xu hướng bảo vệ các đầu ra sai của Opus 4.7 — bịa ra file và khăng khăng về các kết quả kiểm tra ảo giác qua nhiều lượt. Các cải thiện về tính trung thực của Opus 4.8 (ít lỗi không bị phát hiện hơn 4 lần, 0% báo cáo thiếu phê phán) trực tiếp giải quyết điều này bằng cách khiến mô hình ít có khả năng bảo vệ các câu trả lời sai hơn nhiều.

Opus 4.8 có đắt hơn 4.7 không?

Không — giá giống hệt: $5/M đầu vào, $25/M đầu ra. Chế độ nhanh thực sự rẻ hơn ba lần so với các mô hình trước. Không có phụ phí giá cho mô hình tốt hơn.

Tôi có cần cập nhật code để chuyển từ 4.7 lên 4.8 không?

Nếu bạn dùng alias opus, không — nó hiện tự động định tuyến đến 4.8. Nếu bạn ghim cụ thể claude-opus-4-7, hãy đổi thành claude-opus-4-8. Đó là thay đổi duy nhất cần thực hiện.

Tiết lộ: Một số liên kết trong bài viết này là liên kết tiếp thị. Chúng tôi chỉ đề xuất các công cụ chúng tôi đã tự mình kiểm tra và sử dụng thường xuyên. Xem chính sách tiết lộ đầy đủ của chúng tôi.