Anthropic lanzó Claude Opus 4.8 hoy, 28 de mayo de 2026, apenas 41 días después de Opus 4.7. El nuevo modelo insignia trae mejoras en codificación, tareas agentivas, razonamiento y trabajo de conocimiento, y se lanza al mismo precio que su predecesor. Ese mismo día, Anthropic anunció que recaudó 65 mil millones de dólares en una ronda Serie H con una valoración de 965 mil millones de dólares, superando oficialmente a OpenAI para convertirse en la empresa de IA más valiosa del mundo. Dos hitos históricos en un solo día.

Si solo lees algo sobre Opus 4.8, que sea esto: es una "mejora modesta pero tangible" (palabras de Anthropic) que avanza significativamente tres aspectos — codificación agentiva, honestidad y alineación — al tiempo que introduce tres nuevas funciones que cambian la forma de trabajar con Claude. No es el salto gigante que promete ser el aún no lanzado Claude Mythos, pero soluciona problemas reales de Opus 4.7 y establece un nuevo estándar en los benchmarks que importan para el trabajo autónomo de IA.

Punto Clave

Claude Opus 4.8 (API ID: claude-opus-4-8) se lanzó el 28 de mayo de 2026 sin cambios de precio ($5/M de entrada, $25/M de salida). Mejora SWE-Bench Pro del 64.3% al 69.2%, lidera OSWorld-Verified con 83.4%, y supera a GPT-5.5 y Gemini 3.1 Pro en trabajo de conocimiento (GDPval-AA 1890). Es aproximadamente 4 veces menos probable que pase por alto fallos en el código sin señalarlos. Se lanzaron tres nuevas funciones junto con él: flujos de trabajo dinámicos (subagentes paralelos en Claude Code), control de esfuerzo (claude.ai y Cowork), y entradas de sistema durante la tarea en la Messages API. El modo rápido ahora es 3 veces más barato.

¿Qué hay de nuevo en Claude Opus 4.8?

La mejora principal es la capacidad agentiva: la habilidad de Claude para trabajar de forma independiente en tareas de varios pasos usando herramientas. Los primeros evaluadores reportan un juicio más preciso, un mejor uso de herramientas y una mayor fiabilidad en flujos de trabajo prolongados. El modelo hace las preguntas correctas, detecta sus propios errores, se opone cuando un plan no es sólido y genera confianza en exploraciones complejas antes de hacer grandes cambios. Para cualquiera que use Claude como agente autónomo en lugar de un chatbot, estas son las mejoras que más importan.

La segunda gran mejora es la honestidad. Anthropic entrenó a todos sus modelos para evitar afirmaciones que no puedan respaldar, pero los modelos de IA tienen un problema persistente: se apresuran a sacar conclusiones, afirmando con confianza avances cuando la evidencia es escasa. Opus 4.8 es más propenso a señalar incertidumbres sobre su trabajo y menos propenso a hacer afirmaciones sin fundamento. Las evaluaciones de Anthropic muestran que es aproximadamente cuatro veces menos probable que Opus 4.7 permita que pasen desapercibidos fallos en el código que ha escrito. Es el primer modelo de Claude que obtiene un 0% en reportar acríticamente resultados defectuosos, con una reducción de más de diez veces en el exceso de confianza.

La tercera mejora es la alineación. El equipo de alineación de Anthropic concluyó que Opus 4.8 "alcanza nuevos máximos en nuestras mediciones de rasgos prosociales como apoyar la autonomía del usuario y actuar en su mejor interés". Sus tasas de comportamiento desalineado — engaño o cooperación con mal uso — son sustancialmente más bajas que las de Opus 4.7 y similares a las de Claude Mythos Preview, el modelo mejor alineado de Anthropic. (Hay una preocupante salvedad sobre la conciencia de evaluación, que cubrimos en nuestro análisis en profundidad de la paradoja de la honestidad).

Benchmarks de Claude Opus 4.8: ¿cómo se compara?

Anthropic publicó benchmarks comparando Opus 4.8 con su predecesor y con modelos competidores. Las ganancias son incrementales pero consistentes, y Opus 4.8 lidera en la mayoría de las pruebas agentivas y de trabajo de conocimiento. Así es como se desglosan los números.

Benchmark Opus 4.8 Opus 4.7 Qué mide
SWE-Bench Pro69.2%64.3%Codificación agentiva en el mundo real
OSWorld-Verified83.4%82.3%Uso agentivo del ordenador
Online-Mind2Web84%menorTareas de agente de navegador
GDPval-AA1890Trabajo de conocimiento (supera los 1769 de GPT-5.5)
Razonamiento con herramientas57.9%54.7%Razonamiento multidisciplinario
Terminal-Bench 2.174.6%Codificación en terminal (GPT-5.5 gana con 78.2%)

La conclusión honesta: Opus 4.8 lidera en la mayoría de los benchmarks agentivos, de uso del ordenador y de trabajo de conocimiento, superando tanto a GPT-5.5 como a Gemini 3.1 Pro en GDPval-AA por un amplio margen. Pero no es un barrido completo — GPT-5.5 sigue ganando en Terminal-Bench 2.1 (codificación intensiva en terminal), obteniendo un 78.2% frente al 74.6% de Opus 4.8. Si tu flujo de trabajo está dominado por sesiones largas de terminal, GPT-5.5 sigue siendo competitivo. Para una comparación completa cara a cara, consulta nuestro desglose de benchmarks a tres bandas.

📬 ¿Te está siendo útil?

Una visión práctica de IA por semana. Además, un pack de prompts gratuito al suscribirte.

Suscríbete gratis →

Las tres nuevas funciones que llegan con Opus 4.8

Opus 4.8 no llegó solo. Anthropic lanzó tres funciones el mismo día que cambian la forma de interactuar con Claude en todos los productos.

Flujos de trabajo dinámicos (Claude Code). Disponible en vista previa de investigación para los planes Max, Team y Enterprise, esta función permite que Claude planifique una tarea grande, envíe cientos de subagentes paralelos que aborden el problema desde ángulos independientes, despliegue agentes adversariales para refutar hallazgos, e itere hasta que las respuestas converjan — luego verifique los resultados antes de informar. El caso de uso estrella son las migraciones a escala de código base a través de cientos de miles de líneas de código, desde el inicio hasta la fusión, utilizando el conjunto de pruebas existente como referencia. Lo analizamos en detalle en nuestro explicador de flujos de trabajo dinámicos.

Control de esfuerzo (claude.ai y Cowork). Un nuevo control junto al selector de modelo te permite elegir cuánto esfuerzo pone Claude en una respuesta. Mayor esfuerzo significa que Claude piensa con más frecuencia y profundidad para obtener mejores respuestas; menor esfuerzo genera respuestas más rápidas que consumen tus límites de tasa más lentamente. Está disponible en todos los planes. Nuestra guía de controles de esfuerzo cubre cuándo usar cada configuración.

Entradas de sistema durante la tarea (Messages API). La Messages API ahora acepta entradas de sistema dentro del array de mensajes, permitiendo a los desarrolladores actualizar las instrucciones de Claude durante la tarea sin romper la caché de prompts ni enrutar a través de un turno de usuario. Esto es importante para agentes que necesitan actualizar permisos, presupuestos de tokens o contexto del entorno a mitad de ejecución. Detalles en nuestro desglose del cambio en la API.

Precios y disponibilidad

Claude Opus 4.8 está disponible en todas partes desde hoy. El precio regular no cambia respecto a Opus 4.7: 5 $ por millón de tokens de entrada y 25 $ por millón de tokens de salida. El modo rápido (2.5x de velocidad) tiene un precio de 10 $/M de entrada y 50 $/M de salida, pero, notablemente, el modo rápido es ahora tres veces más barato que en modelos anteriores. Los desarrolladores acceden al modelo a través de la API de Claude usando claude-opus-4-8, y el alias opus ahora redirige automáticamente a él. Está disponible en Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry y GitHub Copilot (con un multiplicador de solicitudes premium de 15x hasta que se lance la facturación por uso el 1 de junio).

Para sacar el máximo partido a Opus 4.8, independientemente de cómo accedas a él, los prompts bien estructurados producen resultados drásticamente mejores. El Optimizador de Prompts gratuito perfecciona tus instrucciones antes de enviarlas, y TresPrompt ofrece optimización con un clic directamente en Claude, ChatGPT y Gemini.

📬 ¿Quieres más contenido como este?

Una visión práctica de IA por semana. Además, un pack de prompts gratuito al suscribirte.

Suscríbete gratis →

Lo que viene: Claude Mythos

Anthropic aprovechó el anuncio de Opus 4.8 para adelantar lo que se avecina. La empresa planea lanzar una nueva clase de modelo con una inteligencia aún mayor que la de Opus. Como parte del Proyecto Glasswing, un pequeño número de organizaciones ya está utilizando Claude Mythos Preview para tareas de ciberseguridad. Los modelos con ese nivel de capacidad requieren salvaguardas cibernéticas más sólidas antes de su lanzamiento general, pero Anthropic dijo que está progresando rápidamente y espera llevar los modelos de clase Mythos a todos los clientes "en las próximas semanas". La alineación de Opus 4.8 ya se acerca a los niveles de Mythos Preview, un indicio de lo que está por venir. Lee más en nuestro análisis del cronograma de Mythos.

Preguntas frecuentes

¿Cuál es el ID del modelo Claude Opus 4.8 en la API?

El ID del modelo en la API es claude-opus-4-8. El alias opus ahora redirige automáticamente a él, por lo que las integraciones existentes que usan el alias se actualizarán. Para la variante de contexto de 1 millón de tokens, usa claude-opus-4-8[1m]. Está disponible en la API de Claude, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry.

¿Cuánto cuesta Claude Opus 4.8?

El uso regular cuesta 5 $ por millón de tokens de entrada y 25 $ por millón de tokens de salida, sin cambios respecto a Opus 4.7. El modo rápido (2.5x de velocidad) cuesta 10 $/M de entrada y 50 $/M de salida, que es tres veces más barato que el modo rápido en modelos anteriores. Los precios son idénticos en todas las plataformas en la nube.

¿Es Claude Opus 4.8 mejor que GPT-5.5?

Depende de la tarea. Opus 4.8 lidera en codificación agentiva (SWE-Bench Pro), uso del ordenador (OSWorld 83.4%), tareas de navegador (Online-Mind2Web 84%) y trabajo de conocimiento (GDPval-AA 1890 frente a los 1769 de GPT-5.5). Pero GPT-5.5 sigue ganando en Terminal-Bench 2.1 (78.2% frente a 74.6%) para codificación intensiva en terminal. Para la mayoría de las tareas agentivas y de trabajo de conocimiento, Opus 4.8 es más fuerte; para sesiones largas de terminal, GPT-5.5 sigue siendo competitivo.

¿Debería actualizar de Opus 4.7 a 4.8?

Para la mayoría de los usuarios, sí: es el mismo precio con mejores benchmarks, una honestidad drásticamente mejorada y correcciones a los problemas de verbosidad en comentarios y llamadas a herramientas de Opus 4.7. La actualización es automática si usas el alias opus. La razón principal para dudar: si tus flujos de trabajo están muy ajustados al comportamiento de 4.7, vuelve a probar tus prompts, ya que el juicio y la verbosidad del modelo han cambiado. Consulta nuestra guía de decisión sobre la actualización.

¿Qué son los flujos de trabajo dinámicos en Claude Opus 4.8?

Los flujos de trabajo dinámicos son una función de Claude Code (vista previa de investigación, Max/Team/Enterprise) que permite a Claude planificar una tarea grande y ejecutar cientos de subagentes paralelos en una sola sesión. Los subagentes abordan los problemas desde ángulos independientes, los agentes adversariales intentan refutar los hallazgos y el sistema itera hasta que las respuestas convergen antes de informar. El caso de uso principal son las migraciones a escala de código base a través de cientos de miles de líneas de código.

Divulgación: algunos enlaces en este artículo son enlaces de afiliado. Solo recomendamos herramientas que hemos probado personalmente y que usamos regularmente. Consulta nuestra política de divulgación completa.