No te lo estás imaginando.

Ese prompt que solía darte un borrador de blog perfecto? Ahora devuelve una versión diluida, llena de matices, que rehúye comprometerse con lo que pediste.

La plantilla de correo que solía sonar como si la hubieras escrito tú? Ahora suena como un bot de atención al cliente entrenado con documentos de cumplimiento corporativo.

No empeoraste en hacer prompts. ChatGPT cambió.

Esto es lo que realmente pasó — y cinco cosas que puedes hacer al respecto ahora mismo.

Qué Cambió (Y Cuándo)

OpenAI ha realizado ajustes significativos en los modelos durante finales de 2025 y hasta 2026. Los cambios caen en tres categorías:

El ajuste de seguridad se volvió más agresivo. ChatGPT ahora añade más matices, agrega advertencias con más frecuencia, y rechaza casos extremos que solía manejar bien. Si has notado más respuestas "No puedo ayudarte con eso" o "Es importante notar que...", es por esto.

En el trabajo diario, el ajuste de seguridad agresivo a menudo aparece como "párrafos previos" — dos oraciones de contexto antes de la respuesta — o un rechazo que se siente extrañamente estrecho dada lo que pediste. Si tu tarea es genuinamente inofensiva pero adyacente a una categoría sensible (salud, seguridad, legal), a veces puedes recuperar calidad reformulando como un proceso ("describe cómo un equipo revisaría esto") en lugar de pedir un juicio definitivo.

La optimización de costos cambió el comportamiento del modelo. OpenAI atiende miles de millones de solicitudes. Las pequeñas ganancias de eficiencia en su escala se traducen en millones de ahorros. Algunos usuarios reportan que las respuestas se sienten más cortas, menos detalladas y más formulaicas — consistente con un modelo optimizado para rendimiento sobre profundidad.

Incluso cuando la capacidad promedio se mantiene alta, los defaults orientados al rendimiento pueden cambiar lo que ves en la UI: borradores iniciales más cortos, menos secciones opcionales, y menos exploración "aquí hay tres direcciones creativas" a menos que lo pidas explícitamente. Eso puede sentirse como una caída de calidad si tus prompts antiguos se basaban en el modelo ofreciendo estructura voluntariamente.

El modelo base cambió. GPT-4o, GPT-4.5 y GPT-5.5 se comportan diferente. Si construiste prompts ajustados para el comportamiento de GPT-4, podrían no funcionar igual en versiones más nuevas. La personalidad, verbosidad y patrones de razonamiento cambiaron entre versiones.

Esos cambios raramente llegan como un momento único de comunicado de prensa. En la práctica, los notas cuando una plantilla que funcionó durante meses de repente se siente "rara" — las mismas instrucciones, los mismos ejemplos en tu prompt, pero la salida se desplaza hacia resúmenes genéricos, listas de puntos que repiten tu solicitud, y menos recomendaciones concretas. Esa discrepancia a menudo es un cambio de versión o enrutamiento detrás de escenas, no una misteriosa degradación en tus habilidades.

Otro patrón que la gente pierde: tu propio uso cambió. Al principio, podrías haber usado ChatGPT para borradores rápidos y lluvia de ideas. Ahora podrías pedirle que interprete contratos, comente sobre temas relacionados con medicina, o maneje cualquier cosa que dispare lógica de rechazo más estricta. El modelo no es idéntico en todos los niveles de riesgo, y la experiencia del producto puede enrutarte a través de diferentes salvaguardas dependiendo del tema y la configuración de la cuenta.

Si quieres una forma práctica de comparar comportamiento sin obsesionarte, mantén un archivo de "prompt dorado": cinco tareas que ejecutas trimestralmente (reescribe este párrafo, depura este fragmento, resume esta charla, critica esta página de inicio, resume este fragmento de PDF). Cuando la calidad de salida cambia, tienes una línea de base con fecha en lugar de una memoria basada en impresiones.

El Problema Real: Tus Prompts No Se Adaptaron

Aquí está la verdad incómoda: la mayoría de la gente escribió prompts que funcionaban porque de las tendencias específicas de GPT-4, no porque los prompts estuvieran bien estructurados.

GPT-4 era verboso por defecto. Te daba 2.000 palabras cuando pedías un resumen. Interpretaría tu intención generosamente. Tomaría libertades creativas que no pediste explícitamente.

Esa verbosidad no siempre fue buena — podía enterrar la respuesta — pero creaba una ilusión de competencia porque el modelo tapaba los vacíos en tu solicitud. Si solías pedir "resume esta reunión" sin asistentes, sin decisiones y sin objetivo, GPT-4 aún podría producir algo que se viera plausible. Un modelo más literal podría devolver un resumen delgado o pedir preguntas aclaratorias, lo que se lee como menos útil aunque sea más honesto.

Los modelos más nuevos son más literales. Más conservadores. Más propensos a darte exactamente lo que pediste — lo que significa que los prompts vagos obtienen salidas vagas.

Esto no es el modelo siendo más tonto. Es el modelo siendo más obediente. Y obediente + instrucciones vagas = salida mala.

Aquí hay un ejemplo concreto. Supongamos que pides "retroalimentación sobre mis puntos de currículum". Un modelo más interpretativo podría inferir tu industria, inferir antigüedad, y reescribir puntos agresivamente. Un modelo más literal podría devolver una lista de verificación educada ("considera cuantificar el impacto") sin tocar tu texto — técnicamente responsivo, prácticamente inútil. La solución no es abandonar todo; es especificar el rol del currículum, la familia de trabajo objetivo, qué se ve "bien" (dos puntos de ejemplo que admiras), y si quieres reescrituras o anotaciones solamente.

La misma dinámica aparece en programación. "¿Por qué esto es lento?" solía obtener sugerencias especulativas de optimización. Ahora podrías obtener una lista cuidadosa de pasos de perfilado primero. Eso puede sentirse como una degradación si querías cambios de código inmediatos — pero a menudo es el modelo siguiendo un estilo de seguimiento de instrucciones más conservador. Dale permiso: "Asumo que ya perfilaste; aquí hay tiempos; propón cambios de código solamente".

5 Soluciones Que Realmente Funcionan

Solución 1: Añade una identidad

Prompt antiguo: "Escribe un correo de marketing".

El GPT-4 antiguo inferería un tono, elegiría un estilo, añadiría personalidad. Los modelos nuevos juegan seguro.

Prompt corregido: "Eres un copywriter senior que ha escrito campañas de correo para Shopify y Mailchimp. Escribe un correo de marketing para [producto]. Tono: directo, ligeramente irreverente, sin jerga corporativa".

La identidad le da al modelo permiso para tener voz. Sin ella, obtienes el default: insípido, seguro, olvidable.

Otro truco rápido: añade una línea de "ejemplo negativo" — qué tono no quieres. Por ejemplo: "Evita el ritmo de influencer de LinkedIn, nada de 'profundizar' o 'panorama', nada de entusiasmo falso". Esa restricción reduce la probabilidad de la voz genérica de blog SaaS que muchos usuarios se quejan en 2026.

Solución 2: Dile qué NO hacer

Los modelos nuevos sobre-indexan en seguridad y educación. Contador esto explícitamente:

"Sin disclaimer. Sin 'es importante notar'. Sin matices. Dame tu evaluación actual, no una no-respuesta diplomáticamente equilibrada".

Esta línea única recupera la directividad que GPT-4 tenía por defecto.

Puedes apilar instrucciones "anti-matices" con una rúbrica de puntuación cuando ayuda: "Clasifica opciones A/B/C con un único ganador; si no estás seguro, di qué datos resolverían la incertidumbre; no presentes un empate en cinco párrafos". Las rúbricas se ven corporativas, pero funcionan porque fuerzan un límite de decisión.

Solución 3: Añade restricciones

"Menos de 200 palabras. Sin preámbulo. Comienza con la recomendación, luego explica por qué".

Las restricciones fuerzan al modelo a priorizar. Sin ellas, obtienes la longitud y estructura default del modelo — que en versiones más nuevas tiende a ser cautelosa y rellenada.

Las restricciones también ayudan cuando necesitas artefactos estructurados: "Output como tabla con columnas Riesgo / Mitigación / Propietario" o "Devuelve claves JSON: resumen, elementos_de_acción, preguntas_abiertas". Los outputs estructurados reducen divagaciones y hacen la edición posterior más rápida en Notion, Google Docs, o tu sistema de tickets.

Solución 4: Prueba Claude

Esto no es una recomendación de "solo cambiar". Los modelos diferentes son mejores en cosas diferentes:

  • Claude destaca en escritura de formato largo, seguimiento de instrucciones complejas y mantenimiento de una voz consistente en documentos largos. Es actualmente la mejor opción para creación de contenido, análisis de documentos, y cualquier cosa donde necesites que la IA siga especificaciones detalladas.
  • ChatGPT aún lidera en ejecución de código (ejecutar Python en el navegador), generación de imágenes (DALL-E) e integración de amplitud (plugins, GPTs, navegación).
  • Gemini es más fuerte para tareas que involucran datos del ecosistema Google (Gmail, Drive, Calendar) y tiene la ventana de contexto más grande para procesar documentos muy largos.

La respuesta correcta no es elegir uno — es saber cuál usar para qué. Prueba nuestro Selector de Modelo gratis para emparejar tu tarea específica con el mejor modelo.

Si estás en medio de una migración, ejecuta el mismo "prompt dorado" en ChatGPT y Claude lado a lado durante una semana. No estás buscando un ganador por siempre — estás buscando cuál modelo respeta tus restricciones (longitud, tono, citas, rechazo) para el trabajo que realmente haces.

Solución 5: Usa el Marco ICCSSE

Cada buen prompt tiene hasta seis componentes:

  • Identidad — ¿Quién debe ser la IA?
  • Contexto — ¿Cuál es el trasfondo?
  • Constricciones — ¿Cuáles son los límites?
  • Pasos — ¿Cuál es el orden de operaciones?
  • Específicos — ¿Qué detalles exactos importan?
  • Ejemplos — ¿Qué se ve como salida buena?

No necesitas los seis cada vez. Las tareas simples necesitan 2-3. Las tareas complejas se benefician de los seis.

La diferencia entre "ChatGPT se está haciendo más tonto" y "Necesito actualizar mis prompts" usualmente es este marco. Lee la guía ICCSSE completa o prueba el Optimizador de Prompts para mejorar automáticamente cualquier prompt.

Un hábito más que vale la pena: guarda "diffs de prompts". Cuando cambias un prompt y la calidad mejora, guarda el par antes/después. Con el tiempo construyes una biblioteca personal de lo que tu stack responde — mucho más valioso que perseguir listas genéricas de "mejores prompts".

¿Está ChatGPT empeorando o me lo estoy imaginando?

Probablemente no te estés imaginando un cambio en la sensación, pero el salto de "sensación" a "peor" omite una distinción importante. ChatGPT en 2026 a menudo está optimizando para una mezcla diferente de objetivos que la versión en que te formaste: seguridad, seguimiento de instrucciones, latencia, y costo a una escala enorme. Esos objetivos pueden producir salidas que se leen como menos creativas incluso cuando la capacidad subyacente sigue siendo fuerte para tareas bien especificadas.

Lo que se siente como "peor" frecuentemente es un desajuste entre expectativas y defaults. Si esperas que el modelo infiera contexto faltante, complete la voz de marca, y tome riesgos estilísticos, notarás más fricción cuando el default es cumplimiento literal. Esa fricción es real — simplemente no es lo mismo que una caída de IQ.

Una prueba práctica es reproducibilidad. Si puedes pegar el mismo prompt dos veces y obtener calidad materialmente diferente, podrías estar golpeando varianza de enrutamiento, uso de herramientas, o diferencias de modo de navegación — no un modelo "más tonto" estable. Si la calidad es consistentemente más baja solo para una categoría de tareas (médico, legal, político), probablemente estés chocando contra un comportamiento pesado en políticas en lugar de una degradación global.

Finalmente, verifica tu propia señal de fatiga. Cuando la gente está ocupada, reutiliza prompts frágiles ("arregla esto") e interpreta respuestas vagas como menor inteligencia. La verificación de cordura más rápida es gastar diez minutos apretando prompts para tus tres principales flujos de trabajo. Si la calidad salta, el cuello de botella fue especificación — lo que es buena noticia porque es arreglable sin cambiar de producto.

¿Debería cambiar de ChatGPT a Claude?

Cambia si tu dolor principal es fidelidad de formato largo: artículos multisección, reescritura matizada, documentos largos donde necesitas tono consistente, o prompts con muchas restricciones que deben mantenerse todas juntas. Claude a menudo es la primera parada para equipos cuyos outputs de ChatGPT se sienten "aplanados" después de cambios de ajuste de 2025–2026.

Quédate en ChatGPT (o mantén ambos) si tus flujos de trabajo dependen de fortalezas nativas de ChatGPT: ejecución de código en el navegador, generación de imágenes, ciertas integraciones, o un stack de hábito construido alrededor de GPTs y herramientas que no quieres reconstruir. Muchos usuarios avanzados no "cambian"; enrutan tareas por tipo del mismo modo que elegirías Postgres vs Elasticsearch basado en carga de trabajo.

Si cambias, comprométete por dos semanas en trabajo real, no prompts de juguete. Reconstruye un puñado de plantillas con estructura estilo ICC, luego compara resultados en velocidad, ediciones requeridas, y tasa de rechazo. También observa costo: "salida mejor" que requiere el doble de iteraciones no es realmente mejor para tu calendario.

Si no estás seguro, comienza con el Selector de Modelo y luego valida con el Optimizador de Prompts así no estás comparando modelos usando prompts injustamente perezosos.

¿Cuál es la mejor alternativa a ChatGPT en 2026?

No hay un único ganador — la mejor alternativa depende de si te importa más escribir, citas de investigación, ejecución de código, integración de Google Workspace, o preferencias de privacidad local. Dicho esto, la "alternativa default" más común para usuarios pesados de ChatGPT en 2026 sigue siendo Claude para escritura y trabajo de documentos, Perplexity para investigación obtenida, y Gemini cuando tus inputs viven en Gmail/Drive/Calendar y quieres integración estrecha.

Para programación específicamente, el panorama se dividió: ChatGPT sigue siendo fuerte como programador de pares generalista, mientras que herramientas como Cursor y Claude Code compiten en cómo quieres que la IA toque tu repo (nativo del editor vs agencial). Si tu queja es "ChatGPT se siente más tonto para revisiones de código", prueba mover revisiones a un flujo de trabajo con contexto de archivo explícito y formato de salida más estricto, independientemente del proveedor.

Si tu queja es "necesito uso más barato o más controlable", flujos de trabajo respaldados por API y herramientas especializadas más pequeñas a veces vencen a una sola UI de chat. Las utilidades gratis de HundredTabs — desde formateo JSON hasta PDF a Markdown — pueden eliminar clases enteras de ida y vuelta de chat.

Lo que sea que elijas, re-ejecuta tus prompts dorados y mide: tiempo-a-salida-útil, cantidad de seguimientos, y con qué frecuencia abandonas la respuesta. Esas métricas vencen a la lealtad de marca y anécdotas de foro.

El Resultado Final

ChatGPT no se ha hecho más tonto. Se ha vuelto más conservador, más literal, y menos propenso a llenar los vacíos que dejaste en tus prompts.

Los prompts que "solían funcionar" se basaban en el modelo siendo generoso con la interpretación. Eso no es confiable en versiones de modelo. Los prompts estructurados funcionan en cada modelo, cada versión, cada vez.

Si estás frustrado con la calidad de salida de IA en 2026, la solución no es una nueva suscripción. Es un mejor prompt.

Herramientas en este artículo