你没有想象力。
那个曾经能给你完美博客草稿的提示词?现在它返回的是水稀释的、处处设防、拒绝承诺的版本。
那个曾经听起来像你写的邮件模板?现在听起来像一个用企业合规文档训练的客服机器人。
不是你的提示词技能变差了。是 ChatGPT 变了。
这里是实际发生的事——以及你现在可以做的五件事。
什么改变了(以及何时)
OpenAI 在整个 2025 年末和 2026 年进行了重大的模型调整。这些变化分为三类:
安全调整变得更激进。ChatGPT 现在更容易设防、更频繁地添加免责声明,并拒绝它曾经能很好处理的边界情况。如果你注意到更多"我无法帮助你"或"需要注意的是..."的回应,这就是原因。
在日常工作中,激进的安全调整通常表现为"飞行前段落"——回答前的两句背景说明——或感觉奇怪狭窄的拒绝。如果你的任务确实是无害的,但与敏感类别相邻(健康、安全、法律),你有时可以通过重新框架为流程("概述一个团队将如何审查这个")而不是请求明确的判断来恢复质量。
成本优化改变了模型行为。OpenAI 服务数十亿个请求。在他们的规模上,小的效率收益转化为数百万的节省。一些用户报告响应显得更短、细节更少、更公式化——与为吞吐量而非深度优化的模型一致。
即使平均能力保持高水平,吞吐量导向的默认值也可以改变你在 UI 中看到的内容:更短的初稿、更少的可选部分,以及更少的探索性"这里有三个创意方向",除非你明确要求。如果你的旧提示词依赖模型主动提供结构,这可能感觉像是质量下降。
基础模型改变了。GPT-4o、GPT-4.5 和 GPT-5.5 的表现各不相同。如果你为 GPT-4 的行为调整了提示词,它们在较新版本上可能不会以相同方式工作。版本之间的个性、冗长程度和推理模式都改变了。
这些转变很少以单一新闻发布的时刻到达。在实践中,你会在一个运行了几个月的模板突然感觉"不对劲"时注意到它们——相同的指令、提示词中相同的示例,但输出偏向通用摘要、重复你的请求的项目列表,以及更少的具体建议。这种不匹配通常是幕后的版本或路由改变,而不是你技能的神秘降级。
人们错过的另一个模式:你自己的使用方式改变了。早期,你可能使用 ChatGPT 进行快速草稿和头脑风暴。现在你可能要求它解释合同、评论医学相邻的话题,或处理触发更严格拒绝逻辑的任何内容。该模型在风险等级上不相同,产品体验可能根据主题和账户设置通过不同的安全措施路由你。
如果你想要一个不会陷入困境的实用方式来比较行为,保持一个"黄金提示词"文件:五个你每季度运行的任务(重写这段话、调试这段代码、概述这次谈话、批评这个登陆页面、总结这个 PDF 块)。当输出质量转变时,你有一个有日期的基线而不是纯粹的印象记忆。
真正的问题:你的提示词没有适应
这里是令人不适的真相:大多数人写的提示词之所以有效,是因为 GPT-4 的特定倾向,而不是因为提示词结构良好。
GPT-4 默认冗长。当你要求总结时,它会给你 2000 字。它会慷慨地推断你的意图。它会采取你没有明确要求的创意自由。
这种冗长并非总是好的——它可能掩埋答案——但它创造了一种能力的假象,因为模型弥补了你请求中的空白。如果你曾经问"总结这次会议"而没有参与者、决定和目标,GPT-4 仍然可能产生看起来合理的东西。更字面的模型可能会返回简短的总结或提出澄清问题,这在读起来不那么有帮助时实际上更诚实。
较新的模型更字面。更保守。更可能给你精确要求的东西——这意味着模糊的提示词得到模糊的输出。
这不是模型变得更愚蠢。这是模型变得更听话。而听话 + 模糊指令 = 糟糕的输出。
这里有一个具体的例子。假设你要求"对我的简历项目进行反馈"。一个更有解释力的模型可能会推断你的行业、推断资历,并积极改写项目。一个更字面的模型可能会返回一个礼貌的清单("考虑量化影响")而不接触你的文本——在技术上有反应,在实践中无用。修复方法不是愤怒退出;而是指定简历角色、目标工作族系、"好"是什么样的(两个你欣赏的示例项目),以及你是否想要改写或仅注释。
同样的动态显示在编码中。"为什么这很慢?"曾经会得到推测性优化建议。现在你可能会先得到一个谨慎的分析步骤列表。如果你想要立即的代码更改,这可能感觉像是降级——但这通常是模型遵循更保守的指令跟随风格。给它权限:"假设我已经分析过;这里是计时;仅提议代码更改。"
5 个真正有效的修复
修复 1:添加身份
旧提示词:"为我写一封营销邮件。"
旧的 GPT-4 会推断语调、选择风格、添加个性。新模型保持安全。
修复后的提示词:"你是一位资深文案撰稿人,曾为 Shopify 和 Mailchimp 撰写过电子邮件活动。为 [产品] 写一封营销邮件。语调:直接、略带讽刺、无企业话语。"
身份给了模型一个拥有声音的权限。没有它,你得到的是默认值:乏味、安全、难以忘怀。
另一个快速胜利:添加一行"反面示例"——你不想要的语调。例如:"避免 LinkedIn 影响者节奏、没有'深入'或'格局'、没有虚假的热情。"这个限制减少了许多用户在 2026 年抱怨的通用 SaaS 博客声音的概率。
修复 2:告诉它不要做什么
新模型过度关注安全和礼貌。明确地抵消这一点:
"没有免责声明。没有'需要注意的是'。没有设防。给我你的实际评估,而不是外交上平衡的非答案。"
这一行就能恢复 GPT-4 默认拥有的直接性。
当有帮助时,你可以用评分标准堆叠"反设防"指令:"用单一获胜者对选项 A/B/C 进行排名;如果不确定,说什么数据会解决不确定性;不要呈现一个五段落的平局。"标准听起来很公司化,但它们有效,因为它们强制一个决策边界。
修复 3:添加限制
"不超过 200 字。没有序言。从建议开始,然后解释为什么。"
限制强制模型优先。没有它们,你得到模型的默认长度和结构——在较新版本上往往谨慎且填充。
当你需要结构化工件时,限制也有帮助:"输出为具有 风险/缓解措施/所有者 列的表格"或"返回 JSON 键:summary、action_items、open_questions。"结构化输出减少了漫谈,并使后续编辑在 Notion、Google Docs 或你的工单系统中更快。
修复 4:尝试 Claude
这不是一个"只是切换"的建议。不同的模型擅长不同的事情:
- Claude 在长篇写作、遵循复杂指令和在长文档中保持一致的声音方面表现出色。对于内容创建、文档分析和任何需要 AI 遵循详细规范的东西,这是目前最好的选择。
- ChatGPT 在代码执行(在浏览器中运行 Python)、图像生成(DALL-E)和集成的广度(插件、GPT、浏览)中仍然领先。
- Gemini 对涉及 Google 生态系统数据(Gmail、Drive、Calendar)的任务最强,并拥有用于处理非常长文档的最大上下文窗口。
正确答案不是选择一个——而是知道为什么选择什么。尝试我们免费的模型选择器来将你的特定任务与最好的模型相匹配。
如果你正在迁移中,在 ChatGPT 和 Claude 上并排运行相同的"黄金提示词"一周。你不是在寻找永远的赢家——你是在寻找哪个模型尊重你的约束(长度、语调、引文、拒绝)来处理你实际做的工作。
修复 5:使用 ICCSSE 框架
每个好的提示词都有最多六个组件:
- Identity(身份)——AI 应该是谁?
- Context(背景)——背景是什么?
- Constraints(限制)——限制是什么?
- Steps(步骤)——操作顺序是什么?
- Specifics(具体)——什么确切的细节重要?
- Examples(示例)——好的输出是什么样的?
你不需要每次都用全部六个。简单的任务需要 2-3 个。复杂的任务受益于全部六个。
"ChatGPT 变得更笨了"和"我需要更新我的提示词"之间的差异通常就是这个框架。阅读完整 ICCSSE 指南或尝试提示词优化器来自动改进任何提示词。
另一个值得的习惯:保存"提示词差异"。当你改变一个提示词而质量改进时,保留前后对比对。随着时间的推移,你会建立一个个人库,说明你的堆栈对什么有反应——远比追逐通用"最佳提示词"列表更有价值。
ChatGPT 变得更差了还是我在想象?
你可能没有想象在感觉上的改变,但从"感觉"的飞跃到"更差"跳过了一个重要的区别。2026 年的 ChatGPT 通常对不同于你接受的版本的目标混合进行优化:安全、指令跟随、延迟和庞大规模的成本。这些目标可以产生看起来不那么创意的输出,即使底层能力对于良好指定的任务仍然很强。
感觉"更差"的通常是期望和默认值之间的不匹配。如果你期望模型推断缺失的背景、填补品牌声音和采取风格风险,当默认值是字面遵守时,你会注意到更多摩擦。这种摩擦是真实的——它只是与 IQ 下降不是同一回事。
一个实用的测试是可重现性。如果你可以两次粘贴相同的提示词并获得实质不同的质量,你可能遇到了路由差异、工具使用或浏览模式差异——而不是一个稳定的"更笨的模型"。如果质量一致地低得多仅对于一类任务(医学、法律、政治),你可能正在遇到策略激烈的行为,而不是全局降级。
最后,检查你自己的疲劳信号。当人们忙碌时,他们会重用脆弱的提示词("修复这个")并将模糊答案解释为更低的智力。最快的理智检查是花十分钟收紧你前三个工作流程的提示词。如果质量跳跃,瓶颈是规范——这是好消息,因为它可以在不切换产品的情况下修复。
我应该从 ChatGPT 切换到 Claude 吗?
如果你的主要痛点是长篇保真度,请切换:多部分文章、细微的改写、长文档,其中你需要一致的语调,或许多必须一起保留的限制的提示词。对于 ChatGPT 输出在 2025–2026 调整转变后感觉"压平"的团队,Claude 通常是首选。
如果你的工作流程依赖于 ChatGPT 的原生优势,请保留在 ChatGPT 上(或保持两者):浏览器中的代码执行、图像生成、某些集成,或围绕 GPT 和你不想重建的工具构建的习惯堆栈。许多高级用户不"切换";他们按类型路由任务,就像你会根据工作负载选择 Postgres 与 Elasticsearch 一样。
如果你切换,在真实工作上承诺两周,而不是玩具提示词。用 ICC 风格结构重建一些模板,然后比较结果的速度、所需编辑和拒绝率。也要看成本:需要两倍迭代次数的"更好输出"对你的日历来说并不实际上更好。
如果你不确定,从模型选择器开始,然后用提示词优化器验证,这样你就不会使用不公平的懒惰提示词来比较模型。
2026 年最好的 ChatGPT 替代品是什么?
没有单一的赢家——最好的替代品取决于你是否最关心写作、研究引文、代码执行、Google Workspace 集成或本地隐私偏好。话虽如此,2026 年中最常见的"默认替代品"对于 ChatGPT 重度用户仍然是 Claude 用于写作和文档工作、Perplexity 用于有来源的研究,以及当你的输入跨越 Gmail/Drive/Calendar 并且你想要紧密集成时使用 Gemini。
对于编码,景观分裂了:ChatGPT 仍然在通用配对程序员中很强,而像 Cursor 和 Claude Code 这样的工具竞争你希望 AI 如何接触你的代码库(编辑器原生与代理性)。如果你的抱怨是"ChatGPT 对代码审查感觉变得更笨了",无论供应商如何,都尝试将审查改为具有明确文件背景和更严格输出格式的工作流程。
如果你的抱怨是"我需要更便宜或更可控的使用",API 支持的工作流程和较小的专业工具有时会击败单一聊天 UI。HundredTabs 免费工具——从JSON 格式化到PDF 转 Markdown——可以完全消除整个聊天往返。
无论你选择什么,重新运行你的黄金提示词并测量:有用输出的时间、后续跟进的数量和你多久放弃答案。这些指标击败了品牌忠诚度和论坛轶事。
底线
ChatGPT 没有变得更笨。它变得更保守、更字面,更不可能填补你在提示词中留下的空白。
"曾经有效"的提示词依赖于模型对解释的慷慨。这在模型版本中是不可靠的。结构化提示词在每个模型、每个版本、每次都有效。
如果你对 2026 年的 AI 输出质量感到沮丧,修复不是新订阅。这是一个更好的提示词。
- 提示词优化器——粘贴任何提示词,获得改进版本
- 模型选择器——为你的任务找到正确的 AI
- ICCSSE 框架指南——完整的提示框架
- 比较模型——并排 AI 比较