护城河还在,水源已断
有件事困扰我很久了:我越是依赖 AI,自己的思考就越浅。
一个想法刚成形,我就把它交给模型。它要么直接给我一个结论,要么一步一步带我把推理走完。整个过程很顺,产出看着也不错。可等我退后一步,脑子里留下的并不是一条连贯的思路,而是一堆彼此不相连的碎片。
一开始我以为是自己想多了。后来才知道,这件事有个名字,叫认知卸载(cognitive offloading),而且它并不新鲜。
2011 年,Sparrow 等人在 Science 上发表过一个实验:当人们相信某条信息以后还能查到时,他们对信息本身记得更差,却对去哪里找它记得更牢。我们很早就把记忆外包给了搜索引擎,留下的是路径,而不是内容。Sparrow 研究的是记忆,但既然我们已经把”去哪里找”外包出去了,再把”怎么把这些碎片连起来”也外包出去,不过是再走一步而已,而 AI 现在占的正是这个位置。
我本可以写到这里就停下,写一个让人安心的版本:别担心,这只是进步而已。但我想顺着那种不舒服一直往下挖,看看底下到底是什么。
大部分”思考”本来就该外包
有标准答案的任务、考前突击、模板代码、照着文档部署:这类任务确定性高,解法清楚。让 AI 一遍做完不是退步,它只是戳破了深度思考的假象。我们以前以为是在仔细推理,很多时候不过是一种效率低下的暴力穷举。那种活迟早会被商品化。“花更少力气,得到更好结果”之所以让人觉得是真的,是因为在这些情况下它确实是真的。
连我们用 AI 的方式都在变,而且方向一致。到 2025 年年中,AI 工具圈里越来越多的人不再谈 prompt engineering,转而谈 context engineering。Karpathy 认同这个说法:“prompt”听起来像是你随手丢出去一句短指令,但真正能在生产环境里活下来的,是一门手艺:把恰好正确的材料,放进下一步要用的 context window 里。
于是重心从”怎么做”挪到了”做什么”:从写指令,挪到提供 context、设定目标。这句话其实就是整篇文章压缩成一句的骨架:杠杆在往上移,移向你对目标和输入的判断,而执行则沉到你脚下。(别把这个推得太远:那个极端版本,说”自然语言现在就是程序”,是站不住的。目标更重要了,但过程不会凭空消失。)
所以我对交出执行没有意见。但”省力了”这种感觉是有后味的。一旦你把”做”交出去,做这件事确实变轻了;可剩下的那部分,也就是判断,反而变重了。
Bainbridge 在 1983 年就看穿了这个陷阱
四十多年前,就有人把这种处境说清楚了。
1983 年,Lisanne Bainbridge 写了一篇只有几页、却被引用过几千次的文章:“Ironies of Automation”。她写的是工业控制系统,但那个模式几乎原样套在今天的 AI 上。她的意思,说白了就是:设计者越想把人从系统里拿掉,到头来留给人的,恰恰是那些没法自动化的任务。结果是,自动化把工作里容易的部分拿走了,剩下那些难的部分反而更难了。
这是第一重压力:容易的任务被拿走,最难的判断留给你。
第二重压力紧跟着来。不练的技能会退化。一个常年只是看着自动系统运行的操作员,会慢慢退回到新手状态,可真正需要他出手的那一刻,偏偏是最反常的时刻:系统出了故障,需要一个内行来收拾。她的结论今天读来依然锋利:操作员需要的是更强的技能,而不是更弱的。“最后一个反讽,“她写道,“是那些最成功、最少需要人介入的自动系统,恰恰是最需要在人员培训上下重本的系统。”
一篇 1983 年的文章,在同一个论证里把两重压力都讲了出来:一边对你的判断要求更多,另一边却在削弱它。
这不是陈年旧事。三十多年后,曾在美国国家运输安全委员会做人因调查的 Bob Strauch 写了一篇续作,标题很直接:“Ironies of Automation: Still Unresolved After All These Years.”
他举的例子让人不安。在大约三十年里,至少三起空难,包括 2013 年旧金山的韩亚航空 214 号班机、2009 年阿姆斯特丹附近的土耳其航空 1951 号班机,都涉及受过良好训练、经过严格考核的飞行员,他们把空速控制交给自动化之后,犯了同一个致命错误。促成事故的因素有很多,但其中一条是:自动化削弱了他们对空速的主动监控,他们失去了对飞机实际飞多快的那种直觉。
这里有个区别,太多人匆匆带过。
我们常说,回路里要有人(HITL):万一出了问题,有人能接住。但那些空难说明的是另一回事:光是有人在场还不够;这个人得真的知道自己在做什么。这需要回路里有专家(EITL)。HITL 和 EITL 之间,差的就是一样东西:判断力。
Bainbridge 这个陷阱最残忍的地方正在这里:它会一点点把回路里的专家,变成一个仍在回路里、却不再是专家的人。名义上还是 HITL,但最值钱的那一块,也就是专家的那个 E,已经悄悄不见了。
下面,我分别处理这两重压力。
第一重压力:判断的负担落到你身上
跟 AI 协作的这套新方式也有个名字:loop engineering。Addy Osmani 概括得不错:发力点已经变了。值钱的不再是写一个更好的 prompt,而是把整个回路设计好,让系统自己去发现任务、分配任务、相互核对、决定下一步,而你则上升到更高的一层。Simon Willison 更进一步,把设计 agentic loop 称作这个时代真正新出现的技能。这听起来很美。但这套范式有个躲不掉的代价,而它恰恰落在那个退后一步的人身上:
生成变便宜了,验证没有。
AI 一口气给你一百个选项之后,把它们读完、评估、判断该不该信,是昂贵的脑力活,而且几乎没法并行。瓶颈没有消失,它从生成挪到了你判断的带宽上。
这不是假设,2026 年就在发生。Sonar 的《State of Code 2026》报告调查了一千多名开发者。百分之九十六的人说自己并不完全信任 AI 写的代码,但只有百分之四十八的人会在每次提交前真的检查。这个落差有个名字:验证缺口(verification gap)。
Karpathy 把好的协作概括成一个生成-验证的回路,他的结论很准:让验证变快变容易,让生成保持小而受控,因为人就是验证这一步的瓶颈。Flask 的作者 Armin Ronacher 说得更直白:“我现在并行跑的 agent 更少了,因为我脑子能 review 的量是有限的。”
这是一个认知上的瓶颈,不是机械上的。你没法靠多跑几个 agent 来解决它,那只会让它更糟。连做出 Devin 的 Cognition 公司都发过一篇文章,反对去搭多 agent 系统,因为错误会在 agent 之间传递并被放大。
有人给这种状态起了个名字:理解债(comprehension debt)。你飞快地产出一大堆没人真正理解的代码,而这笔债早晚得还。我以前很喜欢算一笔账:一个两百人的团队用上 AI 缩到五十人,剩下的人加薪,皆大欢喜。逻辑是中间那层执行被折叠掉了,随之消失的还有协调成本,有时也叫编排税(orchestration tax)。
我当时漏算的是:协调成本不会消失。它会变成理解成本。当系统跑得比人能跟上的速度还快,“谁来保证人还看得懂这套系统”就成了更难的那个瓶颈。
还有一层更隐蔽。问题不只是你需要验证得更多,而是你在不知不觉中验证得更少了。2025 年,来自 Microsoft Research 和卡内基梅隆的研究者调查了三百多名知识工作者,发现一个人越信任 AI,他用上的批判性思考就越少。也就是说,负担落到你身上的同时,你去扛它的那股本能正在被磨掉。
这是相关性研究,不是因果证明,而且 Microsoft 卖 Copilot,所以打个折看。但一个独立样本得出了方向一致的结果,所以它不是孤例。
负担越来越重,本能却越来越弱。这就是第一重压力。
第二重压力:练出判断力的路在变窄
面对第一重压力,几乎所有人都会伸手去拿同一个答案:一个人身上还值钱的,是 AI 给不了你的东西,也就是品味和判断力。
我也这么认为。
Tinder 前首席产品官 Ravi Mehta 给了一个干净的说法:做任何东西,一直都需要两样,品味(知道该做什么)和手艺(把它做出来的能力)。AI 把手艺商品化了,于是判断成了唯一的区分点。在他的框架里,天平已经大幅从”做”倒向了”决定”。做变得更容易,把人区分开来的是判断。
但这套”判断力是护城河”的说法里,有一个没人愿意去看的缺口:判断力到底从哪来?
它不会凭空冒出来。Polanyi 那句广为人知的话,“我们知道的,比我们能说出来的要多”,讲的正是这件事:判断是默会知识。你没法把它写成规则交给别人。
Dreyfus 的技能习得模型把这个机制讲得更精确:从新手到专家有五个阶段,那种和专家相连的、毫不费力的直觉,只在最顶上才出现。前提是你真的从下面那些阶段一级一级爬上来过:规则、分析、动手试错。这段反馈密集的攀爬没法跳过。(五阶段模型在学术上仍有争论,但这里真正要用的那个具体点,即专家直觉是练出来的、不是教出来的,并没有受到严肃质疑。)
把这两个事实合在一起,第二重压力就显出来了。我把它叫做冷启动悖论:判断力是在真实的约束、决策、后果和纠正中长出来的。不是靠为了干活而干活,而是靠做决定、交付,然后失败。
说清楚一点:不是所有的”做”都有同等的成长价值。把琐碎的活自动化没问题。陷阱在于,连那些反馈密集的决策也一并自动化了,也就是那些让新手亲身承受后果、并从中学习的决策。而这恰恰是许多”AI 优先”的工作流最积极地丢给 AI 的那一类,结果新人从第一天起就再也碰不到它,于是永远练不出判断所需的那种直觉。
这意味着”品味是护城河”这句话,暗地里只对一代人成立:那些在 AI 到来之前就已经把基本功练好了的人。这种真理没法往下传,它更像一笔幸存者的红利。
而就连这笔红利也在缩水。
到 2026 年,“品味不是护城河”这个论点从另一个方向也得到了支持。Shrivu Shankar 的文章”Taste Is Not a Moat”认为,护城河是你建一次、然后守上好几年的东西,而品味更像 alpha:一种会衰减的超额优势,只在 AI 的基线还在往上抬的这段时间里才有临时价值。平台甚至能把品味工业化。
TikTok 不需要任何一个用户有好品味。它只要收割几百万次的滑动、停留和划走,就能把品味按工业规模合成出来。Facebook 前产品设计副总裁 Julie Zhuo 说过类似的话:好品味说到底是在一个庞大的文化语料上做模式识别,这让它比我们愿意承认的更容易被复制。
在品味的上游,入口本身也在变窄。那篇被广泛引用的斯坦福论文”Canaries in the Coal Mine”用了美国最大的薪资数据集,发现在 AI 暴露程度高的职业里,22 到 25 岁人群的就业相对其他群体下降了大约百分之十六;对年轻软件开发者来说,这个数字接近百分之二十。在同样这些职业里,有经验的工作者几乎没受影响。冲击落得并不均匀,它正好打在阶梯最低的那一档上。亚特兰大联储 2026 年的一篇工作论文把这一点说得更直接,一路追溯到 Arrow 1962 年提出的”干中学”概念:填满入门岗位的那些任务,并不只是低价值的杂活。它们构成一套课程,工作者通过它一点点积累起人力资本,日后才更有产出。如果整套课程都被自动化了,谁还爬得到判断所在的那一层?
这里我得停一下,把另一面也公平地摆出来,否则我就成了那个只讲一面的人。因果证据远谈不上定论。耶鲁的 Budget Lab 用了更严谨的方法,发现就整个经济里 AI 暴露的职业平均而言,效应”接近于零,在统计上和零无法区分”。a16z 的一位合伙人把”AI 就业末日”称作幻想,不过他是有持仓的风险投资人,所以打个折看。关键的调和点在于:耶鲁量的是全经济的平均值,斯坦福盯的是某个特定的年轻群体,两者的口径不同,是互补而非互相矛盾。即便就业总量这件事还没有定论,那个训练机制本身已经足够清楚、足够严重,值得提前做打算。
把两面拼到一起,整张图就出来了:判断力此刻极其值钱(Mehta 没说错),而它的供给正在被切断(Shankar 也没说错)。更准确的说法不是护城河终将被填平,而是护城河还在,可上游那条给它供水的源头正在被切断。
这笔账算下来很冷峻:判断力正变得越来越贵,而练出它的机会,可能正变得越来越少。
出口:设计能练出判断力的回路,而不是把它耗光
很容易滑进那句熟悉的哀叹:AI 正在让我们变得没用。我不想停在那儿,也不打算劝你少用 AI。恰恰相反。
两重压力都是真的,但它们指向同一个动作:别再争论该不该用 AI,去设计一个反馈回路,让你越用它判断力越强,而不是越用它人越空。这不是一句警告,是一个方向。
怎么做?从我自己几个重度依赖 agent 的项目里,我抽出了三条规则。它们没有一条是反 AI 的。它们的目的,恰恰是让你能大量用 AI,同时把判断力留在自己这边。
第一,守住规则,而不是具体的活。你真正要握在手里的,不是某一行代码或某一段文字,而是它们之上的结构:组件之间的边界、什么算好、什么该被拒掉。我不写每一份产出,我写那个做决定的过滤器。我不亲手执行每一次调用,我定义什么可以放行、什么需要再看一眼。品味你没法整个写下来,Polanyi 早就说过,我们知道的比能说出来的多。但你可以把它的边界钉成规则和检查,搭出一个框架,去拦下那些你那点隐性的质量感本会拒掉的东西。这么做,它就能规模化,你的判断力也就留在了你身上,而不是在成千上万次小操作里一点点漏掉。这也是你永远不外包的那块地盘:“我们到底在解决什么问题,目标是什么?“这一步一旦交出去,下游的一切就都不真正属于你了。
第二,把系统建成你随时都看得懂的样子。理解债唯一的解法,就是一开始就别让它攒起来:让失败大声地暴露出来,而不是被各种 fallback 抹平;让数据里的缺口浮在表面,而不是藏在一副”很完整”的样子背后;让验证快到你真的会去做,而不是走个过场盖个”通过”。说到底,这是在用工程手段保住 EITL 里的那个 E:把回路建成会不断逼你去理解的样子,而不是放任你慢慢变成一个只是在场的人。
第三,在阶梯上造出新的台阶,然后自己爬上去。这是对前面那个问题的回答:判断力从哪来。它不来自做杂活,它来自你亲自在判断这一层上栽过跟头:明白一个设计为什么长成那个形状,明白一样看着可以简化的东西为什么其实动不得。你知道,是因为你自己撞过那堵墙。旧的第一级台阶,把一件小事做对,正在被拿掉,至少是变得没那么可靠了,而大多数团队还没建出替代品。那就去建一个:给新人划定范围,交给他们一块他们真正要负责的东西,让他们的失败留在明面上、而不是被 AI 吸收掉,让他们的决策可被 review,并在设计这一层放上一个反馈回路:设计、上线、出事、修复。这是在更高一层上重建师徒制,而不是任由旧系统悄悄把自己挪走。还有,不管你资历多深,也让自己经历一些这种过程:别把 AI 当成一个只会点头同意的神谕,把它当成一个解码器。给它一个低分辨率的种子,逼它展开成一个高分辨率的结构,再用你最怀疑的眼光去审视结果。方向盘自始至终都在你手里。
三条规则缩成一句:把”做”交出去,把判断留下来,然后亲自,在判断发生的那一层,把学费交掉。
参考文献
自动化与认知
- Bainbridge, L. (1983). Ironies of Automation. Automatica, 19(6), 775–779. https://doi.org/10.1016/0005-1098(83)90046-8
- Strauch, B. (2018). Ironies of Automation: Still Unresolved After All These Years. IEEE Transactions on Human-Machine Systems, 48(5), 419–433. https://doi.org/10.1109/THMS.2017.2732506
- Dreyfus, S. E. (2004). The Five-Stage Model of Adult Skill Acquisition. Bulletin of Science, Technology & Society, 24(3), 177–181. https://doi.org/10.1177/0270467604264992
- Polanyi, M. (1966). The Tacit Dimension. University of Chicago Press.
- Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google Effects on Memory. Science, 333(6043), 776–778. https://doi.org/10.1126/science.1207745
- Lee, H.-P., et al. (2025). The Impact of Generative AI on Critical Thinking. CHI ‘25. https://doi.org/10.1145/3706598.3713778
- Gerlich, M. (2025). AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking. Societies, 15(1), 6. https://doi.org/10.3390/soc15010006
范式与工程实践
- Karpathy, A. (2025). “+1 for context engineering over prompt engineering.” X post. https://x.com/karpathy/status/1937902205765607626
- Karpathy, A. (2025). Software Is Changing (Again). YC AI Startup School. https://www.ycombinator.com/library/MW-andrej-karpathy-software-is-changing-again
- Willison, S. (2025). Context Engineering. https://simonwillison.net/2025/jun/27/context-engineering/
- Willison, S. (2025). Designing Agentic Loops. https://simonwillison.net/2025/Sep/30/designing-agentic-loops/
- Osmani, A. (2025). Loop Engineering. https://addyosmani.com/blog/loop-engineering/
- Osmani, A. (2024). The 70% Problem: Hard Truths About AI-Assisted Coding. https://addyo.substack.com/p/the-70-problem-hard-truths-about
- Ronacher, A. (2026). The Final Bottleneck. https://lucumr.pocoo.org/2026/2/13/the-final-bottleneck/
- Sonar (2026). Data Reveals Critical Verification Gap in AI Coding. https://www.sonarsource.com/company/press-releases/sonar-data-reveals-critical-verification-gap-in-ai-coding/
- O’Reilly Radar (2026). Comprehension Debt: The Hidden Cost of AI-Generated Code. https://www.oreilly.com/radar/comprehension-debt-the-hidden-cost-of-ai-generated-code/
- Cognition (2025). Don’t Build Multi-Agents. https://cognition.ai/blog/dont-build-multi-agents
关于品味与判断力的争论
- Shankar, S. (2026). Taste Is Not a Moat. https://blog.sshh.io/p/taste-is-not-a-moat
- Zhuo, J. (2025). When AI Has Better Taste Than You. https://joulee.medium.com/when-ai-has-better-taste-than-you-0dc8e870db9a
- Mehta, R. (2025). The Shift from Craft to Judgement in the Age of AI (Atlassian interview). https://www.atlassian.com/blog/artificial-intelligence/shift-from-craft-to-judgement-ai
就业与工作形态
- Brynjolfsson, E., Chandar, B., & Chen, R. (2025). Canaries in the Coal Mine? Stanford Digital Economy Lab. https://digitaleconomy.stanford.edu/publication/canaries-in-the-coal-mine-six-facts-about-the-recent-employment-effects-of-artificial-intelligence/
- Afrouzi, H., et al. (2026). Automation, Learning, and Career Dynamics. Federal Reserve Bank of Atlanta, Working Paper 2026-61. https://www.atlantafed.org/research-and-data/publications/working-papers/2026/05/14/06-automation-learning-and-career-dynamics
- The Budget Lab at Yale (2025). AI Is Probably Not (Yet) the Reason for Labor Market Weakening. https://budgetlab.yale.edu/research/ai-probably-not-yet-reason-labor-market-weakening
- World Economic Forum (2025). The Future of Jobs Report 2025. https://www.weforum.org/publications/the-future-of-jobs-report-2025/
- Anthropic (2026). Anthropic Economic Index. https://www.anthropic.com/research/economic-index-march-2026-report
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!