AI的真相：一场没有炒作的专家访谈

前段时间，我接受了来自Capital Numbers项目经理Sanjay Singhania的书面采访，围绕AI在2026年的实际应用展开了深入讨论。

在这次对话中，我们探讨了"AI正在改变一切"的真实含义、哪些趋势真正产生价值、企业如何在3-6个月内实现可衡量的影响，以及技术决策中常见的误区，比如选择更大模型vs优化系统、RAG vs微调、智能体何时有用何时只是增加复杂性。我们还讨论了如何向非技术人员解释幻觉问题、成本在哪里让团队感到意外，以及我认为未来12个月将改进最多的领域。

英文原文已发布于Medium：链接

以下是访谈的中文版本。

关于受访者

Tao An（安涛）是北京飞沐网络科技有限公司的创始人兼CEO，这是一家自2021年起为政府和企业客户部署AI系统的解决方案公司。他目前正在完成夏威夷太平洋大学的人工智能硕士学位，并发表过关于LLM认知架构的研究论文。他的公司专注于文档智能、RAG系统和面向省级政府部门和国有企业的AI合同管理系统。

访谈问题与回答

Sanjay：当你听到"AI正在改变一切"时，今天这句话最准确的版本是什么？

Tao： 老实说？"AI在特定的枯燥任务上非常擅长，这些任务以前要花人类很多时间。"

关于AI要取代一切的叙事让人很疲惫。在为政府部门和企业部署这些系统三年后，我实际看到的是：AI真的很擅长处理文档、提取结构化数据、把事情路由到正确的人那里。但在高风险决策上？它很糟糕。

就拿我们的医疗政策平台来说。它可以在几秒钟内处理数千页的健康法规。但我们会让它直接做治疗建议吗？当然不会。医生还是要看输出结果并做最终决定。

变化是真实的。我们在加速，完成更多工作。就像从自行车升级到摩托车。你还是在掌舵，只是跑得更快了。

但有一个领域确实在快速改变：编程。 像Claude Code这样的工具和类似的agent SDK实现真的有效。不是完美，但足够好到改变人们写代码的方式。你描述想要什么，agent写出来、测试、调试。这是第一个真正的智能体行为make sense的主流用例。

而且竞争很激烈。中国的模型厂商全力投入coding能力。GLM-4、DeepSeek V4，都在争相构建更好的代码模型。为什么？因为不像大多数"AI智能体"炒作，coding agents有明确的反馈循环：代码要么能跑，要么不能跑。这让它们真正有用，而不只是炫酷的演示。

这就是真正的AI进步。专注的工具，把特定问题解决好，有可衡量的结果。

Sanjay：哪些AI趋势在实际部署中真正产生价值？

Tao： 我告诉你什么在生产环境中真正有效。

文档处理是不性感但有效的赢家。 我们把某省级政府部门的合同审查时间从3天缩短到4小时。AI准确率大概80%。这意味着专家可以专注于真正需要专业判断的20%，而不是花几个小时读样板文件。

正确实施的RAG系统。 我强调"正确实施"，因为我见过的大多数RAG实现都很糟糕。我们的政策分析系统能工作，是因为我们构建了13个专门的知识库。我们不是把文档扔进向量数据库就完事了。政府客户需要知道每个答案确切来自哪份文件。通用LLM做不到这点。

带AI组件的工作流自动化。 不是"智能体AI"，就是在特定步骤用LLM增强的确定性工作流。生成合同初稿、审批流程路由、合规检查。我们部署了一个印章管理系统。听起来很无聊对吧？但为客户每周节省了15小时。这才是真实的投资回报。没人写印章管理的文章，大家都想写聊天机器人。

什么不work？大多数聊天机器人项目。那些把工作流包装成"自主AI智能体"的营销炒作。那些让人想摔手机的客服机器人。

Sanjay：如果一家公司想在3-6个月内看到可衡量的成果，应该从哪里开始？

Tao： 从痛点开始。从让人难受的地方开始。

不要走进会议室问"我们能用AI做什么？"要问"什么流程让你的团队想辞职？"找到那些高频、重复、让人抓狂的事情。

然后在一个积极配合的团队试点。就一个真正想解决这个问题的团队。选最受当前流程折磨的那个团队。

用现成的工具。Claude 3.5 Sonnet、o1、DeepSeek V3，随便什么。别自己训练模型。别花六个月搞什么"AI战略"。直接解决问题。

我们的合同生成系统两个月就有回报了。我们从律师每天花3小时格式化文档开始。我们把重复劳动自动化了。技术很简单。价值来自解决真实痛点。

什么不管用？"我们来探索一下AI用例"（翻译：开无数会议，什么都不做）。在搞清楚要做什么之前就搭建基础设施。等待"完美"方案。

Sanjay：什么时候用"更大的模型" vs "优化系统架构"？

Tao： 先修管道，再换水泵。

我见过太多团队直接上o1，结果Claude Haiku加上好的prompt就能搞定。就像你不会开车就去买法拉利一样。

我的优先级：

优化提示词（2小时，成本为零）
修复数据和检索系统（2天时间，省几千块）
加推理结构（2周，还是比大模型便宜）
升级模型（最后手段，成本最高）

真实案例：我们做文档审查系统时，差点就去微调一个大模型。后来停下来重建了检索架构。更好的知识库分段、改进分块策略、混合搜索。质量一样，成本降低90%。

什么时候需要大模型？当你真的把其他办法都试完了。或者你处理的问题确实需要强大的推理能力。但这种情况可能只占10%。

Sanjay：什么时候应该选择检索（RAG）而不是训练或微调？

Tao： RAG应该是你的默认选择。认真的，直接用RAG。

需要微调的场景：

格式/风格一致性（你需要输出格式完全一致）
非常专业的领域语言，连Sonnet都搞不定的那种
绝对不能有检索延迟的场景

其他情况？用RAG就行。

我们为什么给政府客户用RAG：

政策文件经常更新。每周重新训练模型？疯了吧
他们需要审计轨迹。"这个结论来自哪个文件？"是法律要求
我们跨多个领域：医疗政策、采购规则、合同法
我们没预算每次法规变更都重新fine-tune大模型

最大的思维转变：RAG让模型更负责任。当政府官员问"系统为什么这么说？"我们能指向具体文档的第47页。微调过的模型只能给你一个答案和一个耸肩。

Sanjay：AI智能体什么时候真正有用，什么时候变成不必要的复杂性？

Tao： 首先，我们要明确什么是"智能体"。我说的是具有自主规划能力的系统，比如Claude的Agent SDK或类似框架，能够分解目标、动态选择工具、根据中间结果迭代调整。这跟工作流不一样。

工作流 vs 智能体：

工作流：预定义的步骤加条件分支。比如"如果是A类合同，用X模板，然后路由到Y部门"。这可以编码成决策树。
真正的智能体：动态规划、工具选择、根据发现的内容调整策略。它们把目标分解成子目标并迭代。

对于政府和企业部署，工作流几乎总是赢家：

可审计：你能追踪每个决策
确定性：相同输入，相同流程
可预测的失败：你知道它会在哪里出问题
合规友好：监管机构能理解决策树

我们为政府客户构建了几十个系统。它们都是复杂的工作流，不是智能体。合同生成、文档路由、合规检查。用户看起来"智能"，但底层是硬编码的逻辑。

真正的智能体有意义的场景：

编程任务：Claude Code、Cursor这类工具有效，因为代码有即时反馈。写代码→测试→修复→迭代。智能体能自我纠正。
探索性研究，无法预测路径
需要调整策略的复杂问题解决
"正确方法"取决于你发现什么的任务

不适合的场景（大多数情况）：

需要一致性的生产系统
需要审计轨迹的监管行业
调试智能体推理超过其价值的任何地方
没有明确验证方法的任务（不像代码要么能跑要么不能跑）

我花了几个月研究LLM的认知架构。内存管理、推理循环，所有这些。发了论文。我的结论？真正的智能体是迷人的研究。对于生产？从工作流开始。90%被称为"AI智能体"的东西应该是带好提示词的工作流。

编程领域是证明这个规则的例外。它能work是因为你有客观的成功标准和快速反馈循环。

Sanjay：如何向非技术利益相关者最诚实地解释幻觉？

Tao： "AI在做有根据的猜测。有时它猜错了，但听起来是对的。"

我告诉人们：想象一个读过图书馆所有书但没做笔记、记忆力很差的人。他们几乎可以就任何事情进行智能对话。有时他们很出色。有时他们会自信地告诉你斯德哥尔摩是挪威的首都，因为这听起来对。

这就是技术的工作方式。我们没法修复。

我们能做的：

使用RAG让答案来自实际文档
显示置信度分数（虽然这些也不可靠）
强制结构化输出而不是自由文本
让人类审查任何高风险的东西

对于我们的政府系统，我们从不在没有检索文档支持的情况下部署LLM。问题是"我们如何在它到达用户之前捕获幻觉？"

Sanjay：如果你能要求每个团队在启动AI之前做一件事，那会是什么？

Tao： 测试你的失败模式。认真测试它们。

每个人都优化快乐路径，AI工作得很好的时候。但AI以奇怪、不可预测的方式失败。它会自信地给你完全错误的法律建议。它会漏掉关键的合同条款。它会把紧急文档路由到错误的部门。

在我们启动任何东西之前：

我们故意给它模棱两可的输入
我们给它矛盾的信息
我们测试不应该发生但会发生的边缘情况
我们问"当这出错时会发生什么？"

大多数团队不这样做。然后当生产以他们从未想象过的方式失败时，他们会感到震惊。

成功的AI项目有最好的错误处理。它们假设会失败并为此做计划。

Sanjay：AI成本最常在哪里让团队感到意外？

Tao： 三个地方，持续如此：

API成本扩大规模。 你用$100/月做原型。很好！然后你部署到1,000个用户，突然变成$10,000/月。糟糕。解决方案：激进的缓存，对简单任务使用更小的模型，设置用户配额。我们对70%的查询使用Haiku，只对复杂的使用Sonnet或o1。

人工审查开销。 AI转移工作。你仍然需要律师审查合同，只是审查AI输出而不是空白页。如果你认为AI会减少人员，你错了。你仍然需要同样的人，做不同的工作。

模型周围的一切。 LLM可能是你工作的20%。其他80%：构建数据管道、设置检索、设计UI、监控性能、维护系统。团队看到API价格，认为那就是成本。错了。那只是开始。

隐藏成本：失败实验的机会成本。 大多数AI项目不会交付。为失败编预算。当项目不工作时快速终止。不要让沉没成本谬误让坏项目活着。

Sanjay：你期望在接下来的12个月里什么会改进最多：模型、工具、数据管道还是评估？

Tao： 评估和监控将有最大的飞跃，因为这是当前的瓶颈。

我们有强大的模型。我们有不错的工具。但我们仍然像2010年一样调试AI系统：手动审查输出，用感觉评估质量，对性能是否下降凭直觉。

这在规模上是不可持续的。

即将到来的：

真正有意义的自动化质量指标（不仅仅是困惑度分数）
在用户发现之前捕获问题的实时监控
系统化的评估框架，而不是精心挑选的例子
帮助我们理解模型为什么失败的工具

模型将逐步改进。Opus 5、o3，随便什么。但评估基础设施将释放我们已经拥有的价值。

你无法优化你无法测量的东西。现在，测量是原始的。这正在快速改变。

对于从业者：现在就投资于日志记录、监控、评估框架。这些基础设施比等待下一个模型发布更重要。

核心要点

AI加速特定任务，但不能替代判断。 编程智能体（Claude Code、Cursor）是例外，因为有即时反馈循环，真正的智能体行为才有效。
三件事真正产生投资回报： 80%准确率的文档处理胜过100%人工。正确实施的RAG加专门知识库提供问责性。带AI组件的工作流自动化解决真实痛点。
从痛点开始，不是从技术开始。 找一个高频、令人沮丧的流程。在积极配合的团队试点。用现成工具（Claude 3.5 Sonnet、o1、DeepSeek V3）。3-6个月内交付。
升级模型前先优化系统。 优先级：更好的提示词 → 改进检索 → 推理结构 → 更大模型。大多数问题不需要Opus，Haiku加好架构就能搞定。
RAG是企业的默认选择。 微调适合风格一致性。RAG在问责性、频繁更新和政府与企业需要的审计轨迹方面获胜。
生产环境中工作流胜过智能体。真正的智能体（有动态规划和工具选择）适合编程。其他场景？在特定步骤用LLM的确定性工作流。90%的"AI智能体"应该是工作流。
幻觉是技术特性，不是bug。 用RAG支持、置信度分数、结构化输出和人工审查管理它们。对于高风险决策，绝不在没有文档检索的情况下部署LLM。
启动前测试失败模式。 输入模棱两可的内容、矛盾信息和边缘情况。成功来自错误处理，不是模型质量。
隐藏成本让团队意外： API成本扩大100倍、不会消失的人工审查开销、以及占80%工作量的集成工作。大多数AI项目失败，为此编预算。
评估基础设施是下一个突破。 我们有强大的模型但测量能力原始。现在就投资监控、日志和系统评估。

最后的想法

AI炒作周期令人筋疲力尽。每周都有新的"突破"将"改变一切"。大部分都是噪音。

什么真正有效？无聊的、实用的应用。文档处理。信息提取。工作流自动化。把一件事做好的系统。

在AI方面成功的公司解决真实问题、测量结果、构建可持续系统。它们有最好的监控和错误处理，即使它们的模型没什么特别。

从小处开始。解决真实问题。测量一切。扩大有效的东西。

这就是现在关于AI的真相。