专家访谈

AI的真相:一场没有炒作的专家访谈

2026年1月30日

前段时间,我接受了来自Capital Numbers项目经理Sanjay Singhania的书面采访,围绕AI在2026年的实际应用展开了深入讨论。

The Truth About AI Right Now: An Expert Interview Without the Hype

前段时间,我接受了来自Capital Numbers项目经理Sanjay Singhania的书面采访,围绕AI在2026年的实际应用展开了深入讨论。

在这次对话中,我们探讨了"AI正在改变一切"的真实含义、哪些趋势真正产生价值、企业如何在3-6个月内实现可衡量的影响,以及技术决策中常见的误区,比如选择更大模型vs优化系统、RAG vs微调、智能体何时有用何时只是增加复杂性。我们还讨论了如何向非技术人员解释幻觉问题、成本在哪里让团队感到意外,以及我认为未来12个月将改进最多的领域。

英文原文已发布于Medium:链接

以下是访谈的中文版本。

关于受访者

Tao An(安涛)是北京飞沐网络科技有限公司的创始人兼CEO,这是一家自2021年起为政府和企业客户部署AI系统的解决方案公司。他目前正在完成夏威夷太平洋大学的人工智能硕士学位,并发表过关于LLM认知架构的研究论文。他的公司专注于文档智能、RAG系统和面向省级政府部门和国有企业的AI合同管理系统。

访谈问题与回答

Sanjay:当你听到"AI正在改变一切"时,今天这句话最准确的版本是什么?

Tao: 老实说?"AI在特定的枯燥任务上非常擅长,这些任务以前要花人类很多时间。"

关于AI要取代一切的叙事让人很疲惫。在为政府部门和企业部署这些系统三年后,我实际看到的是:AI真的很擅长处理文档、提取结构化数据、把事情路由到正确的人那里。但在高风险决策上?它很糟糕。

就拿我们的医疗政策平台来说。它可以在几秒钟内处理数千页的健康法规。但我们会让它直接做治疗建议吗?当然不会。医生还是要看输出结果并做最终决定。

变化是真实的。我们在加速,完成更多工作。就像从自行车升级到摩托车。你还是在掌舵,只是跑得更快了。

但有一个领域确实在快速改变:编程。 像Claude Code这样的工具和类似的agent SDK实现真的有效。不是完美,但足够好到改变人们写代码的方式。你描述想要什么,agent写出来、测试、调试。这是第一个真正的智能体行为make sense的主流用例。

而且竞争很激烈。中国的模型厂商全力投入coding能力。GLM-4、DeepSeek V4,都在争相构建更好的代码模型。为什么?因为不像大多数"AI智能体"炒作,coding agents有明确的反馈循环:代码要么能跑,要么不能跑。这让它们真正有用,而不只是炫酷的演示。

这就是真正的AI进步。专注的工具,把特定问题解决好,有可衡量的结果。

Sanjay:哪些AI趋势在实际部署中真正产生价值?

Tao: 我告诉你什么在生产环境中真正有效。

文档处理是不性感但有效的赢家。 我们把某省级政府部门的合同审查时间从3天缩短到4小时。AI准确率大概80%。这意味着专家可以专注于真正需要专业判断的20%,而不是花几个小时读样板文件。

正确实施的RAG系统。 我强调"正确实施",因为我见过的大多数RAG实现都很糟糕。我们的政策分析系统能工作,是因为我们构建了13个专门的知识库。我们不是把文档扔进向量数据库就完事了。政府客户需要知道每个答案确切来自哪份文件。通用LLM做不到这点。

带AI组件的工作流自动化。 不是"智能体AI",就是在特定步骤用LLM增强的确定性工作流。生成合同初稿、审批流程路由、合规检查。我们部署了一个印章管理系统。听起来很无聊对吧?但为客户每周节省了15小时。这才是真实的投资回报。没人写印章管理的文章,大家都想写聊天机器人。

什么不work?大多数聊天机器人项目。那些把工作流包装成"自主AI智能体"的营销炒作。那些让人想摔手机的客服机器人。

Sanjay:如果一家公司想在3-6个月内看到可衡量的成果,应该从哪里开始?

Tao: 从痛点开始。从让人难受的地方开始。

不要走进会议室问"我们能用AI做什么?"要问"什么流程让你的团队想辞职?"找到那些高频、重复、让人抓狂的事情。

然后在一个积极配合的团队试点。就一个真正想解决这个问题的团队。选最受当前流程折磨的那个团队。

用现成的工具。Claude 3.5 Sonnet、o1、DeepSeek V3,随便什么。别自己训练模型。别花六个月搞什么"AI战略"。直接解决问题。

我们的合同生成系统两个月就有回报了。我们从律师每天花3小时格式化文档开始。我们把重复劳动自动化了。技术很简单。价值来自解决真实痛点。

什么不管用?"我们来探索一下AI用例"(翻译:开无数会议,什么都不做)。在搞清楚要做什么之前就搭建基础设施。等待"完美"方案。

Sanjay:什么时候用"更大的模型" vs "优化系统架构"?

Tao: 先修管道,再换水泵。

我见过太多团队直接上o1,结果Claude Haiku加上好的prompt就能搞定。就像你不会开车就去买法拉利一样。

我的优先级:

  1. 优化提示词(2小时,成本为零)

  2. 修复数据和检索系统(2天时间,省几千块)

  3. 加推理结构(2周,还是比大模型便宜)

  4. 升级模型(最后手段,成本最高)

真实案例:我们做文档审查系统时,差点就去微调一个大模型。后来停下来重建了检索架构。更好的知识库分段、改进分块策略、混合搜索。质量一样,成本降低90%。

什么时候需要大模型?当你真的把其他办法都试完了。或者你处理的问题确实需要强大的推理能力。但这种情况可能只占10%。

Sanjay:什么时候应该选择检索(RAG)而不是训练或微调?

Tao: RAG应该是你的默认选择。认真的,直接用RAG。

需要微调的场景:

  • 格式/风格一致性(你需要输出格式完全一致)

  • 非常专业的领域语言,连Sonnet都搞不定的那种

  • 绝对不能有检索延迟的场景

其他情况?用RAG就行。

我们为什么给政府客户用RAG:

  • 政策文件经常更新。每周重新训练模型?疯了吧

  • 他们需要审计轨迹。"这个结论来自哪个文件?"是法律要求

  • 我们跨多个领域:医疗政策、采购规则、合同法

  • 我们没预算每次法规变更都重新fine-tune大模型

最大的思维转变:RAG让模型更负责任。当政府官员问"系统为什么这么说?"我们能指向具体文档的第47页。微调过的模型只能给你一个答案和一个耸肩。

Sanjay:AI智能体什么时候真正有用,什么时候变成不必要的复杂性?

Tao: 首先,我们要明确什么是"智能体"。我说的是具有自主规划能力的系统,比如Claude的Agent SDK或类似框架,能够分解目标、动态选择工具、根据中间结果迭代调整。这跟工作流不一样。

工作流​ vs ​智能体:

  • 工作流​:预定义的步骤加条件分支。比如"如果是A类合同,用X模板,然后路由到Y部门"。这可以编码成决策树。

  • 真正的智能体​:动态规划、工具选择、根据发现的内容调整策略。它们把目标分解成子目标并迭代。

对于政府和企业部署,​工作流几乎总是赢家​:

  • 可审计:你能追踪每个决策

  • 确定性:相同输入,相同流程

  • 可预测的失败:你知道它会在哪里出问题

  • 合规友好:监管机构能理解决策树

我们为政府客户构建了几十个系统。它们都是复杂的工作流,不是智能体。合同生成、文档路由、合规检查。用户看起来"智能",但底层是硬编码的逻辑。

真正的智能体有意义的场景:

  • 编程任务​:Claude Code、Cursor这类工具有效,因为代码有即时反馈。写代码→测试→修复→迭代。智能体能自我纠正。

  • 探索性研究,无法预测路径

  • 需要调整策略的复杂问题解决

  • "正确方法"取决于你发现什么的任务

不适合的场景(大多数情况):

  • 需要一致性的生产系统

  • 需要审计轨迹的监管行业

  • 调试智能体推理超过其价值的任何地方

  • 没有明确验证方法的任务(不像代码要么能跑要么不能跑)

我花了几个月研究LLM的认知架构。内存管理、推理循环,所有这些。发了论文。我的结论?真正的智能体是迷人的研究。对于生产?从工作流开始。90%被称为"AI智能体"的东西应该是带好提示词的工作流。

编程领域是证明这个规则的例外。它能work是因为你有客观的成功标准和快速反馈循环。

Sanjay:如何向非技术利益相关者最诚实地解释幻觉?

Tao: "AI在做有根据的猜测。有时它猜错了,但听起来是对的。"

我告诉人们:想象一个读过图书馆所有书但没做笔记、记忆力很差的人。他们几乎可以就任何事情进行智能对话。有时他们很出色。有时他们会自信地告诉你斯德哥尔摩是挪威的首都,因为这听起来对。

这就是技术的工作方式。我们没法修复。

我们能做的:

  • 使用RAG让答案来自实际文档

  • 显示置信度分数(虽然这些也不可靠)

  • 强制结构化输出而不是自由文本

  • 让人类审查任何高风险的东西

对于我们的政府系统,我们从不在没有检索文档支持的情况下部署LLM。问题是"我们如何在它到达用户之前捕获幻觉?"

Sanjay:如果你能要求每个团队在启动AI之前做一件事,那会是什么?

Tao: 测试你的失败模式。认真测试它们。

每个人都优化快乐路径,AI工作得很好的时候。但AI以奇怪、不可预测的方式失败。它会自信地给你完全错误的法律建议。它会漏掉关键的合同条款。它会把紧急文档路由到错误的部门。

在我们启动任何东西之前:

  • 我们故意给它模棱两可的输入

  • 我们给它矛盾的信息

  • 我们测试不应该发生但会发生的边缘情况

  • 我们问"当这出错时会发生什么?"

大多数团队不这样做。然后当生产以他们从未想象过的方式失败时,他们会感到震惊。

成功的AI项目有最好的错误处理。它们假设会失败并为此做计划。

Sanjay:AI成本最常在哪里让团队感到意外?

Tao: 三个地方,持续如此:

API成本扩大规模。 你用$100/月做原型。很好!然后你部署到1,000个用户,突然变成$10,000/月。糟糕。解决方案:激进的缓存,对简单任务使用更小的模型,设置用户配额。我们对70%的查询使用Haiku,只对复杂的使用Sonnet或o1。

人工审查开销。 AI转移工作。你仍然需要律师审查合同,只是审查AI输出而不是空白页。如果你认为AI会减少人员,你错了。你仍然需要同样的人,做不同的工作。

模型周围的一切。 LLM可能是你工作的20%。其他80%:构建数据管道、设置检索、设计UI、监控性能、维护系统。团队看到API价格,认为那就是成本。错了。那只是开始。

隐藏成本:失败实验的机会成本。 大多数AI项目不会交付。为失败编预算。当项目不工作时快速终止。不要让沉没成本谬误让坏项目活着。

Sanjay:你期望在接下来的12个月里什么会改进最多:模型、工具、数据管道还是评估?

Tao: 评估和监控将有最大的飞跃,因为这是当前的瓶颈。

我们有强大的模型。我们有不错的工具。但我们仍然像2010年一样调试AI系统:手动审查输出,用感觉评估质量,对性能是否下降凭直觉。

这在规模上是不可持续的。

即将到来的:

  • 真正有意义的自动化质量指标(不仅仅是困惑度分数)

  • 在用户发现之前捕获问题的实时监控

  • 系统化的评估框架,而不是精心挑选的例子

  • 帮助我们理解模型为什么失败的工具

模型将逐步改进。Opus 5、o3,随便什么。但评估基础设施将释放我们已经拥有的价值。

你无法优化你无法测量的东西。现在,测量是原始的。这正在快速改变。

对于从业者:现在就投资于日志记录、监控、评估框架。这些基础设施比等待下一个模型发布更重要。

核心要点

  • AI加速特定任务,但不能替代判断。 编程智能体(Claude Code、Cursor)是例外,因为有即时反馈循环,真正的智能体行为才有效。

  • 三件事真正产生投资回报: 80%准确率的文档处理胜过100%人工。正确实施的RAG加专门知识库提供问责性。带AI组件的工作流自动化解决真实痛点。

  • 从痛点开始,不是从技术开始。 找一个高频、令人沮丧的流程。在积极配合的团队试点。用现成工具(Claude 3.5 Sonnet、o1、DeepSeek V3)。3-6个月内交付。

  • 升级模型前先优化系统。 优先级:更好的提示词 → 改进检索 → 推理结构 → 更大模型。大多数问题不需要Opus,Haiku加好架构就能搞定。

  • RAG是企业的默认选择。 微调适合风格一致性。RAG在问责性、频繁更新和政府与企业需要的审计轨迹方面获胜。

  • 生产环境中工作流胜过智能体​。真正的智能体(有动态规划和工具选择)适合编程。其他场景?在特定步骤用LLM的确定性工作流。90%的"AI智能体"应该是工作流。

  • 幻觉是技术特性,不是bug。 用RAG支持、置信度分数、结构化输出和人工审查管理它们。对于高风险决策,绝不在没有文档检索的情况下部署LLM。

  • 启动前测试失败模式。 输入模棱两可的内容、矛盾信息和边缘情况。成功来自错误处理,不是模型质量。

  • 隐藏成本让团队意外: API成本扩大100倍、不会消失的人工审查开销、以及占80%工作量的集成工作。大多数AI项目失败,为此编预算。

  • 评估基础设施是下一个突破。 我们有强大的模型但测量能力原始。现在就投资监控、日志和系统评估。

最后的想法

AI炒作周期令人筋疲力尽。每周都有新的"突破"将"改变一切"。大部分都是噪音。

什么真正有效?无聊的、实用的应用。文档处理。信息提取。工作流自动化。把一件事做好的系统。

在AI方面成功的公司解决真实问题、测量结果、构建可持续系统。它们有最好的监控和错误处理,即使它们的模型没什么特别。

从小处开始。解决真实问题。测量一切。扩大有效的东西。

这就是现在关于AI的真相。