AI 省了七百人工,Klarna 说质量下降了
- 2026 年 6 月前后,Salesforce 以约 36 亿美元收购 Fin,NICE 收购 Cognigy,Zendesk 收购 Forethought,Sierra 估值 100 亿美元,AI 客服批量进入企业核心预算。
- Klarna 在 2024 年 2 月披露 AI 客服覆盖三分之二请求、相当于 700 名全职坐席,约一年后 CEO 承认过度盯成本导致「质量下降」。
- 阿里巴巴对 256 万次对话的四周随机实验显示:AI 让识别速度快 8.2%、当场满意度升 1.2%,但 3 天内为同一问题再次联系的概率在统计上没动。
- 现有 4 个主流指标(自动解决率/处理时长/人工升级率/每次成本)全从公司视角量化省钱,一个自信的错误答案也能让所有指标变好。
- 作者 Lucius 提出新框架:支持质量 = 解决率 × 上下文 × 信任 × 学习 × 体验,以用户全旅程替代成本节省作为核心度量。
一个月,四笔大交易,AI 客服突然成了主赛道
2026 年 6 月 15 日,Salesforce 宣布以约 36 亿美元收购 AI 客服公司 Fin。同一时间段,NICE 收购 Cognigy,Zendesk 收购 Forethought,Sierra 完成新一轮融资、估值达到 100 亿美元。

Klarna:指标全绿,一年后 CEO 说「我们搞错了」
旧的考核表,曾经给第一代 AI 客服打出一张漂亮的成绩单。
2024 年 2 月,Klarna 公布 AI 助手上线第一个月处理了 230 万次对话,覆盖约三分之二的客服请求,工作量相当于 700 名全职坐席。平均解决时长从 11 分钟降到 2 分钟,公司预计当年利润因此改善约 4000 万美元。对一个管客服预算的人来说,这组数字好得没话说。

- 2.3M 第一个月对话量
- ≈700 折合全职坐席
- 11→2 分钟,解决时长
- $40M 预计利润改善(自估)
公司「过度盯着成本」,最后落得「lower quality(质量更低)」。CEO Sebastian Siemiatkowski 重新强调起人工客服。
这两组陈述同时成立,并不矛盾。AI 确实处理了更多对话,确实压低了成本。问题出在「成功」这两个字怎么定义。
现在的考核表,只在测公司省了多少钱
自动解决率、平均处理时长、人工升级率、每次对话成本,这四个主流指标全是从公司这一侧来量化的。它们能告诉你队列缩短了多少、人工躲掉了多少工单,却答不出用户有没有拿到对的答案、有没有被迫把同一件事再讲一遍、复杂问题有没有人接。
这里有个关键词,转移率(Deflection rate,又叫偏转率):AI 自己解决掉、不转给人工的对话占比,只要没传给人工就算「成功」。
像把排队的人引到自助机前,就算「服务完成」,至于他到底有没有把事办成,没人记。
当「转移率」变成目标,产品就会被推着做几个动作:把用户尽量留在自动化里、推迟转人工、把模糊的问题硬塞进已有答案、优先关掉好关的工单。每个动作都能让自动化指标更好看,每个动作也都可能让用户体验更糟。一个自信的错误答案,照样算「成功」。
用户卡在自动化流程里反复重复自己,系统记下好几次「高效响应」。哪怕用户最后放弃,处理时长和工单量看着都不错。第一代 AI 客服把自动化做得很好,弱点是把公司省下的成本,当成了用户得到的结果。
阿里的 256 万次对话实验,给出了一个精确的数字裂口
在一项为期四周的随机实验里,阿里巴巴观察了 5940 名坐席、约 256 万次对话、39 万条用户评分。接入生成式 AI 之后,几项指标一起往好走。

前四项都在改善,唯独最后一项,3 天内为同一问题再次联系客服的概率,在统计上不显著(没有可检测的变化)。而它,是这组里唯一一个测「问题到底有没有真正解决」的指标。
速度快了,用户当场感觉更好了,但回头再来的比例没降。快和满意只解释了体验的一部分,问题有没有走向结果,还得另算。
新框架:从「省了多少」改成「用户旅程走完没有」
如果企业客服要扛起用户的整段旅程,考核表也得覆盖整段旅程。Lucius 把支持质量拆成五个一起测的维度。
上一代看板数的是 AI 发了多少条回复、省了多少人工小时。这套框架要回答五个问题:用户拿到结果了吗?上下文跟上了吗?这次有没有消耗掉信任?这次让下次变好了吗?用户还愿意留在社区里吗?点开每一层,看旧体系测了什么、这层补了什么。
1解决率问题走向结果了吗?+
转移率、处理时长,只看队列缩没缩。
任务成功率、首次联系解决率、重复联系率、工单重开率,以及有没有明确的负责人和下一步。
2上下文信息有没有跟上?+
知识库有多大、塞了多少文档。
公司状态 + 用户状态的实时快照,内容是否当前、有界、可执行,而不是答得流利但答的是旧版本。
3信任这次消耗关系了吗?+
基本不测,AI 用公司的名义回复,错一句也算公司许诺。
缺信息时会不会停下、会不会乱许诺、敏感问题能不能转私密流、涉及承诺退款合规时能不能留全证据链、出事能不能追责。
据 ITPro 引用 Sinch 的调研,74% 受访公司曾因治理失败回滚或关停客服 AI agent。主要原因:客户数据泄露 31%、幻觉或品牌风险 22%、缺乏可审计性 16%。公司在意的不是 AI 像不像人,而是能不能放心把服务交出去。

4学习这次让下次更好了吗?+
不测,每次对话都是一次性的,处理完即结束。
不确定的问题有没有变成系统的新知识;用户这次踩的坑、卡点、最后的突破,有没有沉淀成下次能复用的经验。
5体验用户还愿意留下吗?+
一个满意度分数,盖住了过程里发生的一切。
用户是在原场景里被理解,还是被踢去另一个入口、重新登录、填表、把问题再讲一遍。每一条公开回复,都在展示这个组织怎么对待开口求助的人。
一个例子:新手第一次照自己的想法做项目
在一个工具社区里,一个新手第一次照自己的想法做项目,想把工作流平台和低代码工具拼起来,做一个能填文章内容和接口凭证、点一下就把文章传到草稿箱的页面。项目卡在返回结构、API 字段、变量绑定、结果展示和 60 秒超时上,整条链路最后跑通了。结束后他让社区里的 AI 角色从第一句对话开始把整件事梳理成一条可复用的路径,含项目目标、整体架构、五个阶段、每个报错、当前状态和下一步。他说,这是第一次觉得能靠自己的想法做出东西,AI 像把整个过程记在脑子里、带着他往前走。只会去数据库里搜答案的旧式客服,撑不起这种端到端的陪练。
真正的「解决」,从用户敢不敢开口就开始了
解决不是从「AI 答了没」开始,是从用户愿不愿意开口开始。
教育心理学里有个相关概念叫开口焦虑(Question-asking anxiety):当人觉得对面是权威的、正式的、可能评判自己的,就会开始审查自己的问题,会不会太蠢、会不会显得外行、会不会打扰别人。客服里也一样。一个过于正式冷冰的入口,会让用户先掂量自己「够不够格」提问;一个只给标准答案的官方窗口,会把很多早期问题憋回用户脑子里。等到真来求助,问题往往已经更复杂了。
速度有用。用户刚开口,问题还新鲜、情绪还没发酵、缺的上下文最好补。如果系统这时把人甩去另一个入口、要求填表、让他等邮件,他下次可能就不问了。真正的解决,是系统给用户看到一条结果路径:谁负责、接下来发生什么、什么时候有更新、现在卡在哪。把用户转给另一个人、另一个渠道、另一张表单,只证明问题被挪到了别处,用户要是还不知道谁来处理、什么时候、进展到哪,问题就没往前走。
这正好呼应阿里实验那道裂口:AI 让当场感觉更好,重复联系率却没降,说明「答得快」不等于「答得对、并告诉你下一步」。
Lucius 衡量「解决率」的 8 个信号
任务成功率 · 首次联系解决率 · 重复联系率 · 工单重开率 · 解决耗时 · 升级成功率 · 负责人分配率 · 下一步是否清晰(带一点主观判断)。
上下文不是知识库,是两条同时在跑的实时轨道
上下文里装着两份同时在变的记录:公司状态和用户状态。缺任何一条,就会用旧答案回答新问题。

很多公司以知识库的体量为傲。生产环境逼出一个更难的问题:这些内容还成立吗?功能在变、价格在变、政策在变、员工在改口径、用户拿到新承诺。文档一旦落后,AI 照样能答,只是会用流利的语言给出旧答案。上下文有用,前提是它当前、有界、可执行。
这里要分清一个词,工作记忆(Working memory):AI 处理这个工单过程中实时记的账,收集到了什么、执行了哪些操作、当前卡在哪步。
它不是病历本(知识库),而是「这台手术现在做到第几步」的实时手术记录。
在 Nubank 服务超过 1 亿用户的客服系统里,指令、流程、宏、工具描述、工作记忆被当成各自独立、各自带版本的组件来管理。工作记忆记下已收集的信息、工具执行结果和当前处理到哪一步。低置信度的问题转给人工时,整段对话上下文跟着一起走,用户不用自己当「上下文快递员」。这比往提示词里硬塞更多文档,更接近能上生产的上下文管理:系统既要知道当前事实,也要知道任务当前的状态。
每月更新一次知识库,中间的变化就用旧答案回答了
同一份上下文,维护节奏不同,AI 用旧答案回答新问题的概率就不同。
传统知识库维护卡在这里:很多团队过去一个月才更新一次文档,更新完还不能保证 AI 检索到对的那条,于是把文档切成越来越小的碎片。切碎不一定让检索更准,反而制造出更多相似碎片,让系统更难判断哪条还成立。

团队不用手动维护文档,Lucius 把不确定的问题路由给他们,他们像回消息一样作答,系统就学会了。反过来看,如果这 400 次更新被压缩成一个月一次的人工整理,中间那一大批新口径、例外、用户承诺和产品变化,就在空档期里消失了。一个够不到这些上下文的系统,只能用旧答案回答新问题。
需求已经醒了,能交付的公司还没跟上
市场看见了方向,迁移却没完成。这个落差,就是先动手的人的窗口。
多数公司还卡在旧系统里:文档散落各处、历史对话埋在频道里、客服流程和社区现场脱节、人工交接没有证据链、AI 回复缺少边界和记忆。很多人把 AI 客服的问题误读成「不够像真人」,于是反复打磨语气、人设、头像、问候,可用户在意的其实是另一回事:系统到底懂没懂这个问题。据 Lucius 称,在用其系统的客服社区里,用户主动要求转人工的比例可以低于 0.1%(Lucius 自有样本)。
一旦用户见过「我一开口,系统就知道我是谁、不用重复、记得我上次卡在哪、该叫人时会叫人」这种体验,旧式客服会像拨号上网一样过时。还在用上一代聊天机器人拖住用户的公司,迟早得补课,而那时要面对的已经不是技术采购问题,是信任修复问题。
第一代 AI 客服围绕公司而建,下一代会围绕用户的整段旅程而建。Lucius / X · 2026 年 6 月 29 日