深度 · 小互解读

AI 省了七百人工,Klarna 说质量下降了

企业 AI 客服已进入并购季,Klarna 和阿里 256 万次对话数据都指向同一个盲点:省了成本不等于解决了问题。
阅读约 9 分钟
速览
  • 2026 年 6 月前后,Salesforce 以约 36 亿美元收购 Fin,NICE 收购 Cognigy,Zendesk 收购 Forethought,Sierra 估值 100 亿美元,AI 客服批量进入企业核心预算。
  • Klarna 在 2024 年 2 月披露 AI 客服覆盖三分之二请求、相当于 700 名全职坐席,约一年后 CEO 承认过度盯成本导致「质量下降」。
  • 阿里巴巴对 256 万次对话的四周随机实验显示:AI 让识别速度快 8.2%、当场满意度升 1.2%,但 3 天内为同一问题再次联系的概率在统计上没动。
  • 现有 4 个主流指标(自动解决率/处理时长/人工升级率/每次成本)全从公司视角量化省钱,一个自信的错误答案也能让所有指标变好。
  • 作者 Lucius 提出新框架:支持质量 = 解决率 × 上下文 × 信任 × 学习 × 体验,以用户全旅程替代成本节省作为核心度量。
立场提示:本文出自 Lucius(@LuciusHQ,一家 AI 客服产品方)的产品观点长帖。文末五维框架,以及「每天 2 条以上更新、两个月 400+ 次学习」均为 Lucius 自有样本;Klarna/阿里/Nubank/Sinch 数据为第三方公开来源引用,Klarna 4000 万美元利润改善为其当年自估预测。
1行业信号

一个月,四笔大交易,AI 客服突然成了主赛道

2026 年 6 月 15 日,Salesforce 宣布以约 36 亿美元收购 AI 客服公司 Fin。同一时间段,NICE 收购 Cognigy,Zendesk 收购 Forethought,Sierra 完成新一轮融资、估值达到 100 亿美元。

客服,成了企业里第一批把 agentic AI(能自己跑流程、不只答一句的 AI)放进核心预算和正式生产环境的部门。一个月内四笔交易扎堆,是行业的结构性变化,不是某一家的产品发布。
为何值得看:把视线从「买了哪家」挪到「拿什么衡量」之后会发现,Klarna 用一年实践、阿里用 256 万次对话的随机实验,各自从不同角度撞上了同一个测量盲点,省了成本,不等于解决了问题。
原文开篇配图
原文开篇:2026 年的客服该长什么样(来源:Lucius / X)
2026.06.15
Salesforce 收购 Fin≈$3.6B
Fin 是面向企业的 AI 客服 agent,被并入 Salesforce 的客服产品线。
2026.06 前后
NICE 收购 Cognigy
Cognigy 是企业级对话式 AI 平台,补 NICE 的客服自动化能力。
2026.06 前后
Zendesk 收购 Forethought
Forethought 主打客服工单的 AI 自动化与分流。
2026.06 前后
Sierra 新一轮融资估值 $10B
Sierra 是面向企业的 AI 客服 agent 公司,本轮后估值达 100 亿美元。
2案例

Klarna:指标全绿,一年后 CEO 说「我们搞错了」

旧的考核表,曾经给第一代 AI 客服打出一张漂亮的成绩单。

2024 年 2 月,Klarna 公布 AI 助手上线第一个月处理了 230 万次对话,覆盖约三分之二的客服请求,工作量相当于 700 名全职坐席。平均解决时长从 11 分钟降到 2 分钟,公司预计当年利润因此改善约 4000 万美元。对一个管客服预算的人来说,这组数字好得没话说。

Klarna AI 客服成绩单
Klarna 2024 年 2 月公布的 AI 客服成绩单(来源:Lucius / X)
2024.02 · Klarna 数字
  • 2.3M 第一个月对话量
  • ≈700 折合全职坐席
  • 11→2 分钟,解决时长
  • $40M 预计利润改善(自估)
约一年后 · CEO 原话

公司「过度盯着成本」,最后落得「lower quality(质量更低)」。CEO Sebastian Siemiatkowski 重新强调起人工客服。

这两组陈述同时成立,并不矛盾。AI 确实处理了更多对话,确实压低了成本。问题出在「成功」这两个字怎么定义。

3机制 · 核心

现在的考核表,只在测公司省了多少钱

自动解决率、平均处理时长、人工升级率、每次对话成本,这四个主流指标全是从公司这一侧来量化的。它们能告诉你队列缩短了多少、人工躲掉了多少工单,却答不出用户有没有拿到对的答案、有没有被迫把同一件事再讲一遍、复杂问题有没有人接。

这里有个关键词,转移率(Deflection rate,又叫偏转率):AI 自己解决掉、不转给人工的对话占比,只要没传给人工就算「成功」。

打个比方

像把排队的人引到自助机前,就算「服务完成」,至于他到底有没有把事办成,没人记。

转移陷阱

当「转移率」变成目标,产品就会被推着做几个动作:把用户尽量留在自动化里、推迟转人工、把模糊的问题硬塞进已有答案、优先关掉好关的工单。每个动作都能让自动化指标更好看,每个动作也都可能让用户体验更糟。一个自信的错误答案,照样算「成功」。

1 2 3 4 5 6 7 转移陷阱 指标 ↑ 体验 ↓
1用户遇到一个复杂问题入口
2被推进自动化流程转移率 ↑
3被迫一遍遍重复信息响应数 ↑
4用户放弃,不再追问工单关闭 ↑
5系统记下一次「高效响应」解决率 ↑
6数字好看,公司加码自动化成本 ↓
7下一个用户进同样的圈循环

用户卡在自动化流程里反复重复自己,系统记下好几次「高效响应」。哪怕用户最后放弃,处理时长和工单量看着都不错。第一代 AI 客服把自动化做得很好,弱点是把公司省下的成本,当成了用户得到的结果。

4数据

阿里的 256 万次对话实验,给出了一个精确的数字裂口

在一项为期四周的随机实验里,阿里巴巴观察了 5940 名坐席、约 256 万次对话、39 万条用户评分。接入生成式 AI 之后,几项指标一起往好走。

阿里巴巴随机实验示意
阿里巴巴四周随机实验:5940 名坐席、256 万次对话(来源:Lucius / X)
5940
参与实验的坐席数
256万
统计的对话量
39万
用户评分条数
4 周
随机实验周期
识别问题时间
−8.2%
不满意率
−3.4%
用户满意度
+1.2%
对话时长
−1.1%
3 天内重复联系率
≈0
数字裂口

前四项都在改善,唯独最后一项,3 天内为同一问题再次联系客服的概率,在统计上不显著(没有可检测的变化)。而它,是这组里唯一一个测「问题到底有没有真正解决」的指标。

速度快了,用户当场感觉更好了,但回头再来的比例没降。快和满意只解释了体验的一部分,问题有没有走向结果,还得另算。

5框架

新框架:从「省了多少」改成「用户旅程走完没有」

如果企业客服要扛起用户的整段旅程,考核表也得覆盖整段旅程。Lucius 把支持质量拆成五个一起测的维度。

支持质量 = 解决率×上下文×信任×学习×体验

上一代看板数的是 AI 发了多少条回复、省了多少人工小时。这套框架要回答五个问题:用户拿到结果了吗?上下文跟上了吗?这次有没有消耗掉信任?这次让下次变好了吗?用户还愿意留在社区里吗?点开每一层,看旧体系测了什么、这层补了什么。

1
解决率
问题走向结果了吗?
+
旧体系测

转移率、处理时长,只看队列缩没缩。

这层补

任务成功率、首次联系解决率、重复联系率、工单重开率,以及有没有明确的负责人和下一步。

2
上下文
信息有没有跟上?
+
旧体系测

知识库有多大、塞了多少文档。

这层补

公司状态 + 用户状态的实时快照,内容是否当前、有界、可执行,而不是答得流利但答的是旧版本。

3
信任
这次消耗关系了吗?
+
旧体系测

基本不测,AI 用公司的名义回复,错一句也算公司许诺。

这层补

缺信息时会不会停下、会不会乱许诺、敏感问题能不能转私密流、涉及承诺退款合规时能不能留全证据链、出事能不能追责。

据 ITPro 引用 Sinch 的调研,74% 受访公司曾因治理失败回滚或关停客服 AI agent。主要原因:客户数据泄露 31%、幻觉或品牌风险 22%、缺乏可审计性 16%。公司在意的不是 AI 像不像人,而是能不能放心把服务交出去。

AI 客服治理与信任
AI 客服的治理与信任边界(来源:Lucius / X)
4
学习
这次让下次更好了吗?
+
旧体系测

不测,每次对话都是一次性的,处理完即结束。

这层补

不确定的问题有没有变成系统的新知识;用户这次踩的坑、卡点、最后的突破,有没有沉淀成下次能复用的经验。

5
体验
用户还愿意留下吗?
+
旧体系测

一个满意度分数,盖住了过程里发生的一切。

这层补

用户是在原场景里被理解,还是被踢去另一个入口、重新登录、填表、把问题再讲一遍。每一条公开回复,都在展示这个组织怎么对待开口求助的人。

一个例子:新手第一次照自己的想法做项目

在一个工具社区里,一个新手第一次照自己的想法做项目,想把工作流平台和低代码工具拼起来,做一个能填文章内容和接口凭证、点一下就把文章传到草稿箱的页面。项目卡在返回结构、API 字段、变量绑定、结果展示和 60 秒超时上,整条链路最后跑通了。结束后他让社区里的 AI 角色从第一句对话开始把整件事梳理成一条可复用的路径,含项目目标、整体架构、五个阶段、每个报错、当前状态和下一步。他说,这是第一次觉得能靠自己的想法做出东西,AI 像把整个过程记在脑子里、带着他往前走。只会去数据库里搜答案的旧式客服,撑不起这种端到端的陪练。

6解决率

真正的「解决」,从用户敢不敢开口就开始了

解决不是从「AI 答了没」开始,是从用户愿不愿意开口开始。

教育心理学里有个相关概念叫开口焦虑(Question-asking anxiety):当人觉得对面是权威的、正式的、可能评判自己的,就会开始审查自己的问题,会不会太蠢、会不会显得外行、会不会打扰别人。客服里也一样。一个过于正式冷冰的入口,会让用户先掂量自己「够不够格」提问;一个只给标准答案的官方窗口,会把很多早期问题憋回用户脑子里。等到真来求助,问题往往已经更复杂了。

① 让用户愿意开口
② 一开口就趁热回应
③ 给出明确的下一步

速度有用。用户刚开口,问题还新鲜、情绪还没发酵、缺的上下文最好补。如果系统这时把人甩去另一个入口、要求填表、让他等邮件,他下次可能就不问了。真正的解决,是系统给用户看到一条结果路径:谁负责、接下来发生什么、什么时候有更新、现在卡在哪。把用户转给另一个人、另一个渠道、另一张表单,只证明问题被挪到了别处,用户要是还不知道谁来处理、什么时候、进展到哪,问题就没往前走。

这正好呼应阿里实验那道裂口:AI 让当场感觉更好,重复联系率却没降,说明「答得快」不等于「答得对、并告诉你下一步」。

Lucius 衡量「解决率」的 8 个信号

任务成功率 · 首次联系解决率 · 重复联系率 · 工单重开率 · 解决耗时 · 升级成功率 · 负责人分配率 · 下一步是否清晰(带一点主观判断)。

7上下文 · 核心

上下文不是知识库,是两条同时在跑的实时轨道

上下文里装着两份同时在变的记录:公司状态和用户状态。缺任何一条,就会用旧答案回答新问题。

上下文的两条记录
上下文的两条记录:公司状态与用户状态(来源:Lucius / X)
公司状态
随时在变的那条轨
当前功能版本 会变
定价 会变
政策 会变
审批与对外口径 会变
用户状态
这个人此刻走到哪
他是谁
之前问过什么
收到过哪些承诺
当前进展到哪一步
这通对话此刻该调用哪些信息
公司状态 + 用户状态,两条轨同时跑,缺一条就会用旧答案回答新问题

很多公司以知识库的体量为傲。生产环境逼出一个更难的问题:这些内容还成立吗?功能在变、价格在变、政策在变、员工在改口径、用户拿到新承诺。文档一旦落后,AI 照样能答,只是会用流利的语言给出旧答案。上下文有用,前提是它当前、有界、可执行。

这里要分清一个词,工作记忆(Working memory):AI 处理这个工单过程中实时记的账,收集到了什么、执行了哪些操作、当前卡在哪步。

打个比方

它不是病历本(知识库),而是「这台手术现在做到第几步」的实时手术记录。

Nubank 案例

在 Nubank 服务超过 1 亿用户的客服系统里,指令、流程、宏、工具描述、工作记忆被当成各自独立、各自带版本的组件来管理。工作记忆记下已收集的信息、工具执行结果和当前处理到哪一步。低置信度的问题转给人工时,整段对话上下文跟着一起走,用户不用自己当「上下文快递员」。这比往提示词里硬塞更多文档,更接近能上生产的上下文管理:系统既要知道当前事实,也要知道任务当前的状态。

8维护节奏

每月更新一次知识库,中间的变化就用旧答案回答了

同一份上下文,维护节奏不同,AI 用旧答案回答新问题的概率就不同。

传统知识库维护卡在这里:很多团队过去一个月才更新一次文档,更新完还不能保证 AI 检索到对的那条,于是把文档切成越来越小的碎片。切碎不一定让检索更准,反而制造出更多相似碎片,让系统更难判断哪条还成立。

月度人工更新 两个月 · 2~3 次 旧答案期 旧答案期 问题驱动更新 两个月 · 400+ 次 新口径 · 例外 · 用户承诺 · 产品变化,几乎实时进系统
Lucius 问题驱动的知识更新
Lucius 把不确定的问题路由给团队,回一条消息就完成一次知识更新(来源:Lucius / X)
2 条/天+
接入后平均知识新增或更新频率(Lucius 自有样本)
400+ 次
头两个月知识学习事件中位数(Lucius 自有样本)

团队不用手动维护文档,Lucius 把不确定的问题路由给他们,他们像回消息一样作答,系统就学会了。反过来看,如果这 400 次更新被压缩成一个月一次的人工整理,中间那一大批新口径、例外、用户承诺和产品变化,就在空档期里消失了。一个够不到这些上下文的系统,只能用旧答案回答新问题。

9趋势

需求已经醒了,能交付的公司还没跟上

市场看见了方向,迁移却没完成。这个落差,就是先动手的人的窗口。

80%
Gartner 预测 2029 年 AI agent 无需人工即可解决的常见客服问题占比,同时降本约 30%
95%+
McKinsey 成熟度模型里,最成熟的公司能用数字与 AI 渠道处理的服务请求占比
78%
Adobe 2026 报告:预计未来 18 个月让 agentic AI 直接处理客服的组织占比
16%
同一报告里目前已在全组织部署的占比,和 78% 的差额就是机会窗口

多数公司还卡在旧系统里:文档散落各处、历史对话埋在频道里、客服流程和社区现场脱节、人工交接没有证据链、AI 回复缺少边界和记忆。很多人把 AI 客服的问题误读成「不够像真人」,于是反复打磨语气、人设、头像、问候,可用户在意的其实是另一回事:系统到底懂没懂这个问题。据 Lucius 称,在用其系统的客服社区里,用户主动要求转人工的比例可以低于 0.1%(Lucius 自有样本)。

先动手者改写预期

一旦用户见过「我一开口,系统就知道我是谁、不用重复、记得我上次卡在哪、该叫人时会叫人」这种体验,旧式客服会像拨号上网一样过时。还在用上一代聊天机器人拖住用户的公司,迟早得补课,而那时要面对的已经不是技术采购问题,是信任修复问题。

第一代 AI 客服围绕公司而建,下一代会围绕用户的整段旅程而建。Lucius / X · 2026 年 6 月 29 日
ℹ︎来源:Lucius(@LuciusHQ)2026 年 6 月 29 日 X 长帖《What Customer Support Should Look Like in 2026》。文中五维框架与「每天 2 条以上更新、两个月 400+ 次学习」为 Lucius 自有样本;Klarna、阿里巴巴、Nubank、Sinch 数据为第三方公开来源引用,Klarna 4000 万美元利润改善为其当年自估预测。本文为可视化中文解读,数据口径与原文一致。