玩家会连点按钮,这是事实,不是异常。网络会慢,请求会超时,回包会乱序,重连后旧请求可能回来,这些也都是事实。客户端如果假设“玩家只点一次,网络马上返回”,商城、背包、领取、强化、抽卡、支付这类功能迟早会出问题。
请求队列和幂等设计的目标,是让客户端在弱网和重复操作下仍然保持状态清楚:哪些请求正在进行,哪些可以取消,哪些可以重试,哪些必须等待服务端确认,哪些重复回包应该忽略。
一次重复领取奖励
某活动里,玩家点击领取按钮后网络卡住,按钮仍然可点。玩家连续点了三次,客户端发出三个领取请求。服务端做了防重,只发一次奖励,但客户端收到了三个响应,其中两个失败。UI 先弹成功,又弹失败,玩家以为奖励出问题。
根因不是服务端没防重,而是客户端没有请求状态。领取按钮点击后应该进入 pending 状态,直到同一个请求完成或超时;重复点击要么无效,要么提示“处理中”。
每个关键请求要有请求 ID
经济相关请求最好带请求 ID 或操作 ID。比如领取奖励、购买商品、分解装备、强化、抽卡、支付,都应该能唯一标识一次操作。客户端和服务端都用这个 ID 做幂等。
请求 ID 的好处:
- 重试时不会产生多次操作。
- 回包回来后能匹配 UI 状态。
- 日志能串起请求和结果。
- 客服能查玩家到底点了哪一次。
没有请求 ID,弱网重试会变得危险。
按钮状态要绑定请求状态
按钮点击后,不要只在 UI 上临时禁用。按钮状态应该绑定业务请求状态:
- Idle:可点击。
- Pending:请求中,禁用或显示处理中。
- Success:刷新状态或关闭界面。
- Failed:提示错误并允许重试。
- Expired:请求过期,拉取最新状态。
这样切界面、重连、回包延迟时,UI 能恢复正确状态。否则玩家切出去再回来,按钮可能又变成可点,发出重复请求。
重试要分类型
不是所有请求都能自动重试。查询类请求可以重试,领取和购买类请求要带幂等 ID 后才能重试,支付类请求通常要查询订单状态而不是重新创建订单。
重试也要有退避,不要一失败就疯狂重发。弱网下无限重试会加重服务器和客户端队列压力。
回包乱序要处理
客户端可能先发请求 A,再发请求 B,但 B 的回包先回来。对状态敏感的系统,要么保证请求串行,要么在回包里带版本号。比如背包操作后,服务端返回背包版本,客户端只接受新版本,旧版本回包不能覆盖新状态。
乱序问题在弱网和重连后尤其常见。只靠“最后一个回包覆盖 UI”很危险。
上线前检查清单
- 领取、购买、抽卡、强化等关键请求是否有请求 ID。
- 按钮是否绑定业务 pending 状态。
- 切界面和重连后 pending 状态是否能恢复。
- 查询、领取、支付是否使用不同重试策略。
- 回包是否能按请求 ID 或版本号匹配。
- 超时后是否拉取权威状态,而不是直接判失败。
- 重复点击是否不会产生重复表现。
- 日志是否记录请求 ID、操作类型、结果和耗时。
结语
玩家连点不是异常,是日常。客户端要把重复点击、弱网、超时、重试和乱序当作正常场景设计。请求队列和幂等不是后端专属概念,客户端 UI 状态、日志和表现也要参与。经济相关操作尤其不能靠“应该只点一次”来保证安全。
进一步落地:从专项变成日常流程
这类客户端能力最怕只做一次专项。专项期间大家都重视,工具也会跑,等版本压力一上来,又回到靠人工检查。真正可靠的做法,是把它放进日常流程:构建时自动检查,开发包里可诊断,灰度时能上报,出问题后能复盘。只要还依赖某个人记得点某个工具,就迟早会漏。
落地时可以先选一个高频、低风险的入口做试点。不要一开始追求覆盖全项目。先让一个活动、一个战斗场景或一个核心 UI 完整走通:规则怎么定义,数据怎么采集,失败怎么提示,日志怎么导出,构建怎么拦截。试点稳定后,再扩展到更多模块。这样团队能看到收益,也能及时修正工具设计。
第二步是把状态暴露给测试和内容同学。很多客户端问题并不是程序不知道原则,而是非程序同学看不到系统状态。开发包里加一个诊断页,显示当前版本、资源批次、配置版本、关键开关、最近错误和当前模块状态,价值很高。测试可以截图反馈,策划可以确认配置是否命中,美术可以看到资源是否真的加载。信息透明以后,沟通成本会明显下降。
第三步是建立最低验收门槛。门槛不要太空,比如“体验顺畅”无法执行;要写成可检查项:低端机连续跑十分钟没有持续恶化,关键按钮重复点击不会重复提交,资源缺失时有 fallback,灰度包能导出最近日志,构建期能拦截明显错误。门槛具体,团队才知道什么时候可以合入。
指标、灰度和复盘模板
上线后至少要观察三类指标。第一类是成功率,例如资源加载成功率、请求成功率、同步成功率、页面打开成功率。第二类是耗时,例如首屏时间、加载阶段耗时、请求往返时间、解压校验时间。第三类是异常分布,例如失败集中在哪个设备、哪个渠道、哪个资源版本、哪个配置批次。只看总量很容易误判,分布才能指向真正原因。
灰度时要给每个批次打标。客户端日志和埋点里要能看到玩家命中的 App 版本、资源版本、配置版本、灰度组和渠道。出了问题以后,团队才能判断是新代码、新资源、新配置还是某个渠道包独有。没有批次信息,灰度只是心理安慰。
复盘模板也要固定下来:问题现象是什么,最早出现在哪个版本,影响哪些玩家,为什么测试没发现,为什么监控没提前报警,当前修复是什么,后续要补哪个检查点。每次复盘至少沉淀一个动作:新增构建校验、新增自动化用例、新增诊断字段、新增灰度指标或修改默认降级策略。否则同类问题会换个名字再来一次。
真正的干货不是把流程说复杂,而是让团队在下次遇到类似问题时少猜一步、少等一次复现、少发一个坏包。客户端工程越成熟,越依赖这些看起来朴素但每天都能发挥作用的机制。
最小可执行版本与常见反模式
如果团队资源有限,最小可执行版本可以只做三件事。第一,列出当前模块最关键的成功路径,并给每一步加上能定位问题的日志。第二,给失败路径设计明确反馈,不要让玩家看到空白、卡死或无响应。第三,把最容易遗漏的检查放进构建或测试流程,比如资源是否存在、配置是否可解析、关键 UI 是否能打开、核心请求是否有超时处理。
常见反模式也很明确。第一是把临时方案长期保留,活动结束后入口关了,但代码、资源、配置和埋点都还在。第二是只在开发机验证,忽略低端机、弱网、后台切回、磁盘不足和渠道差异。第三是只看成功路径,觉得“我点一遍没问题”就可以上线。第四是没有可观测性,线上坏了以后只能等玩家录屏。
更好的节奏是小步迭代:先把核心路径做稳,再加自动检查;先在开发包显示状态,再接灰度上报;先做人工清单,再逐步工具化。客户端工程不是一次设计完美,而是把每次踩坑转化成更清楚的边界和更可靠的流程。
验收口径
验收时不要只问“功能能不能用”,要问“坏的时候能不能定位”。一个合格的客户端实现,至少要能回答四个问题:当前状态来自哪里,失败发生在哪一步,用户看到什么反馈,研发能从日志里拿到什么证据。如果这四个问题答不上来,就说明功能还停留在能跑阶段,没有进入可运营、可维护阶段。
对测试来说,验收用例也要包含反向路径:重复点击、断网、资源缺失、配置为空、低端机运行、后台切回、版本不匹配。很多干货都藏在这些反向路径里。正常路径跑通只是起点,异常路径稳定才是真正能上线。
继续阅读
探索更多技术文章
浏览归档,发现更多关于系统设计、工具链和工程实践的内容。