长线在线游戏的服务器架构,最怕把一个看似局部的玩法能力做成隐形全局规则。好友列表显示在线、最近组队推荐、观战入口、公会成员状态、私聊可达性,都依赖在线状态。但玩家可能设置隐身、屏蔽某人、对陌生人隐藏、对公会可见、对队友可见。若在线状态服务只提供“玩家在线或离线”,各业务自己判断隐私,很快会出现同一个玩家在好友列表离线、私聊却显示在线的矛盾。社交在线隐私架构要把状态事实和可见投影分开。
这篇文章不把问题抽象成空泛原则,而是从真实线上协作出发,拆解服务边界、状态模型、失败场景、上线验收和团队协作。文章里的结构适合中大型项目直接拿去做评审清单,也适合小团队在系统还没复杂前提前埋好边界。
典型场景
好友列表显示在线、最近组队推荐、观战入口、公会成员状态、私聊可达性,都依赖在线状态。但玩家可能设置隐身、屏蔽某人、对陌生人隐藏、对公会可见、对队友可见。若在线状态服务只提供“玩家在线或离线”,各业务自己判断隐私,很快会出现同一个玩家在好友列表离线、私聊却显示在线的矛盾。社交在线隐私架构要把状态事实和可见投影分开。
架构示意
flowchart TD
S["Session State"] --> P["Presence Core"]
U["User Privacy Settings"] --> V["Visibility Evaluator"]
B["Block Lists"] --> V
F["Friend Graph"] --> V
P --> V
V --> O["Presence Projection"]
O --> C["Clients and Services"]
在线事实和可见投影分离
Presence Core 记录事实:sessionId、shard、scene、lastActiveAt、device、status。Visibility Evaluator 根据好友关系、屏蔽关系、隐私设置、玩法关系和请求方生成投影。投影可能是 online、offline、busy、hidden、joinable、spectatable。不同请求方看到的结果可以不同,但都来自同一事实和规则版本。
隐身不是离线
隐身玩家仍然在线,仍可能接收系统消息、匹配邀请或队伍通知,只是对部分人显示离线。服务端不能把隐身实现成直接删除在线状态,否则队伍、支付、客服和安全系统都会误判。隐身是可见性规则,不是会话事实。内部服务读取事实状态时也要区分用途,避免把隐身泄露给不该知道的业务。
屏蔽关系优先级要明确
玩家 A 屏蔽 B、B 是 A 的好友、同在公会、同在队伍,这些关系可能冲突。架构上要定义优先级。通常安全和屏蔽优先于普通社交可见,队伍战斗中的必要状态可以例外显示有限信息。所有例外都应写进规则表,不要由单个业务服务自行突破屏蔽。
跨服在线状态要延迟容忍
跨服好友或公会成员在线状态不可能永远实时。投影服务可以允许几秒延迟,但要标记 freshness。客户端看到的“刚刚在线”比错误显示“可加入”更好。对于加入房间、观战、邀请这类动作,必须在动作时重新校验事实状态和权限,不能只依赖列表缓存。
隐私规则变化要主动刷新投影
玩家修改隐私设置、拉黑好友、退出公会、切换隐身时,相关投影缓存需要失效。可以按玩家维度发布 privacyChanged 事件,让好友列表、邀请服务、观战服务刷新。不要等缓存自然过期,否则玩家刚拉黑某人,对方仍可能看到在线状态。
关键设计取舍
| 维度 | 架构处理 | 主要价值 |
|---|---|---|
| 事实状态 | 真实会话和活跃信息 | 内部判断 |
| 可见投影 | 针对请求方裁剪结果 | 好友列表 |
| 隐私规则 | 隐身、屏蔽、可加入策略 | 玩家设置 |
| 动作再校验 | 邀请、观战、加入前复核 | 防缓存误用 |
落地检查清单
- Presence Core 不直接暴露给普通业务
- 所有展示接口走 Visibility Evaluator
- 隐身作为可见性规则而非离线事实
- 屏蔽、队伍、公会等规则优先级明确
- 邀请和观战动作必须二次校验
推荐数据模型与接口契约
落地时,不要急着写一组临时接口。建议先把核心对象、状态版本和幂等键定义清楚。每个请求都应带 requestId、operator 或 playerId、scenario、policyVersion,写操作还要带 mutationId 或 commandId。服务端返回结果时,不只返回成功失败,还应返回 reason、currentState、nextAllowedAction 和 traceId。这样客户端、客服和运营工具都能用同一套解释口径。
数据模型要区分事实、投影和审计。事实表保存权威状态,投影表服务高频查询,审计流水解释状态为什么变化。很多线上疑难问题,并不是状态错了,而是团队不知道状态为什么变成这样。只要审计流水能串起请求来源、规则版本、前后状态和影响对象,事故复盘就会轻很多。
接口契约还要明确哪些错误可重试,哪些错误必须提示玩家,哪些错误需要进入人工队列。比如参数非法、权限不足、规则阻断不应重试;依赖短暂不可用可以重试;状态半提交则应该返回处理中并让客户端查询结果。把这些写进契约,比在客户端和服务端分别猜测要可靠。
故障案例:隐身玩家被观战入口暴露
某竞技游戏支持好友观战。玩家开启隐身后,好友列表显示离线,但观战服务仍从战斗服读取在线对局,展示“正在排位,可观战”。玩家投诉隐私泄露。修复后,观战入口不再直接读战斗在线事实,而是请求 Presence Projection,只有 viewer 对 target 有 spectatable 权限时才展示。战斗服仍记录真实状态,但不承担隐私判断。
这个案例的共性是:最初的实现只满足了主路径,却没有给边界状态、重复请求、权限变化和人工排查留下空间。架构改造不只是加一层服务,更重要的是把“谁有权决定”“状态何时提交”“失败后如何解释”写成系统规则。否则下一次玩法扩展时,同类问题还会换个名字出现。
灰度发布与回滚策略
这类架构不适合全量一次切换。第一阶段可以旁路计算,只记录新旧逻辑差异,不影响玩家结果。第二阶段选择低风险区服、内部账号或非核心玩法开启新逻辑,同时保留旧逻辑查询能力。第三阶段才逐步扩大到高价值链路。每个阶段都要有退出条件,例如错误码突增、人工工单上升、状态差异超过阈值、核心链路耗时增加。
回滚策略要保护已经进入新状态的请求。不要简单关闭开关后让处理中任务无人接管。正确做法是停止新请求进入,继续处理存量状态,保留查询和补偿 worker,确认队列清空或人工接管后再完全关闭。对于涉及玩家资产、资格、权限和奖励的系统,回滚本身也应写审计流水。
监控与值班视角
仪表盘至少要有四类指标:请求量和成功率、状态分布、失败原因、人工介入量。只看接口 p95 延迟不够,很多架构问题表现为状态卡住、重复提交、降级比例异常或客服查询量上升。值班人员需要能按玩家、房间、玩法实例、业务单号查询完整链路,而不是在多个服务日志里手工拼。
告警也要分层。核心提交失败、状态机出现非法转换、审计流水缺失、幂等冲突应立即告警;普通降级、重试升高、低优先级队列积压可以进入观察。告警文案要写清楚影响玩家体验还是只影响后台统计。模糊告警会让值班疲劳,最终真正事故也没人重视。
压测与验收重点
压测不能只跑顺滑路径。要模拟弱网重试、重复点击、服务超时、消息乱序、运行时实例重启、运营改配置、玩家中途退出、权限在请求中变化等情况。每个场景结束后,不只看接口是否返回 200,还要检查最终状态是否唯一、审计是否完整、补偿队列是否可解释。
验收时建议让客户端、服务器、策划、运营和客服一起走一遍异常样例。客户端确认提示文案和交互状态,策划确认规则符合设计,运营确认后台能操作,客服确认能解释给玩家,服务器确认数据能闭环。真正稳定的架构,不是只有研发能看懂,而是每个角色都能在自己的工具里看到可信答案。
常见误区
第一个误区是把主路径跑通当成架构完成。线上问题大多来自重试、半提交、权限变化、配置切换和人工干预。第二个误区是把状态判断放在客户端,服务端只做执行。客户端可以优化体验,但权威判断必须在服务端。第三个误区是忽略审计和查询工具,等事故发生后才临时补日志。
还有一个更隐蔽的误区:为了快速上线,把规则写在多个业务服务里。短期看少了一层抽象,长期会让同一个玩家在不同入口看到不同结果。只要规则会被多个场景复用,就应该收敛到一个明确 owner,并通过版本化策略对外提供结果。
数据保留与复盘
数据保留要按业务价值设计。高价值资产、资格、处罚、权限和跨服关系通常需要保留更久;纯表现状态可以较早归档。归档不是删除一切,而是保留摘要、版本、关键状态和审计哈希。这样既控制成本,也能在玩家申诉、运营复盘或经济对账时还原事实。
复盘时不要只问“这次谁写错了”。更应该问:系统为什么允许错误扩大,监控为什么没有提前发现,工具为什么不能快速解释,回滚为什么不够顺畅。把这些答案沉淀回架构,下一次类似问题才不会重复发生。
团队协作边界
这类系统通常横跨多个团队。服务端负责权威状态和契约,客户端负责表现和失败反馈,策划负责规则语义,运营负责灰度和人工干预,客服负责解释玩家问题。任何一个角色缺失,架构都会在上线后暴露短板。设计评审时建议把“谁能改规则、谁能查状态、谁能修复、谁承担误操作”写清楚。
如果系统需要人工操作,后台必须产品化。临时 SQL、临时脚本、口头审批和截图确认都不应该成为长期流程。人工入口越强,审计越要完整;影响范围越大,预览和二次确认越不能省。
补充一点:隐私规则的测试用例要覆盖互为好友、单向屏蔽、同队伍、同公会、观战、陌生人搜索等组合。组合关系越多,越不能靠人工随便点几下验收。
总结
在线隐私的关键是承认“真实在线”和“别人能看到什么”不是一回事。把事实状态和可见投影分离,社交系统才能既好用又尊重玩家边界。
继续阅读
探索更多技术文章
浏览归档,发现更多关于系统设计、工具链和工程实践的内容。