技术文章 | 风萧古道 - 勤学苦练，年复一年

游戏服务器开发经验（五）应对复杂需求

技术文章游戏服务器开发经验

什么是复杂需求？在本文中，“复杂需求”指的是，需求涉及到非常多的模块；每个模块都有多层抽象重载；状态变更逻辑复杂，边界情况众多，策划无法给出统一处理的方案；要在已有的功能代码上进行开发，避免造轮子。需要在满足新需求的同时，保证之前的功能正常。或者更简单的判断方式是，你看着代码思考的时候，发现脑容量上下文无法处理所有可预料的情况时，就是复杂需求。为什么我们往往分不清复杂需求？由于需求本身足够复杂，策划也是人，AI也有上下文限制，大家都无法将需求一次性分析完整因此策划说的话和写的内容，可能是寥寥数语。因为很多细节策划在自己没有玩游戏，并且自己没看代码的情况下，确实无法思考具体的需求细节；策划那边也会每天思考，脑暴，过了一段时间又有新的想法。程序这边收到的需求，可能只是完整需求的冰山一角。直到需求慢慢地补全，在主玩法周围慢慢补全其他的需求的时候，才会发现这个需求的规模。也就是说，当需求大到“脑容量上下文无法处理所有可预料的情况时”，我们就要有警报在脑袋里开始轰鸣，是复杂需求来了。为什么复杂需求难以开发？横跨多个模块，一个人是无法同时了解多个模块的业务逻辑的，一个模块之前的业务逻辑不一定适配当前的新业务，需要仔细评估是复用还是造轮子；策划的需求可能只有一个预期的方向，但是这个方向上的边界情况可能非常复杂，需要程序来整理可能的边界，并且要做出取舍；策划提出的需求可能是一个很特殊的方案，但是在大型项目中可能有不同的实现方式。如果贸然按照策划的思路实现，可能会带来副作用。因此需要耐心研读已有代码，领会之前的代码结构设计。实现需求并不是终点，实现需求并提供一种可复用的机制，才是开发的正确标准。一旦过早“为了实现而实现”，会导致代码非常僵硬，并且与框架层代码脱节而难以处理各种情况。如何应对复杂需求在需求没有完全出来的时候，可以写一些“为了展示效果而临时开发”的代码，帮助策划在游戏内体验，寻找设计方向；但是这些代码自己心里一定要有数，只是临时实现。后续要争取时间进行优化；需求慢慢完备之后，需要花时间站在更高的角度上分析需求涉及到的模块，分析需求中的主线脉络，对应于代码里的设计模式。而不是头痛医头，脚痛医脚，把大需求拆成小需求后，针对各个小需求自己实现自己的部分，到最后无法统一管理；如果能够站在更高的角度上切分需求和涉及到的模块，就能针对各个模块去了解用到的部分的代码。我们并不需要完整领悟别的模块的代码，但是自己需求里用到的部分一定要心里有数如果我们无法正确切分需求，则需要寻找需求涉及到的模块的负责人，询问他们相关需求的实现是什么样的。这里要记得，一定要说出完整的需求链路，而非单纯询问某个API。一定要让其他模块的负责人知道合适的上下文，让他们的判断来帮助我们更好的正确实现需求。如果发现有一块代码怎么写都非常别扭，需要处理各种边界的时候，说明代码里有一部分逻辑是可以整理的。如果需求真的很复杂，如果已经走了弯路，如果已经到了身心俱疲的情况，请务必向上反馈，争取时间。精神burnout带来的伤害是客观存在的，要好好保护自己的身心健康。打好每一行日志。我们无法理解所有已有模块，但是我们可以靠日志了解运行的时序。记得自测。一定要自测。哪怕是用GM指令自己构建一个环境也要自测。在复杂需求中，只有日志和游戏里的自测能够让我们确认自己的思路是否正确。在策划自己也拿不准情况的时候，很多边界，如果不会带来严重后果，不用着急去问策划，而是可以自己先记下来。当功能开发差不多了，可以在游戏里体验时，再告诉策划，让策划边体验边思考这些边界应该如何处理。如何使用AI帮忙让AI帮忙分析你的需求。请记住，这里一定要把客观的需求告诉AI，而非把自己的方案告诉AI。在过去的很长一段时间里，AI无法完整领会需求，AI写的代码无法编译通过等。但是现在，opus4.6已经能够客观冷静分析需求。AI能翻阅整个项目的代码，去搜索其中它感兴趣的代码，它可以在代码仓库的角落里找到很多有用的功能，也会分析已有项目的设计模式。大多数情况下，它做的比人类更好。让AI与你进行头脑风暴。AI不知道的是你的需求具体要实现什么。即使已将需求文档提交给它，也会产生误解。另外，它偶尔会选择“看起来最合适的方案”。这个时候就要与它进行多轮的头脑风暴，告诉它我们具体的需求和期望。让AI帮你整理你不懂的代码模块。很多设计模式可能会将代码写的很松散，继承好几层，导致代码很难整体阅读。让AI整理你感兴趣的代码和已有的需求是如何实现的，可以加速我们对需求的理解。应对复杂需求时的心态如果需求已经复杂到你无法一次性想通所有场景和边界时，说明这个需求一定是多个模块互相组合的。在这种情况下，最大的敌人是完美主义，是希望“一次全做对”的想法。不要害怕返工，不要觉得自己写的东西被删了是浪费时间。相反，正是因为有了这些歪路，才让我们找到了正确的方向。真正需要恪守的规则是，我们最后提交的方案一定要是我们能做到的最好的方案。考虑不到那些需求的边界是很正常的事。不要因为没考虑到而自责，而是把它当做一件习以为常的事，就像家里的猫咪又去扒拉沙发，不小心把饭碗打翻一样，无法避免。不要害怕bug很多的情况。当然，前提是你已经了解需求的主要脉络，在代码里做好了兜底处理，尽可能保证不要内存泄漏，要是真的崩了只崩自己的这个需求。bug多并不直接意味着人不行，也有可能是需求确实复杂，涉及模块确实众多，很多边界来不及考虑。接受“人脑无法处理所有情况”的现实。如果你要思考需求，请你打开代码，对着已有代码进行思考。不要在没有代码的时候思考需求如何实现。未雨绸缪每一个正在服役的项目框架，一定有自己特有的兜底机制。在实现需求的时候，也许他们要的很急，你也应该多想想能否用得上那些兜底机制。框架里一定有一些非常常用的模块，那些模块一定要多了解，多看代码。特别注意：放下评价代码的标尺，切换为“它这么写是为了解决什么？”“我能用这块逻辑吗？”的思考方式。验证方式是下一次看到某个已看过的模块的时候，在脑海里能回忆起粗略的细节，而非“它写的还可以”“我看不懂，好累啊” 在需求刚宣讲的那天，一般会有一小段时间，你既知道策划想要什么，又知道大概的模块有哪些，而且此时还没有定具体的实现细节。这个时候就是最佳的分析已有模块的时机。千万不要错过这个窗口期。你的工作不等于你的价值复杂需求让人最难过的一点是，随着需求会一点一点的明确，之前写的代码会不停地被删掉，仿佛他们之前不应该出现，与此同时，随着需求的清晰，需求的边界也慢慢清晰，我们会慢慢发现之前的思考都是错误的。谁喜欢犯错呢？谁都不喜欢犯错。但是复杂需求就是这样，有一种让所有人不得不犯错的能力。即使你知道项目里各个模块的业务，你也很难一次两次就把功能做完善。更有可能的是，策划体验完之后，过来说，“我们对刷新/每次/减半/随机的理解好像不太一样” 如果你之前写了太多简单的增删改查、抽奖发奖，做的技能都是具体的某段逻辑，不需要考虑那些边界的话，可能很难想象一件事不断地挂在胸口，仔细一思考全是边界，看着需求截止日不断来临，而代码里还有很多临时实现。那一种绝望的感觉。但是，这种绝望并非我们程序一人所致。要慢慢接受这种“胸口挂着事情”的感觉，接受“需求复杂到无法光靠大脑想明白”，而是要打开代码和AI大模型进行分析；在需求截止日之前提前预警，如实描述当前遇到的问题，需要什么样的帮助。最后，工作只是工作。你的工作不等于你的价值。 ——《伯恩斯新情绪疗法》我最近总有一种感觉，我坐在电脑前，看着显示器里的代码。我感觉我的眼睛和显示器之间，似乎有一堵无形的空气墙，或者是透明保护罩。我开始看很多项目里常用的底层框架和模块，静下心来思考当时是为了解决什么问题。承认自己的渺小与无知我曾以为大厂的程序员一定上知天文下通地理。但最让我惊艳的是他们的思考方式。我总是过早的希望得到一个结论，然后去实施。但是在大厂程序员和AI大模型眼里，需求是需要一遍遍确认的；已有代码是需要认真研读的；边界是肯定想不全的，但是要提前想；已有的代码是要复用的。他们很多决策都是依赖已有代码，他们是看着代码进行分析的。他们也许记不住某个具体函数名，一次性无法完全在心里想全所有业务边界，但却可以巧妙的通过合理的代码设计来管理热点内存数据，保证内存不泄露，正确申请、使用和释放。我们本来就不可能理解所有模块的代码，就算是AI大模型也有上下文的限制。但是我们可以通过其他模块的配合，和自己的模块的干净维护，来保证需求的健壮，在不同的边界上执行已有的处理方式。（至少不会crash）渺小和无知是我们人类的常态，渺小和无知并不可耻，可耻的是知道自己无知而放弃了学习，可耻的是不愿意选择正确的方式继续推进开发。

Linux家用服务器维护指南

技术文章 DIY折腾

2025年，对绝大部分普通人来说，真的没必要折腾家用服务器。除了安装好的那一刻感到的快乐之外，剩下的就只有吃灰和浪费电而已。但是这却是一次难得的和Linux亲密接触的机会。如果你感兴趣，那么玩玩也不错。标题中“家用服务器”指的是什么本文中探讨的家用服务器，指的是购买的小型主机设备（Intel NUC系列等），自己安装操作系统进行使用的服务器。不包括群晖等成品NAS设备。用户购买小型服务器，在上面安装Linux系统，然后自己安装各类服务，自己管理端口，内存，磁盘，自己进行运维。一般人的家用服务器无非用来做两件事：照片存储下载4K超高清无删减电影程序员可能会多做几件事：部署自己的git私有仓库定时任务执行自定义脚本在线电子书（有些技术类电子书真的只有影印版pdf，临时想看还要下载，很麻烦）极客玩家可能会多做几件事：部署游戏服务器私服（幻兽帕鲁等）养宠物的朋友可能会多做几件事：将家用摄像头的录像上传到自己的服务器永久保存以下是各种建议建议一：一定要用Docker进行部署既然选择了自己维护，那么你大概率下载到的都是开源的软件。而这些软件的开发人员的想法是不一样的。有的程序员喜欢通过全局变量的方式控制软件，有的程序员只建议用特定的方式启动软件等等。而且安装的方式也不一定是规范的。比如有的软件允许你用root安装，在没有经验的时候你可能会这么做，而有的软件在文档里强烈建议你为它的软件建立一个用户组和用户。你可能这个软件跟着文档安装在了/usr/local里，但是下一个软件可能放在/home/用户下。而这会让未来的你一头雾水，毕竟这台服务器一般不会连上去使用。而docker提供了一种更优雅的方案，每个软件都运行在自己的容器中，容器里有自己独立的变量和目录。然后你可以在docker-compose.yml中指定容器内端口对应的服务器端口，容器内目录对应的服务器目录等。另外，如果你运行的软件都需要用数据库，那么你可以用容器安装一个数据库，比如MySQL8，然后定义一个数据库的容器network。其他软件的容器可以访问这个network。比如，我的gitea的docker-compose.yml内容如下： services: gitea: image: docker.gitea.com/gitea:1.24.0 container_name: gitea restart: always ports: - "13300:3000" - "13022:22" volumes: - /data/gitea/data:/data - /etc/timezone:/etc/timezone:ro - /etc/localtime:/etc/localtime:ro environment: - USER_UID=1000 - USER_GID=1000 - GITEA__database__DB_TYPE=mysql - GITEA__database__HOST=mysql8 - GITEA__database__PASSWD=gitea123 - GITEA__database__NAME=gitea - GITEA__database__USER=gitea networks: - mysql8_database_network networks: mysql8_database_network: external: true 而我的MySQL8容器的docker-compose.yml内容如下： services: mysql8: image: mysql:8....

游戏服务器开发经验（四）避免写Bug的习惯、技巧和心态

技术文章游戏服务器开发经验

编写此文的目的，并不是教大家如何写出没有Bug的代码。没有Bug是不可能的。话虽如此，但是我们完全可以在开发阶段，避免一些低级的Bug。笔者在游戏上线后维护服务器的时间较长，我发现线上所谓的严重问题，真正出问题的代码就是那么几行（一般不会超过10行）。也就是说，这些容易出问题的部分，并不是系统中复杂的部分。因此，我们一定有办法在事前对其进行规避。我认为避免Bug需要我们有良好的开发习惯，和冷静耐心的心态。于此之上，再通过经验加以一些技巧，就可以避免很多大小Bug了。其中，我认为最重要的是习惯。好的习惯不会让你多花太多时间，但是能尽早发现问题。习惯和技巧自测自测，即代码编写结束后，在本地或开发环境中运行，然后通过白盒或者黑盒的方式测试自己开发的代码。在本地开发时，务必拥有一个开发环境，这个开发环境可以测试自己正在开发的、还未合并到主干的代码。有了这个环境，你就可以快速地将自己新开发的内容运行起来。如果可以Debug查看每一行的结果就更好了。自测的意义在于，你可以成为自己代码最早的测试人员，验证自己的思路是否真的被正确开发。自测能给你一个机会，让你执行自己的代码，并且能让以下容易遗漏和犯错的部分得到快速验证：仔细检查if语句的逻辑判断是否正确检查玩家数据状态是否正确改变注销后再登录，即可检查玩家数据是否正确写入如果你的环境不允许你打断点，或者一些情况比较复杂（多线程环境或有延时函数等），你可以在本地多打一些debug级别的日志，查看数据的处理过程。 Q&A 我等客户端同学开发完，联调的时候再一起测不行吗？可以，但是在联调时你的工作重心已经到了其他地方，你会忽略或遗忘当时写这段代码的一些想法。而这些想法很有可能就是容易出错的地方。另外客户端同学一般只会测自己感兴趣或者担心出问题的部分，他们关注的部分不一定和你一致。要是我都写正确了，自测不就是浪费时间吗？不。我们人类一定会犯错，即使我们逻辑写对了，也有可能会把诸如道具产销日志等一些不影响功能，但是运营、策划需要的部分遗漏，也有可能会忘记打warning日志或者error日志，或者是发现一些变量名不合适，或者是重新回看的时候发现代码结构冗余臃肿。这些都是值得修改优化的点。如果我们不自测，那么可能未来就没有时间拿来安排自测了。服务器开发逻辑的时候，没有现成可用的客户端包进行测试，自测很麻烦。是的，很麻烦，但是并非毫无办法，接下来会介绍一些自测的技巧。自测的技巧对于简单的客户端和服务器交互的接口，可以想办法在客户端手动输入协议号及协议结构，发送指定的协议数据，然后在服务器打Debug断点进行检查。对于玩家数据经常变化的新功能，可以在数据变化推送的时候打印debug日志，通过日志来确认玩家数据正确性。对于情况比较复杂的功能，可以先写一些私下用的一次性gm，先模拟复杂的情况，然后再进行目标功能的测试。、总之，只要你想测到你的功能，在环境允许的情况下，一定有办法测得到。变量及函数命名技巧表示某事的次数不要用Times，而是用Count。原因是Times容易和Time混淆，无法一眼区分到底是次数还是时间表示时间长度不要用Time，而是用Duration。因为“时间”这个概念本身就有歧义，可以表示某个时刻，也可以表示某一段时间。建议用Time甚至Timestamp，TimeMillis，TimeSeconds来具体指代某个时刻的时间戳，用duration来指代时间段。如果针对某个对象要设置某个属性的值，并且设置时还要对其有特殊逻辑，并且项目中已经装了lombok依赖，则最好不要再命名setXXX()，因为这样会重写lombok的@Setter省略的函数，并且容易让阅读者忽略这个函数内有特殊逻辑。不要使用setXXX()，但是你可以针对这个业务逻辑，定义一个更贴合业务的逻辑，比如设置玩家积分时，同时更新排行榜上的玩家数据，则setScore()会让人误以为这个函数只是给对象里的score属性赋值，而如果是叫updateScore()或updateScoreAndRank()，则可以直观的知道，这个函数要更新积分，并且可能会更新排行榜。代码分段代码一定要分段写。印象中有一些书籍或者公司里的开发规范中约定，每个函数不要超过多少多少行。我想也许是担心大家把函数写得太长，可读性变差而设的规则。但是，我认为真正的问题在于可读性。在某些特定情况下，一些函数可能来不及优化，不得不写得很长，但我们至少可以通过分段和注释，对代码进行梳理。一个好的代码分段结构，大概如下： //单行注释A：介绍接下来一小段要执行什么内容 aaaaa; bbbbb; if (c) { ddd; ..... } //单行注释B：介绍接下来一小段要执行什么内容 aaaaa; bbbbb; if (c) { ddd; ..... } //... 注意，在两段代码之间，有一个空行。这个空行很重要。他代表着上面这段代码的含义是最上面单行注释A，而下一段代码的含义是单行注释B。如此，阅读者可以很轻松地理解这两段代码到底分别执行了什么逻辑。分段的技巧在理清楚需求的业务逻辑后，你可以先写一个空函数，然后再函数内只写注释，不写逻辑。 public void reward() { //判断功能开启 //判断活动开启 //判断玩家传参 //判断玩家领取状态 //扣除玩家消耗 //修改状态 //发放奖励 //推送奖励弹窗 //返回成功给客户端 } 当你把这个函数需要做的事情梳理清除，简单写出注释，分段也是水到渠成的事情了。...

游戏服务器开发经验（三）线上维护

技术文章游戏服务器开发经验

游戏项目公测上线之后，玩家总能找到我们预期之外的方式，做出超乎预料的行为，线上服务器就会有各式各样的错误情况。即使在开发过程中我们已经尽力去编写健壮的代码，完成黑盒白盒测试和代码Review，也无法完全避免线上的各种问题。不过我们不需要为此悲观。在Java中，底层的虚拟机足够健壮，此外JVM也提供了很多工具给我们进行排查和修复问题。重载class以修复错误逻辑在线上服务器中业务逻辑有问题时，我们可以针对出问题的类，在本地修复代码逻辑后，编译出新的.class文件，然后上传到服务器能访问的文件夹目录中，使用Java虚拟机的redefineClasses()方法，将新编译的正确业务逻辑的类class重载到线上的JVM虚拟机中，覆盖之前的class。如此一来，线上执行的class被替换，后续具体的方法被调用时，执行的是新class的代码业务逻辑。在线上执行本地编写的代码使用Groovy脚本，可以在线上服务器中运行代码。在本地编写好groovy脚本代码，通过线上提供的接口（可以是后台接口，或者是GM管理员指令入口）执行groovy脚本内容。如此一来，当我们对线上服务器的情况有疑惑，需要打印具体的内容；或是希望能修复线上用户的错误数据，就可以使用直接执行脚本代码进行操作。需要注意的是，Groovy脚本实际上是对使用者要求非常高的一项技术，几乎是线上游戏修改器般、黑魔法般的存在。用得好，可以快速修复玩家数据，能够快速查到服务器异常状态；用得不好，甚至可以直接删库跑路。关于重载class和执行groovy脚本，代码可参考 https://github.com/jonathanlin768/JavaHotFix 仓库。策划配表重新加载有一些在线无感知的游戏热更新是通过策划配表重新加载来实现的。偶尔有一些版本开发过程中，可以先把代码更新到服务器线上，但是不着急马上把新功能开启给玩家，策划可以在功能还未和玩家见面时，修改新功能相关的数值，也可以通过修改活动时间等方式来动态调整功能的开启。既然策划配表重载可以调整功能的开启，那么必然也可以完成功能的关闭。在开发过程中可以定义一张系统功能表，上面记录各种功能的id，并且有一个强制关闭的标记。开发过程中如果判定功能id关闭，则不允许执行后续逻辑。如此一来，如果线上已出现异常情况（如新玩法无法正常继续、奖励被刷），则可以快速先关闭具体的功能id，让后来的玩家无法继续造成错误情况。日志所有人都知道要打印日志，但是到底打印什么日志最有用的呢？不同的项目有不同的答案。但是打日志是非常有用的，这一点毋庸置疑。根据我的理解，要打印日志的情况有：策划配表配错时，打warning。在开发阶段，策划要对自己的表进行测试。他们很有可能填错了数值而不知道。这时候打印出日志可以快速定位到底哪里配错了。千万不能执行到的错误逻辑，打error。开发过程中如果发现一些情况是异常的，是正常逻辑肯定走不进来的，甚至可能因为异常而导致记录了错误的状态，则一定要打印日志。比如某个玩法一定要组队才能游玩，但是玩家在没组队的情况下请求游玩，说明玩家在之前已有错误，因此需要打印日志以记录情况。玩家多次反馈出问题的功能逻辑，在最关键处打info。比如某个玩法结束后发奖失败，则需要在发奖的各个阶段打印日志，用以分析哪一个步骤出现问题。玩家核心玩法行为日志记录，这个可以打info，也可以使用额外的行为日志记录（因为玩家行为可能很多，全部打到log文件会太大，所以可以将其通过消息队列发送到另一个数据仓库中进行汇总分析）。比如MMO游戏的玩家地图跳转，SLG游戏的战斗记录等。不要打印日志的情况有：接口的业务逻辑中，已有明确错误提示后返回的情况。如在商店道具购买时道具不足，客户端已能收到有意义的文字错误信息，则再在服务器打印错误日志是意义不大的。尽量不要在太公用的业务逻辑里打印日志，即使要打印也要加一些条件。这是因为公用逻辑会被各个不同的业务调用，并且一般是主要的玩法。打印日志不加条件限制的话，会造成日志过多而不方便排查。什么时候用info，warning，error？这个问题也是不同的项目有不同的答案。我的理解是：为了观察玩家和服务器状态的用info，不影响玩家继续游玩，但是确实可能有异常的用warning，要是执行到就一定是有错误的用error。版本更新前的内部服务器日志一定要关注当版本开发完毕，到测试阶段时，一定不要觉得测试人员没有反馈就完事大吉了。一定要关注内部服务器的日志，尤其是新打印的日志。内网能看到的日志，外网一定能看到；而外网能看到的日志，内网也一定能复现。最后，不用担心日志打太多的问题。查不到问题的原因才是更坏的情况。服务器状态监控版本更新后，新玩法开启的几天，一定要有意识观察线上服务器的CPU和内存使用状态。就算没有搭grafana那样的工具，你也可以连到线上服务器通过Linux命令查看是否异常。如果CPU过高或者内存不够，则需要尽快把问题反馈出来，从而尽快分析并且处理问题。这绝对是一个好习惯，原因是有一些问题可能玩家遇到了没反馈出来，他们可能觉得无伤大雅，但是那些没反馈的问题，对服务器的状态也许存在一些风险。线上问题定位前文所述内容都是为了避免和修复线上问题。而如何定位线上问题，才是服务器开发中最困难的一环。这件事的困难之处在于，无法复现玩家所遇到的情景；玩家反馈的信息是玩家理解的内容，不一定是服务器上的问题所在情况是耦合发生的，触发条件苛刻而当我们花了大量时间排查，最后可能发现只要改不超过10行代码就能解决问题。这或许有一点幽默，但是却是经常发生的情况。但当我在此回看过去，我发现线上问题一定是能查到结果的，只不过是时间成本问题罢了。真正阻碍我们查到线上问题症结的是我们的内心。要相信问题是一定能被排查到的计算机科学是一门年轻的学科。它远没有达到物理学中“电子双缝干涉”那样深奥而暂时无解的情况（当然你一定要拿“比特跳变”这种极端罕见而异常的情况抬杠的话，我就认输）。而游戏服务器的环境配置，都是由你我这样的凡人搭建的。游戏服务器的业务逻辑更是由团队里的大家编写的。所以一切的问题是一定能定位得到的。而在排查过程中，要相信一点： “所有的问题都会解决的” 当你在排查线上问题的时候，不要惧怕那些线上问题，也不要惧怕那些给你施压的人。程序员常有的完美主义让我们认为一切的代码问题都是可控的，因为业务逻辑是我们一行一行写出来的。但是这不代表代码就一定没有问题。恰恰相反，出问题才是常态。出问题不代表我们不好不优秀，而是“我们还有未知的内容需要去学习”。不要惧怕那些给你施压的人，因为与问题正面对抗的人，就是屏幕前的你。你本应该是伟大而强大的。专注于你要排查的问题，像侦探一样耐心地分析各种蛛丝马迹，所有的问题都会解决的。分析玩家所述内容，排查异常情况当玩家反馈错误的情况时，根据玩家的描述定位到具体的玩法，这时不要直接钻到玩法的业务逻辑代码之中，那就如大海捞针了。我们应该根据玩家提供的玩法信息，游玩时间，反过来去查找日志，观察其在出问题的前后执行了什么操作、消耗和获得了什么道具、游玩了其他的什么玩法，在此期间是否有可疑的错误日志等等。这一步同时你需要去理解玩法的具体内容，比如时间，状态等。通过日志和玩法内容，去勾勒玩家当时的情况。模拟玩家所遇到的环境有条件的话，尽量能把出问题的玩家的数据导入到自己的服务器上。这样我们就可以在本地进行各种尝试。如果能把玩家出问题前后的玩家数据拿到本地则更佳。即使没有玩家数据也没关系，在内部环境中模拟玩家所遇到的情况，通过玩家提供的视频，和服务器上的日志，可以得到玩家的状态，进行游玩，也一定会有新的理解。如果实在是无法在本地复现，你也可以用脚本到服务器上执行一些代码，打印玩家现在的状态（现在的状态也是有意义的，玩家有自己的方式再次复现）。仔细甄别“问题情况”和“猜测的原因” 当线上问题发生时，如果是大问题或者难排查的问题，会有很多人的噪音在耳边叽叽喳喳。他们提供的思路不一定是错的，但是可能和当前最重要的问题没有关系。一定要分析出问题的情况在哪里，专注于要修的问题的情况。会有一些对游戏很了解，但没有看代码的人提出很多猜测，要理性地分辨这些猜测，小心仔细地验证各方论点。如果真的查不出，就打印排查日志分析玩家行为、导玩家数据到本地、模拟出问题的环境、并且各方讨论也没有结果，那么请打印好排查日志。排查日志一般是为了以下目的：检查关键代码逻辑是否被访问到；当执行代码逻辑到某一处时，检查玩家的状态是否正确。因此这样的排查日志，需要打印的细节一定要越丰富越好。如果打印的内容很多，最好能用StringBuilder将多行内容拼成一个String，然后直接用一行log打印出来，以避免日志收集器收录到只言片语。你甚至可以针对某一个玩家游玩时，仅针对他打印各种细节日志，甚至可以包括程序调用的堆栈信息。

游戏服务器开发经验（二）避免内存泄露

技术文章游戏服务器开发经验

内存泄漏（Memory Leak）通常指的是计算机程序中一种资源管理失当的问题。简单来说，就是程序申请了内存空间，但在不再使用它的时候，没有将其释放，导致这部分内存一直被占用，且无法被程序再次访问或操作系统回收。为什么会内存泄漏？在Java中，当一个对象A拥有另一个对象B的引用时，如果B只有来自A的这一个引用，并且A一直没有释放，则B也不会被释放。因为JVM并不知晓代码的业务逻辑，他只知道B还被其他对象引用，并且A也正在使用之中。因此JVM会认为，B对象还不可以回收。然而，A对象没有移除到B对象的这个引用，有可能是因为业务逻辑处理不当所致。例如，当A是一个单例的全局对象管理器，管理一系列对象，而B对象恰好在业务逻辑中应该被回收，而没有回收时，B会一直存在于A的引用中。此时B就无法进入正常的回收逻辑中了。如何避免内存泄漏在任何时刻，创建对象时，都要思考一下生命周期。可以试着问问自己：目前的这个对象被创建后，它应该在什么时候被销毁？是这个函数结束时、副本玩法结束时、组队结束时、玩家下线时、还是一直到服务器停止后？考虑不使用引用，而使用id等基础数据类型进行关联这个对象创建之后，要离开创建它的函数，就一定要被其他对象管理。在管理器之外，还会被其他对象引用吗？如果是，那么要考虑其引用什么时候结束。或者，如果管理器能提供唯一的id进行管理，那么在其他对象上就存储一个唯一的id，在需要时再通过id向管理器查询出对象，在函数调用栈中使用，随着函数结束后栈帧弹出回收。在外部补充业务逻辑，检查内存泄漏如果业务足够复杂，系统陈旧，无法进行彻底排查泄露的位置，可以考虑每隔一段时间检查内存中是否有内存泄漏，然后强行将其清除。相当于是在业务层执行一次垃圾回收行为。定义过期时间，限制使用条件如果业务复杂，可以考虑在对象使用时加一个过期时间，超过时间还被访问，则执行清理。