遇到be服务器没有正常执行？学会预防才是关键！|89绅士游戏网

哥们儿姐们儿，今天想跟大家唠唠我之前碰到的一件糟心事儿，就是后台服务器突然就不干活了。当时我可真是急得抓耳挠腮，那叫一个上火。但后来我想明白了，光知道怎么救火不行，还得学会怎么防火，这预防才是王道！

本站为89游戏官网游戏攻略分站，89游戏每日更新热门游戏，下载请前往主站地址:www.gm89.icu

那阵子，我给朋友弄了个小网站，平时也跑得好好的。结果有一天，他突然给我发消息，说网站打不开了，或者打开巨慢，很多功能都用不了。我一听，心里“咯噔”一下，赶紧打开电脑去瞧。

第一次遭遇：服务器“罢工”

我第一时间就去访问那个网站，果然，页面一直转圈，直接给我报了个超时错误。当时我的心就凉了半截，想着是不是服务器挂了。我赶紧打开终端，输入SSH命令连上去。

看看进程在不在：
连上去之后，我第一件事就是输入`ps -ef grep my_backend_app`，想看看我的后端应用进程还在不在。结果一敲回车，好家伙，就剩一个grep的命令，我的应用进程压根儿就没了！当时我肺都快气炸了，这应用是自己“跑路”了？
翻日志文件：
没辙，只能去翻日志了。我跑到应用的日志目录，用`tail -f *`看了看最新的错误。密密麻麻的报错信息就蹦出来了，全是内存溢出（Out Of Memory）的提示，后面跟着一大串堆栈信息。看到这里我才明白，原来是服务器内存不够了，操作系统把我那可怜的后端程序给杀掉了。
重启服务先救急：
管他三七二十一，先救急要紧。我赶紧找到启动脚本，一个`./*`扔出去，服务总算是跑起来了。网站也能访问了，朋友那边也说正常了。可我心里知道，这只是治标不治本，过不了多久肯定还会出问题。

服务虽然恢复了，但我就开始犯嘀咕了，好好的服务器怎么会内存不够？我当时是这么一步步查的：

观察内存走势：
我没第一时间关掉终端，而是挂了一个`top`命令在那儿，盯着内存和CPU看。一开始还挺正常，内存占用就那么点。但过了大概一个多小时，我就发现，我的后端应用内存占用开始慢慢往上涨，一点一点地吃掉内存。我心里直骂娘，这肯定是有内存泄漏了！
排查代码：
既然是内存泄漏，那八成就是我代码的问题了。网站上最近就加了一个图片上传和处理的功能，我怀疑是这块儿搞的鬼。我回去翻看那段代码，发现我用了一个第三方的图片处理库。当时我没细看它的内存管理，就直接拿来用了。
定位问题：
后来我一顿查这个库的资料，发现它在处理一些特定格式或者超大图片的时候，确实有内存释放不及时的问题。尤其是在短时间内连续处理多张图片，内存会一直涨，涨到某个点它就崩了。这下我算是找到罪魁祸首了。

当时解决了这个问题，我心里甭提多郁闷了。但郁闷归郁闷，我也从中学到了一个大教训：预防服务器出问题，比出了问题再救火要重要得多！从那之后，我就开始琢磨怎么才能提早发现问题，甚至避免问题发生。

搞监控：
以前我就是裸奔，服务器出了问题全靠用户反馈。这事儿之后，我赶紧折腾起了服务器监控。装了个Prometheus，又配了个Grafana。把服务器的CPU、内存、硬盘、网络全都监控起来。还给我的后端应用加了个健康检查的接口，Prometheus定时去请求，看看它是不是还活着。
设报警：
光监控不报警那不就是个摆设吗？我给内存使用率设置了个阈值，比如内存占用超过80%就给我发邮件或者微信通知。这样一来，就算我不在电脑前，也能第一时间知道服务器可能要出问题了。
日志得看：
以前日志出了问题我才看，现在我养成了习惯，每天都抽空扫一眼日志，尤其是错误日志。就算服务没挂，有些警告或者不正常的请求也能提前发现。
代码要严谨：
这回内存泄漏的教训让我明白，用第三方库也得长个心眼，不能拿来主义。尤其是涉及到资源管理的地方，得好好看看有没有坑。自己写代码就更不用说了，内存、文件句柄、数据库连接这些资源，用完了就得及时释放。
定期维护：
我现在也会定期给服务器和应用做一些维护，比如清理过期日志，检查硬盘空间，更新系统补丁啥的。这些小动作看起来不起眼，但能大大降低出问题的概率。

这回服务器“罢工”的经历，让我从一个只会“救火队员”变成了“防火工程师”。虽然过程有点痛苦，但总归是学到真东西了。希望哥们儿姐们儿看了我的这段经历，也能有所启发，咱们一起把这些破事儿都给防住了！