周五有同事反映ERP系统登录不上,提示“数据源....”巴拉巴拉一堆。
开始我以为是他电脑的hosts文件中服务器地址行被别的软件给注销了,结果点击自己的客户端居然也登录不上。
这时候有点小紧张一下,第一个想到的就是服务器出问题了!不过由于ERP服务器以前也出现过问题,每次都是重启一下,然后在重启一下ERP的各种服务就能解决,所以直到此时还没有意识到问题的严重性。
习惯性的打开虚拟机连接服务器查看,果然,ERP系统服务器死机了。
这里要说明一下,由于公司不是很大,资金有限,特别是我们这样的与生产无关,不能产生直接利益的部门。所以ERP服务器是一台戴尔730,CPU是2颗E5-2620V4,内存64G,硬盘做完Raid5后大概6T多一点。
这里面还有历史的原因,对这个服务器安装了EXSI,然后现在虚拟了三台电脑,一个是ERP系统主要服务器安装的Win2008R2,另一个是ERP系统注册用的,安装的Win2012,还有一个是ERP系统做BS服务器用的,这个一直没启用。
此时,我已经看到ERP系统虚拟机上有个特殊的符号,但是也没有多想,先开机再说。
启动顺利,没问题!
然后自己客户端登录,顺利登上,OK!
到现在我都觉得问题处理了,但是接下来果然被现实啪啪打脸。
没过半个小时,又有人反映登录不上,还是刚才那个问题。
这时候我才意识到问题的严重性,然后再次登录虚拟机,果然又死机了。查看边上的特殊提示,原来是物理机没有空间了。
没有空间就删文件呗。
由于历史原因,这个上面有一些不用的文件,然后我就挑最大的.vmdk文件删除,这个文件占用1.5T空间,我靠,删不掉,提示“...bad address”,这个是啥问题,先不管他,继续删别的。
果然,都提示这个问题。我晕啊,不管了,想法先把服务器启动再说。
一通浏览之后我发现ERP服务器设置的是64G内存,我把内存改成32G,这样就可以省出32G的交换空间。
这招管用,服务器顺利启动。
但是根本问题依然没有解决,磁盘空间不足,这个就像个地雷埋在前进的路上,必须要解决,而且越早越好。
然后我就是各种找资料,查百度,问题没那么简单,网上没有任何解决办法。
这时候我静下来仔细想了想,隐隐记得前任领导离职的时候大概说过遇到了这个问题,他当时也没有解决。
我又点开ERP服务器的虚拟磁盘,发现里面有很多.vmdk文件,有...000002.vmdk、...000003.vmdk、...000005.vmdk,这几个文件每个都很大,特别是...000005.vmdk,这个文件最大,有2.2T,而且看时间最近也没有改动过,那么以我的判断这个文件应该是可以删除不影响系统的。
然后我又得想好后面的问题,外一这个文件也无法删除怎么办?或者删除了系统无法启动怎么办?
那个时候就得把磁盘格式化重新部署了,由于是虚拟机,所以只要导出镜像在导回来就可以了,但是还是要做好万全准备——多备份!
想好了这些,那么接下来就是做准备,然后等待周六日加班了。
嗯,事情总是没有那么简单,在准备导出到哪里的时候发现单一个ERP虚拟机就要3.3T!我的天啊,3.3T,以我们公司百兆交换机的速率那岂不是慢死。
还有我这里没有这么大的硬盘。仅有的几块6T的硬盘都在电脑上装着存放在备份文件,而且上面也没有这么大的空间。
这可发愁了,怎么办呢?
先不管这些了,报了明天加班,下班回家在想想明天怎么办?
开车回家一路上都在想这个事情,我想着事情要从最保险的方向做起,先把最基础的数据备份做好,然后在操作高风险的事情。
备份文件每天都是自动备份,所以数据是没问题的。所以即便是最后自己弄的稀巴烂,啥都不成了,也可以找供应商解决,只是这样一来时间比较长,因为要重装ERP系统,这其中还有一些更新文件等等,事情想对来说比较麻烦了。
第二个就是Win2008r2本身的Windows Server backup备份了。这个我在做一个备份导出来,如果最后系统真的不行了直接重新恢复,也不用找供应商,这个是想对简单一点的。
第三个就是一切顺利导出ERP系统虚拟机,然后直接删除文件成功,而且系统没崩溃,空间还能腾出2T多,这个是最简单最省事的。但是我需要解决硬盘和网速问题,所以得从机房把服务器搬到桌子上用电脑直连,这样网速能达到千兆,希望导出能快一些,至于硬盘,实在没有,仅有的一个2T的移动硬盘明天试试吧。
周六,加班。
按照计划的来,先把服务器搬到办公室,直连网线。那两个小个的系统镜像顺利导出到我的电脑上,加起来一共50G,这个相当简单。
然后进入ERP系统,执行Windows Server backup备份,直接备份到本地电脑,这个文件大概430G,我本地电脑也没有这么大的空间,为此又找了一块1T的硬盘接到电脑上,然后再次导出,时间大概一个多小时,反正挺顺利的。
这部做完就放心多了,也可以大胆操作虚拟机了。
然后就是试着导出ERP系统虚拟机,玛德,试了好多次都是失败,没啥具体原因,跑着跑着就失败了。
既然虚拟系统导不出来,那么索性直接删了那个2.2T的.vmdk文件。
于是装着胆子去删除文件,本来想着会不会也报“... bad address”错误,结果顺利删除了,还挺高兴这样直接有空间了。
然后去刷新一下属性,我擦,怎么空间还是没出来!
又刷新了几次,还重启了服务器,结果还是那样。
这样看来基本没戏了,只能格式化硬盘了。
我又静下来想了想,反正这样也没有空间,也不会有再坏的可能了,索性把其他...000002.vmdk、...000003.vmdk都删除试试。
于是先删除了...000002.vmdk文件,然后看到空间有了,试着启动系统,晕,报错启动不起来了。
哎!果然还是出问题了!我就想到了事情不会那么简单。
事情都到这份上了索性直接格式化磁盘了。
格式完后就是重装系统。
安装Win2008r2直接从备份还原,这是我心中最保险的办法。
这个时候已经是下午三点多了,中午连饭都没吃。
按照既定计划操作,输入备份文件共享地址,输入登录验证,嗯?提示路径不存在!
我靠!我靠!我靠!
我记得清清楚楚,当时身体就开始紧张了,清晰的感觉心跳加快体温升高,不知道是不是心里作用,我感觉手有点发抖。
可能就是真的抖,早上起来的时候喉咙就有点干痛,前两天孩子和老婆都感冒了,当时心里还想着最为体弱的我居然没有感冒。
这个时候有可能就是在心里防线有变化后感冒病毒趁虚而入,我感觉我是真的发烧了。
我抱着侥幸想法又试了几次,这期间在网上查找了各种攻略,都没有办法。
“不要紧张,不要紧张,不能慌,不能慌...”我都已经念出声了。
“今天是周六,如果没有办法明天周日还可以找供应商解决!”这是我最后的手段。
如果供应商解决耗时费力,耽误公司生产那就只能认了,反正数据没丢,这是我最后的尊严。
我又想着各种办法试了几次,其间把系统安装好,然后把备份文件上传进去,这样本地还原,结果能还原D盘,但是C盘死活不能还原。
11月天七点多外面已经黑了,越晚我越着急,老婆打电话问几点能回来,我说事情严重了,可能很晚,也可能通宵。
放下电话又试了一次,还是不行。
去你玛德,该想的方法都想了,明天再说吧!
穿好衣服开车回家!——回家远程操作再试试吧!
到家简单吃了点饭,实在是没有胃口,上火,一点主食没吃,光吃的蔬菜。又测了一遍体温,发现温度正常,那么下午的时候就有可能纯粹的心里作用了。
也没时间陪孩子玩,开始远程操作,这期间在B站上看了看别人的教程视频。
别说,还真发现了问题点,别人在操作系统还原的时候都是默认获取的DHCP地址,而我是电脑直连服务器,虚拟机在安装的时候系统并没有获取IP地址,所以连接不到共享的备份文件。
于是又在服务器上搭建个DHCP服务器,再一试果然成功了,瞬间身体就轻松下来了。
然后就是漫长的等待,毫不夸张的说,晚上做梦都是这个事情。
第二天五点多就起床查看,还没有还原完,直到9点多才顺利完成。
当初备份的时候只要一个多小时,没想到还原回去我粗略估算从晚上9点到第二天9点大概12个小时。
然后回到公司,把昨天拷出来的其他镜像还原,进入各个系统确认都能启动没有问题。
直到此时我认为最难的那部已经过去了,数据都在,系统没问题,剩下的就是ERP自己的问题了。
这个时候我开始佩服自己了,上任领导没有解决的问题被我解决了。虽然不能从根本上解决虚拟机的问题,但是最起码应该能够保证运行三四年不会在出同样的问题。
打开ERP客户端连接,嗯,果然连接不上,打电话给客服问了问需要到云上重新同步发许可。
这个时候发现云注册的手机号是居然是财务部长的私人手机号,这个是上上人领导留下的问题。然后又从财务部长要验证码登录,结果他外出没带这个号的手机。
我又打电话给客服问了问这个重新同步许可多长时间,他说直接点一下就可以,那我就没必要这里等了,直接回家远程操作吧,反正财务回到家也下午了。
下午三点多财务回来了,结果我又有事外出,四点多回到家开始处理这个问题,结果同步的时候又报错了。再次打电话给客服,客服说这个错误得找供应商重新申请许可文件。
然后就是打电话给供应商,我直接联系的技术,技术说这个上班的时候找商务解决。找谁解决我不关心,我要关心的是时间问题,他说他们上班是8:30,应该很快就能解决。我又问了他我直接找总集团打客服电话能不能解决这个问题,他说没用,总集团商务周六日不上班。
于是我在公司的群里发消息告诉大家明天ERP系统在9点前不能使用,到这里都在我的承受范围之内。
周一上班,等着供应商8:30上班立刻打电话,一问才知道,我们是虚拟机,比较麻烦,他们要走总集团流程,一般流程是2天!我靠啊!
然后就是各种流程、文件、盖章、等着他们审批,电话一遍一遍的催,直到我写到这的时候流程已经走到总集团分公司老总那里,老总走完就是商务,然后就可以了。
关键是分公司老总这里他们一般人联系不上,已经上午11点了,半天过去了,我们总经理给我打电话问我咋回事,我这压力是真大啊,本来心态就不好。
我又联系了一下供应商的商务,让他想想办法,他问我啥时候发生的,我说周六日,本来我还后悔自己想的简单了,这个事情应该当时跟他们说一下,最好让他们帮忙解决,结果他告诉他那也没办法,周六日总集团商务不上班,也只能今天处理。
好吧,可能就是自己想的太简单了。
中午之前果然不能解决,午饭我都没去吃,就怕别人问我。
又催了一遍供应商商务,说分公司老总在开会。这个时候11:30。
又催了一遍供应商对接这个事情的人,说他们也在催,我问他今天能解决吗,他说肯定可以,但是估计的下午3点左右。时间12:05,我在公司群里跟大家说得下午三点多能解决。
又催了一遍,直接给400打电话,我跟他们说刚才老总开会,现在总该开完会了吧,帮我催一下,他们说他们这边都是邮件,他们帮忙催一下,这个时候12:20。
12:45,还有15分钟上班,好烦啊!平时中文都眯一会,今天显然睡不着。
13:30,给供应商对接人打电话,没接。
13:58,又给他打电话,还是没接。也理解,毕竟中午休息时间。
14:01,给供应商商务打电话,说是集团总部那边中午开会,现在流程都是线上批,必须得那个老总批,他在帮我问问。
14:15,供应商商务给我发微信,说是流程最后一个环节了,让我再等等。也只能在等等了,为此我在公司用ERP的部门挨个跑了过去跟大家说明一下时间可能比预计的长。
14:23,终于通过了,供应商开始远程操作我的电脑。
15:45,供应商一顿操作,结果还是不行,要找总集团研发,我感觉今天没希望了。
16:11,还没解决,又给供应商打一个电话,结果说集团云网站出问题了,没法下载license文件了,总集团那边开发也在处理。我问供应商晚上能坚持到几点,我好做好加班安排。他们说他们会一直等着结果,如果可以了就在他们那里直接操作了,我这里只需提供登录时的验证码就行了,所以我这里加不加班都不影响。
16:30,给老婆打个电话晚点回去,主要是下班点人太多怕遇到人问,忒难受。
第二天早上9点左右,事情完全解决,终于松了一口气。
还是要感想供应商的,虽然我催促的急,但是他们也理解。
所以总结一下:
1、这种涉及到供应商软件的一定要找他们解决,哪怕根软件没关系的系统问题也要跟他们沟通一下,提前做好所有准备。
2、痔疮不能久坐,难受!
本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/581472651,如需转载请自行联系原作者