企业管理

0

记一次惊险的ERP系统迁移

头像
小财

周五有同事反映ERP系统登录不上,提示“数据源....”巴拉巴拉一堆。

开始我以为是他电脑的hosts文件中服务器地址行被别的软件给注销了,结果点击自己的客户端居然也登录不上。

这时候有点小紧张一下,第一个想到的就是服务器出问题了!不过由于ERP服务器以前也出现过问题,每次都是重启一下,然后在重启一下ERP的各种服务就能解决,所以直到此时还没有意识到问题的严重性。

习惯性的打开虚拟机连接服务器查看,果然,ERP系统服务器死机了。

这里要说明一下,由于公司不是很大,资金有限,特别是我们这样的与生产无关,不能产生直接利益的部门。所以ERP服务器是一台戴尔730,CPU是2颗E5-2620V4,内存64G,硬盘做完Raid5后大概6T多一点。

这里面还有历史的原因,对这个服务器安装了EXSI,然后现在虚拟了三台电脑,一个是ERP系统主要服务器安装的Win2008R2,另一个是ERP系统注册用的,安装的Win2012,还有一个是ERP系统做BS服务器用的,这个一直没启用。

此时,我已经看到ERP系统虚拟机上有个特殊的符号,但是也没有多想,先开机再说。

启动顺利,没问题!

然后自己客户端登录,顺利登上,OK!

到现在我都觉得问题处理了,但是接下来果然被现实啪啪打脸。

没过半个小时,又有人反映登录不上,还是刚才那个问题。

这时候我才意识到问题的严重性,然后再次登录虚拟机,果然又死机了。查看边上的特殊提示,原来是物理机没有空间了。

没有空间就删文件呗。

由于历史原因,这个上面有一些不用的文件,然后我就挑最大的.vmdk文件删除,这个文件占用1.5T空间,我靠,删不掉,提示“...bad address”,这个是啥问题,先不管他,继续删别的。

果然,都提示这个问题。我晕啊,不管了,想法先把服务器启动再说。

一通浏览之后我发现ERP服务器设置的是64G内存,我把内存改成32G,这样就可以省出32G的交换空间。

这招管用,服务器顺利启动。

但是根本问题依然没有解决,磁盘空间不足,这个就像个地雷埋在前进的路上,必须要解决,而且越早越好。

然后我就是各种找资料,查百度,问题没那么简单,网上没有任何解决办法。

这时候我静下来仔细想了想,隐隐记得前任领导离职的时候大概说过遇到了这个问题,他当时也没有解决。

我又点开ERP服务器的虚拟磁盘,发现里面有很多.vmdk文件,有...000002.vmdk、...000003.vmdk、...000005.vmdk,这几个文件每个都很大,特别是...000005.vmdk,这个文件最大,有2.2T,而且看时间最近也没有改动过,那么以我的判断这个文件应该是可以删除不影响系统的。

然后我又得想好后面的问题,外一这个文件也无法删除怎么办?或者删除了系统无法启动怎么办?

那个时候就得把磁盘格式化重新部署了,由于是虚拟机,所以只要导出镜像在导回来就可以了,但是还是要做好万全准备——多备份!

想好了这些,那么接下来就是做准备,然后等待周六日加班了。

嗯,事情总是没有那么简单,在准备导出到哪里的时候发现单一个ERP虚拟机就要3.3T!我的天啊,3.3T,以我们公司百兆交换机的速率那岂不是慢死。

还有我这里没有这么大的硬盘。仅有的几块6T的硬盘都在电脑上装着存放在备份文件,而且上面也没有这么大的空间。

这可发愁了,怎么办呢?

先不管这些了,报了明天加班,下班回家在想想明天怎么办?

开车回家一路上都在想这个事情,我想着事情要从最保险的方向做起,先把最基础的数据备份做好,然后在操作高风险的事情。

备份文件每天都是自动备份,所以数据是没问题的。所以即便是最后自己弄的稀巴烂,啥都不成了,也可以找供应商解决,只是这样一来时间比较长,因为要重装ERP系统,这其中还有一些更新文件等等,事情想对来说比较麻烦了。

第二个就是Win2008r2本身的Windows Server backup备份了。这个我在做一个备份导出来,如果最后系统真的不行了直接重新恢复,也不用找供应商,这个是想对简单一点的。

第三个就是一切顺利导出ERP系统虚拟机,然后直接删除文件成功,而且系统没崩溃,空间还能腾出2T多,这个是最简单最省事的。但是我需要解决硬盘和网速问题,所以得从机房把服务器搬到桌子上用电脑直连,这样网速能达到千兆,希望导出能快一些,至于硬盘,实在没有,仅有的一个2T的移动硬盘明天试试吧。

周六,加班。

按照计划的来,先把服务器搬到办公室,直连网线。那两个小个的系统镜像顺利导出到我的电脑上,加起来一共50G,这个相当简单。

然后进入ERP系统,执行Windows Server backup备份,直接备份到本地电脑,这个文件大概430G,我本地电脑也没有这么大的空间,为此又找了一块1T的硬盘接到电脑上,然后再次导出,时间大概一个多小时,反正挺顺利的。

这部做完就放心多了,也可以大胆操作虚拟机了。

然后就是试着导出ERP系统虚拟机,玛德,试了好多次都是失败,没啥具体原因,跑着跑着就失败了。

既然虚拟系统导不出来,那么索性直接删了那个2.2T的.vmdk文件。

于是装着胆子去删除文件,本来想着会不会也报“... bad address”错误,结果顺利删除了,还挺高兴这样直接有空间了。

然后去刷新一下属性,我擦,怎么空间还是没出来!

又刷新了几次,还重启了服务器,结果还是那样。

这样看来基本没戏了,只能格式化硬盘了。

我又静下来想了想,反正这样也没有空间,也不会有再坏的可能了,索性把其他...000002.vmdk、...000003.vmdk都删除试试。

于是先删除了...000002.vmdk文件,然后看到空间有了,试着启动系统,晕,报错启动不起来了。

哎!果然还是出问题了!我就想到了事情不会那么简单。

事情都到这份上了索性直接格式化磁盘了。

格式完后就是重装系统。

安装Win2008r2直接从备份还原,这是我心中最保险的办法。

这个时候已经是下午三点多了,中午连饭都没吃。

按照既定计划操作,输入备份文件共享地址,输入登录验证,嗯?提示路径不存在!

我靠!我靠!我靠!

我记得清清楚楚,当时身体就开始紧张了,清晰的感觉心跳加快体温升高,不知道是不是心里作用,我感觉手有点发抖。

可能就是真的抖,早上起来的时候喉咙就有点干痛,前两天孩子和老婆都感冒了,当时心里还想着最为体弱的我居然没有感冒。

这个时候有可能就是在心里防线有变化后感冒病毒趁虚而入,我感觉我是真的发烧了。

我抱着侥幸想法又试了几次,这期间在网上查找了各种攻略,都没有办法。

“不要紧张,不要紧张,不能慌,不能慌...”我都已经念出声了。

“今天是周六,如果没有办法明天周日还可以找供应商解决!”这是我最后的手段。

如果供应商解决耗时费力,耽误公司生产那就只能认了,反正数据没丢,这是我最后的尊严。

我又想着各种办法试了几次,其间把系统安装好,然后把备份文件上传进去,这样本地还原,结果能还原D盘,但是C盘死活不能还原。

11月天七点多外面已经黑了,越晚我越着急,老婆打电话问几点能回来,我说事情严重了,可能很晚,也可能通宵。

放下电话又试了一次,还是不行。

去你玛德,该想的方法都想了,明天再说吧!

穿好衣服开车回家!——回家远程操作再试试吧!

到家简单吃了点饭,实在是没有胃口,上火,一点主食没吃,光吃的蔬菜。又测了一遍体温,发现温度正常,那么下午的时候就有可能纯粹的心里作用了。

也没时间陪孩子玩,开始远程操作,这期间在B站上看了看别人的教程视频。

别说,还真发现了问题点,别人在操作系统还原的时候都是默认获取的DHCP地址,而我是电脑直连服务器,虚拟机在安装的时候系统并没有获取IP地址,所以连接不到共享的备份文件。

于是又在服务器上搭建个DHCP服务器,再一试果然成功了,瞬间身体就轻松下来了。

然后就是漫长的等待,毫不夸张的说,晚上做梦都是这个事情。

第二天五点多就起床查看,还没有还原完,直到9点多才顺利完成。

当初备份的时候只要一个多小时,没想到还原回去我粗略估算从晚上9点到第二天9点大概12个小时。

然后回到公司,把昨天拷出来的其他镜像还原,进入各个系统确认都能启动没有问题。

直到此时我认为最难的那部已经过去了,数据都在,系统没问题,剩下的就是ERP自己的问题了。

这个时候我开始佩服自己了,上任领导没有解决的问题被我解决了。虽然不能从根本上解决虚拟机的问题,但是最起码应该能够保证运行三四年不会在出同样的问题。

打开ERP客户端连接,嗯,果然连接不上,打电话给客服问了问需要到云上重新同步发许可。

这个时候发现云注册的手机号是居然是财务部长的私人手机号,这个是上上人领导留下的问题。然后又从财务部长要验证码登录,结果他外出没带这个号的手机。

我又打电话给客服问了问这个重新同步许可多长时间,他说直接点一下就可以,那我就没必要这里等了,直接回家远程操作吧,反正财务回到家也下午了。

下午三点多财务回来了,结果我又有事外出,四点多回到家开始处理这个问题,结果同步的时候又报错了。再次打电话给客服,客服说这个错误得找供应商重新申请许可文件。

然后就是打电话给供应商,我直接联系的技术,技术说这个上班的时候找商务解决。找谁解决我不关心,我要关心的是时间问题,他说他们上班是8:30,应该很快就能解决。我又问了他我直接找总集团打客服电话能不能解决这个问题,他说没用,总集团商务周六日不上班。

于是我在公司的群里发消息告诉大家明天ERP系统在9点前不能使用,到这里都在我的承受范围之内。

周一上班,等着供应商8:30上班立刻打电话,一问才知道,我们是虚拟机,比较麻烦,他们要走总集团流程,一般流程是2天!我靠啊!

然后就是各种流程、文件、盖章、等着他们审批,电话一遍一遍的催,直到我写到这的时候流程已经走到总集团分公司老总那里,老总走完就是商务,然后就可以了。

关键是分公司老总这里他们一般人联系不上,已经上午11点了,半天过去了,我们总经理给我打电话问我咋回事,我这压力是真大啊,本来心态就不好。

我又联系了一下供应商的商务,让他想想办法,他问我啥时候发生的,我说周六日,本来我还后悔自己想的简单了,这个事情应该当时跟他们说一下,最好让他们帮忙解决,结果他告诉他那也没办法,周六日总集团商务不上班,也只能今天处理。

好吧,可能就是自己想的太简单了。

中午之前果然不能解决,午饭我都没去吃,就怕别人问我。

又催了一遍供应商商务,说分公司老总在开会。这个时候11:30。

又催了一遍供应商对接这个事情的人,说他们也在催,我问他今天能解决吗,他说肯定可以,但是估计的下午3点左右。时间12:05,我在公司群里跟大家说得下午三点多能解决。

又催了一遍,直接给400打电话,我跟他们说刚才老总开会,现在总该开完会了吧,帮我催一下,他们说他们这边都是邮件,他们帮忙催一下,这个时候12:20。

12:45,还有15分钟上班,好烦啊!平时中文都眯一会,今天显然睡不着。

13:30,给供应商对接人打电话,没接。

13:58,又给他打电话,还是没接。也理解,毕竟中午休息时间。

14:01,给供应商商务打电话,说是集团总部那边中午开会,现在流程都是线上批,必须得那个老总批,他在帮我问问。

14:15,供应商商务给我发微信,说是流程最后一个环节了,让我再等等。也只能在等等了,为此我在公司用ERP的部门挨个跑了过去跟大家说明一下时间可能比预计的长。

14:23,终于通过了,供应商开始远程操作我的电脑。

15:45,供应商一顿操作,结果还是不行,要找总集团研发,我感觉今天没希望了。

16:11,还没解决,又给供应商打一个电话,结果说集团云网站出问题了,没法下载license文件了,总集团那边开发也在处理。我问供应商晚上能坚持到几点,我好做好加班安排。他们说他们会一直等着结果,如果可以了就在他们那里直接操作了,我这里只需提供登录时的验证码就行了,所以我这里加不加班都不影响。

16:30,给老婆打个电话晚点回去,主要是下班点人太多怕遇到人问,忒难受。

第二天早上9点左右,事情完全解决,终于松了一口气。

还是要感想供应商的,虽然我催促的急,但是他们也理解。

所以总结一下:

1、这种涉及到供应商软件的一定要找他们解决,哪怕根软件没关系的系统问题也要跟他们沟通一下,提前做好所有准备。

2、痔疮不能久坐,难受!



本文转自 知乎,原文链接:https://zhuanlan.zhihu.com/p/581472651,如需转载请自行联系原作者
头像
丢弃