1、引言
我厂#705机组DCS系统系2004年大修中DCS系统及DEH一体化改造完毕,DCS及DEH系统采用和利时公司SmartPrO3.1.3软件系统,硬件为和利时公司MACSTM系统硬件,系统改造后,运行稳定。但是系统在2006年5月下旬#705机组DCS系统频繁出现死机!
2、故障简况
系统在2006年5月25晚上锅炉制粉盘死机,运行人员看到显示画面数据变化迟滞,切换画面后正常。
系统在2006年5月30下午下班后,接到运行打来电话,锅炉主盘死机,甲引全开。在现场发现甲引开接点一直发出,运行人员切换画面及重新登录无效,热工人员对其接点进行切换后,重新操作恢复正常。
下面是#705机组DCS系统频繁出现死机(时间30s不等又自行恢复)现象(表1所示):有时一个站数据显示滞缓、操作不灵活、送引风调节中某个出现指令一直发出、严重时整个操作员站短时数据中断,严重影响了我厂的机组安全运行,下面是处理的整个过程。表1系统死机记录
3、故障分析
硬件角度:通过以上现象主要是人机接口故障,对于单台操作员站有问题,主机有可能有问题,主板、硬盘、通讯网卡等,通过检查发现有三台机主板出现问题。
通信网络角度:一般容易发生在接点总线、就地总线处、或地址标识错误所造成。
系统角度:参数设定、系统操作不合理、服务器出现故障等原因。
着重围绕上面几个方面进行查找故障点:从死机范围及影响设备来看,分析是主机问题,但是对于6月9日整个系统出现死机,怀疑是服务器问题,笔者将这一情况迅速反映厂家。厂家开始怀疑是服务器设置或存在病毒,根据现场情况,DCS有很严格的规定,不准任何人在DCS上拷贝,与MIS系统连接是单向传输,中间也加了隔离装置,病毒不太可能;设置参数经厂家确认后也没有问题;最后还是把问题集中了服务器上,对趋势存在断点问题进行了共同分析,主服务器成了最后故障点。
4、故障处理
5月25日锅炉制粉盘出现死机后,热工人员发现主机故障,更换了一台主机,对系统进行检查后,将系统重新启动,系统运行正常,并将这一情况反映至DELL厂家进行修复,DELL厂家6月2日将主机修好。
5月29日锅炉运行发现锅炉主盘系统风烟数据全部显示#COM后,大约30s后,系统数据显示自行恢复,但是乙侧引风机液偶调节关指令一直保持,液偶全关至0,运行人员及时调节甲侧设备保住机组稳定,之后,热工人员对主盘进行检查,将这一情况反映厂家,厂家分析系统参数设置有问题,将参数检查无误,反馈给厂家。得到厂家答复:在SmartPrO3.1.3中有这样问题,系统死机时,如果操作的话,在恢复后,系统会一直记忆这个指令,造成全或全关现象,解决这个问题只有对系统进行升级。由于系统运行,故对发电分场监盘人员交代:在系统出现数据滞缓时,不要进行操作,待系统运行画面正常时再进行DCS系统进行操作。
6月4日又出现一次5月29日同样现象,但设备为甲引风机液偶全开,运行迅速对设备进行关联调整,热工处理检查后系统正常,判断还是系统通讯方面的问题。由于出现死机现象与主要集中在#12IO站和锅炉控制主盘,是不是#12IO站主控有问题呢,但查找的相关资料没有反映出这一问题。
6月7日早上7点多又出现一次5月29日同样现象,这次设备为甲引风机液偶全开,开度100%,热工检查发现主盘主机有问题,将主机进行了更换,我们也对主机加强了检查力度。
6月8日又出现两次死机,连续出现三次同样故障,严重威胁机组安全运行,迅速和北京和利时厂家取得联系,根据厂家的提示,笔者对服务器及#12IO站进行检查,发现主服务器右下方的三色球有好几个,厂家怀疑在运行中主从服务器有切换现象,征询能否主控制进行切换,并且对锅炉主盘主机与打印站的互换,下午四时热工对#12站系统进行切换。
6月9日运行反映甲送风机在系统死机后,关指令一直发出,一次风压迅速下降800Pa,系统的不稳定严重威胁到机组的正常运行,热工专业人员对系统检查后,对主服务器进行重新启动,发现趋势有断点,列表在后,怀疑的重点集中为主服务器。一直待到19:00也未发现其他情况,晚上20:00又接到运行电话,DCS系统出现两次死机,这次不是锅炉主盘一台,而是操作员站全部死机,迅速赶往现场,系统已经自行恢复正常,这次暴露出来主服务器肯定存在问题,大家对运行监视组合进行调整,锅炉主盘比较重要,制粉盘近期运行较好,将锅炉主盘与制粉盘交换位置;与锅炉主盘商量让其到制粉盘监盘,将锅炉主盘退出进行重新新建工程,系统检查无误后,在运行登录,将与系统关联的GPS系统退出。并同时联系厂家尽快到现场解决问题。
厂家6月10到厂后,对锅炉主盘进行检查未发现异常,同时对更换到打印站的主机进行检查,发现计算机设置有不一致的地方,并对其进行了处理。询问6月6日~6月9日有11次的10~35s的问题(表2所示),厂家分析服务器有问题,我厂有服务器备件,提议更换主服务器,厂家认为没有必要,软件问题进行重装就可以解决,系统升级后,这方面的问题就不存在了,所以没有更换主服务器。对系统升级,彻底解决系统死机期间操作的指令一直发出问题。
表2趋势断点记录表
机组6月13日停机调峰,利用这个机会配合厂家对服务器进行重新安装,并对系统进行了升级为SmartPrO3.0.3+SP2,在中试对DCS系统测试后,于6月16日将系统重新恢复运行,机组目前运行状态良好。
5、结束语
综合以上经过,笔者发现系统出现死机的主要问题是主服务器的问题,在今年大修前我们采纳了厂家建议购置了一台服务器备件;在运行中对设备的日常维护很重要,不单是保证设备在正常的环境中运行,设备巡回检查一定要落到实处,发挥巡回检查的真正意义。
系统出现某台操作员站问题,由于设备已经有3年的使用期,今年的大修中笔者更换了几台有问题的主机,对这次主机部分出现问题,笔者联系了DELL厂家对有问题的主机进行了更换。
对DCS系统缺陷处理,主机更换中一定要检查彻底。
对于其连接的其他系统如MIS等,由于其服务器是直接挂在DCS系统的服务器上的,所以对其的操作一定要规范,其IP地址不能与DCS系统有重复的。
多与厂家沟通,因为厂家对其使用系统问题见识要比用户多,有些东西不需要等事到临头才来解决,所以才可以防患于未然。(
来源:佳工机电网