在现代工业中,报警系统作为一个独立的保护层起着很重要的作用[1],Stephen Gill[2]在最新论文中指出,如果一些重要信息得到相应的重视,便可能阻止事故发生,被忽略的原因是提供过多不必要信息,或重要信息的可视化不明显。随着DCS、PLC、FCS等自动化系统的广泛应用[3],报警的设计变得容易。因此,同一故障或运行异常会同时引发多个报警。大量的报警出现将提供过多无用信息,干扰控制员准确诊断故障,致使报警系统失去保护作用。
关联报警分析是提高报警系统性能的有效手段,基本方法有两种:第一种基于工艺流程分析,比如层次分析法、有向图(SDG)法、因果关系(C-E)模型等定性物理模型;第二种基于过程数据和报警日志,依靠统计分析方法来寻找报警间的关联关系。T.Kourti[4]提出利用回归分析、主成分分析等统计方法来处理多变量报警问题;Jiandong Wang[5]提出了一种新型关联报警识别方法,基于二进制数据的相似系数;F.Yang[6]等对报警数据的关联分析方法和可视化做了改进;H.A.Gabbar[7-8]等人通过过程数据分析揭示关联报警中的可能起因,并利用XML模型开发了某工厂的关联矩阵;Markus Schleburg[9]利用报警参数对相关报警进行分组,从而减少呈现给操作员的报警数,其分组原则是以共因报警为基础;T.Bergquist[10]则利用计算机工具的估计方法分组报警。
本文以寻找关联报警,减少报警数量为目的,利用系统聚类法分析过程数据,对报警变量进行分组;进而对组内各报警的响应时间和后果严重度进行评估,以分值量化的方法计算优先级评分,决定报警小组中优先响应和抑制的报警,减少不必要的信息干扰。最后在TE模型中运行测试,从工艺流程和控制回路上验证该策略的有效性和实用性。
对工厂报警分组可以凸显重要报警信息,更加直观地提醒控制员发生故障或偏离的设备或单元, 报警分组基于报警之间的普遍联系,比如同一工艺单元、同一区域、同一设备的报警[11]。Markus Schleburgad[9]等提出共因报警分组的一系列规则,包括报警类型、时间窗口和报警状态。文献[12]则认为单纯依靠属性和时间窗口的报警分组会切断不同类型、状态之间的联系,提出在因果关系模型的基础上进行分组更易划分关联报警。本文提出的分组方法以报警变量的过程数据为基础,利用系统聚类法找到关联报警并分组。因此,设备故障报警不在该方法的研究范围,如放空率和压缩机功率报警。
系统聚类法是最常用的一种聚类方法,已广泛应用到气象预报、农业、林业、土地规划等领域,近年来多有与事故风险结合的研究。其基本思想是将样品各看成一类,然后定义类与类之间的距离,将距离最短的两类合并为一个新类,再计算新类与其他类之间的距离,如此下去,直到合并为一个大类为止[13]。采用不同的距离标准聚类,有不同的聚类方法:最短距离法、最长距离法、重心法、类平均法和离差平方和法,各种方法各有优缺点,本文选用离差平方和法聚类[14]。
离差平方和法(又名Ward法)的思想来自于方差分析,是由Ward于1936年提出,1967年经Orloci等人发展建立起来的一种系统聚类方法。该方法认为,如果分类正确,同类样本的离差平方和应当较小,其计算方法如下:设Gp、Gq为两个类,中心分别为Xp、Xq。对于类Gp,离差平方和为:
类似的有:
其中,$\bar X = \frac{1}{{{n_{\rm{p}}} + {n_{\rm{q}}}}}\sum\nolimits_{i \in {G_{\rm{q}}}{\rm{U}}{G_{\rm{q}}}} {{X_i}} $定义类Gp和类Gq间的距离平方为:
另外,离差平方和法的新类距离递推公式为新类计算提供便利,为:
系统聚类方法最终会把所有变量聚为一类,但把所有报警归为一组是不现实的。根据公式(6),本文选取最大距离的60%作为聚类指数,距离大于该指数时停止聚类,得到最终分组,但报警管理是一个长期动态的过程,聚类指数需要在实践中不断修正,分类多少也可能随之改变。
在响应报警时,优先级作为一个重要参数被长期忽视,根据EEMUA-191:2007《报警系统:一个对设计、管理和采购的指导》规定[15],报警必须有明确的优先级(3~5级),并以清晰的方式呈现给控制员,即不同优先级要配置不同的、容易区分的声音和颜色,方便控制员做出响应判断。目前,国内外对报警优先级的研究较少,有国内学者用物元分析方法建立报警参数和级别之间的关联函数,把报警等级当做优先级[16-17]。
优先级的主要影响因素为报警最大响应时间和后果严重度,等级设定也由此而来。API-1167:2010《管道SCADA系统报警管理》[18]为管道行业制定了一个优先级评定矩阵,把响应时间分为四级,后果严重分为三级,见表 1。显然,该方法过于简单粗糙,把专家意见模糊化,且3个等级不能有效地反映报警的紧急顺序。本文在该矩阵基础上,引入平均响应时间因子,并对后果严重度做了细致的评分规定,以实现报警优先级的量化。
一个报警的最大响应时间是从报警发生到不可接受后果出现之间的时间,反映了报警的紧急程度,包括控制员动作(判断、命令和执行)和操作员动作(命令接受和执行)。对4个阶段的响应时间赋以不同的系数,即平均响应时间因子(Mean Time to Response, MTTR),从而把时间因素量化,见表 2。
报警预示着不愿见到的事故,事故的严重程度是风险评估的重点。本文把后果进行了更细致的分类,包括人员安全、公众影响、环境影响、设备损失、财产损失和停工期6大影响类别,严重度分为无、轻微、重大、严重4个等级,对应有不同权重,见表 3。
最后,用公式(7)计算最终的优先级分值,找到优先顺序。
本文提出的报警分组和抑制策略基于过程数据对报警变量聚类分组,然后根据报警优先级的分值对报警小组内的报警排序,选出分值最高的报警作为小组代表通报给控制员,抑制其他报警。具体流程见图 1。
TE过程(Tennessee Eastman Process)是由Downs等[19]根据Eastman化学公司的实际工艺流程作少许修改后于1993年提出的,近年来广泛应用于厂级控制、过程故障检测与诊断、过程优化等自动化研究领域。TE过程主要由5个操作单元组成,4种反应物生成2种产物,共有12个操作变量,41个测量变量(22个连续测量变量和19个成分变量),其中22个连续测量变量是设置报警的基础。本方法排除故障报警,应除去其中的循环流量(F5)、放空率(Pr10)和压缩机功率(C20),则剩余的为报警变量:F1-A物料流量、F2-D物料流量、F3-E物料流量、F4-AC混合物料流量、F6-反应釜进料率、P7-反应釜压力、L8-反应釜液位、T9-反应釜温度、T11-气液分离塔温度、L12-气液分离塔液位、P13-气液分离塔压力、F14-气液分离塔出口流量、L15-汽提塔液位、P16-汽提塔压力、F17-汽提塔出口流量、T18-汽提塔温度、F19-汽提塔蒸汽流量、T21-反应釜冷却水出口温度、T22-分离塔冷却水出口温度。其工艺流程见图 2。
根据TE过程的模拟过程数据进行聚类分析,分析在SPSS17.0软件中完成。所得19个报警变量的聚类图见图 3。
聚类分析的最大距离为25,由此得到聚类指数L聚=25×60%=15。由聚类图可知报警变量共分为3组,第一组包括P7、P13、P16;第二组包括F4、F6、F3、L8、F1、F14、F17、T21、L12、L15;第三组包括T18、F19、T11、T22、F2、T9。分别对19个报警变量进行风险评估,确定其MTTR因子和后果严重度权重,算出最后的优先级分值,见表 4。
每组报警按照该分值排序,第一组:P7>P13=P16;第二组:L8>L12=L15>F6>T21>F1=F3=F4>F14>F17;第三组:T9>T11>T18>T22>F2>F19。在每组报警中选取优先级分值最高的报警最为优先通报报警,即P7-反应釜压力、L8-反应釜液位和T9-反应釜温度,如果没有出现这3种报警,则依次选择分值最高的报警。
TE模型提供的扰动1为流量4中的物料A/C比率阶跃变化、物料B恒定,在该扰动下运行共触发10个报警变量,造成报警泛滥。经过上述程序,最终可确定优先通报3个重要报警:P7-反应釜压力(第一组)、L8-反应釜液位(第二组)和T11-气液分离塔温度(第三组),抑制其他报警。
从工艺角度分析该报警抑制策略的合理性:反应釜的压力可以由其中的冷却水流率、吹洗(排空)的流率,以及进料流率FC进行控制;反应釜的液位可由进料流率FD和FE、分离塔温度设定值、回流阀开度,以及进料流率FC控制;分离塔的温度可由冷凝器温度和回流压缩机功率控制,并直接影响回流到反应釜的尾气的组分比率(轻组分A和C,以及组分B)。这3条包含重要报警的控制回路可以最大程度调节流量4中的A/C比率,说明基于系统聚类的报警分组和抑制方法在理论上可行。同时,用EEMUA-191:2007[13]推荐的关键性能指标评估(Key Performance Indictor, KPIs)对TE案例进行系统性能评估对比,结果见表 5。由表 5可以看出,应用本策略前后的3个指标平均报警率、峰值报警率和峰值报警时间百分比都有明显下降,而且达到了EEMUA-191:2007的可接受标准,从而证明该关联报警分组和抑制策略的有效性。
(1) 首次利用系统聚类的数学思想分析多报警变量的关系,进行报警分组,一定程度上反应了工艺流程中报警变量之间的关联关系。
(2) 利用报警优先级量化细则,把最大响应时间和后果严重度转化成优先级分值,更直观地展示报警的紧急程度,为报警抑制提供依据;与聚类分析结合的报警分组和抑制策略可以帮助控制员在报警泛滥中快速做出合理响应并控制异常状况回归。
(3) TE模型的运行测试证明该方法的合理性,其应用可以提高报警系统效率,同时为关联报警分析和报警系统优化提供了新思路。
(4) 该分组方法基于过程变量数据,研究对象未包含设备故障报警,可以综合定性分析方法,修正报警分组。