超声流量计作为天然气贸易计量交接的关键设备,对各个部件的工作健康状态要求非常高,超声流量计以超声波来度量声速和流速,原理简单,易用性强,但在实际的使用过程中往往会受到荷载冲击、介质不纯、流态失控和环境噪声等多因素影响,这些运行过程中的异常状态使得超声流量计的健康状态指标呈现特定的时间序列模式(波动大、峰值高和频率高等)[1-4]。根据JJG 1030-2007《超声流量计检定规程》,超声流量计各个部件的健康状态可由超声流量计整体的健康状态参数(采样率、信号增益和信噪比等)反映。如声速、流速参数的异常可以反映出换能器故障,性能、信号增益可以反映出信号监测异常等。这些以时间序列形式呈现的健康状态指标就成为了判定超声流量计健康、提升超声流量计使用性能的关键。
国内外超声流量计厂家的主流做法是采取固定的周期检定流量计,设置固定的采样时间,获取测试段的各项运行参数,计算测试段运行参数的均值或最大值,并将计算值与设定的阈值比较。当计算值超出阈值时,判定为异常状态[5-8]。虽然不同厂家关注的健康诊断指标各异,但都以均值结合阈值的方法来判定。对于换能器增益、性能这些受工况变动影响较小的指标,测试段内参数的均值或最大值可以准确地表征其富含的信息,但对于信噪比、漩涡角等易受外界和工况变动干扰的指标,单纯采用均值的方式缺乏对超声流量计健康指标信息的深度挖掘,导致现场实际应用存在误报率、漏报率高的情况。
超声流量计的全生命期健康管理在国内起步较晚。国内长输管道在用超声流量计多为进口。因此,初期的超声流量计健康状态指标监测及分析均采用流量计出厂附带的软件,尽管监测的指标具有共性,但各厂家的数据处理方式不同、报告形式各异,给超声流量计声速核查报告的统一管理造成了困难。此外,在国内分输站的应用中,同一台超声流量计在服役期间会被送至不同的检定机构溯源[9]。以上两点因素共同导致了超声流量计全生命期管理的数据壁垒,对同一台超声流量计全生命期数据的管理与追溯困难,现有诊断系统多数只是完成了1~2个自动功能,没有做到完全智能化,需要大量的人工干预,尚未充分利用大数据挖掘和应用技术,智能化水平相对较低,系统在实时数据自动分析、故障数据自动存储,以及符合客户需求的诊断报告自动生成、故障/报告针对性处理意见的自动分配等方面尚需深度研究和提升。
随着大数据及人工智能的发展,全局控制、仿真预测成为了可能,从根本上突破了传统单点管理的局限性,能预测就能实现预控,推动计量运行由结果管理变为预控管理,为今后计量诊断系统的发展和提升指明了方向[10-11]。本研究提出了一套系统的超声流量计健康诊断方法。首先,对于超声流量计的健康数据稀少的问题,提出了一套基于智能算法的数据扩充方式,提高了以往数据的建模基础。其次,基于扩充后的数据,开发了一套完整的基于无监督学习的超声流量计健康状态评估方案。
目前由于现场缺少超声流量计全生命期管理的数据,同时对同一台超声流量计全生命期数据的管理与追溯困难,数据量难以支持基于数据驱动模型的超声流量计健康诊断分析。因此,本方法提出了基于对抗神经网络(GAN)的超声流量计数据生成方式,以扩充同类超声流量计声速核查结果的数据量。针对目前超声流量计诊断方法对数据信息挖掘不够充分的问题,本方法基于扩充后的数据,对超声流量计健康状态指标进行时域、频域特征分析,提取了健康指标时间序列的关键信息。
GAN的输入基于单个统计厂家统计分析所得的某时间段声速核查原始数据表格,表格包含信噪比、增益等描述超声流量计健康状态的监测指标。GAN系统是由两个模型组成(见图 1),即判别模型和生成模型。判别模型的任务是判断输入声速核查表格是源自数据集还是由机器生成的,一般使用二分类的神经网络来构建,将取自数据集的样本视为正样本,而生成的样本标注为负样本。生成模型的任务是接收随机噪声,接着使用反卷积网络来创建一个表格[12]。通过这种双方对抗的方式,对超声流量计某时间段内的健康状态监测指标分布情况施加噪声,并模拟扩充生成新的数据,以供后续健康诊断方法建模。
由于时间序列种类繁多,当前仅使用均值或最大值来评定超声流量计序列,这很容易忽略流量计健康状态退化的重要信息,易造成漏报与误报。因此,提出了一种超声流量计时间序列提取方法,通过数据挖掘算法,筛选出了6项可以全面、综合评定超声流量计工作机理的指标。
目前,生厂家对时间序列失真程度的评价方式为计算实测值与真实值误差的平均绝对误差,本方法延续该指标长久以来的优良适应性,并提出失真程度指标(S1),用于评价健康状态指标离散程度,从而判定该段时间序列的偏离真实值的程度。以气体流速的测量为例,假设厂家采集共n个测点,第i个测点的数据包含该声道下的实测气体流速(Vi)和计算所得理论气体流速(Vi′),则S1计算公式如式(1)所示:
当S1偏大时,表明当前该声道的测量值偏离实际值较多,超声流量计的工作部件可能存在问题。
对健康状态指标时间序列的取值进行统计,计算其样本标准差(s),用于衡量数据分布在平均值附近的紧密程度,并将其与标准正态分布进行比较,峰度(S2)、偏度(S3)两个分布特性指标衡量其与标准正态分布间的差异,以判定目标时间序列段的数值分布是否具有固定规律。其计算如式(2)~式(4)所示。
式中:xi为时间序列中第i个测点的目标值;x为时间序列所有测点取值的均值。
当超声流量计处于健康的工作状态时,其健康状态指标的时间序列采点的分布方式应保持相对稳定,即S2、S3在一定区域内变动。当S2、S3的取值偏离大多数情况时,表明超声流量计可能出现异常工况。
复杂程度指标(S4、S5)的主要目的为描述健康状态指标时间序列的复杂程度。S4为计算时间序列每相邻两点的差值,并求取计算结果的方根值,用于描述波峰、波谷的个数,其计算公式如式(5)所示。
式中:xi-1为时间序列中第i-1个测定的目标值。
离散傅里叶变换的计算公式如式(6)所示,S5为离散傅里叶变换后得到的频谱图的谱统计方差,用于描述时间序列子信号的频率分布差异,如式(7)所示。
式中:X(k)为傅里叶变换后,频率k对应的幅值;e为自然常数。
当超声流量计处于健康的工作状态时,其健康状态指标的时间序列复杂度应保持在较低的水平,即波峰、波谷少,子信号的成分更纯洁。因此,当S4、S5取值较大时,可判定超声流量计的工作状态存在异常。
绝大多数的超声流量计健康状态指标并不具备周期性,但为使得对时间序列的分析更加完善,补充自回归系数,作为描述时间序列周期性指标S6的计算公式如式(8)所示。
式中:t为滞后系数,用于调节回归系数评定的周期;xi+t为时间序列中第i+t个测点的目标值。
当t取固定值时,S6越大表明该时间序列的周期性计算无法对齐,即时间序列不具备明显的周期性规律。因此,对于具有周期性规律的健康状态指标,当S6偏大时,可判断超声流量计存在异常工况。
相比于超声流量计厂家的工作参数评价方法,应用指标体系[S1~S6]可以从失真程度、分布特性、复杂程度和周期性4个方面,实现对超声流量计健康状态指标时间序列的综合评定,并利用该6项指标对应的取值特点,定性判定超声流量计异常工况下指标体系的变化规律。
聚类算法可以按照所规定的标准把一个数据集分割成不同类或簇,使得同一个簇内的数据对象的相似度尽可能大,同时不同簇的差异性也尽可能大。目前,常用于目标健康诊断领域的机器学习无监督聚类算法有综合层次聚类、高斯混合聚类和K均值聚类等[13-15]。基于第1.2节中超声流量计时间序列提取的结果,对其进行聚类分析,实现对超声流量计健康状态的识别。
综合层次聚类是一种基于层次的聚类方法,按照层次给输入的数据进行分解,直到满足约束条件为止。综合层次聚类的流程图如图 2所示。
由图 2所示,综合层次聚类方法主要包括以下4个步骤:
① 读取数据集建立CF(聚类特征)树。
② 剔除CF树中异常的节点。
③ 利用算法对CF树组进行聚类。
④ 判断聚类结果是否满足约束要求,若不满足则重复步骤②~步骤③,若满足则输出聚类结果。
本方法的算例展开整体流程如图 3所示。基于超声流量计在线监测的原始信号,并按基于滑动窗口进行时间序列分割后,抽取式(1)~式(8)的5项时间序列特征,结合专家经验和相关标准判定超声流量计的健康状态标签,从而制定完整的数据集。此时,数据量仍不足以支持基于大数据分析的超声流量计健康诊断,需结合GAN模型对超声流量计故障诊断健康数据集进行扩充,按照原有数据集的潜在规律,生成增强后的超声流量计健康数据集。基于此,结合两个超声流量计厂家的健康诊断规则,及本方法所建立的无监督超声流量计健康诊断模型进行精度测试,最终挑选最佳的无监督聚类模型,应用于超声流量计健康状态的分割。
选取西气东输某分输站采集的10 409组样本,采集的健康诊断指标包括4个声道的声速、流速、气体流速比、信噪比和声速偏差、增益、性能、剖面系数、不对称系数、漩涡角、湍流度等共26项指标。
由于超声流量计在线监测系统上线较晚,到目前为止,现场所运行的超声流量计处于异常工况的情况少。因此,采集得到的数据大量处于健康状态,造成了所采集故障数据的小样本特性,而故障状态的数据标签是测试所建立的模型精度的先决条件。为了验证所开发的模型精度,本方法在原有数据中根据超声流量计的机理,人为置入故障数据。为了简化说明问题,仅列出超声流量计的测量核心部件,即换能器(见表 1)。在超声流量计的健康状态监测中,与换能器相关的指标包括性能、增益和信噪比:性能表征换能器所能接受到的信号强度;增益表征换能器在接受信号时,需要将信号放大的程度,以达到可识别的水平;信噪比为接受信号中真实信息与噪声信息的比例。因此,对于超声流量计的换能器运行,当性能和信噪比突然降低时,表征换能器完全损坏;当增益偏高时,表征电路元件存在故障。结合国内现流行的各超声流量计厂商,对超声流量计的故障频率进行了统计。基于相关数据,设定超声流量计发生故障的概率为5%,其中,换能器完全损坏的概率为1%,换能器电路故障概率为19%,换能器安装存在问题或受到外界冲击导致异位的概率为30%,换能器脏污的概率为50%,并采用GAN模型进行数据扩充。
国内外已经实施的超声流量计计量远程诊断系统多数只针对自己公司产品的算法诊断模型,或者用本公司的算法模型套用到其他公司的产品诊断,但实际上各个公司产品的特性不尽相同,符合各厂家超声流量计产品的实时诊断算法模型是不存在的,因此,需要结合各自产品属性针对性地构建不同的算法模型。
本方法选用两种算法模型来复现目前两个厂家(A、B)对超声流量计换能器的诊断方法。诊断方法及结果如表 2、表 3所列。
图 4、图 5所示为A、B厂家超声流量计换能器故障阈值法诊断结果。由图 4、图 5可以看出,不同厂家的超声流量计阈值法均无法识别出超声流量计在运行过程中的退化或恢复(亚健康)状态,由此,限制了超声流量计预防性维护的进展,而仅能实现超声流量计的事后故障诊断,对计量交接的安全、稳定造成威胁。
基于第1.2节所述理论,将第3.1节中提到的性能、信噪比和增益数据进行时间序列特征分析,进而完成聚类。诊断结果如图 6所示,横轴为预测的故障类型,纵轴为实际的故障类型。当图 6中的数据在左上至右下的对角线上时,证明模型预测准确,否则,模型将目标的故障预测为其他故障。以图 6为例,1 008组数据均被准确预测,其中,超声流量计健康状态547组、退化或恢复状态449组、电路存在故障2组、安装歪斜2组和部分脏污8组。
为了显示出本方法的优越性,采用式(9)计算模型精度。将有监督学习算法(随机森林、Adaboost和决策树)和无监督学习算法(K-means、高斯混合模型和BIRCH)的预测结果进行了对比,结果如表 4所列。
式中:A为精度,%;np为正确判断超声流量计故障的数量,个;nT为用于测试的超声流量计故障样本总数,个。
模型的精度测试基于对多台超声流量计故障所集成的数据集展开,面向所构建的模型展开预测。
基于无监督学习的诊断方法的局限在于将模型整体上诊断为有故障和无故障,再根据有故障的问题对故障类型进行分类。基于有监督学习的方法需要对数据集先打好标签后再对模型进行训练,即可以对数据集中超声流量计的退化或恢复阶段进行标记后再进行识别。这种退化或恢复阶段的数据标记方法需要引入时间序列特征分析等相关理论。因此,有监督的学习方法会对设备的渐变阶段具有更佳的诊断效果。
综上所述,本方法建立的基于时间序列特征分析和无监督聚类方法结合的超声流量计健康诊断结果精度相较于传统的无监督聚类模型效果提升非常显著,传统的无监督聚类模型几乎无法识别出超声流量计处于退化或恢复的阶段,而本方法可以准确地识别出超声流量计所处阶段,及时发现安全隐患,降低风险,并且在数据量适中的情况下几乎没有预测偏差。后续将随着超声流量计真实故障数据的积累进行进一步的验证。
基于生成对抗神经网络(GAN)和高维非线性无监督学习方法建立了一套系统的超声流量计健康状态评估体系,该方法可解决目前国内各超声流量计检定厂家指标多样、指标分析不全面的问题,并随着数据的不断积累,可动态优化超声流量计的健康状态评估模型,提升超声流量计维检修支持精度,从而大大降低超声流量计带病工作的可能,为超声流量计安全优先、降本增效的科学维检修提供了支持。