尾气处理装置是天然气净化厂的主要设备,在其运行过程中会产生大量烟气,其中含有二氧化硫(SO2)、氮氧化物、颗粒物等,会对环境造成一定的影响[1-4]。目前,随着工业自动化和智能化的持续发展,实时优化(real-time optimization,RTO)和先进控制(advanced process control,APC)等工业技术被引入到化工过程中,使得生产过程变得更加智能和灵活。利用历史生产数据和实时监测数据,对SO2排放质量浓度进行实时预测,可协助优化设备参数,实现生产过程的精准控制,从而实现运行成本和效益的最优化。
数据清洗在尾气处理装置SO2排放机器学习建模中具有关键作用。近年来,该领域越来越多地应用机器学习技术以提高装置性能和效率。然而,数据质量不佳、数据缺失和异常值等问题对于建立准确可靠的机器学习模型构成了困扰。这些问题导致模型的不稳定和预测性能的下降,对装置的运行和环境产生不利影响。通过对原始数据进行清洗和预处理,以消除数据中的噪声、异常值和缺失值,从而提高数据的质量和可靠性。这一步骤对于提高模型的拟合程度和预测精度至关重要,同时,有助于减少过度拟合的风险,提高建模结果的准确性和稳定性。通过清洗数据排除潜在的误差和干扰因素,使机器学习模型更好地提取原始数据的特征。
尾气处理装置的运行工况异常复杂,尾气中SO2的排放受到多种因素的影响,包括原料性质、工艺参数等,它们之间呈现出较强的非线性关系,传统的机理模型构建方法在准确预测排放尾气中SO2质量浓度方面存在一定的困难[5]。相关研究表明,机器学习单模型能有效实现对非线性问题的建模和优化,相对于传统的机理建模方式具有显著优势,因此,其受到的关注程度不断增加[6]。Li等[7]利用自适应神经模糊加权极值学习机方法,并结合加权极值学习机和自适应神经模糊推理系统,准确预测了4种空气污染物CO、NO、PM2.5和PM10的质量浓度。杨兆祥等[8]研制了一种基于特征选择的改进粒子群优化算法,旨在优化门控循环单元神经网络,用于预测脱硫系统出口SO2质量浓度。杨文玉[9]采用基于RBF和BP神经网络的预测方法,有效地指导了烟气脱硫设施的运行参数调节。薛美盛等[10]针对循环流化床锅炉控制系统排放烟气中SO2质量浓度的非线性特点,提出了一种基于支持向量机的烟气中SO2排放质量浓度预测模型。
上述学者在SO2质量浓度预测方面,结合机器学习算法进行了深入的研究。此外,基于工业应用的实际考量,集成学习算法在多个领域展现出优异的预测能力[11-16]。作为一种新兴的机器学习范式,Random Forest等集成学习算法以其卓越的鲁棒性和高度精准的预测能力而备受青睐[17]。Lu等[18]运用Lasso、Random Forest及长短期记忆循环神经网络3种机器学习方法进行臭氧含量预测,发现Random Forest算法的调整效果最为显著。Rodriguez-Galiano等[19]利用Random Forest和多源变量对地下水硝酸盐污染进行预测建模,结果表明,Random Forest算法可以构建出具有强大预测能力的模型。Silibello等[20]运用Random Forest模型进行意大利人口暴露评估的环境二氧化氮和臭氧水平的时空预测。Duan等[21]采用多种数学模型和分析指标,包括自组织地图、响应曲面模型、Random Forest模型、分布滞后非线性模型和元分析,对大气污染物进行预测分析,为环境领域的数据分析和预测提供了有益的参考。
以上研究表明,利用Random Forest等集成学习算法进行建模可以有效地预测电厂锅炉烟气和臭氧等大气污染物的排放浓度[22-23]。然而,目前利用Random Forest等集成学习算法对天然气净化厂尾气处理装置SO2排放质量浓度的预测研究较少。
本研究首先通过对数据重要性和工艺特性进行深入分析,确定与SO2排放质量浓度相关的核心工艺变量。其次,鉴于尾气处理装置工艺流程的复杂性及原始数据存在大量缺失或异常的情况,采用数据均匀化、工况确认、异常数据分析及归一化等方法,对建模数据进行清洗和预处理工作,以提高建模的准确性和可靠性。最后,考虑到样本数据规模庞大的特点,采用集成学习和机器学习单模型两类方法,对尾气处理装置SO2排放质量浓度的预测效果进行对比分析。
天然气净化厂尾气处理装置主要由燃烧部分、吸收部分和除盐部分组成,燃烧部分负责尾气的焚烧,碱液吸收部分涉及碱洗吸收和氧化过程。首先,硫磺回收装置的尾气经过焚烧装置,在焚烧炉内被氧化为SO2,通过烟气冷却器降温并送至碱洗装置。然后,经过洗涤塔和脱硫吸收塔的二级碱液吸收,实现SO2的达标排放。最后,吸收废液进入氧化罐,与氧化空气发生反应使NaSO3氧化成NaSO4,经过中和脱色罐脱色处理,通过压滤机除杂进入NaSO4溶液池。尾气处理工艺过程如图1所示。
集成学习是一种机器学习方法,通过在数据集的不同子样本上训练多个决策树,将这些弱学习器组合在一起,形成一个强学习器,从而提高预测精度和泛化能力。常用的集成学习算法包括Random Forest、XGBoost和Gradient Boost等,以下主要介绍Random Forest算法。
Random Forest是一种集成学习方法,通过整合多个决策树对同一数据集进行预测。决策树是一种基于树形结构的机器学习模型,通过对数据集进行随机划分,选择最优特征的生成树结构,实现对数据进行分类或回归预测。决策树模型的每个内部节点表示一个特征属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种分类或预测结果。决策树模型易于理解和解释,可以处理各种数据类型,对缺失值不敏感,因此,被广泛应用于数据挖掘和机器学习领域。在Random Forest诱导的过程中,通过递归划分数据集和多次回归来诱导每棵决策树。从根节点开始,重复根据特定阈值对每个特征进行划分,将数据分割成不同的树枝,直至达到预先指定的停止条件。每个叶子节点均附加了一个简单的回归模型,仅适用于该节点。完成树的诱导后,进行剪枝操作,以降低树的结构复杂性,提高泛化能力。由于Random Forest对噪声具有相对的鲁棒性,不容易过度拟合,因此,在数据挖掘的各个领域都被广泛应用[24]。构建模型的主要步骤如下。
步骤1:构建基本特征数据集D,见式(1)。
式中:D为数据集;xm为尾气处理装置输入参数特征矩阵;ym为SO2质量浓度真实值,mg/m3;m为第m个样本;n为样本数。
步骤2:在Random Forest回归的步骤中,首先,需要确保每棵树hi的生长,这是通过从特征集D中进行随机选择来生成随机子空间Dj;然后,在这个子空间中选择最优特征并进行数据分割;随后,通过重复这一训练过程,可以得到整个随机森林中的N棵决策树hi的集合。
步骤3:在预测阶段,Random Forest回归的结果是N棵树hi预测结果的平均值。Random Forest回归作为一种多元非线性回归模型,采用双重随机思想,防止过拟合,增加了分类器之间的多样性,提高了模型的泛化能力。
决定系数(coefficient of determination)通常用于评估统计模型对观测数据的拟合程度。其取值范围为0~1,表示因变量(被解释变量)的变异中可以被自变量(解释变量)解释的比例。决定系数接近1表明模型能较好地解释因变量的变化,而接近0则说明模型对数据的拟合较差,解释力较弱。决定系数$ {R^2} $计算公式如式(2)所示。
式中:$ {y}_{i} $为第i个SO2排放质量浓度真实值,mg/m3;$ {\hat{y}}_{i} $为第i个SO2排放质量浓度预测值,mg/m3;$ \overline{y} $为样本均值;n为样本数。
均方误差(mean squared error,简称MSE)衡量模型预测值与实际观测值之间的平均误差大小,是预测值与实际值之差的平方的期望值。MSE越小,表示模型的预测值与实际观测值之间的差异越小,拟合效果越好。计算公式如式(3)所示。
式中:SME为均方误差。
在实际应用中,通常会同时考虑决定系数和均方误差以评价模型的性能。决定系数可以帮助理解模型对数据的拟合程度,而均方误差则提供了对模型预测精度的直观度量。综合考虑两者的值可以更全面地评估模型的优劣,并为进一步改进模型提供指导。
筛选了2018—2023年某天然气净化厂尾气处理日报中的44 000个样本作为预测模型的数据集。工业生产中的工艺数据与装置的具体运行状况密切相关,针对尾气处理装置异常数据,提出了一种结合尾气处理装置现场生产工艺的数据处理方法,具体步骤如下所述。
1) 采用随机打乱样本顺序的办法使数据均匀化。不均匀的数据集划分可能会产生样本偏移和基准偏移,误导评估、降低模型的精准度,可以通过随机打乱样本顺序的办法来减轻不均匀性带来的影响,提高模型性能和评估准确性。
2) 根据装置的检维修和停工时间,删除异常工况样本数据。
3) 根据装置的处理量确定装置的状态类别进行聚类分析。2020年8月的80条数据为装置处于超负荷状态时的异常数据,需删除。
4) 结合尾气处理工艺卡片和控制要求,对每个样本数据进行阈值计算。根据确定的数值范围,对样本数据进行值域标准化处理,以排除由仪表原因导致的漂移数据。
5) 对尾气处理装置SO2排放质量浓度及相关工艺参数进行了3σ标准差的计算。逐一判断各个样本值是否在3σ标准差之内,保留由正常工况导致的极值数据。
为了评估该数据清洗及预处理方法对模型精度和误差的影响,使用A、B两组数据进行对比分析。A组数据采用了本研究提出的数据清洗及预处理方法进行样本随机均匀化处理,剔除异常工况数据、超负荷数据和漂移数据,剔除不在3σ倍标准差内的数据,最后进行归一化处理。而B组数据则采用原始数据,不进行任何预处理。
归一化处理可消除数据在量纲上的影响,提高分类器的精度,使不同维度的变量特征在数值上具有相对可比性,有利于数据的划分工作。本研究采用Z-Score函数将输入参数归一化,将数据特征缩放至一定的最小、最大值区间。归一化公式如式(4)所示。
式中:$ x_{i,{\mathrm{new}}} $为第i个归一化后的样本;xi为第i个样本;$ \overline{x} $为样本均值;σ为样本标准差,样本xi的误差满足|(xi−$\overline x $)| > 3σ。
对于样本$ X=\left\{{x}_{1},\,{x}_{2},\,{x}_{3} ,\,\dots ,\,{x}_{n}\right\} $,标准差σ见式(5)。
数据处理结果见图2。
为简化预测模型并降低其复杂性,本研究采用决策树分析方法对决策变量进行重要性分析,剔除不重要的特征。这一方法对指导预测模型变量的选择具有重要意义,为相关领域的研究和应用提供了参考。
以下对尾气处理装置4个部分的参数重要性进行详细的描述和分析。
尾气焚烧冷却部分受到表1列出的11个因素的影响。尾气流量和燃料气流量被认为是重要的因素,对系统的运行和效果产生显著影响。炉膛中部、炉膛后部温度及冷却器压力则被认为不那么重要,在影响系统性能和效果方面的作用相对较小。
洗涤塔部分的8个影响因素见表2,其中,最重要的3个因素为洗涤水pH、洗涤水循环量及烟气进塔温度,直接影响着尾气处理装置的净化效果和性能稳定性。
脱硫塔部分受到见表3中6个因素的影响,最重要的3个因素为脱硫溶液循环量、脱硫塔pH和脱硫塔塔底温度,其对脱硫效率和系统稳定性具有显著影响。碱液罐液位则被认为不那么重要,影响较小。
氧化脱色部分受到表4中9个因素的影响,最重要的因素是氧化罐pH,对氧化脱色的效果和过程至关重要。加热后温度、硫酸钠池液位和中和脱色罐液位则被认为不那么重要,在系统性能方面的影响较为次要。
以上分析结果表明,所有装置的pH和循环量被认为是极为重要的因素,会对系统的优化和稳定、高效运行产生显著的影响。而氧化罐加热后温度、中和脱色罐液位、碱液罐液位、硫酸钠池液位、炉膛中部温度、炉膛后部温度及冷却器压力7个特征则被认为是不重要因素并予以剔除,以提高预测模型的准确性和可靠性。
经过重要性分析,选取由尾气焚烧冷却、洗涤塔、脱硫塔和氧化脱色这4个部分组成的27个参数作为输入变量,将尾气处理装置SO2排放质量浓度作为输出变量。数据集包含44 000条记录,分为训练集、验证集和测试集,按3∶1∶1的比例随机划分,训练集每次随机选取3份,测试集共8 800个样本。针对SO2排放质量浓度的回归预测任务,利用Python语言构建了随机森林(Random Forest)、未经过数据处理的随机森林、梯度提升(Gradient Boost)和极值梯度提升(XGBoost)4种集成学习算法,以及基于径向基(RBF)内核的支持向量机(SVM)来替代仿真模型进行建模对比分析。
以Random Forest算法为例,构建了一个包含27个输入和1个输出的Random Forest网络结构,见图3。
Random Forest模型的性能受到多个参数的影响,包括决策树数量(n_estimators)、树的最大深度(max_depth)和节点最小样本数(min_samples_split)等,通过调整这些参数,可以有效优化Random Forest模型的性能,提高其准确率和泛化能力。验证曲线(Validation Curve)是一种用于可视化模型性能随超参数变化的工具,在训练集和验证集上绘制模型性能指标(如决定系数、均方误差等)与超参数取值之间的关系,可判断是否存在过拟合与欠拟合的情况,帮助理解超参数对模型性能的影响,并选择最佳的超参数取值。如图4所示,以Random Forest模型中树的最大深度max_depth和树的数量n_estimators参数优化验证曲线为例进行分析。
由图4可知,树的最大深度(max_depth)取值模型为20时达到理想状态,而Random Forest中树的数量(n_estimators)取值为250时达到理想状态。随着上述数值的增加,交叉验证分数保持不变,这可能是因为模型已经足够复杂,或者数据质量已经足够高,进一步训练或参数调整并不会显著提升性能。最终,所有参数的最优设置见表5。
经过10次实验并取均值,得到了5种方法在模型测试集上的验证效果对比结果,包括决定系数和均方误差,见表6。由表6可知,3种集成学习模型比SVM单模型的预测效果更为精准。其中,Random Forest模型展现出最佳性能,决定系数为0.89,均方误差为1 250.59(均方误差较大的原因是输出数据的特性,量纲比较大),相对于8 800个真实测试集样本数据,其预测偏差为9.86%,相比于Random Forest模型(数据未处理),其决定系数提高了61.82%。
图5呈现了上述4种方法在8 800个随机样本上的预测结果。Random Forest模型(数据未处理)未进行异常值筛选,数据量与其他模型不一致,因此,该方法的预测结果未在图中呈现。
为了直观地评估预测效果,随机选择了100个测试样本进行局部预测,如图6所示。其中,3种集成学习方法的预测趋势与真实值大致一致,Random Forest模型表现最为接近真实值,进一步凸显了其在预测中的优越性。
Random Forest模型的交叉验证分析如图7所示,横坐标为SO2排放质量浓度真实值,纵坐标为预测值,测试集共涵盖8 800个样本点。图7中测试样本越接近对角线,表示模型的预测与真实值越一致,反映了模型的预测性能。在实际工况中,阀门和流量计等设备不能被准确调节,会对结果造成一定的误差。数据范围覆盖了2018—2023年,但2020年装置进行工艺调整,部分样本可能与对角线偏离。尽管部分点在对角线附近出现偏倚,但整体预测趋势表明模型预测相对可靠。
为了深入了解Random Forest模型的具体表现,优化和改进本研究所采用的方法,随机选择了100个测试样本进行局部预测,见图8。由图8可知,SO2排放质量浓度预测数据与真实数据的极值点一致,大多数样本点的预测趋势非常准确,表明该模型的预测能力良好。相对于真实值,预测值的总体偏差为9.86%。进行工业应用时,会重点关注SO2排放质量浓度预测值的极小值点,从极小值点至超过极小值点20%范围内的数据均对于实际生产存在一定的指导意义。
提出了一种基于集成学习算法的尾气处理装置SO2排放质量浓度预测模型,并得出以下结论。
1) 数据来源和处理方式会对预测模型的建模效果产生影响。本研究筛选了2018—2023年某天然气净化厂尾气处理装置日报中的44 000个样本作为预测模型的数据集,采用了样本均匀化、工况确认、漂移数据确定、异常数据分析、3σ标准差剔除法以及归一化处理等方法,有针对性地对建模数据进行了清洗和预处理。经过数据处理所建立的Random Forest预测模型表现出更高的精度,相比于数据未处理的Random Forest模型,其决定系数提高了61.82%,验证了高质量数据处理在尾气处理装置SO2排放预测模型构建中的重要性。
2) 重要性分析结果表明,所有装置的pH和循环量是极为重要的因素,会对系统的优化和稳定高效运行产生显著的影响。氧化罐加热后温度、中和脱色罐液位、碱液罐液位、硫酸钠池液位、炉膛中部、炉膛后部温度及冷却器压力7个特征则被认为不具有重要性。因此,有必要剔除不重要的特征,从而提高预测模型的准确性和可靠性。
3) 实验结果表明,3种集成学习模型比SVM单模型的预测效果更为精准,其中,Random Forest模型展现出最高的准确度,决定系数为0.89,均方误差为1 250.59,相对于包含8 800个真实测试集样本数据,其预测偏差为9.86%。由此可得出结论,Random Forest模型能准确预测尾气处理装置SO2排放质量浓度,符合GB 39728—2020《陆上石油天然气开采工业大气污染物排放标准》中对硫磺回收装置规模<200 t/d的尾气处理装置排放烟气中SO2质量浓度不超过800 mg/m3的要求[25],可为天然气净化厂尾气处理装置提供可靠的数据分析支持,同时为后续的尾气处理装置调整工艺参数优化提供可靠的模型支持。
本研究为尾气处理装置SO2排放预测提供了依据和参考,且具有进一步发展的空间。在实际工况中,阀门和流量计等设备不能被准确调节,会对结果造成一定的误差。数据范围覆盖了2018—2023年,但2020年尾气处理装置进行工艺调整,会对模型提取特征产生影响。尽管存在这些影响,但可通过增加样本量和硫磺回收装置出口烟气化验数据来提升模型的泛化能力和预测的准确性。