润滑油是发动机、变速箱、传动机构等机械设备中必不可少的物质,其质量直接关系到设备的使用寿命和性能。润滑油的种类繁多,其中合成润滑油和矿物油基润滑油是最常见的两种润滑油基础油。合成润滑油是通过化学合成或精炼加工的方法获得的,其工艺复杂,炼制成本高昂,但是其性能卓越,包括高温稳定性、低温流动性和抗氧化性等方面均优于矿物油基润滑油。天然气合成润滑油(以下简称GTL润滑油)是通过将天然气中的烃类组分加氢裂解反应制成,不含硫、氮和芳烃化合物等有害成分,具有良好的生物降解性能和环保性能。同时,其物理性质和化学性质也非常稳定,能够在高温、高压和恶劣工作条件下保持良好的润滑性能,从而延长设备寿命,降低维修成本。因此, 虽然成本相对较高,但由于其出色的性能和环保性能,在市场上仍有一定的竞争力[1]。此外,合成润滑油和矿物油基润滑油属于不同的税则[2],税率有较大的差异:矿物油基润滑油属于税目27.10,进口关税为6%;合成润滑油属于税目34.03,进口关税为10%。鉴于此,为保护税收[3],GTL润滑油的准确鉴别已成为一项急需解决的问题。
目前,润滑油的鉴别主要采用红外光谱、电化学、光谱等检测技术[4-10],通过分析不同种类润滑油之间的差异,从而对润滑油进行鉴别。但是这些方法仅考虑单一参数、易受干扰、结果准确率不高、适用范围窄。随着计算机技术的发展,基于数理统计的深度学习、数据挖掘方法得到广泛应用,这种方法具有参数多、不容易受到干扰等特点,尤其适用于润滑油鉴别工作。但是,目前类似的GTL润滑油鉴别技术的研究却仍未见报道。因此,本研究基于互信息和贝叶斯算法,探索一种新的GTL润滑油鉴别技术,以提高润滑油鉴别的准确性和可靠性,为润滑油行业提供更可靠的鉴别方法。
DR-A1型折光仪(ATAGO公司);2400-Ⅱ型元素分析仪(ATAGO公司);ZF-1型紫外灯(上海楚柏实验室设备有限公司);GCMS-QP Plus型气相色谱-质谱联用仪(日本Shimadzu公司);SYP1016-Ⅳ型倾点分析仪(上海神开石油化工装备股份有限公司);SYP1003-ⅥA型黏度分析仪(上海神开石油化工装备股份有限公司);KD-H1120型蒸发损失测定器;KD-H1120型(长沙卡顿海克尔仪器有限公司);SYP1001B-Ⅴ型开口闪点分析仪(上海神开石油化工装备股份有限公司)。
硅胶(GF254, 200目);正己烷、石油醚、乙酸乙酯(上海国药),均为分析纯。
GTL润滑油(编号01~12)和矿物油基润滑油(编号13~25)样品来源于工厂定制及实验室自行配制,作为已知样品用来训练模型;GTL润滑油(编号26、27)和矿物油基润滑油(编号28、29)样品来源于市场购买,作为未知样品用来验证模型的准确度。
润滑油由基础油和添加剂组成,添加剂配方的多样化或在一定程度上干扰基础油性能指标的分析结果。为保证分析的可比性、准确性与可靠性,对润滑油样品进行组成分离,分离出非极性组分和极性组分,非极性组分即是润滑油的基础油。
利用柱色谱对润滑油进行基础油和添加剂的分离。在长1.5 m、直径10 cm的色谱柱中加入500 g硅胶,装柱后加入10 g润滑油样品,再加入500 mL的正己烷或石油醚进行洗脱,流量为1 mL/min;利用薄层色谱法跟踪,当254 nm紫外灯观察到薄层上出现明显吸收斑痕时停止分离。收集非极性组分,将非极性组分浓缩作为基础油待测样。
通过采集实验样品基础油的常见理化参数测试数据,如烃类组成(GC-MS法)、折射率、浊点、黏度、蒸发损失、闪点等,用于筛选特征指标和计算贝叶斯算法的先验概率,从而最终建立GTL润滑油的分类预测模型。
色谱柱:Rtx-5MS,0.25 um×0.25 mm×30.0 m。载气:高纯氮气。柱流量:1 mL/min。检测器:质谱检测器。进样口温度:350 ℃。进样方式:分流进样。进样分流比:10∶1。进样量:1.0 μL。柱温:100 ℃(2 min)。
质量范围: 60~700 amu。电离方式:EI。电子能源:70 eV。接口温度:340 ℃。离子源温度:230 ℃。四级杆温度:150 ℃。扫描方式:scan。
测试项目及采用的检测方法如表 1所列。
按照第1.5节中的测试方法对第1.3节的样品进行检测,结果见表 2、表 3。
测试结果表明,虽然各项理化参数之间存在潜在的相关性,但它们之间并不呈现直接的因果关系,也没有明确的影响规律。例如,GTL润滑油的链烷烃含量(质量分数为53.01%~64.62%)整体上来说比矿物油基润滑油(质量分数为39.84%~54.74%)高,但两者之间存在交叉重叠,无法通过该参数直接做出准确的分类判断。其他参数也具有类似的特性。因此,为了鉴别GTL润滑油,需要建立一种综合考虑多种特征指标参数数值的分类判断方法,以避免单一参数数值的交叉重叠影响。
筛选特征指标的算法可以多种多样,具体的实现方式会根据数据类型、数据规模、数据分布等因素而有所不同,如方差分析、卡方检验、互信息、信息增益、基尼指数[20]。
互信息是衡量两个变量之间关联程度的指标,它可以用来评估两个变量之间的非线性关联性。在贝叶斯分类中,选择关键指标就是为了找到和分类结果最相关的变量,而互信息可以捕捉到变量之间的非线性关系,从而更准确地找到关键指标。此外,互信息算法不需要假设变量之间的线性关系或者正态性,所以,更适合处理非线性问题。因此,本研究采用互信息方法来筛选特征指标。
互信息的计算是基于信息熵的概念[20]。假设X和Y是两个随机变量,它们的联合概率分布为P(X,Y),边缘概率分布分别为P(X)和P(Y)。则X和Y的互信息可以定义为:
式中:I(X; Y)为由X引入而使Y的不确定度减小的量;Σx∈X为X中的每个取值x进行求和;Σy∈Y为Y中的每个取值y进行求和;log表示以e为底的对数。
互信息表示了X和Y之间的信息量,即如果知道了X的取值,那么能够对Y的取值做出多大的贡献。如果X和Y独立,则它们的互信息为0,表示它们之间没有信息量。
在特征选择中,可以将互信息作为特征重要性的度量,选择与目标变量相关性高的特征作为关键特征。
按照互信息算法建立模型,并筛选特征指标,计算结果见表 4。
根据表 4的结果,经综合考虑,舍弃元素C、H、N、S含量指标,将烃类组成(GC-MS法)、浊点、倾点、40 ℃和100 ℃运动黏度、黏度指数、蒸发损失、开口闪点定为GTL润滑油分类预测模型的特征指标。
分类预测算法是指根据已有的数据和标签,学习出一个分类模型,然后用该模型对新的数据进行分类的算法。常用的分类预测算法有很多,例如k-近邻(k-NN) 算法、逻辑回归算法、支持向量机(SVM) 算法、决策树算法、随机森林算法、朴素贝叶斯算法、神经网络算法、XGBoost算法等[20]。
由于本研究目前的样本数量较少,希望通过后期不断引入新数据的方式提高模型准确度,且数据类型多样,包括离散型、连续型、有序型等。因此,采用贝叶斯算法来建立分类预测模型。
贝叶斯算法基于贝叶斯定理[20],通过计算后验概率来进行预测和分类。其原理可以式(2)表示:
式中:P(A|B)为在观察到B的条件下,A发生的概率;P(B|A)为在A发生的条件下,B发生的概率;P(A)和P(B)分别表示A和B的先验概率。
将经过筛选后的检测结果(见表 2、表 3)特征指标数据作为训练集,经计算得到分类预测模型的先验概率和条件概率。在对未知样品进行分类预测时,则把未知样品的数据代入式(2)进行计算,并将所有特征的条件概率相乘来计算P(数据|类别),就得到每个类别的后验概率,最后选择后验概率最大的类别作为预测结果。
将实验样品(编号26~29)作为未知样品,测试其特征指标,结果见表 5、表 6。
将表 5、表 6的数据输入分类预测模型,预测结果见表 7。
由表 7分类预测结果表明,该模型可以很好地对GTL润滑油进行分类鉴别,具有很高的准确性和稳定性。
建立了一种基于互信息和贝叶斯算法的分类预测模型,用于对GTL润滑油进行分类鉴别。通过对市售样品进行分析预测,结果表明该模型可以很好地对GTL润滑油进行分类鉴别。为了进一步提高模型的准确性和稳定性,可以通过不断引入新数据,更新模型中的先验概率分布,以便于模型更好地适应真实世界中的变化,并提高模型对未知数据的预测能力。此外,还可以通过补充新的分类数据,对该模型进行扩展,用于预测其他种类的润滑油。这将为润滑油行业和关税鉴定提供更加全面和准确的鉴别工具。