石油与天然气化工  2023, Vol. 52 Issue (5): 115-120
基于互信息和贝叶斯算法的天然气合成润滑油鉴别技术
张伟亚1,2 , 宋保靓1,2 , 陈向阳1,2 , 晏金灿3 , 谭智毅4     
1. 深圳海关工业品检测技术中心;
2. 深圳市检验检疫科学研究院;
3. 中山大学惠州研究院;
4. 广州海关技术中心
摘要目的 为完善润滑油的关税鉴定,提出了一种基于互信息和贝叶斯算法的天然气合成润滑油鉴别技术。方法 首先,提取了天然气合成润滑油和常规矿物油基润滑油的特征参数,并运用互信息方法对其进行特征指标选择,筛选出具有鉴别能力的特征指标。然后,对所选特征指标采用贝叶斯算法进行建模,最终实现了天然气合成润滑油和常规矿物润滑油的分类鉴别。结果 实验结果表明,该方法所建立的模型能够有效鉴别天然气合成润滑油和常规矿物润滑油。结论 该方法所建立的模型具有良好的稳定性和可靠性,为润滑油行业和关税鉴定提供了一种全面和准确的鉴别工具。
关键词天然气合成润滑油    互信息方法    特征选择    贝叶斯算法    
Gas-to-liquid lubricant identification technology based on mutual information and Bayesian algorithm
Zhang Weiya1,2 , Song Baoliang1,2 , Chen Xiangyang1,2 , Yan Jincan3 , Tan Zhiyi4     
1. Shenzhen Customs Industrial Products Testing Technology Center, Shenzhen, Guangdong, China;
2. Shenzhen Academy of Inspection and Quarantine, Shenzhen, Guangdong, China;
3. SYSU-Huizhou Research Institute, Huizhou, Guangdong, China;
4. Guangzhou Customs Technology Center, Guangzhou, Guangdong, China
Abstract: Objective A novel technique for the identification of gas-to-liquid (GTL) lubricants based on mutual information method and Bayesian algorithm is proposed to enhance the tariff identification of lubricating oils. Methods First, feature parameters of GTL lubricants and conventional petroleum lubricants are extracted, and the mutual information algorithm is used to select feature indicators with discriminative ability. Then, the Bayesian algorithm is used to model the selected feature indicators, which finally achieves the classification discrimination of GTL lubricants and conventional lubricants. Results The experimental results demonstrate the effectiveness of the proposed method in accurately discriminating between GTL lubricants and conventional petroleum lubricants. Conclusions The established model exhibits good stability and reliability, providing a comprehensive and accurate identification tool for the lubricating oil industry and tariff assessment.
Key words: gas-to-liquid lubricant    mutual information method    feature selection    Bayesian algorithm    

润滑油是发动机、变速箱、传动机构等机械设备中必不可少的物质,其质量直接关系到设备的使用寿命和性能。润滑油的种类繁多,其中合成润滑油和矿物油基润滑油是最常见的两种润滑油基础油。合成润滑油是通过化学合成或精炼加工的方法获得的,其工艺复杂,炼制成本高昂,但是其性能卓越,包括高温稳定性、低温流动性和抗氧化性等方面均优于矿物油基润滑油。天然气合成润滑油(以下简称GTL润滑油)是通过将天然气中的烃类组分加氢裂解反应制成,不含硫、氮和芳烃化合物等有害成分,具有良好的生物降解性能和环保性能。同时,其物理性质和化学性质也非常稳定,能够在高温、高压和恶劣工作条件下保持良好的润滑性能,从而延长设备寿命,降低维修成本。因此, 虽然成本相对较高,但由于其出色的性能和环保性能,在市场上仍有一定的竞争力[1]。此外,合成润滑油和矿物油基润滑油属于不同的税则[2],税率有较大的差异:矿物油基润滑油属于税目27.10,进口关税为6%;合成润滑油属于税目34.03,进口关税为10%。鉴于此,为保护税收[3],GTL润滑油的准确鉴别已成为一项急需解决的问题。

目前,润滑油的鉴别主要采用红外光谱、电化学、光谱等检测技术[4-10],通过分析不同种类润滑油之间的差异,从而对润滑油进行鉴别。但是这些方法仅考虑单一参数、易受干扰、结果准确率不高、适用范围窄。随着计算机技术的发展,基于数理统计的深度学习、数据挖掘方法得到广泛应用,这种方法具有参数多、不容易受到干扰等特点,尤其适用于润滑油鉴别工作。但是,目前类似的GTL润滑油鉴别技术的研究却仍未见报道。因此,本研究基于互信息和贝叶斯算法,探索一种新的GTL润滑油鉴别技术,以提高润滑油鉴别的准确性和可靠性,为润滑油行业提供更可靠的鉴别方法。

1 实验部分
1.1 仪器设备

DR-A1型折光仪(ATAGO公司);2400-Ⅱ型元素分析仪(ATAGO公司);ZF-1型紫外灯(上海楚柏实验室设备有限公司);GCMS-QP Plus型气相色谱-质谱联用仪(日本Shimadzu公司);SYP1016-Ⅳ型倾点分析仪(上海神开石油化工装备股份有限公司);SYP1003-ⅥA型黏度分析仪(上海神开石油化工装备股份有限公司);KD-H1120型蒸发损失测定器;KD-H1120型(长沙卡顿海克尔仪器有限公司);SYP1001B-Ⅴ型开口闪点分析仪(上海神开石油化工装备股份有限公司)。

1.2 试剂耗材

硅胶(GF254, 200目);正己烷、石油醚、乙酸乙酯(上海国药),均为分析纯。

1.3 实验样品

GTL润滑油(编号01~12)和矿物油基润滑油(编号13~25)样品来源于工厂定制及实验室自行配制,作为已知样品用来训练模型;GTL润滑油(编号26、27)和矿物油基润滑油(编号28、29)样品来源于市场购买,作为未知样品用来验证模型的准确度。

1.4 润滑油组分的分离

润滑油由基础油和添加剂组成,添加剂配方的多样化或在一定程度上干扰基础油性能指标的分析结果。为保证分析的可比性、准确性与可靠性,对润滑油样品进行组成分离,分离出非极性组分和极性组分,非极性组分即是润滑油的基础油。

利用柱色谱对润滑油进行基础油和添加剂的分离。在长1.5 m、直径10 cm的色谱柱中加入500 g硅胶,装柱后加入10 g润滑油样品,再加入500 mL的正己烷或石油醚进行洗脱,流量为1 mL/min;利用薄层色谱法跟踪,当254 nm紫外灯观察到薄层上出现明显吸收斑痕时停止分离。收集非极性组分,将非极性组分浓缩作为基础油待测样。

1.5 理化参数的测试方法

通过采集实验样品基础油的常见理化参数测试数据,如烃类组成(GC-MS法)、折射率、浊点、黏度、蒸发损失、闪点等,用于筛选特征指标和计算贝叶斯算法的先验概率,从而最终建立GTL润滑油的分类预测模型。

1.5.1 烃类组成的检测方法
1.5.1.1 GC条件

色谱柱:Rtx-5MS,0.25 um×0.25 mm×30.0 m。载气:高纯氮气。柱流量:1 mL/min。检测器:质谱检测器。进样口温度:350 ℃。进样方式:分流进样。进样分流比:10∶1。进样量:1.0 μL。柱温:100 ℃(2 min)。

1.5.1.2 MS条件

质量范围: 60~700 amu。电离方式:EI。电子能源:70 eV。接口温度:340 ℃。离子源温度:230 ℃。四级杆温度:150 ℃。扫描方式:scan。

1.5.2 其他项目的检测方法

测试项目及采用的检测方法如表 1所列。

表 1    测试项目及采用的检测方法

2 结果与讨论
2.1 已知样品理化参数的检测结果

按照第1.5节中的测试方法对第1.3节的样品进行检测,结果见表 2表 3

表 2    已知样品烃类组成检测结果

表 3    已知样品其他项目检测结果

测试结果表明,虽然各项理化参数之间存在潜在的相关性,但它们之间并不呈现直接的因果关系,也没有明确的影响规律。例如,GTL润滑油的链烷烃含量(质量分数为53.01%~64.62%)整体上来说比矿物油基润滑油(质量分数为39.84%~54.74%)高,但两者之间存在交叉重叠,无法通过该参数直接做出准确的分类判断。其他参数也具有类似的特性。因此,为了鉴别GTL润滑油,需要建立一种综合考虑多种特征指标参数数值的分类判断方法,以避免单一参数数值的交叉重叠影响。

2.2 特征指标筛选模型的建立
2.2.1 特征指标算法的选择

筛选特征指标的算法可以多种多样,具体的实现方式会根据数据类型、数据规模、数据分布等因素而有所不同,如方差分析、卡方检验、互信息、信息增益、基尼指数[20]

互信息是衡量两个变量之间关联程度的指标,它可以用来评估两个变量之间的非线性关联性。在贝叶斯分类中,选择关键指标就是为了找到和分类结果最相关的变量,而互信息可以捕捉到变量之间的非线性关系,从而更准确地找到关键指标。此外,互信息算法不需要假设变量之间的线性关系或者正态性,所以,更适合处理非线性问题。因此,本研究采用互信息方法来筛选特征指标。

2.2.2 互信息算法原理

互信息的计算是基于信息熵的概念[20]。假设XY是两个随机变量,它们的联合概率分布为P(XY),边缘概率分布分别为P(X)和P(Y)。则XY的互信息可以定义为:

$ I(X ; Y)=\Sigma_{x \in X} \Sigma_{y \in Y} P(x, y) \log \frac{P(x, y)}{P(x) P(y)} $ (1)

式中:I(X; Y)为由X引入而使Y的不确定度减小的量;ΣxXX中的每个取值x进行求和;ΣyYY中的每个取值y进行求和;log表示以e为底的对数。

互信息表示了XY之间的信息量,即如果知道了X的取值,那么能够对Y的取值做出多大的贡献。如果XY独立,则它们的互信息为0,表示它们之间没有信息量。

在特征选择中,可以将互信息作为特征重要性的度量,选择与目标变量相关性高的特征作为关键特征。

2.2.3 特征指标的筛选结果

按照互信息算法建立模型,并筛选特征指标,计算结果见表 4

表 4    互信息计算结果

根据表 4的结果,经综合考虑,舍弃元素C、H、N、S含量指标,将烃类组成(GC-MS法)、浊点、倾点、40 ℃和100 ℃运动黏度、黏度指数、蒸发损失、开口闪点定为GTL润滑油分类预测模型的特征指标。

2.3 分类预测模型的建立
2.3.1 分类预测算法的选择

分类预测算法是指根据已有的数据和标签,学习出一个分类模型,然后用该模型对新的数据进行分类的算法。常用的分类预测算法有很多,例如k-近邻(k-NN) 算法、逻辑回归算法、支持向量机(SVM) 算法、决策树算法、随机森林算法、朴素贝叶斯算法、神经网络算法、XGBoost算法等[20]

由于本研究目前的样本数量较少,希望通过后期不断引入新数据的方式提高模型准确度,且数据类型多样,包括离散型、连续型、有序型等。因此,采用贝叶斯算法来建立分类预测模型。

2.3.2 贝叶斯算法原理

贝叶斯算法基于贝叶斯定理[20],通过计算后验概率来进行预测和分类。其原理可以式(2)表示:

$ P(\mathrm{A} \mid \mathrm{B})=P(\mathrm{B} \mid \mathrm{A}) \frac{P(\mathrm{A})}{P(\mathrm{B})} $ (2)

式中:P(A|B)为在观察到B的条件下,A发生的概率;P(B|A)为在A发生的条件下,B发生的概率;P(A)和P(B)分别表示A和B的先验概率。

2.3.3 分类预测模型的构建

将经过筛选后的检测结果(见表 2表 3)特征指标数据作为训练集,经计算得到分类预测模型的先验概率和条件概率。在对未知样品进行分类预测时,则把未知样品的数据代入式(2)进行计算,并将所有特征的条件概率相乘来计算P(数据|类别),就得到每个类别的后验概率,最后选择后验概率最大的类别作为预测结果。

2.4 分类预测模型的验证

将实验样品(编号26~29)作为未知样品,测试其特征指标,结果见表 5表 6

表 5    未知样品烃类组成检测结果

表 6    未知样品其他项目检测结果

表 5表 6的数据输入分类预测模型,预测结果见表 7

表 7    未知样品基础油分类预测结果

表 7分类预测结果表明,该模型可以很好地对GTL润滑油进行分类鉴别,具有很高的准确性和稳定性。

3 结语

建立了一种基于互信息和贝叶斯算法的分类预测模型,用于对GTL润滑油进行分类鉴别。通过对市售样品进行分析预测,结果表明该模型可以很好地对GTL润滑油进行分类鉴别。为了进一步提高模型的准确性和稳定性,可以通过不断引入新数据,更新模型中的先验概率分布,以便于模型更好地适应真实世界中的变化,并提高模型对未知数据的预测能力。此外,还可以通过补充新的分类数据,对该模型进行扩展,用于预测其他种类的润滑油。这将为润滑油行业和关税鉴定提供更加全面和准确的鉴别工具。

参考文献
[1]
申宝武. 新一代基础油——GTL基础油[J]. 国际石油经济, 2005, 13(8): 25-29.
[2]
海关总署关税征管司. 中华人民共和国进出口税则2023年[M]. 北京: 中国海关出版社, 2023.
[3]
尹桂林, 牛增元, 张继东, 等. 进口润滑油商品归类及涉税风险探析[J]. 中国口岸科学技术, 2022, 4(2): 50-55.
[4]
赵彦, 李思源, 黄开胜, 等. 傅立叶变换红外光谱法快速鉴别润滑油真伪[J]. 石油化工应用, 2008, 27(4): 71-73.
[5]
罗忠锦, 史永刚, 高军. 纸色谱法在润滑油鉴别中的应用[J]. 石油与天然气化工, 2008, 37(1): 77-80.
[6]
段小娟, 蔡发, 黄杰, 等. 基于中红外光谱技术的新润滑油与废润滑油鉴别研究[J]. 润滑油, 2018, 33(5): 55-57.
[7]
邢志娜, 王菊香, 刘洁, 等. 在用润滑油闪点的近红外光谱快速测定方法研究[J]. 石油与天然气化工, 2013, 42(5): 524-527.
[8]
史永刚, 刘绍璞, 张洁, 等. 发动机润滑油的电化学分析与鉴别[J]. 润滑与密封, 2006(12): 77-80.
[9]
史永刚, 林振兴, 龚海峰, 等. 基于电化学分析特性曲线的发动机润滑油鉴别[J]. 工程与试验, 2014(S1): 26-30.
[10]
王宸, 张圆星, 谭智毅, 等. 矿物油基润滑油型和聚α-烯烃型基础油的鉴别方法[J]. 检验检疫学刊, 2020, 30(1): 78-82.
[11]
国家经济贸易委员会. 液体烃的折射率和折射色散测定法: SH/T 0724-2002[S]. [出版地不详]: [出版者不详], 2003.
[12]
国家能源局. 石油产品及润滑剂中碳、氢、氮的测定元素分析仪法: NB/SH/T 0656-2017[S]. 北京: 中国石化出版社, 2018.
[13]
国家能源局. 中间馏分烃类组成的测定质谱法: NB/SH/T 0606-2019[S]. 北京: 中国石化出版社, 2019.
[14]
中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. 石油产品倾点测定法: GB/T 3535-2006[S]. 北京: 中国标准出版社, 2006.
[15]
中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. 石油产品浊点测定法: GB/T 6986-2014[S]. 北京: 中国标准出版社, 2014.
[16]
国家标准局. 石油产品运动粘度测定法和动力粘度计算法: GB/T 265-1988[S]. 北京: 中国标准出版社, 1989.
[17]
国家质量技术监督局. 石油产品粘度指数计算法: GB/T 1995-1998[S]. 北京: 中国标准出版社, 1998.
[18]
国家能源局. 润滑油蒸发损失的测定诺亚克法: NB/SH/T 0059-2010[S]. 北京: 中国石化出版社, 2011.
[19]
国家标准化管理委员会. 石油产品闪点和燃点的测定克利夫兰开口杯法: GB/T 3536-2008[S]. 北京: 中国标准出版社, 2009.
[20]
ALPAYDIN E. 机器学习导论[M]. 范明, 昝红英, 译. 北京: 机械工业出版社, 2009.