书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 工作范文 > 其它 > 工业大数据分析综述模型与算法.docx

工业大数据分析综述模型与算法.docx

文档编号：29055080
上传时间：2023-07-20
格式：DOCX
页数：14
大小：27.79KB

工业大数据分析综述模型与算法.docx

《工业大数据分析综述模型与算法.docx》由会员分享，可在线阅读，更多相关《工业大数据分析综述模型与算法.docx（14页珍藏版）》请在冰豆网上搜索。

工业大数据分析综述模型与算法.docx

工业大数据分析综述模型与算法

摘要：

随着条形码、二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等信息技术在工业领域的广泛应用，大量与工业生产活动相关的数据被实时采集并存储到企业的信息系统中。

对这些数据进行分析，有助于改进生产工艺、提高生产效率、降低生产成本，为实现智能制造奠定基础。

因此，工业大数据分析引起了工业界和学术界的广泛关注。

模型和算法是大数据分析理论和技术中的两个核心问题。

介绍了工业大数据分析的基本概念，综述了几种流行的工业大数据分析模型在工业大数据分析领域的应用情况以及相应求解算法方面的研究成果，并探索了大数据分析模型和算法的未来研究方向。

关键词：

工业大数据;大数据分析;模型;算法;智能制造

1引言

当今时代，信息化和工业化的融合已经成为发展趋势，《中国制造2025》指出：

“新一代信息技术与制造业深度融合，正在引发影响深远的产业变革，形成新的生产方式、产业形态、商业模式和经济增长点”。

工业大数据在两化融合过程中起着至关重要的作用，国务院颁发的《促进大数据发展行动纲要》把发展工业大数据列为主要任务之一：

“推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用，分析感知用户需求，提升产品附加价值，打造智能工厂。

建立面向不同行业、不同环节的工业大数据资源聚合和分析应用平台”。

工业大数据是指在工业领域中产生的大数据。

随着信息化与工业化的深度融合，信息技术渗透到了工业企业产业链的各个环节，条形码、二维码、射频识别（radiofrequencyidentification，RFID）、工业传感器、工业自动控制系统、工业互联网、企业资源计划（enterpriseresourceplanning，ERP）、计算机辅助设计（computeraideddesign，CAD）、计算机辅助制造（computeraidedmanufacturing，CAM）、计算机辅助工程（computeraidedengineering，CAE）等技术在工业企业中得到广泛应用。

互联网、移动互联网、物联网等新一代信息技术在工业领域的应用使得工业企业也进入新的发展阶段，其拥有的数据也日益丰富。

尤其是制造企业中生产线处于高速运转的状态，工业设备上产生了大量数据，同时，企业中人和计算机也产生了大规模数据。

例如，通用电气公司（GE）能源监测和诊断中心每天从客户那里收集10GB的数据[1]，长虹集团有限公司等离子显示板生产流程数据涉及超过10000个参数，每天产生3000万条记录，数据量大约为10GB[2]。

杭州西奥电梯有限公司的数字化车间监控超过500个参数，每天产生约50万条记录；浙江雅莹服装有限公司数字化生产线由15个子系统组成，每天产生约80万条记录，数据量大约为1GB。

模型和算法是大数据分析中的两个核心问题。

大数据分析模型的研究可以分为3个层次，即描述分析、预测分析和规范分析。

描述分析探索历史数据，并描述发生了什么，这一层次包括发现数据规律的聚类[3]、相关规则挖掘[4]、模式发现[5]和描述数据规律的可视化分析[6]；预测分析用于预测未来的概率和趋势，例如基于逻辑回归的预测[7]、基于分类器的预测[8]等；规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议，例如基于模拟的复杂系统分析[9]和基于给定约束的优化解生成[10]。

大数据分析算法的研究则针对特定的分析模型设计高效的算法，并研究如何提高算法的可扩展性、实时性等。

工业大数据除了具有大数据的5V（volume、velocity、variety、value、veracity）特征，还具有诸多与工业生产特性密切相关的特征，如数据来源多样、数据质量低、数据蕴含信息复杂、耦合不确定、数据实时性高等，这使得工业大数据分析的模型更加复杂多样，对算法的实时性要求更高。

目前，工业大数据分析的理论和技术研究仍处于起步阶段，分析模型以简单的单一模型为主，分析算法主要是通用的数据挖掘算法。

本文对工业大数据分析模型和算法的研究现状进行了综述，总结了大数据分析模型在工业场景中的应用，并对工业大数据分析模型的常用求解算法进行概述和评价。

2大数据分析模型在工业中的应用

大数据分析模型按照输入输出的形式，主要有关联规则分析、分类分析、回归分析和聚类分析，这些分析模型以及它们的组合被应用于多种实际工业场景的分析任务中，如工艺参数优化、产量预测、故障检测和诊断、客户需求分析和服务类型识别等。

2.1关联规则分析模型

关联规则挖掘是针对购物篮分析的问题提出的，其最初的目的是挖掘交易数据库中不同商品间存在的关联关系，以此得到顾客购买模式的一般性规则，并用这些规则指导商家进行合理的货架设计。

在实际工业过程中，许多场景可以用类似的关联关系建模，用频繁项集挖掘的方法来获取隐含规则，用数据和知识驱动的方式来代替传统的大量依靠经验的决策方式。

在工艺参数优化方面，参考文献[12]针对钢铁制造工艺，用关联规则分析制造过程中的化学成分（如碳、锰、磷、硫等）的含量、出钢温度和轧制速度对产品机械性能的影响。

在能耗优化方面，参考文献[13]用关联规则分析从大量历史能耗数据中获取生产参数对能耗影响的规则，以此来指导企业改进生产参数，优化能耗。

在工艺标准优化方面，参考文献[14]用关联规则分析服装款式、材料、年龄对实际工时与标准工时差异的影响程度，作为标准工时优化的依据；参考文献[15]用关联规则模型评估导致标准工时不合理的影响因素；参考文献[16]用关联规则挖掘模具企业计算机辅助工艺过程设计（computeraidedprocessplanning，CAPP）改模知识库，以此指导工艺设计，提高改模工艺继承性与重用性，促进改模工艺标准化。

在产品质量优化方面，参考文献[17]关注装配顺序对产品质量的影响。

首先用关联规则的方法从历史数据中抽取规则，再经人工整理，获得简洁有效的装配知识和规则，以此指导产品按合理顺序装配。

在企业的供应链管理方面，参考文献[18]用关联规则分析机械制造企业外购件间的隐含关系，指导企业制定采购计划；参考文献[19]用关联规则模型分析汽车企业产品价格、供应商评价、退货原因间的关联关系，以此建立采购决策支持系统；参考文献[20]用关联规则模型评价和选择供应商。

在销售和售后方面，参考文献[21]从卡车制造商的角度出发，用关联规则分析经销商订购车型间的关系，以进行品牌推广；参考文献[22]将关联规则运用到笔记本电脑接单制造（buildtoorder，BTO）生产计划中，挖掘用户配置选择的关联关系，从用户和市场需求的角度出发，为生产计划制定提供合理依据；参考文献[23]用关联规则对钟表企业物料清单中的历史数据建模，分析不同零部件组合的产品的客户认可度和盈利能力，以此为基础制定营销策略；参考文献[24]在客户关系管理（customerrelationshipmanagement，CRM）中运用关联规则来预测客户行为；参考文献[25]用关联规则分析通信设备制造业不同地区的销售特征，预测流失客户。

除了直接用关联规则模型进行工业大数据分析之外，也有研究者用关联规则对工业数据进行预处理，再结合其他方法对处理过的数据进行分析。

参考文献[26]针对半导体制造工艺过程中机器故障由多因素引起、因素间非线性的特点，提出了RMI（root-causemachineidentifier）综合处理程序。

其关键步骤之一就是用关联规则模型对数据进行处理，得到候选集，再在候选集上进行计算来定位和发现机器缺陷；参考文献[27]用关联规则对毛毯制造数据进行降维，找到关键属性集，再利用关键属性集分析毛毯制造过程中出现故障的原因和相应的规则，帮助识别和定位故障。

2.2分类模型和回归模型

分类模型和回归模型在基于大数据的分析、判断和预测领域具有广泛应用。

其中，分类模型主要针对离散属性值的判断和预测，如故障检测和诊断、客户细分；而回归模型主要针对连续属性值，如产品的产量、销量。

决策树模型和神经网络模型是基于工业大数据的分类和回归分析中的主要模型。

决策树是一种树形结构，用来表征对象属性与对象值之间的映射关系。

决策树模型简单直观、可解释性强，具有良好的分析和预测能力，适用于工业大数据分析的诸多场景。

在工艺参数优化方面，参考文献[28]用分类决策树对玻璃镀膜工艺建模，根据给定的工艺参数预测产品质量，从而帮助企业快速确定符合预期质量产品的工艺参数。

在成本优化方面，参考文献[29]用决策树模型筛选对工艺成本影响最大的工序，通过控制和改进筛选出的工序优化整个工艺路线的成本。

在工艺标准优化方面，参考文献[14]用决策树模型对服装标准工时系统的数据进行分类，再在每一类数据上进行挖掘。

在产品质量监控方面，针对传统冷轧产品缺陷检测方法和检测标准不一、漏洞和误判多的问题，参考文献[30]使用生产数据训练二分类和多分类决策树，挖掘出定位产品缺陷的规则，以此帮助企业快速准确地检测出生产产品的缺陷。

类似地，在故障检测方面，参考文献[27]用毛毯制造数据训练决策树模型，得到导致生产线故障的规则，并用这些规则指导相关人员识别和定位生产线故障，大大提高了毛毯生产的效率；参考文献[31]用提升机各系统的监测数据训练决策树，表征故障隐患。

在生产调度方面，决策树模型受到了广泛关注。

参考文献[32]针对离散制造业静态JobShop调度问题，用决策树模型提取调度知识，优化调度方案；参考文献[33]将工单数据和机器加工数据作为历史数据训练决策树模型，并用训练好的模型实时为工件安排机器进行加工，充分利用生产资源，实现智能化生产；参考文献[34]用决策树模型分析机器细小位置移动次数和机器效率对停止次数的影响规律，作为机器调整和检测的依据，有助于车间设备、人员的调配。

在采购方面，参考文献[35]用决策树模型挖掘汽车产品销售数据，指导管理者制定合理的采购计划。

在客户关系管理方面，决策树模型被广泛用于客户的评价、细分和预测。

参考文献[21]用决策树模型分析卡车经销商的重要程度；参考文献[36]用决策树模型将已有客户群按其忠诚度分类；参考文献[37]则用决策树模型来预测客户的忠诚度，以帮助企业发掘潜在客户；参考文献[24]用决策树模型挖掘客户潜在服务需求，帮助企业从被动服务模式向主动服务模式进化；参考文献[38]用决策树模型分析客户评价，以此衡量产品的满意度指标；参考文献[39]用决策树模型预测潜在流失客户，指导企业维系客户关系。

此外，在制造业企业的管理流程优化方面，参考文献[40]对机械制造企业的信息管理系统建立处理部门归属决策树模型，以规范管理流程，提高企业各部门间的协调运作效率。

神经网络模型能够表征复杂的非线性函数，在分类和回归任务上具有良好的表现。

实际工业场景（如电网、生产线和大型制造设备等）的工艺过程、产品质量、能耗、故障等均受众多因素影响，影响过程非线性，且影响因素间往往存在着耦合关系。

利用这些过程产生的大数据来训练神经网络，可以有效地表征这些复杂过程，实现工艺流程优化、质量管理监控、能耗优化、故障检测预警等。

在工艺流程优化方面，参考文献[28]对玻璃镀膜工艺建立神经网络模型，根据给定参数预测产品质量，再以产品质量为指标优化工艺参数；参考文献[41]用动态神经网络模型分析发动机缸盖机加工参数、模具状态和成品缸盖燃烧室容积间的关系，指导加工参数的选取；参考文献[42]用前馈神经网络模型对退火数据建模，模型可根据当前数据预测退火工序的运行情况，为相关人员优化退火工艺参数提供合理依据；类似地，参考文献[43]用前馈神经网络来量化表征树脂中间体和印刷电路板制造流程中各因素间的非线性因果关系，帮助相关人员更好地认识工艺流程运行情况。

此外，参考文献[15]基于神经网络预测生产工时，分析出影响因素及其影响程度。

在能耗的管理方面，参考文献[44]对烟草企业能源管理系统运用附加动量的前馈神经网络模型，监控和预测企业的能耗，保障企业的用能安全和效率；参考文献[45]利用造纸业电耗、气耗等4类能耗的重要影响因素建立神经网络模型，预测造纸过程中各工序的能耗，为企业的能耗管理提供决策依据。

在故障检测方面，参考文献[46]用模块化的神经网络模型结合故障检测理论，实现快速定位故障部件；参考文献[47]用神经网络对数据仓库的数据进行建模，分析汽车售后的潜在故障；参考文献[48]基于模糊神经网络实现起重车远程实时故障诊断；参考文献[49]用神经网络模型解决设备实时故障数据库中隐形故障这类不确定性较多的非线性问题。

在采购和库存管理方面，参考文献[50]用神经网络模型预测大型制造企业库存安全水平；参考文献[51]用神经网络模型预测服装企业库存量；参考文献[52]用神经网络模型预测采购价格。

这些预测结果为合理制定采购计划、节约成本、优化库存提供了依据。

此外，参考文献[53]用神经网络模型对制造企业的库存管理系统进行优化。

神经网络模型还被用作产量、销量预测及客户需求发现。

在产量预测方面，参考文献[54]用神经网络模型预测攀枝花市的钢产量；在销量预测方面，参考文献[55]以电机企业的月份因子及月销售量作为输入，建立神经网络模型，较好地预测出了5种电机产品的销售量；在客户需求发现方面，参考文献[21]从卡车制造商的角度出发，用神经网络模型综合分析经销商的价值。

还有研究将神经网络模型运用到工业产品的辅助设计中，如参考文献[56]用神经网络模型分类并辅助检索摩托车总体设计方案实例库中的设计实例，有助于提高摩托车总体方案设计的效率。

此外，统计分析中的回归模型在工业大数据分析和预测上依然发挥着重要作用。

参考文献[57]针对传统的基于伸缩探针检测半导体质量时，伸缩探针老化影响检测结果的问题，用线性回归结合分类模型对伸缩探针的状态建模，掌握探针的老化程度，从而减少由于探针老化引起的产品质量检测错误，提高检测准确率；参考文献[58]基于动态改进多元线性回归模型预测航空制造企业的次年产量；参考文献[59]用回归模型挖掘制造业集群规模和创新能力与服务需求之间的关系；参考文献[60]用时间序列分析模型预测流行饰品在不同区域的未来直销趋势。

2.3聚类分析模型

聚类分析模型能够将具有相似模式的对象归纳为一簇，是一种典型的无监督学习模型。

聚类分析模型擅于从看似关系复杂、未知的对象中提取出内在联系。

因此，在工业大数据分析中，聚类分析模型被用于分析复杂参数间的关系、细分客户群等。

在生产优化方面，参考文献[61]用聚类分析模型分析炼钢厂脱硫数据，得到不同铁水条件下的脱硫剂消耗，以此为依据确定不同铁水条件下脱硫效果最好的脱硫剂；参考文献[13]用聚类分析方法从大量历史炼钢数据中挖掘隐含的模式，指导炼钢企业改进生产参数，降低能耗；参考文献[62]用多元统计技术和聚类分析方法对车间历史数据进行分析，得到了工艺参数与能耗间的影响规律；参考文献[63]用聚类模型挖掘酿酒数据中隐含的模式，分析结果可以帮助研究人员在酿酒过程中提前检测出产品质量是否合格，减少由于成品质量问题带来的损失。

在异常检测方面，参考文献[64]提出将聚类分析模型应用到钢铁等冶金行业，分析并找出生产数据中的异常点，为进一步发现生产过程中的异常状况或根据正确数据进行更深层次的分析奠定基础；参考文献[65]将聚类和关联规则模型结合，基于大量数据预测挖掘机的故障；参考文献[47]用聚类模型分析汽车售后的潜在故障。

在供应链管理方面，参考文献[50]用灰色聚类法对库存中的产品和原材料按重要性进行划分，指导企业控制和优化库存；参考文献[21]从卡车制造商的角度出发，用聚类模型对经销商进行细分；参考文献[36]对烟草企业客户按价值度聚类，以此划分营销等级，实现精准营销；参考文献[66]从客户的盈利能力角度出发，用聚类模型分析客户盈利数据，并预测其未来盈利能力，决策者参考预测结果，将有限的资源投入能为公司创造更大利润的客户上。

在售后服务方面，参考文献[24]提出用聚类模型挖掘客户对服务的潜在需求，以客户需求为导向制定合理的服务策略；参考文献[39]用聚类模型结合决策树模型预测潜在流失客户，帮助企业及时制定挽留策略。

3大数据分析算法研究成果

工业大数据分析算法是对特定分析模型的求解方法。

如第2节所述，目前工业大数据分析中的模型以通用模型为主，因此，求解这些模型的算法主要是经典的大数据分析算法及其改进算法。

本节对关联规则分析、决策树分析、神经网络和聚类分析的有关算法方面的主要研究成果进行整理和评价。

3.1关联规则分析算法

关联规则分析中最经典的算法是Apriori算法和FP-Growth算法。

Apriori算法[67]的理论依据是频繁项集的两个重要性质，即一个频繁项集的任意子集是频繁的，且一个非频繁项集的任意超集是非频繁的。

其算法思想是首先扫描1次数据集，得到1-频繁项集，然后通过迭代逐层由（k1）-频繁项集得到k-候选集，并利用频繁项集的性质从k-候选集中筛选k-频繁项集，直到没有新的频繁项集产生为止。

得益于频繁项集的性质，Apriori算法相较于蛮力法，大大提高了计算效率，且算法的思想简单，因而在关联规则分析领域得到了广泛应用。

然而，经典的Apriori算法存在两个主要问题：

其一是当数据量很大时，算法会产生大量的候选集；其二是算法需要多次扫描数据集，具有很大的I/O开销。

针对Apriori算法存在的问题，许多研究者提出了优化和改进的方法。

MannilaH等人[68]提出剪枝技术，利用“一个项集是频繁项集，当且仅当它的所有子集都是频繁项集”这一充分必要条件，排除那些存在不频繁子集的候选集，大大减少了候选集的规模；ParkJS等人[69]提出了用散列的方法计算支持度计数的DHP算法，以空间开销换取时间开销；SavasereA等人[70]提出了基于划分的算法，将数据库划分为几个不相交的子库，分别将这些子库读入内存并计算频繁项集，再将计算结果合并，这样，每个子数据库只需要被扫描一次，减少了I/O开销；MannilaH等人[68]还提出了采样的思想；ToivonenH[71]设计了基于采样思想的算法，在数据库中抽取样本，并在样本上挖掘关联规则，再在剩余数据中验证这些规则，基于采样的算法大大提高了运行效率，但产生的结果不精确，存在“数据扭曲”的问题。

此外，许多算法在Apriori算法的基础上实现了并行化，如AgrawalR等人[72]提出的CD算法、DD算法、CaD算法及ParkJS等人[69]提出的PDM算法。

关联规则分析中另一个经典的算法是HanJ等人[73]提出的FP-Growth算法。

算法基于FP-tree的数据结构来压缩和表示数据，因而不需要产生候选集。

算法首先扫描两次数据集，构造FP-tree，再利用分治的思想，在构造好的FP-tree上进行挖掘，不需要多次扫描数据集。

当数据集中的事务在FP-tree上构成的重叠路径较多、FP-tree的规模足够小时，FPGrowth算法的运行效率比Apriori算法提高几个数量级。

3.2决策树算法

决策树算法的核心是在决策树的每个节点上选取合适的测试属性，并按照测试属性将数据集进行划分，以此构造出完整的决策树。

最早的决策树算法是ID3算法[74]。

ID3算法将信息熵理论引入决策树学习中，以信息增益为标准选取树节点的测试属性，递归地构造决策树。

ID3算法思想简单，且具有较强的学习能力。

不过，由于ID3算法偏向于处理具有较多值的属性，因而存在过拟合的问题；算法对噪声数据敏感，且算法只能处理离散值，无法对连续属性值进行处理。

在ID3算法的基础上，QuinlanJR[75]提出了C4.5算法。

C4.5算法的核心是在选择测试属性时，用信息增益率来替代信息增益，作为属性选取的标准。

这一改进措施有效地克服了ID3算法具有的偏袒属性问题。

在决策树构造过程中，C4.5算法引入了剪枝的策略，以此来避免数据过拟合。

此外，C4.5算法增加了对连续属性离散化的处理，使得算法能够处理连续属性值。

然而，算法在处理连续属性值时，需要对数据进行扫描和排序，影响了算法执行效率，且算法只能对内存中的数据进行处理。

另一个经典的决策树算法是CART算法[76]。

CART算法采用代表数据不纯度的GINI系数作为属性划分的标准。

相较于ID3算法和C4.5算法基于信息熵来计算测试属性，基于GINI系数的方法计算更加简便，且具有很好的近似精度。

此外，CART算法用二分递归的方法进一步简化了GINI系数的计算，并得到更加简单直观的二叉决策树模型。

CART算法采用类似C4.5算法的思想将连续属性离散化，因而能够处理连续属性值。

不过，当属性类别过多、决策树的复杂度较高时，CART算法的误差较大。

3.3神经网络算法

神经网络算法的核心是训练神经网络模型，即根据训练数据调整神经网络模型的参数，以使模型的表征能力达到最优。

最早的神经网络学习算法是感知器训练法则[77]，该法则根据训练样例的目标输出和实际输出的差值来调整网络连接权，直至感知器能正确分类所有的训练数据。

感知器训练法则对于线性可分的训练数据是收敛的[78]，但对于线性不可分的训练数据来说，它将无法收敛。

针对线性不可分的训练样本，WidrowB等人[79]提出了最小均方误差（leastmeansquare，LMS）算法。

算法的核心思想是最小化输出误差的平方和，从而得到最优近似解。

算法采用梯度下降的搜索策略，迭代地沿误差梯度的反方向更新网络连接的权值，直至收敛到稳定状态。

WerbosP[80]提出了将LMS算法推广到由非线性可微神经元组成的多层前馈神经网络的思想。

RumelhartDE等人[81]提出了基于同样思想的误差反向传播（errorbackpropagation，BP）算法。

BP算法是目前应用最为广泛、最具代表性的神经网络学习算法。

除了前馈神经网络模型，径向基函数（radicalbasisfunction，RBF）神经网络、递归神经网络、卷积神经网络等大部分神经网络模型也可以采用BP算法进行训练。

尽管BP算法具有强大的学习和表征能力及广泛的适用性，但标准的BP算法也存在着许多缺陷和不足。

首先，由于算法的学习能力过于强大，其在网络训练中会出现“过拟合”现象；其次，算法有一定概率陷入局部极小，无法收敛于全局最优解；此外，算法的收敛速度受到学习率、初始条件等多个因素的影响，收敛速度较慢。

针对BP算法存在的问题，研究者探索了许多改进方法。

对于“过拟合”问题，一个经典的解决方法是将数据划分为训练集和测试集，当模型在测试集合上的误差达到最小时即停止迭代[82]；BarronAR[83]提出了正则化的方法，在网络的误差目标函数中引入惩罚项，从而使网络模型尽可能精简。

对于算法会收敛于局部极小的问题，采用在梯度更新法则中引入冲量、使用随机梯度下降或使用不同初始值初始化多个网络并最终合并训练结果的方法，能够在一定程度上避免陷入局部极小[82]；AartsEH等人[84]提出用模拟退火技术来优化BP算法，使算法在每一次迭代中都以一定概率接受次优解，从而跳出局部极小；此外，利用遗传算法等进化算法[85]结合BP算法训练神经网络，也可以使网络更好地接近全局最优。

对于BP算法训练速度缓慢的问题，JacobsRA[86]提出自适应学习率的改进策略，加速神经网络的训练；引入冲量的策略也可以加快神经网络的训练速度[82]。

除了BP算法外，还有诸多针对特定网络模型的算法。

有代表性的算法包括自组织映射（selforganizingmap，SOM）算法[87]、自适应谐振理论（adaptiveresonancetheory，ART）网络学习算法[88]和训练受限玻尔兹曼机的CD算法[89]等。

3.4聚类分析算法

按照算法的基本思想，聚类分析算法主要分为层次聚类、基于划分的聚类、基于密度的聚