软传感器(soft sensor),也称为虚拟传感器,是一种可以综合处理数百个测量数据的软件。想要添加软传感器的工厂管理者可能会对使软传感器工作的机器学习的范围感到不知所措。然而,深入了解这个主题会发现,其实大多数软传感器设计背后都离不开几种核心算法。
虽然这些模型的选择、训练和实施很多时候是数据科学家的工作,但工厂管理者和其他运营专家也会希望熟悉它们的功能。
理解软传感器
软传感器是在软件环境中创建的,但可以提供与现实世界中的对应物相同的好处。在某些情况下,软传感器可能比真实的传感器更受欢迎。
因此,运营专家和数据科学家应该合作设计软传感器,原因有很多。其中一个原因是对于特定结果所需的关键参数进行实时或近实时测量的渴望。这些测量对于提高整体性能至关重要。
软传感器的其他用例包括:
工厂人员短缺。一些过程需要实验室人员对特定物理或化学属性的参数进行取样或分析。这些可能包括粘度、分子量和组成。当没有足够的人员进行测量时,可以使用软传感器来估计这些值。
冗余传感器。在恶劣环境中,传感器被污染可能时有发生。软传感器可以提供数字传感器的读数,直到数字传感器可以被替换,以保持流程的持续进行。
额外的传感器。有时可能需要更多的传感器,或者某个过程缺乏自己的传感器。在这些情况下,软传感器可以模仿一个拥有所有正确传感器的相同资产。
机器学习模型的主要类型
机器学习练习遵循一个循环模式。首先,数据被准备和清洗。接下来,数据科学家将选择一个算法作为模型的基础。然后,数据科学家将开始使用未经处理或预处理的时间序列和上下文数据训练模型。最后,模型被测试和部署。然后过程再次开始,以改进模型。
一般来说,有两种主要类型的模型可供选择:
监督模型,需要标记的数据集与其它变量进行比较。
无监督模型,主要用于描述多个变量之间的关系。
在这些模型中,监督模型是开发软传感器或创建预测标签的更好选择。尽管有数百种监督机器学习模型,但只有少数——来自被称为回归算法的类别——对于创建软传感器是有用的。以下是每种模型的描述:
线性回归
这是创建软传感器最有用和最简单的方法之一。然而,某些过程,如测量聚合物的粘度,对于线性回归来说太复杂了。这个算法生成一个函数,预测目标变量的值。它是作为一组一个或多个变量的线性组合的函数。当使用一个变量时,它被称为单变量线性回归。多个变量赋予它多元线性回归的名称。使用这个模型的好处在于其清晰性。很容易确定哪些变量对目标的影响最大。这被称为特征重要性。
决策树
理论上,决策树可以拥有它们需要的任意多的规则和分支来适应数据。它们使用这些规则来自独立变量,称为一组特征。结果是目标值的分段常量估计。因为它们可以有很多规则和分支,所以它们可以非常灵活。
另一方面,它们也存在过拟合数据的风险。过拟合发生在模型训练时间过长时。这使得模型开始适应数据集中的噪声,并开始将其视为正常。欠拟合数据也可能发生。在这种情况下,算法训练不够长,因此没有足够的数据来确定独立变量可能如何与目标变量相关,或者它们可能对目标变量有什么影响。
过拟合和欠拟合数据都会导致模型失败。模型再也不能处理新数据,也不能用于软传感器。过拟合和欠拟合数据的概念不是决策树模型独有的。
随机森林
这本质上是一个模型中多个决策树模型的组合。它提供了更多的灵活性,允许更多的特征,并且给出了更强的预测能力。然而,它也带来了过拟合数据的高风险。
梯度提升
在机器学习中,梯度提升通常被称为集成模型。像随机森林一样,梯度提升结合了多个决策树。但它的不同之处在于,它优化每棵树以最小化最后计算的损失函数。这些模型可以非常有效,但随着时间的推移,它们变得更难以解释。
神经网络
所谓的深度学习是一个神经网络回归模型的概念。这个模型接受输入变量,并在应用于回归问题时,为目标变量生成一个值。最基本的神经网络是多层感知器。在这些模型中,只使用单一的神经元排列。更常见的是,神经网络将具有一个输入层、一个或多个隐藏层(每个都有许多神经元)和一个输出层来获取值。
隐藏层中每个神经元内的加权输入值被相加,并通过激活函数(如Sigmoid函数)传递。这个函数使模型非线性。一旦函数通过模型,它就到达包含单个神经元的输出层。在训练模型时,确定最适合特征和目标值的权重和偏差。
协作设计
对于那些新手来说,一个常见的误解是会有一个正确的模型适合所有特定的需求。事实并非如此。选择一个模型而不是另一个,其实是一个复杂的决策,部分基于数据科学家的经验。
此外,这些监督回归模型不会每次都产生相同的结果。因此,不存在“最佳”模型,但有些模型可能更适合某些情况。
任何机器学习练习中的数据科学家和运营专家之间的合作都始于对涉及的参数、目标使用、开发和部署方法的相互理解。