昆仑数据线上课No.5 | 疫后数字化机遇,“工业思维”如何加持“数据思维”
来源: | 作者:pmod6d781 | 发布时间: 2020-03-12 | 6033 次浏览 | 分享到:

这组数据很简单,可以看出是一个正相关的关系。

假设你在解决一个工业现场的问题,做了分析的结论,去跟工业专家沟通,说找到了因子和质量之间的关系是正相关,工业专家会毫不留情的告诉你,对不起,我所了解的工业机理,他们一定是负相关。

这可能就会变成双方的一个gap。工业专家会觉得数据做的东西不可信,但是数据专家分析的过程没有问题,这问题在哪呢?

这个图可以很容易看到,数据它是分成了两个簇,当我们把它分到两个簇,再分别去分析,可以看到在每一个簇内,他们的相关性都是负的。

实际上数据分析本身没有错,问题的来源是有第三者。第2个因素没有考虑到当前的数据分析里面来,而这个因素可能是之外一个非常重要的因素,使得数据产生了不同的分簇。

这样一个简单的情形,大家肉眼也能看得出来问题,但是在现场做数据分析的时候,数据量非常大,数据非常复杂,它不是两个簇,是很多个簇,重重叠叠在一起,没办法靠肉眼去区分开。在这种情况下,有什么办法进一步往下走呢?怎么知道是不是有其他的因子在相互影响?

这就需要刨根问底,发现微小的异常,往下深刨。

案例2:质量分析的案例

常识科普:正态分布

大家都熟知的六西格玛(6σ),实际上是把统计学的工具用到了工业现场来。六西格玛(6σ)所有的算法工具都是基于正态分布基础上构建的。

为什么要用正态分布,在工业现场为什么是正态分布而不是其他分布呢?

正态分布有一个叫中心极限定理,说的是如果你有很多随机变量的影响,被加和起来,最后形成的概率分布就会是一个正态分布。在工业现场,各种各样的影响因子非常多,很多因子不可控,例如人为因素,环境因素,所以一个生产现场非常关心的产品质量指标,一定是多因子影响的一个综合的结果。

工业现场都有人、机、料、法、环、甚至测量,各个因子综合起来,往往你看到的数据现象都是正态的,经常会看见很标准的正态分布在工业现场的数据里面。

这个案例是对某产品质量进行分析。从工业用户的角度来说,生产过程中的温度是产品质量的一个重要因子。

两条温度曲线,每一个周期对应一个产品的生产过程。

对于这个客户的问题是,他知道温度是重要的因子,但是不知道这个温度的因子到底是怎么影响产品质量的?

这里遇到了一个困难:每个温度周期实际上没办法跟产品的好坏来做关联。

我们要做的事情,首先是通过设计一些实验,让温度数据和产品的良率数据关联起来,然后再进一步分析。当时做了两轮实验,拿到了几百个样例。蓝色的部分是良品所对应的温度区间的分布。而红色对应的是这个不良品。这个看起来就是一个正态分布。