昆仑数据线上课No.5 | 疫后数字化机遇，“工业思维”如何加持“数据思维”

来源: | 作者:pmod6d781 | 发布时间: 2020-03-12 | 6033 次浏览 | 分享到:

这组数据很简单，可以看出是一个正相关的关系。

假设你在解决一个工业现场的问题，做了分析的结论，去跟工业专家沟通，说找到了因子和质量之间的关系是正相关，工业专家会毫不留情的告诉你，对不起，我所了解的工业机理，他们一定是负相关。

这可能就会变成双方的一个gap。工业专家会觉得数据做的东西不可信，但是数据专家分析的过程没有问题，这问题在哪呢？

这个图可以很容易看到，数据它是分成了两个簇，当我们把它分到两个簇，再分别去分析，可以看到在每一个簇内，他们的相关性都是负的。

实际上数据分析本身没有错，问题的来源是有第三者。第2个因素没有考虑到当前的数据分析里面来，而这个因素可能是之外一个非常重要的因素，使得数据产生了不同的分簇。

这样一个简单的情形，大家肉眼也能看得出来问题，但是在现场做数据分析的时候，数据量非常大，数据非常复杂，它不是两个簇，是很多个簇，重重叠叠在一起，没办法靠肉眼去区分开。在这种情况下，有什么办法进一步往下走呢？怎么知道是不是有其他的因子在相互影响？

这就需要刨根问底，发现微小的异常，往下深刨。

案例2：质量分析的案例

常识科普：正态分布

大家都熟知的六西格玛(6σ)，实际上是把统计学的工具用到了工业现场来。六西格玛(6σ)所有的算法工具都是基于正态分布基础上构建的。

为什么要用正态分布，在工业现场为什么是正态分布而不是其他分布呢？

正态分布有一个叫中心极限定理，说的是如果你有很多随机变量的影响，被加和起来，最后形成的概率分布就会是一个正态分布。在工业现场，各种各样的影响因子非常多，很多因子不可控，例如人为因素，环境因素，所以一个生产现场非常关心的产品质量指标，一定是多因子影响的一个综合的结果。

工业现场都有人、机、料、法、环、甚至测量，各个因子综合起来，往往你看到的数据现象都是正态的，经常会看见很标准的正态分布在工业现场的数据里面。

这个案例是对某产品质量进行分析。从工业用户的角度来说，生产过程中的温度是产品质量的一个重要因子。

两条温度曲线，每一个周期对应一个产品的生产过程。

对于这个客户的问题是，他知道温度是重要的因子，但是不知道这个温度的因子到底是怎么影响产品质量的？

这里遇到了一个困难：每个温度周期实际上没办法跟产品的好坏来做关联。

我们要做的事情，首先是通过设计一些实验，让温度数据和产品的良率数据关联起来，然后再进一步分析。当时做了两轮实验，拿到了几百个样例。蓝色的部分是良品所对应的温度区间的分布。而红色对应的是这个不良品。这个看起来就是一个正态分布。

联系我们

400热线：400-680-5007

产品和解决方案：sales@k2data.com.cn

商务合作：partner@k2data.com.cn

媒体合作：media@k2data.com.cn

关于我们

热门推荐

工业数智福利礼包

工业大数据创新中心

地址：北京市海淀区成府路45号中关村智造大街A座4层

公众号