昆仑数据线上课No.4 | 工业大数据实用“避坑”指南
来源: | 作者:pmod6d781 | 发布时间: 2020-03-04 | 1117 次浏览 | 分享到:

我们有时候有意无意的把一个问题复杂化,做结冰检测,其实就看风机的运行状态,就看它的出力和风速的关系,有没有一个持续的缓慢的下降,或者再综合其他的故障信息,就能把一个问题简化不少。

7、因陋就简:数据基础不健全,就轻易放弃

是不是数据基础不好,我就不要做大数据?对数据分析师来说,数据质量从来没好过。

我也接触过商业的数据,银行的数据,电信的数据稍微偏好一点,但是对我们数据分析师那种孜孜不倦的要求来讲,数据质量从来没好过,我是深有体会。

以前在境外做过一个城市管网的失效预测,预测一个地下水管网,明年哪个管子可能会坏?从数据的质量讲,客户非常自信,因为他的信息化水平大概领先于国内十多年。我需要最基本的管网的管件、管材管理,所处位置,地面的交通数据、环境数据,包括附近有什么建筑物,他的土地利用性质,还需要天气数据……他说这都有,一个地方政府能把每条道路的交通流量,每个地方土地使用性质附近有什么建筑物,包括最近有没有下雨,甚至整个管网的压力区,平均水压是多少都能给出来。

如果单个看,每种数据缺失都不太严重,数据完整度能到80%。但是一旦把这些因素关联起来,要建模型的时候,我要把管网本身的特性、土地使用性质、天气信息、土壤的酸碱度信息等综合来预测,这时候一一关联起来就发现,真的有完整数据的管道,不到30%。

这其实让客户非常震惊,数据集相互孤立着,有些字段偶尔缺一点也不明显,但是对数据分析来说,我要关联起来看,要横着看竖着看,所以我对数据质量的要求非常高。

从我们数据分析来看,其实数据基础健不健全都是相对的,有些数据分析发现的数据缺失,也是帮助信息化建设来把它不断的补全的一个过程。有什么样的数据做什么样事,哪怕数据不全,也可以从简单的做,从容易的做,从基础比较好的地方做。

任何一个正常的科学技术都是有边界的,工业大数据作为一个技术,肯定有适用和不适用的范围。

如果大家在现实中遇到什么场景,昆仑数据的数据分析师愿意和大家一起探讨,看看这个问题应该怎么定义,用数据能不能解,欢迎大家和我们互动。