昆仑数据线上课No.4 | 工业大数据实用“避坑”指南

来源: | 作者:pmod6d781 | 发布时间: 2020-03-04 | 6289 次浏览 | 分享到:

其实数据分析最应该做的，反而是那些现实中间时不时出现，但是人的经验又做不好，又特别期望数据能帮忙的一些场景。

这要求我们在数据处理上，即使有些情况基于现在的模型和数据支撑不了，也要预想到这些情况，至少知道这项技术的适用范围是什么，而不是做了一个在特定情况下特别好的东西，就推而广之。

任何模型都是物理设计的一个简化，都不可能脱离于物理世界，现在讲数字孪生体，也要看模型用于研发阶段还是在运维阶段，毕竟不可能有一个模型百分之百的等于物理世界。

在现实中说抓基本面，基本面是什么？比如做大宗物资的需求预测，就要梳理大宗物资供和需，它的驱动因素到底是什么？不用特别定量，先大概把关联因素梳理完。比如做设备的运行优化、故障监测，不要一上来就用各种复杂的公式，其实更应该了解基本量之间的影响关系、动员关系。

5、闪烁其词：在“科学”名义下，以“非科学”的态度去做“科学”的事情。

做工业数据分析，我们需要知道一个模型的使用边界，没有一个模型能解决所有问题，或者适用于所有情况，除非他是一个伪科学。

做数据分析6个阶段，真正耗时的是什么？是最早的业务问题理解，这也是最关键的阶段。当然CRISP-DM默认把社会分工做好了，假设数据分析师只做数据挖掘，数据分析，在现实中间不可能这么理想，有可能别人给你理出来的问题不一定正确，在某种程度上要重新定义问题，而不只是理解。

当然还有一些跨专业要理解，不熟悉的领域的背景知识都非常重要，做化工连化工原理都不知道，做电力连电力的基本动力学都不知道，去盲做就很容易挖出来一些常识，这是社会资源的一种浪费。

第二比较耗时的是数据准备，正常情况下数据挖掘非常好做，但很多时候，数据挖掘偏偏是处理那些看起来不太正常，但在现实中间经常出现的一些状况。作为一个严谨的数据分析师，我们要从数据中间，看到好多业务专家早期没有想到的一些信号，甚至是他认为不可能在数据中出现，或是他习空见惯，没意识到，没给介绍的一些情况，这些有时候会大大影响分析模型的准确度。要自动执行的时候，可用性是非常重要的。

数据只是一种表象，作为数据分析师，我们的态度是相信数据，但是不迷信数据，因为数据本身的采集方式可能会有偏差，比方以前讲的幸存者偏差，只有没被打掉的飞机才飞回来了，所以我们损失了很多，薄弱环节被打掉的一些信息。

有些数据的采集方式、采集精度，包括数据的样本选择上，可能会给我们误导，看起来做的不错，其实本身数据没有反映物理现实。包括传感器的安装位置，传感器本身的测量原理，可能会给数据本身带来一定的影响，这时候需要比较谨慎和乐观的态度去挖掘，同时要像其他工科一样反复推敲，这是非常纠结和磨难的一个过程。