K2新生代崭露锋芒 2018KDD-Cup位列十强
来源: | 作者:k君 | 发布时间: 2018-08-22 | 3125 次浏览 | 分享到:

晚上9点的办公室,同事们都陆续结束了一天的工作,但对于华仔和他的小伙伴来说,另一场战斗却刚刚开始。他们修正数据模型,整理结果,每天要忙到深夜1点。去年,他们所在的队伍在昆仑首席数据科学家田博士的指导下,在业余时间参赛一举拿下了2017PHM竞赛的冠军。今年,考虑到更多客户项目的交付压力,分析团队没有计划参与任何赛事,但年轻的小伙伴还是想挑战自己,于是自行组队,利用愈加宝贵的深夜时段,参加了2018KDD-CUP,最终位列十强。

年轻数据科学家的竞赛之路

KDD-Cup被称为数据挖掘领域“奥运会”, 每年都会吸引来自世界各地数据挖掘领域的顶尖专家、学者和工程师参赛,今年参赛队伍更是突破往年的数量,达4000多支。K2Data的这三位年轻的90后数据分析师,也成为了今年的4000分之一。

比赛由ACM协会的国际顶级会议SIGKDD举办,自1997年以来每年举办一次。该比赛一直以来都强调在实际场景中的应用性。本届赛题十分独特,空气污染物(PM2.5,PM10,O3)预测不仅具有规律性弱、不稳定、易突变的特点,并且因为要预测未来48小时中的每个小时,以及北京/伦敦城市内几十个预测地点,建模时间序列以及地点拓扑关系给机器学习模型带来挑战。

现有的方法针对的预测的时间段较短,没有基于位置拓扑以及利用天气预报进行建模,在机器学习尤其深度学习模型的运用也处于探索阶段。并且,由于比赛赛制每天需提交未来结果,相对于很多基于固定测试集的方案或比赛更接近真实工业界,对模型的稳定性以及迭代开销也有很多挑战。

△队员在伦敦KDD 会议现场,为参会者介绍解题思路

其中最大的挑战是数据的缺失问题。因为站点有时需要维护或传感器出现故障,可能出现数据延迟或数据缺失的情况,官方提供的训练集数据的缺失情况如图1所示。

图1

图2

由图1可知,缺失最多的是PM10,缺失比例已经超过了25%,不能够直接用来建模。不过华仔和他的小分队发现了PM2.5,PM10之间有着非常好的线性关系,O3与温度之间则有非常好的指数关系,由此可以建立PM2.5与PM10线性模型,利用该模型对PM2.5和PM10进行相互插补(如图2所示)。此外可以建立O3与温度的指数关系模型,利用该模型对O3缺失值进行插补。但是,又发现同一时刻的PM2.5、PM10、O3存在同时缺失的情况,这种情况可以利用空间关系进行缺失值插补。基于上面的思路,建立了3-phase插补算法,有效解决了核心的数据缺失问题,基本就一直锁定了TOP30的排名优势。