K2新生代崭露锋芒 2018KDD-Cup位列十强

K2新生代崭露锋芒 2018KDD-Cup位列十强

晚上9点的办公室,同事们都陆续结束了一天的工作,但对于华仔和他的小伙伴来说,另一场战斗却刚刚开始。他们修正数据模型,整理结果,每天要忙到深夜1点。去年,他们所在的队伍在昆仑首席数据科学家田博士的指导下,在业余时间参赛一举拿下了2017PHM竞赛的冠军。今年,考虑到更多客户项目的交付压力,分析团队没有计划参与任何赛事,但年轻的小伙伴还是想挑战自己,于是自行组队,利用愈加宝贵的深夜时段,参加了2018KDD-CUP,最终位列十强。
 
年轻数据科学家的竞赛之路
 
KDD-Cup被称为数据挖掘领域“奥运会”, 每年都会吸引来自世界各地数据挖掘领域的顶尖专家、学者和工程师参赛,今年参赛队伍更是突破往年的数量,达4000多支。K2Data的这三位年轻的90后数据分析师,也成为了今年的4000分之一。
 
比赛由ACM协会的国际顶级会议SIGKDD举办,自1997年以来每年举办一次。该比赛一直以来都强调在实际场景中的应用性。本届赛题十分独特,空气污染物(PM2.5,PM10,O3)预测不仅具有规律性弱、不稳定、易突变的特点,并且因为要预测未来48小时中的每个小时,以及北京/伦敦城市内几十个预测地点,建模时间序列以及地点拓扑关系给机器学习模型带来挑战。
 
现有的方法针对的预测的时间段较短,没有基于位置拓扑以及利用天气预报进行建模,在机器学习尤其深度学习模型的运用也处于探索阶段。并且,由于比赛赛制每天需提交未来结果,相对于很多基于固定测试集的方案或比赛更接近真实工业界,对模型的稳定性以及迭代开销也有很多挑战。
 
微信图片_20181031180451
 
其中最大的挑战是数据的缺失问题。因为站点有时需要维护或传感器出现故障,可能出现数据延迟或数据缺失的情况,官方提供的训练集数据的缺失情况如图1所示。
 
微信图片_20181031180539
 
微信图片_20181031180547
 
由图1可知,缺失最多的是PM10,缺失比例已经超过了25%,不能够直接用来建模。不过华仔和他的小分队发现了PM2.5,PM10之间有着非常好的线性关系,O3与温度之间则有非常好的指数关系,由此可以建立PM2.5与PM10线性模型,利用该模型对PM2.5和PM10进行相互插补(如图2所示)。此外可以建立O3与温度的指数关系模型,利用该模型对O3缺失值进行插补。但是,又发现同一时刻的PM2.5、PM10、O3存在同时缺失的情况,这种情况可以利用空间关系进行缺失值插补。基于上面的思路,建立了3-phase插补算法,有效解决了核心的数据缺失问题,基本就一直锁定了TOP30的排名优势。
 
在华仔看来,最终保持TOP10成绩主要来自于有效特征的挖掘。以weather type(天气类型)字段为例,挖掘了weather scoring 和binning feature两大类的有效特征,基于上面的数据预处理和特征工程,得出参赛最终提交的整体O3、PM10、PM2.5的预测效果。
 
微信图片_20181031180630
 
昆仑数据:用人工智能解决工业问题
 
对参加KDD-CUP的夙愿,华仔表示,KDD-Cup是工业界和学术界都非常关注的一个比赛,也产出过很多对业界有影响的技术,比如KDD-Cup 2012产出的XGBOOST和FFM模型对工业界产生了很大的推进作用,而在工业界有了一定应用沉淀后,又不断地对这两种模型进行优化。
 
随着人工智能AI的红利,越来越多的领域开始尝试使用机器学习来解决现实问题,从KDD-Cup赛事命题方向的变化就可以反映这种趋势。以往的赛题多集中在推荐系统的设计,近年来开始转向机器学习技术在教育、交通等传统行业的实际应用问题。
 
人工智能已经从技术概念逐步开始了场景化、商业化的落地,随着技术与人才的逐步成熟,用大数据与人工智能技术推动工业智慧升级,将从昆仑数据的使命演进成不远的现实。