新闻动态

前几天,微博上#带着春天去旅行#的话题不知不觉就火了。wuli老大说,来吧伙伴们,咱也放松一下,来一场说走就走的春游~   K2天团集体南下,到达苏州。   游走姑苏   在同里,我们“走三桥”、“绕糖稀”、“夜访巷弄”。在“廊榭阁桥,池荷鱼石”的苏式客栈感受温润江南。退思园的命名故事代入感满满,让K2天团的成员们纷纷化身诗人,在朋友圈吟起诗词。     “进思尽忠、退思补过,虎收爪,独居孤山,静待思变”——这不仅是退思园主的往事,更是K2天团成员审时度势,修炼内功的内心写照。     到苏州必游的四大名园之一“拙政园”、和苏东坡吆喝不游乃憾事的“虎丘”各有千秋,人潮熙攘的“观前街”、“平江路”也自有时代的印记,因建筑风格融汇中西而名声大噪的苏州博物馆,让大家对贝聿铭先生产生了浓厚的兴趣。古运河游船的吴侬评弹衬得江南美景声色俱全。     苏州食光   逛吃逛吃逛吃,有逛必有吃。这些天让K2天团记忆犹新、印象深刻、过口不忘的当属史上最著名苏菜: “太湖三白”——白虾、白鱼、银鱼炒蛋。   不得不说,对于北方的小伙伴来说,真该自带咸盐。     K2天团把水乡美食、苏式菜系、网红小吃尝了个遍,冰激凌、酸奶、大烤肠、碧螺虾仁、青团、松鼠鳜鱼,啊,无法自拔。人事妹妹的攻略,让当地的导游姐姐都开了眼界。     K2天团   我们值得回忆的不仅是美景美食。 有工作太满半途赴会的期待,有夜半讨论工作问题差点被某导航带到沟里的惊悚,也有游园赏花时全程讨论数据分析的执着; 有惦念为妻儿捎一份江南手信的牵挂,有狼人杀时不眠不休的战斗气节,更有深夜陪同就医的老铁情谊,以及无比欢乐的合影造型……       重磅合影   又到了激动人心的合影环节,K2天团首排“团草”身着印有K字标识的卫衣,为集体照平添一分和谐。   ▼高清无码大图送给大家▼     “君到姑苏见,人家尽枕河。古宫闲地少,水港小桥多。”一路欢声笑语、载歌载舞,谈工作时正经、游玩时欢乐,这就是我们共享共担、团结互助的K2天团,你值得加入。   ...

Read More

4月26日,以“以应用促发展、依创新而智变”为主题的2017中国大数据应用创新峰会暨数据中国城市行首站在青岛召开,来自全国政界、学界、产业界的400多名大数据领袖参与此次会议,共同谋划中国大数据应用创新发展之路。 全国首批优秀大数据产品和解决方案在会上揭晓,昆仑数据KMX机器大数据管理分析平台V1.0、K2产品全生命周期管理解决方案双双上榜,被分别授予《大数据跨基础设施/分析类产品认定证书》、《大数据解决方案认定证书》。 据了解,此奖项是由中国大数据产业生态联盟发起,中国软件评测中心组织专家和工作组开展多次现场测试、评审后,在全国范围内遴选出8个优秀大数据产品、5个优秀大数据解决方案,仅有两家大数据企业同时获得产品及解决方案双奖项,工业领域独有昆仑数据一家。 26日下午举办的产业大数据论坛中,昆仑数据创始人及CEO陆薇作为全国工业大数据优秀企业家,与在座领导、嘉宾及听众一同论道工业大数据,特别阐述用DT思维做工业大数据,应该具备价值导向、敏捷、低门槛等特质。 昆仑数据工业大数据精益分析法,提供从问题诊断、试点突破到规模部署的端到端解决方案,结合自主工业大数据管理分析平台KMX,低门槛实现业界最快的数据价值变现。 KMX平台V1.0 昆仑数据KMX机器大数据管理分析平台V1.0此前曾荣获2016年度中国大数据工业领域最佳产品奖,在大数据管理和数据价值挖掘双方面内置大量专为工业数据优化的功能,为工业企业探索大数据价值,提供前所未有的用户体验。 K2产品全生命周期管理解决方案 昆仑数据产品全生命周期管理解决方案,在跨工业领域的不同业务需求下能够快速部署实施,可实现个性化模型定制、以设备为中心的全息数据查询,提供设备寿命预测与预防性维修服务,实现从创新设计、生产制造、设备运维到回收再制造全生命周期的提质增效。...

Read More

世上没有一个分类器解决不了的分类问题 如果有,就多用几个 ——TK 正文开始前,先讲个故事。 场景:理综开卷考试:(选择题;试卷下发限时一天;答题过程不限) 人物:学渣A、学渣B、学渣C 经过: 学渣A单打独斗,很快交卷,不出意外考砸了; 学渣B叫来很多“学弱”,每道题都要经讨论决定答案。最终B拿到比A高很多的分数;但由于众口不一,浪费了B大量打游戏的时间; 学渣C只叫来为数不多的几个偏科“学弱”,他们每人都有自己最擅长的科目。C做好自己确定的题目后,把卷子扔给其他人就去打游戏了,最后一个人答完,C随便看了看就交卷了,结果成绩居然比B还高了一些,这让花费了大量时间、欠下众多人情的B愤愤不平…… 如果将上述场景类比到数据科学领域,A的做法是传统的训练分类器的办法,精度低,无法最大程度掌握训练数据中的信息,所以在测试数据上的表现往往不尽如人意;于是科学家们秉承“人多力量大”的基本原则,就像上述B和C一样,尝试着运用了多训练器一起解决问题的办法,这就是“集成学习”的思想雏形。 图1 传统方法vs集成学习        同样是叫来了自己的朋友们,但是B和C采用了完全不同的策略来完成那份试卷。如果把“叫朋友”类比到机器学习领域的话,两位同学的策略正对应着“集成思想”孕育出的两大利器: B同学的“人海战术”---Bagging(Bootstrap Aggregation) C同学的“逐个击破”---Boosting 作者接下来会根据自己对这两个算法的理解,力求以通俗的语言辅以图解来解释这两个“集成学习”中的著名思想。读者可以类比于场景中B、C同学的策略来辅助理解。(下面内容中相关术语均针对“分类”问题) B同学的“人海战术”---Bagging 全称Bootstrap Aggregation,是一种在原始数据集上通过有放回抽样重新选出N个新数据集来训练分类器的集成技术。 图2 Bagging流程        如图2所示,一次完整的Bagging迭代过程可以分为以下两步: ①对原始数据(M个观测记录)进行m次随机有放回抽样,生成一份训练样本(m个观测记录, m < M) ②运用任一机器学习算法对产生的训练样本进行训练,得到一个分类器 至此我们完成了一次Bagging迭代并得到了一个分类器,重复此过程任意次(如果每次迭代选用的分类器能力不够强,则迭代次数较多为好),最后将每个迭代过程得到的分类器Ci进行组合即可。 C同学的“逐个击破”---Boosting 图3 Boosting流程        同样是根据“集成学习”思想提出的算法,Boosting的核心原理与Bagging一样,对原始样本抽样来训练多个分类器,综合得到效果强大的最终模型,不过与后者不同的是,Boosting在每次抽取样本之前会对每一条观测数据赋予相应的权重,如同每次模拟考试之后老师往往会给予成绩不理想的学生更多的关注一样,Boosting通过这种赋予样本权重的方法来优化每一轮迭代所产生的基分类器。 一次完整的Boosting迭代共有以下三步: ①对已经被赋予权重的样本进行抽样(权重高的样本被抽到的概率大),得到训练样本 ②运用任一机器学习算法对产生的训练样本进行训练,得到一个分类器 ③总结分类器在这一轮迭代中的样本上的分类表现,以此为根据产生新的样本权重 这样每次迭代都会得到一个基于上一轮训练结果的“训练器2.0”,最后的分类器结果自然变现不俗。 应用案例 1 模型介绍 本文主要聚焦于机器学习领域的分类问题,更具体的说是“二分类”问题,这类问题在平时生活以及业界都有很高的出场率:我昨天的订单今天会不会发货?这位客户下个月会不会及时还款?A厂的这台机器今天会不会出现故障… 对于这些疑问,最原始的办法是根据一些已知信息来人为判断,而引入机器学习的知识以后,我们可以建立模型来对这些未知的结果进行预测。 作者选取了Kaggle社区上的一个二分类问题的数据集来展现“集成学习”思想的威力。上文提到“集成学习”只是一种朴素的思想,而要解决实际问题则需要实实在在落地的模型,这里要介绍由这种思想衍生出的两种著名机器学习算法:随机森林(RF)以及梯度提升树(GBDT)。 *由于GBDT的运行速度过慢,所以作者选取了这一算法的进阶版:XGBoost,下文中出现的所有GBDT均可以等价理解为XGBoost 图4 思想与模型 2 准确率对比 由于这两种算法都是在“决策树”这一基本分类器上应用“集成学习”思想得到,所以作者分别用决策树(DT)、随机森林(RF)、XGBoost三种算法对数据进行了训练,还选用了支持向量机(SVM)作为另一单分类器来进行对比,同时这四种算法可以与文章开头的小场景进行类比,其中: 决策树(DT)与支持向量机(SVM)作为单分类器对应于A的方法; 随机森林(RF)作为Bagging的代表对应于B的方法; 最后XGBoost作为Boosting的代表对应于C的方法。 下面进入没有对比就没有伤害的环节,来看一下不同算法的表现: 图5 传统方法vs集成学习        由于这份数据已经采取预处理,所以总体分类准确率较高,不过由图5可以看出,同为单一分类器的DT与SVM表现差别还是很明显;不过RF与XGBoost已经与SVM的表现相差无几,作者这里选取了1000个样本作为测试数据,0.98的含义是在1000个样本中有20个分类错误。 虽然RF、XGBoost的表现已经追上甚至赶超了SVM,但是作者认为“集成学习”的威力应该不止于此,由于这次运用的模型参数均为默认参数,所以作者在对RF、XGBoost的模型参数进行调试(这是个十分费力的过程)后又做了新一轮的预测,见证奇迹的时刻: 图6 调参后模型准确率        在整体预测率都较高的情况下,应用了“集成学习”思想的算法在准确度上还是实现了某种程度的碾压。 3 调参经验 从图6可以看出,对于RF与XGBoost模型的参数调整还是得到了正反馈的效果,所以针对具备编程经验或者感兴趣的同学,作者在这里简单介绍一下自己的调参经验: ①RF:参数较少,只有生成森林所需树的棵数(ntree)与节点分裂时所需的特征个数(mtry),作者选取交叉验证的方法由参数的初始值开始搜寻,最终由预先设定的判别表征(RMSE、MAPE…)来决定参数。 ②XGBoost:参数很多(这也是此算法的一个缺点),具体的解释可以参考这篇文章http://blog.csdn.net/zc02051126/article/details/46711047, 这里不做冗余的介绍。 以下只列出作者在这个案例中主要调整的几个参数:max_depth、eta、min_child_weight,选用的方法依然是交叉验证进行参数遍历。值得一提的是,其中“min_child_weight”这一参数对于类别分布不平衡的问题十分重要,由于作者工作的领域与工业界接触较多,经常会遇到正负样本分布极不均匀(通常<1:10000)的情形,所以XGBoost这一算法在合适的调参后往往会有比较理想的表现。 4 运行时间对比 图 7 运行时间 VS 数据量        最后给出一个运行时间上的对比作为文章的结尾,作者以3000为跨度逐步增加数据的容量,可以看出“集成学习”的算法在运行速度上表现出了碾压级别的优势,可以说是又准又快的算法。 所以如果你对自己的模型不够满意,用“集成学习”吧!   作者:TK 哥大海归研究僧,东北话十级,精通R语言,所有球类运动都能玩的热血小青年一枚。...

Read More

独乐乐不如众乐乐,我们的数据科学家与分析师在纷繁复杂的工作中发现了一些可以提升数据分析效率的技巧,并很乐意奉献给刚入门或正准备入门工业大数据的攻城狮们,抛砖引玉,如有不同见解或有更深了解需求,欢迎后台留言。   文本数据是工业大数据中一种重要的数据形式,包括如设备维修工单、服务反馈信息和产品质检报告等蕴藏着重要价值的文本。以维修工单为例,包含产品的故障问题、故障原因和解决方案等等描述信息。通过分析这些文本数据,工业企业可以及时发现产品质量问题,更能基于数据提示普遍趋势与建议方法,并形成反馈回路加速产品优化设计。然而,文本信息通常是半结构化和非结构化的手工填报记录,人工统计费时费力。有效采用文本挖掘技术,在相同的故障工单数据下,使统计分析效率大大提升。   中文文本挖掘的主要技术包括中文分词、特征提取、文本分类、文本聚类、关联分析、文本摘要等,其中中文分词是文本挖掘最基础的步骤,其目的是将一个汉字句子切分成一个一个单独的词,便于后续的分析挖掘。本文将对中文分词基本流程、中文分词算法及R语言中文分词包进行简要介绍。   一、分词基本流程   中文的分词基本流程见图1。通常说分词,是指包括导入词典、执行分词两个步骤的狭义分词。但在实际的项目中,还需要做大量的文本预处理和后处理工作。   图1   1.文本预处理,分词前的文本处理,通常需要用正则表达式来完成。   a) 同义词替换。比如“紧急停机”、“急停”、“度”和“°”、“号”和“#”,业务语义相同,分词之前应统一成一种说法。   b) 英文大小写统一。小写英文都变大写,如”plc”换成”PLC”,反之亦然。   c) 利用特定规则获取关键信息。比如打算在文档标题中提取故障名,发现标题符合“某项目某机组报某故障”命名规则,就可以利用正则表达式提取故障信息。   d) 利用文本以外的结构化信息。如想去除文本中包含设备编号(A1、LY-12等),但这些编号很难总结出一定规则,这时如果找到含设备编号字段的文档表格(如设备台账),就可以直接取来用于过滤。   2.文本后处理,分词后的文档词组的删除合并操作。   a) 去除停止词。建立停止词库,去除“了”、“和”、“因为”、”发现”等,这些高频且对分析无意义的虚词、连词、动词等。   b) 利用特定规则删除词。比如日期,2016年、1月。如不希望成为关键词,应使用正则表达式滤除。   c) 处理歧义词。比如分词结果是“某编号”、“齿轮箱”两个词,前者单独出现时表示发电设备,但当两个词连续出现时,则表示某编号齿轮箱,因此需要合并处理。   二、常见中文分词算法   分词技术常见的有两大类:   1.机械分词法   即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,因此也叫基于字符串匹配的分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。常用的几种机械分词方法如下:   a.正向最大匹配法(由左到右的方向); b.逆向最大匹配法(由右到左的方向); c.最少切分(使每一句中切出的词数最小)。   机械分词方法是一种很简单高效的分词方法,它的速度很快,都是O(n)的时间复杂度,效果也可以。但缺点是对歧义和新词的处理不是很好,对词典中未出现的词没法进行处理,因此经常需要其他分词方法进行协作。   2.统计分词法   统计分词法基于人工标注好的语料库对中文进行模型训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的几种统计方法如下:   a.nGram模型; b.隐马尔可夫(HMM)模型; c.条件随机场(CRF)模型。   统计类分词算法对于识别未登录词拥有较好的识别能力,分词精度较机械分词法高。但是需要大量的人工标注语料库,分词速度慢。 实践中,一般都是多种分词方法结合起来使用,相互弥补。   即:使用词典+统计法结合的方法,用词典来存储大部分关键词,使用统计法识别新词。   三、R语言分词工具   表1总结了R语言在文本挖掘中常用的工具包,其中Rwordseg和jiebaR是目前R中最主流的中文分词工具包,这里予以着重介绍。     1.中文分词R包简介   jiebaR是“结巴”中文分词的R语言版本,作者覃文锋,支持四种分词模式:最大概率法、HMM、混合模型和索引模型,同时有词性标注,关键词提取,文本Simhash相似度比较等功能,项目使用了Rcpp和CppJieba进行开发,目前有测试版和稳定版两种,托管在GitHub上 https://github.com/qinwf/jiebaR   Rwordseg的开发者是李舰,使用rJava调用Java分词工具Ansj。Ansj是一个开源的Java 中文分词工具,基于中科院的ictclas中文分词算法。孙健重写了Java版本,托管在GitHub上,https://github.com/ansjsun/ansj_seg,最新版本是基于nGram+CRF+HMM的混合模型。   2.分词功能介绍   回到分词功能介绍,jiebaR和Rwordseg的功能简要对比见表2。     1)jiebaR Cheatsheat             2.Rwordseg Cheatsheat         4.结论   本文主要总结了中文分词的主要算法和R语言中的两个分词包jiebaR和Rwordseg。从目前的R包版本来看,jiebaR功能比Rwordseg更全面。在实际应用中,除了软件工具包的选择,分词结果的好坏更加取决于词库的优劣,尤其是在专业词语密集的工业文本分析场景,分析人员将不得不在专业词库建设中投入更多的时间精力。   作者:阿闯 江湖人称“闯哥”,闷骚型男,隐形麦霸,自动化专业博士,大数据分析攻城狮,满腔工业情怀及matlab/R数据建模与分析经验。   参考文献 [1] jiebaR 中文分词, http://qinwenfeng.com/jiebaR/ [2] jiebaR中文分词——R的灵活,C的效率, https://cos.name/2014/11/jiebar-text-segmentation/#more-10373 [3] Rwordseg中文分词, http://jianl.org/cn/R/Rwordseg.html [4] 数学之美, 人民邮电出版社, 吴军...

Read More

说起重庆,你第一反应是满城飘香的火锅,还是肤白貌美大长腿的重庆妹子?   这么实在的昆仑数据当然关注重庆工业的发展。     作为2017全年智能装备产业目标实现200亿产值的工业聚集城市,重庆有强大的冶金、机械、化工、仪器仪表等重工业,以及医药、纺织、食品等领先的轻工业。   本周初,昆仑数据CEO陆薇、CTO王晨、副总裁秦磊一行出席由重庆机电控股(集团)公司主办,重庆机电装备技术研究院、重庆机电智能制造有限公司承办的“让数据发声”——2017工业大数据论坛。     重庆市科委副主任徐青,高新处处长许志鹏,经信委软件处调研员王丽、机电集团副总经理赵自成,军工集团总经理邓华民以及40多家企业的领导和技术专家等出席本次论坛。   在论坛主题报告环节,陆薇、王晨、秦磊分别介绍了当前制造业大数据发展情况,阐述了工业大数据应用加速工业产业智慧升级,工业大数据实施路线以及基于工业大数据管理分析平台KMX的数字化转型案例分享。     此后在“论道大数据”环节,与赵自成、邓华民两位工业专家一同,就如何实现大数据技术在装备工业领域的高效管理与利用展开了讨论,并接受与会代表的提问。   大家一致认为工业大数据技术的应用是发展趋势,必将有利于推动装备制造企业转型升级,提升装备品质和服务质量。重庆机电集团将率先推动工业大数据的应用。     徐青在致辞中指出工业大数据是科技发展的必然趋势,她介绍了重庆市政府及其市科委在大数据方面的工作,表示将对机电集团推进大数据在装备制造领域的应用提供政策等支持,希望机电集团在此领域走在前列。   ...

Read More