技术干货

智能制造不是一场突然而至的革命,也不是一蹴而就的革新。   今天,我们不谈大数据和人工智能将为中国工业带来什么,也不谈昆仑数据服务的行业巨头企业在数字化转型上可圈可点的成果,我们希望抛开智能,看看中国万千中小型制造企业谈及对新兴技术渴求为何会如鲠在喉。   ·技术不解决最根本的问题   如果真的到中西部、东南沿海乃至江浙工业重镇走一圈,你就会了解到,目前大多数中小企业仍旧处在工业2.0阶段。企业为了保证交期、减少质量问题而疲于奔命,甚至缺乏最基本的标准化流程和作业的标准化,更不用谈管理的系统化,生产交付永远处于救火状态,而粗放的管理方式一旦在企业内部形成恶性循环,不是靠“机器换人”和“信息化系统”可以解决的。我们认为管理水平的提升、流程的优化、标准化的建立是当前企业应该首要解决的问题,才能让“智能”发挥出最大的价值。   ·智能化才刚刚起步   有多少制造企业长期依靠低廉劳动力或牺牲环境资源赚得一手利润差,就将会有多少企业在低端制造业外流的浪潮下朝不保夕。有关数据显示,时至今日,我国企业信息化应用水平较高的企业仅占14.6%,多数企业使用智能设备替代人工的动力不足。现阶段,即使引入智能设备,也仅停留在初级应用阶段,远没有形成构建智能制造体系的战略思维和总体规划。我国制造业全面实现数字化、网络化、智能化还有很长的路要走。   ·人才瓶颈制约   我国传统的工业重镇一般都地处偏远,且不说北上广深,也很难与人才抢夺战中的网红省会城市一拼。这种人才的缺乏不仅仅是技术型岗位。从经营管理层面来看,企业缺少具有预见力的领军人物,以及在高水平的研发、市场开拓、财务管理等方面的专门人才。从技术员工队伍层面来看,初级技工多,高级技工少;传统型技工多,现代型技工少;单一技能的技工多,复合型的技工少的现象普遍存在。员工综合素质偏低,直接制约了智能制造系统的应用和推广。而在国家战略层面,涉及智能制造标准制定、国际谈判、法律法规等方面的高级专业人才更是明显的“短板”。   ·工业界缺乏国际话语权   不得不承认,在工业领域,我国产、学、研的整体科技水平与美日欧等先进国家仍有较大差距。智能化的软硬件缺乏自主研发技术,除了被美国拿来要挟中兴生死的“高端芯片”,工业制造中大量高端传感器、操作系统、关键零部件主要依赖进口,在一定程度上阻碍了智能制造的发展。我国虽然是制造大国,但是由我国主导制定的制造业国际标准并不多,国际上对中国标准的认可度也不高,中国在全球制造标准领域缺少话语权及影响力。   与昆仑数据服务的大型行业龙头企业相比,新兴技术的快速更迭正在加大这种制造业“贫富差距”。 “智能制造”、“企业上云”的观点都会每年不断被重复,在中国万千中小型制造企业中,有的为了顺应政策号召却只在表面做到了形似,而我们,更愿意以长期价值来衡量新兴技术如何渗透到一线,给企业带来多少利润和价值提升。   如何将显性知识、隐性经验、隐藏在过程数据中的模式规律透过新型感知、执行应用到设备控制、生产管理、工艺设计或经营过程中?   每个工业领域都经历了几十年的发展,有其特殊的行业知识沉淀。以敬畏之心做工业大数据与工业智能,只有扎根行业,常驻一线,才能完成行业知识重构。   弯下身子搞“制造”,虽然不及翘起脚尖搞“智能”听起来高大上,但这正是当下工业界需要正面应对的问题。...

Read More

对于已经工作的我们 每年高考都是一波回忆杀 有时候不经意想起那段时光还是会热血沸腾 回望那个夏天总是有很多感动 其实高考不是终点,而是新的起点 …… 各位超龄考生们 与其感慨高考作文题 不如来刷一波昆仑数据热招岗位的考试题 现在开考↓↓↓ ...

Read More

提起我们大K2的数据分析团队,那可是相当优秀:硕果累累、客户满意,又有世界数据竞赛冠军加身,那这些大神平时都看什么书呢?团队的首席数据科学家田博士就给出这样一份书单,今天就让我们公开一下大神的内功秘籍吧!一共15本,排名不分先后,能熟读巧用这些书籍的欢迎投简历:hr@k2data.com.cn   数据挖掘经典教程推荐:四书五经一宝典一手册 这系列书目,包括4本入门书籍以及7本比较基础的书籍,适合对数据分析感兴趣以及想从事该行业的人群阅读。   《数据挖掘:概念与技术》 作者: Jiawei Han 出版社: 机械工业出版社 ISBN: 9787111188285 内容简介: 全面实用地论述了从实际业务数据中抽取出的读者需要知道的概念和技术。以及统计和机器学习方面的更多资料。包含了许多算法和实现示例,全部以易于理解的伪代码编写,适用子实际的大规模数据挖掘项目。   《回归分析》 作者:谢宇 出版社: 社会科学文献出版社 ISBN: 9787509716014 内容简介: 《回归分析》源于作者多年在密歇根大学教授回归分析的课程讲义,从基本的统计概念讲起,对线性回归分析的基本假定、回归中的统计推论和回归诊断做了详尽的介绍,同时还涵盖了很多在社会科学中对实际研究非常有用的内容,包括虚拟变量、交互作用、辅助回归、多项式回归、样条函数回归和阶跃函数回归等。此外,《回归分析》还涉及通径分析、纵贯数据模型、多层线性模型和Iogit模型等方面的内容。   《图解机器学习》 作者: 杉山将 出版社: 人民邮电出版社 译者: 许永伟 ISBN: 9787115388025 内容简介: 本书适合所有对机器学习有兴趣的初学者阅读。187张图解轻松入门,提供可执行的Matlab程序代码,覆盖机器学习中最经典、用途最广的算法,东京大学教授、机器学习权威专家执笔,浓缩机器学习的关键知识点,基于最小二乘法讲解各种有监督学习的回归和分类算法,以及无监督学习算法。   《机器学习》 作者: 周志华 出版社: 清华大学出版社 ISBN: 9787302423287 内容简介: 机器学习是计算机科学与人工智能的重要分支领域. 本书作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。适合有一定数学知识以及具有类似背景的对机器学习感兴趣的人士。为方便读者, 本书附录给出了一些相关数学基础知识简介。   《Pattern Recognition and Machine Learning》 作者: Christopher Bishop 出版社: Springer ISBN: 9780387310732 内容简介: 经典的机器学习书籍,难度适中,精选了最本质最经典的算法模型,进行深入浅出的介绍。   《The Elements of Statistical Learning》 作者: Trevor...

Read More

他,去年刚从英国曼彻斯特大学念完硕士回国,亚磊同学就被K2招牌田博士领进门,按到了电子制造领域,做起了数据分析师。聊起制造领域的数据分析,不论是技术工具还是行业发展,他总能用高昂饱满的热情,滔滔不绝。     比如他的处女作,SMT线的钢网设计参数优化。这是个什么鬼呢?   SMT是表面组装技术(Surface Mounted Technology的缩写),是目前电子组装行业里最流行的一种技术和工艺。它是一种将无引脚或短引线表面组装元器件(简称SMC/SMD,中文称片状元器件)安装在印制电路板(Printed Circuit Board,PCB)的表面或其它基板的表面上,通过再流焊或浸焊等方法加以焊接组装的电路装连技术。   说人话——基本上需要控制的电子产品,都有一个电路板。在基础电路板上,需要按照设计的电路图,用锡膏贴上各种电容、电阻等电子元器件,再进行高温焊接。   钢网设计参数优化需要综合钢网设计、使用数据、制程参数(刮刀压力等)锡膏、刮刀、机台、工单等多数据源数据,从刚好的孔里漏出刚好的锡膏到PCB板上,避免因为锡膏刷的过多导致短路、或刷得太少沾不上,造成电路板报废。   说起来,SMT是一个已经相当成熟且相对饱和的市场。在这类的市场中,大厂往往通过良品率和生产成本控制获得更大的订单。然而SMT产线不良品因子高达上千个,牵涉到的数据涉及到产品生命周期的各个方面。钢网优化是一个并不大的命题,只是SMT工艺流程中的一小步。但这也是K2数据科学家与客户业务专家共同探讨后认为可以有所作为的突破口。   用了一个月左右的时间,亚磊同学了解了客户方的数据基础、业务语义、业务目标,并寻找方法,形成初步的探索报告。得到客户认同后,出于客户对数据的保护,他开始入驻到客场办公。   当时K2大家庭还没有搬家到智造大街,蜗居在原办公室的宝宝们在初夏就被热得不能自已。亚磊同学每每从客场办公回来,总会眉飞色舞的撩“茶水间俱乐部”的成员们:“我那儿可凉快了!” (……泥奏凯!)     细问下来,其实在客户现场要花费90%的精力去整理清洗数据。初期什么工艺都不太懂,只能对着一堆数据盲挖,尽量缩小范围,剔除异常数据。回忆起当时手边的数据对应的一亿多个孔,最开始他的内心也是糟烂的。   一般一个电路板有一百多个不同的元器件,有的元器件有可能对应20-30种孔,孔的大小从0.2毫米-3毫米不等。在厘清了千头万绪之后,亚磊同学很快找准了根源,一个多月后提交了最终的实施建议报告,并增加了模型自学习能力,帮助客户完成系统上线。从客户最终试验结果看,反馈数据方差变小,CP工程控制能力变强,由钢网设计造成的次品率降低50%,满意交付。   其实,遇到的第一个工业大数据分析项目就能顺利看到结果,亚磊同学也觉得很幸运。因为并不是每个业务问题都是目前大数据可解的,有的受限于数据质量,有的受限于数据种类,有些与工艺强关联的关键数据缺失,还有些需要投入实验设计成本。   如果能通过大数据平台先把所有需要的数据管理好,为数据分析提供充分友好的资源和环境支持,会否事半功倍?亚磊同学说,那是基础,那就能把我们从糟心的数据整理中解放出来,去做最有创造力的工作了。   现在,亚磊同学已经着手服务于新的客户项目,虽然是另一个全新的细分领域,但他觉得还是有部分共通的思路。学统计学出身的他,本着用最简单的办法快速解决问题的套路,继续电子制造领域翻滚。   工业领域的分析枯燥吗?对我们来说,哪一行的数据都是数据,我的乐趣就是在数据里找规律,越难成就感越大。   可是要把一个真正行业共性的难题突破,把原来的成熟制造工艺通过大数据提升一个层次,形成全行业的新兴解决方案,这是一个需要耐心的长期命题,并不会通过一朝一夕一个工艺环节的改善就能取得行业瞩目的变化。   亚磊同学对未来潜在的挑战充满了期待。他说,行业共性问题难解,是因为需要一环套一环的去解决一个一个的突破点,解决了最明显的,才会暴露出深层次的,这需要长久的投入。行业问题是永无止境的,因为问题会跟随技术迭代不断升级,如果真的有一天问题没有了,可能这个行业也就升级了。   写在最后 亚磊同学做的项目只是制造领域大数据应用的一个细微分支,质量管理也只是工业企业的核心功能之一。   在以往,生产企业凭借以PDCA、TQM、6-sigma为代表的经典质量控制方法论,在有限的数据基础上,通过业务价值评估,实现客户价值与生产成本的平衡。为了引导质量的根因分析,仅6-sigma就有一系列的方法论,如DMAIC、DMADV/DFSS、MFSS、SFSS等。在有了大数据技术的今天,这些先验知识仍旧宝贵。   在大数据情形下,如何利用大数据提供的多维度关联、深度模式挖掘等能力,进一步提升质量管理的时效性、全局优化性、预见性、自适应性?K2愿与业界同仁一起去探索更多未知的可能。 ...

Read More

上篇回顾:作者介绍了文本分析的应用领域及常见方法,引起大批粉丝的强烈共鸣。今天继续介绍中文文本分析常见问题以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例。   中文文本分析常见的问题   中文的文本分析相对于英文有着很大的不同。英文天然具有分词的标志——空格,每个单词之间一定是以空格进行分离,所里在对于英文文章进行分词变得相对简单,没有分错词的问题。然而对于中文来说,分词是一个十分困难的事情,中文之间并没有诸如空格这样的分词标志,如何对中文进行分词,对于提高中文文本分析的准确率有着很重要的影响。   中文的分词大致可以分为两类,分别是基于字典的机械分词方法和以及基于统计模型的序列标注方法。字典匹配是将文本中的文字切片和已有的字典进行匹配,如果文字切片在字典中出现,则为正确的匹配字符,字典匹配包括最大匹配法和全切分路径选择等方法。序列标注的方法有隐马尔科夫模型(HMM)和条件随机场(CRF),通过统计计算的方式,得出最有可能的文字组合。   基于Stanford CoreNLP Toolkit和Python NLTK的中文分词实例   Stanford CoreNLP Toolkit Stanford NLP是Stanford NLP团队开发的一款基于java的开源自然语言处理工具集,提供了包括统计NLP和深度学习NLP在内的多种自然语言解决方案。Stanford NLP Software有着丰富的文本处理功能,包括分词,词性标注,命名实体辨别,句法依存分析等。Stanford NLP Word Segmenter提供了基于条件随机场(CRF)的中文分词解决方案,拥有两个分别基于 Chinese Penn Treebank Standard和Peking University Standard的模型。 Stanford CoreNLP Online   Stanford NLP...

Read More

文本分析介绍   文本分析顾名思义是对于文字信息的分析,通过一系列文本分析和识别的算法提取文章中关键信息。自从中国的毕昇发明了活字印刷术以及14世纪欧洲的文艺复兴运动以来,文字变成一种十分重要的记录信息的方式,原来难以广泛传播的知识,瞬间变得简单。   我们正处在一个信息爆炸的社会,如何通过大量的阅读文字记录来获得想要的信息已经变成一个十分普遍的问题。可是人的时间是有限的,需要一种能够快速挖掘文本中有用信息的方式,文本分析就起着重要的作用。   计算机技术的发展为文本分析提供了重要的支持,计算机的计算速度正在以指数级别上升,原来人一年的阅读的文献数量,电脑可以几秒钟的时间内完成。深度学习技术的普及应用也促进了文本分析等自然语言技术(NLP)快速的发展,在精度和广度上都得到了很大的提升。   文本分析的应用领域   文本分析在现实生活中有着广泛的应用,大家最熟悉的莫过于以Google和百度为代表的搜索系统,Information Retrieval的核心就是文本分析的算法,当我们输入简单的关键词,系统就能为我们匹配出大量的相关的网页的链接,并按相关程度及网页的重要性程度进行排序。另一个令人深刻的案例就是Google刚刚发布了其基于深度神经网络的机器翻译系统,翻译的水准已经能够一定程度上接近人类的翻译水平。   不论是各大电商的网站的在线问答机器人,还是基于商品,电影,餐厅等的评论数据的情感分析,基于网络海量文章的舆情判断,垃圾邮件的识别,都属于文本分析的范畴。   文本分析的常见方法   针对不同的实际用途,文本分析可有五个常用的方法:文本分类聚类,情感分析,主题分析,摘要提取,关键词提取。 以工业中的应用为例——   文本分类聚类:在工厂中有大量的人工记录的信息,比如人的行为规范判断和设备的报错工单,这类文本信息具有明确分类判断标准和查询需求,且每天都会产生大量文本数据,人工很难去全部阅读,不同部门关心的文本类别也不尽相同。这时就需要我们基于经验和分类标准,对大量的工单数据或者人的行为数据进行分类聚类,将相关的文本归于一起,便于之后的基本统计分析和查询效率的提高。   情感分析:制造业企业最关心的可能就是使用者对自己产品的使用体验的满意度以及产品反馈。不管对于产品的问卷调查,或者是电商网站上的商品的评论,挖掘出使用者对于产品的态度都是一种很好的产品评价指标,利用文本分析的情感分析方法则可以获取使用者对产品处于较为客观的积极或消极态度,这对于产品改进,也提供了一定的指导意义。   摘要提取:在工业中,不管是工单中的具体故障描述,还是员工的行为规范评价,由于人为记录的文本结构,信息量和规范程度千差万别。很多情况下,大量文字描述的并不是关键信息,如何快速提取文本信息中最关键的部分?利用文本分析的摘要提取方法,可以总结大段文字中的主要信息,减少不必要信息的干扰,将会大大提升文本信息的利用效率。   关键词提取:通用词库并不能满足在不同专业领域中的使用,每个不同的工业领域都需要一个领域相关的专业词库,构建专业词库也是文本分析中一项意义重大但又十分繁琐的工作,是为后期提供更精准的文本分析服务的一个基础。   文本分析中的关键词提取方法能帮助我们准确获得该领域最相关的关键词。关键词的提取对工业中的一般统计分析也有很大的帮助,可以做诸如备件来源检测和故障原因检测等分析。在文本中挖掘具体的故障号码或者备件更换信息,统计每个具体故障或者备件的发生频率,可以帮助我们找出频繁发生的事故类型或者经常更换的备件,进而找出诸如经常被更换的备件可能属于特定批次或厂家,或是排查事故频发工厂的设备状态及员工工作规范,提早为工业企业减少不必要的损失。   明日预告——下篇内容包含:中文文本分析常见问题,以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例,欢迎持续关注。   作者:JasonKeine 出身华盛顿大学的数据科学小砖家,92年小鲜肉,180+,K2分析团队颜值担当之一,文艺,深沉……看到这里心动了?人家已脱离单身苦海。这次我们真的不招亲~ ...

Read More

世上没有一个分类器解决不了的分类问题 如果有,就多用几个 ——TK 正文开始前,先讲个故事。 场景:理综开卷考试:(选择题;试卷下发限时一天;答题过程不限) 人物:学渣A、学渣B、学渣C 经过: 学渣A单打独斗,很快交卷,不出意外考砸了; 学渣B叫来很多“学弱”,每道题都要经讨论决定答案。最终B拿到比A高很多的分数;但由于众口不一,浪费了B大量打游戏的时间; 学渣C只叫来为数不多的几个偏科“学弱”,他们每人都有自己最擅长的科目。C做好自己确定的题目后,把卷子扔给其他人就去打游戏了,最后一个人答完,C随便看了看就交卷了,结果成绩居然比B还高了一些,这让花费了大量时间、欠下众多人情的B愤愤不平…… 如果将上述场景类比到数据科学领域,A的做法是传统的训练分类器的办法,精度低,无法最大程度掌握训练数据中的信息,所以在测试数据上的表现往往不尽如人意;于是科学家们秉承“人多力量大”的基本原则,就像上述B和C一样,尝试着运用了多训练器一起解决问题的办法,这就是“集成学习”的思想雏形。 图1 传统方法vs集成学习        同样是叫来了自己的朋友们,但是B和C采用了完全不同的策略来完成那份试卷。如果把“叫朋友”类比到机器学习领域的话,两位同学的策略正对应着“集成思想”孕育出的两大利器: B同学的“人海战术”---Bagging(Bootstrap Aggregation) C同学的“逐个击破”---Boosting 作者接下来会根据自己对这两个算法的理解,力求以通俗的语言辅以图解来解释这两个“集成学习”中的著名思想。读者可以类比于场景中B、C同学的策略来辅助理解。(下面内容中相关术语均针对“分类”问题) B同学的“人海战术”---Bagging 全称Bootstrap Aggregation,是一种在原始数据集上通过有放回抽样重新选出N个新数据集来训练分类器的集成技术。 图2 Bagging流程        如图2所示,一次完整的Bagging迭代过程可以分为以下两步: ①对原始数据(M个观测记录)进行m次随机有放回抽样,生成一份训练样本(m个观测记录, m < M) ②运用任一机器学习算法对产生的训练样本进行训练,得到一个分类器 至此我们完成了一次Bagging迭代并得到了一个分类器,重复此过程任意次(如果每次迭代选用的分类器能力不够强,则迭代次数较多为好),最后将每个迭代过程得到的分类器Ci进行组合即可。 C同学的“逐个击破”---Boosting 图3 Boosting流程        同样是根据“集成学习”思想提出的算法,Boosting的核心原理与Bagging一样,对原始样本抽样来训练多个分类器,综合得到效果强大的最终模型,不过与后者不同的是,Boosting在每次抽取样本之前会对每一条观测数据赋予相应的权重,如同每次模拟考试之后老师往往会给予成绩不理想的学生更多的关注一样,Boosting通过这种赋予样本权重的方法来优化每一轮迭代所产生的基分类器。 一次完整的Boosting迭代共有以下三步: ①对已经被赋予权重的样本进行抽样(权重高的样本被抽到的概率大),得到训练样本 ②运用任一机器学习算法对产生的训练样本进行训练,得到一个分类器 ③总结分类器在这一轮迭代中的样本上的分类表现,以此为根据产生新的样本权重 这样每次迭代都会得到一个基于上一轮训练结果的“训练器2.0”,最后的分类器结果自然变现不俗。 应用案例 1 模型介绍 本文主要聚焦于机器学习领域的分类问题,更具体的说是“二分类”问题,这类问题在平时生活以及业界都有很高的出场率:我昨天的订单今天会不会发货?这位客户下个月会不会及时还款?A厂的这台机器今天会不会出现故障… 对于这些疑问,最原始的办法是根据一些已知信息来人为判断,而引入机器学习的知识以后,我们可以建立模型来对这些未知的结果进行预测。 作者选取了Kaggle社区上的一个二分类问题的数据集来展现“集成学习”思想的威力。上文提到“集成学习”只是一种朴素的思想,而要解决实际问题则需要实实在在落地的模型,这里要介绍由这种思想衍生出的两种著名机器学习算法:随机森林(RF)以及梯度提升树(GBDT)。 *由于GBDT的运行速度过慢,所以作者选取了这一算法的进阶版:XGBoost,下文中出现的所有GBDT均可以等价理解为XGBoost 图4 思想与模型 2 准确率对比 由于这两种算法都是在“决策树”这一基本分类器上应用“集成学习”思想得到,所以作者分别用决策树(DT)、随机森林(RF)、XGBoost三种算法对数据进行了训练,还选用了支持向量机(SVM)作为另一单分类器来进行对比,同时这四种算法可以与文章开头的小场景进行类比,其中: 决策树(DT)与支持向量机(SVM)作为单分类器对应于A的方法; 随机森林(RF)作为Bagging的代表对应于B的方法; 最后XGBoost作为Boosting的代表对应于C的方法。 下面进入没有对比就没有伤害的环节,来看一下不同算法的表现: 图5 传统方法vs集成学习        由于这份数据已经采取预处理,所以总体分类准确率较高,不过由图5可以看出,同为单一分类器的DT与SVM表现差别还是很明显;不过RF与XGBoost已经与SVM的表现相差无几,作者这里选取了1000个样本作为测试数据,0.98的含义是在1000个样本中有20个分类错误。 虽然RF、XGBoost的表现已经追上甚至赶超了SVM,但是作者认为“集成学习”的威力应该不止于此,由于这次运用的模型参数均为默认参数,所以作者在对RF、XGBoost的模型参数进行调试(这是个十分费力的过程)后又做了新一轮的预测,见证奇迹的时刻: 图6 调参后模型准确率        在整体预测率都较高的情况下,应用了“集成学习”思想的算法在准确度上还是实现了某种程度的碾压。 3 调参经验 从图6可以看出,对于RF与XGBoost模型的参数调整还是得到了正反馈的效果,所以针对具备编程经验或者感兴趣的同学,作者在这里简单介绍一下自己的调参经验: ①RF:参数较少,只有生成森林所需树的棵数(ntree)与节点分裂时所需的特征个数(mtry),作者选取交叉验证的方法由参数的初始值开始搜寻,最终由预先设定的判别表征(RMSE、MAPE…)来决定参数。 ②XGBoost:参数很多(这也是此算法的一个缺点),具体的解释可以参考这篇文章http://blog.csdn.net/zc02051126/article/details/46711047, 这里不做冗余的介绍。 以下只列出作者在这个案例中主要调整的几个参数:max_depth、eta、min_child_weight,选用的方法依然是交叉验证进行参数遍历。值得一提的是,其中“min_child_weight”这一参数对于类别分布不平衡的问题十分重要,由于作者工作的领域与工业界接触较多,经常会遇到正负样本分布极不均匀(通常<1:10000)的情形,所以XGBoost这一算法在合适的调参后往往会有比较理想的表现。 4 运行时间对比 图 7 运行时间 VS 数据量        最后给出一个运行时间上的对比作为文章的结尾,作者以3000为跨度逐步增加数据的容量,可以看出“集成学习”的算法在运行速度上表现出了碾压级别的优势,可以说是又准又快的算法。 所以如果你对自己的模型不够满意,用“集成学习”吧!   作者:TK 哥大海归研究僧,东北话十级,精通R语言,所有球类运动都能玩的热血小青年一枚。...

Read More

独乐乐不如众乐乐,我们的数据科学家与分析师在纷繁复杂的工作中发现了一些可以提升数据分析效率的技巧,并很乐意奉献给刚入门或正准备入门工业大数据的攻城狮们,抛砖引玉,如有不同见解或有更深了解需求,欢迎后台留言。   文本数据是工业大数据中一种重要的数据形式,包括如设备维修工单、服务反馈信息和产品质检报告等蕴藏着重要价值的文本。以维修工单为例,包含产品的故障问题、故障原因和解决方案等等描述信息。通过分析这些文本数据,工业企业可以及时发现产品质量问题,更能基于数据提示普遍趋势与建议方法,并形成反馈回路加速产品优化设计。然而,文本信息通常是半结构化和非结构化的手工填报记录,人工统计费时费力。有效采用文本挖掘技术,在相同的故障工单数据下,使统计分析效率大大提升。   中文文本挖掘的主要技术包括中文分词、特征提取、文本分类、文本聚类、关联分析、文本摘要等,其中中文分词是文本挖掘最基础的步骤,其目的是将一个汉字句子切分成一个一个单独的词,便于后续的分析挖掘。本文将对中文分词基本流程、中文分词算法及R语言中文分词包进行简要介绍。   一、分词基本流程   中文的分词基本流程见图1。通常说分词,是指包括导入词典、执行分词两个步骤的狭义分词。但在实际的项目中,还需要做大量的文本预处理和后处理工作。   图1   1.文本预处理,分词前的文本处理,通常需要用正则表达式来完成。   a) 同义词替换。比如“紧急停机”、“急停”、“度”和“°”、“号”和“#”,业务语义相同,分词之前应统一成一种说法。   b) 英文大小写统一。小写英文都变大写,如”plc”换成”PLC”,反之亦然。   c) 利用特定规则获取关键信息。比如打算在文档标题中提取故障名,发现标题符合“某项目某机组报某故障”命名规则,就可以利用正则表达式提取故障信息。   d) 利用文本以外的结构化信息。如想去除文本中包含设备编号(A1、LY-12等),但这些编号很难总结出一定规则,这时如果找到含设备编号字段的文档表格(如设备台账),就可以直接取来用于过滤。   2.文本后处理,分词后的文档词组的删除合并操作。   a) 去除停止词。建立停止词库,去除“了”、“和”、“因为”、”发现”等,这些高频且对分析无意义的虚词、连词、动词等。   b) 利用特定规则删除词。比如日期,2016年、1月。如不希望成为关键词,应使用正则表达式滤除。   c) 处理歧义词。比如分词结果是“某编号”、“齿轮箱”两个词,前者单独出现时表示发电设备,但当两个词连续出现时,则表示某编号齿轮箱,因此需要合并处理。   二、常见中文分词算法   分词技术常见的有两大类:   1.机械分词法   即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,因此也叫基于字符串匹配的分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。常用的几种机械分词方法如下:   a.正向最大匹配法(由左到右的方向); b.逆向最大匹配法(由右到左的方向); c.最少切分(使每一句中切出的词数最小)。   机械分词方法是一种很简单高效的分词方法,它的速度很快,都是O(n)的时间复杂度,效果也可以。但缺点是对歧义和新词的处理不是很好,对词典中未出现的词没法进行处理,因此经常需要其他分词方法进行协作。   2.统计分词法   统计分词法基于人工标注好的语料库对中文进行模型训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的几种统计方法如下:   a.nGram模型; b.隐马尔可夫(HMM)模型; c.条件随机场(CRF)模型。   统计类分词算法对于识别未登录词拥有较好的识别能力,分词精度较机械分词法高。但是需要大量的人工标注语料库,分词速度慢。 实践中,一般都是多种分词方法结合起来使用,相互弥补。   即:使用词典+统计法结合的方法,用词典来存储大部分关键词,使用统计法识别新词。   三、R语言分词工具   表1总结了R语言在文本挖掘中常用的工具包,其中Rwordseg和jiebaR是目前R中最主流的中文分词工具包,这里予以着重介绍。     1.中文分词R包简介   jiebaR是“结巴”中文分词的R语言版本,作者覃文锋,支持四种分词模式:最大概率法、HMM、混合模型和索引模型,同时有词性标注,关键词提取,文本Simhash相似度比较等功能,项目使用了Rcpp和CppJieba进行开发,目前有测试版和稳定版两种,托管在GitHub上 https://github.com/qinwf/jiebaR   Rwordseg的开发者是李舰,使用rJava调用Java分词工具Ansj。Ansj是一个开源的Java 中文分词工具,基于中科院的ictclas中文分词算法。孙健重写了Java版本,托管在GitHub上,https://github.com/ansjsun/ansj_seg,最新版本是基于nGram+CRF+HMM的混合模型。   2.分词功能介绍   回到分词功能介绍,jiebaR和Rwordseg的功能简要对比见表2。     1)jiebaR Cheatsheat             2.Rwordseg Cheatsheat         4.结论   本文主要总结了中文分词的主要算法和R语言中的两个分词包jiebaR和Rwordseg。从目前的R包版本来看,jiebaR功能比Rwordseg更全面。在实际应用中,除了软件工具包的选择,分词结果的好坏更加取决于词库的优劣,尤其是在专业词语密集的工业文本分析场景,分析人员将不得不在专业词库建设中投入更多的时间精力。   作者:阿闯 江湖人称“闯哥”,闷骚型男,隐形麦霸,自动化专业博士,大数据分析攻城狮,满腔工业情怀及matlab/R数据建模与分析经验。   参考文献 [1] jiebaR 中文分词, http://qinwenfeng.com/jiebaR/ [2] jiebaR中文分词——R的灵活,C的效率, https://cos.name/2014/11/jiebar-text-segmentation/#more-10373 [3] Rwordseg中文分词, http://jianl.org/cn/R/Rwordseg.html [4] 数学之美, 人民邮电出版社, 吴军...

Read More

(转自:大数据文摘|bigdatadigest)   今天,数据正在以前所未有的方式创造和促进着企业成长和商业利润。在过去的十年间,先进的数据科技和高级分析工具的出现,已经使商界精英们从他们的数据中收获无数的利益,然而,对大多数人而言,他们只是触及了数据潜能的最表面。数据科学正在开天辟地的让企业成功地撬动这个巨大的潜能。   麦肯锡2013年出版了一份特别的报告,预言全球商业界将会感觉到下一个十年数据科学专业人士的紧缺,尤其是善于从大量静态和动态(实时)数据中发现有价值的情报的数据分析师,缺口达150万。这个预言现已成真,人们更加关注向企业和高等教育机构推销数据管理的重要性,从而使得整个业界都能应对几年之前还不完全理解的人才短缺问题。   数据科学领域的动荡要持续到2017年,伴随着更多的增长和更大的可能。   数据科学的力量   要理解为什么数据科学对商业为何如此关键,有几个前提需要理解: 在商业界需要它的时候,在需要它的领域,数据科学总能提供最精准的解决方案。 数据科学帮助做出更好的商业决策,并对这些决策的影响进行精确的研究。一份过去的哈佛商业评论研究指出,依赖数据进行决策的大生意一般比同行的利润高出6%。 当人的直觉和经验都失败时,数据科学对未来可以做出更加准确的预测。有了数据科学,商业不再靠猜。 有了高效、智能的设备和现代化的分析平台,客户追踪已经成为现实。实时获取客户信息有助于精确响应。   鉴于以上各点,可以理解为什么在这个特定的时刻,数据科学正在经历全球化的革命。一直以来限制数据科学发挥作用的科学和技术问题都已逐步解决,2017年数据管理业界将在全球迎来一些主要的改变。明年,哪些地方可以见到数据科学的引领,请看下面这张精准计算的预言清单:   2017 数据科学预言1:机器学习大行其道   问答网站Quara对机器学习将如何影响数据科学业界的变革做了专题问答。为了回答这个问题,克劳迪娅•珀立弛(Claudia Perlich),Dstillery公司的首席科学家,纽约大学的客座教授,肯定地认为,由于数据科学与机器学习的密切关系,在将来的商业分析界,不懂机器学习是无法生存的。   她觉得随着机器学习与数据科学家们关系越来越紧密,掌握机器学习的基础技能对数据科学领域的职业发展而言将成为一种必须。完整的解释发表在福布斯的博客上:http://www.forbes.com/sites/quora/2016/09/08/machine-learning-will-bring-some-big-changes-to-data-science-as-we-know-it/#16a5cc073b12   2017年机器学习的火热仍会继续笼罩着数据科学家们。各种机构为了将拥有可靠机器学习技能的数据科学家招入麾下,扩充其数据科学部门,不惜付出额外的努力。   2017数据科学预言2:物联网数据流战胜传统商业智能   Gartner几年前就做出了这样的预言,而在2017年,这样的预言会比以往更可信。由于带有传感器的装置日益席卷人类社会的方方面面,大约50%的商业智能(BI)平台会投资事件数据流。这样的趋势,会导致一个新的商业智能分支浮出水面:捕获来自附着装置的实时数据宝库,在天气预报,制造业,电力,语音识别和健康检测系统,以及其他等等领域,都将得到广泛应用。由于自助式分析的兴起,商业智能服务商所和那些软件即服务(SaaS)供应商所提供的分析能力将不再有差距。   根据通用电气《工业网络见解报告》,物联网(Internet of Things (IoT))市场在未来20年,将为全球GDP贡献10-15万亿美元,从数据科学人才市场物联网技术的流行度骤升也可证实这一点。IBM、英特尔,Verizon和微软都在广招具有物联网技术的数据科学家。参见文章:http://www.dataversity.net/life-data-scientist/   2017数据科学预言3:大数据技术支出大增   Gartner预言过到2016年,大数据商业影响的迷惑和不确定性将大大降低,变得可预见。这个预言也应验了。很多围绕大数据“实际价值 vs 感觉价值”的争论已经偃旗息鼓,而大数据技术已经从早期的“萌芽”期走向成熟。今天,对成功的数据科学项目而言,大数据技术比以往更加主流化,更加必备化。   迄今为止,大约只有30%的商业界经历了大数据革命,但是2017年,肯定会看到一个大数据投资的持续增长,尤其是处理“大容量,高速度和多样性的数据”的成本大幅下降以后。根据Information Week,大数据分析的销售额2019年会达到1870亿美元。   2017数据科学预言4:Hadoop市场的持续增长   Hadoop不仅继续为海量数据的清洗,存储,和处理提供一个集中的平台,它也解决了标准IT解决方案的费用过高的问题。Hadoop为很多类型的应用,如预测性分析,ETL,数据可视化,数据挖掘,数据仓库,物联网,或者点击流分析提供了杰出的解决方案。今天,Hadoop被认为是最受喜爱的单一、可缩放并且费用相对低廉的商业大数据管理系统的替代方案;2017年它的流行度会增加。   在2015-16年度,唯一限制Hadoop增长的是创收能力。但最终大数据技术的广泛性会打开Hadoop的利润市场,《2017-2022 Hadoop市场预测》(https://www.marketanalysis.com/?p=229)预测到2020年这个正在扩增的市场将超过160亿美元。   也可以参阅《Hadoop和大数据分析市场》报告(http://www.marketsandmarkets.com/Market-Reports/hadoop-market-766.html),其中指明,这两个互相依赖的市场在2017年底将价值139亿美元。   2017数据科学预言5:数据科学在行动——健康产业商业智能和分析   富有洞见的《德勤研究报告》绘制了一副2020年基于高科技和数字化的病人照顾蓝图。由于科学技术如视频会议和可穿戴设备越来越普遍,未来精通科技的病人会逐步将他们的日常医疗需求诉诸数字平台。到2020年,医院和临床中心只会为重症病人和监护病人保留。 总体而言,将来的医疗健康产业会朝着数字化平台发展,而2017年,这种趋势将很明显。   2017年,消费者可以期待: 医生们参考数据驱动的方案为病人做决策 健康服务业逐步迈向“4P”模式——“预防,预测,个体化,参与”( preventative, predictive, personalized, and participatory)。在这种模式下,病人成为全面知悉、共同参与评价和选择合适的治疗方法的伙伴。   2017数据预言6:到2017年底,25%的企业将招募首席数据官   《2016大数据7大趋势》文章(http://www.edvancer.in/7-big-data-trends-2016/)的读者会发现,Gartner已经做出了上述预言。一个首席数据官,应该负责数据战略,数据治理,政策管理,也负责数据质量,隐私和安全,生命周期管理。这个趋势表明,要来的一年全球经济将经历完整的数据驱动的文化。首席数据官是推动部门内数据科学应用的主要力量,他们理解先进的分析之必须以及数据科学为企业所带来的诸多利益。   这一切意味着什么?   全球的商业人士终将理解来自互联网,手机,社交媒体和物联网的数据洪流的意义,2017年以至更远的将来,数据科学将有助于更好的理解这些趋势,助力数据管理业界整体的持续增长。   来源:http://www.dataversity.net/data-science-predictions-2017/...

Read More

Gartner全球最大规模IT高峰论坛Symposium/ITxpo Oralndo刚刚落幕, 此会议上发布了2017年十大技术趋势预测。这些“战略技术”,在未来5年拥有显著颠覆潜力,并将成为数字和算法商业机遇背后的主要推动者。   趋势1:AI和高级机器学习(AI and Advanced Machine Learning)   人工智能(AI)和高级机器学习(ML)由深度学习、神经网络以及自然语言处理等技术组成,其中还可以包括理解、学习、预测和适应和潜在地自主操作的高级系统。   卡利在举例子的时候指出,像是零售商店的服务以及消费了电子产品。他接着说道,应用AI和高级的机器学习可以帮助一系列的设备和服务实现智能化,其中包括物理设备(机器人、自主车辆、消费电子)、应用以及服务(虚拟个人助理、智能顾问)。   趋势2:智能应用(Intelligent Apps)   智能应用程序在很多情况下执行的是人类助手一样的功能。卡利表示,在他的一项最近工作中,虚拟个人助手和虚拟客服(VPN)可以帮助他进行日程会议安排以及管理电子邮件和其他的消息提醒。   卡利提到,在未来的十年里,几乎每一款应用程序、服务都将包含一定程度的AI技术。这将形成一个长期的趋势,这些趋势也将会促进AI和机器学习的发展,并增加在应用和服务中的使用范围。   趋势3:智能对象(Intelligent Things)   智能对象将会利用人工智能和机器学习技术与人类及其周围环境进行交互互动。比较典型突出的例子就是自动驾驶汽车、无人机,以及未来将会出现越来越多的智能厨房和智能家居产品。   趋势4:虚拟现实和增强现实(Virtual and Augmented Reality)   虚拟现实(VR)和增强现实(AR)已经捕捉到了很多游戏玩家和其他消费者的想象力,但它们未来将会对企业产生难以想象的影响。   卡利表示,“在2021年之前,沉浸式的消费方式、业务内容以及应用程序将会得到快速的发展。VR和AR的功能将与数字网格相结合,形成更加无缝的设备系统。这个系统可以整合来自用户的信息流,为用户提供超个性化的应用程序和服务。   趋势5:数字孪生(Digital Twin)   数字孪生操作实际上是对元数据、条件或状态、事件数据和分析的交集进行运行处理。   卡利预测到,在未来的十年里,将会出现数以亿计的数字孪生。它们将被企业用于规划设备服务、经营工厂、预测设备什么时间会出现故障、如何提高运营效率,以及帮助新产品的开发等等。   趋势6:区块链和分布式分类账(Blockchain and Distributed Ledgers)   区块链是一种分布式的账本,其中的价值交换交易被有顺序地分组成块。   每个区块都与迁移块区块相连,这个过程中在特别加密的P2P网络中最常见。卡利认为,未来区块链技术将会分为音乐发布、身份验证、权利登记以及供应链等领域,使用率会越来越高。   趋势7:对话系统(Conversational Systems)   对话用户界面(UI)可以从简单的非正式向双向对话转变,比如收集来自犯罪证人的口头证词,以此来生成嫌疑人的图像草图。   对话系统将从聊天机器人演化到更广泛的数字网格,而数字网将扩展成为更大范围的端点的集合体,我们将会每天利用它们进行交互互动。   趋势8:网格应用和服务体系架构(Mesh App and Service Architecture)   智能数字网格将会改变解决方案的架构、技术和工具。网格应用和服务体系架构(MASA)包括网络、移动、桌面以及物联网应用程序。它们将会通过物联网连在一起,并将会展示多层次和跨越传统边界的API。这将有助于促进服务的可拓展性、敏捷性和技术的再次利用。服务体系架构将促进网络中不断端点之间的渠道连续体验的优化,无论是智能手机还是汽车。   趋势9:数字技术平台(Digital Technology Platforms)   数字技术平台是数字业务的基石,并且是进入数字领域的关键。卡利也指出了实现数字能力和商业模式由五个重点数字技术平台组合成:即信息系统、客户体验、分析和智能、物联网以及业务生态系统。   趋势10:自适应安全架构(Adaptive Security Architecture)   上面提到的智能数字网格和数字技术平台也为坏人创造了更大的攻击面,因此随着安全问题也将不断激增。卡利指出,“建立安全技术应该有自己的基准线,以此来保证物联网平台的安全。监控用户和实体行为是物联网场景中特别重要的一个补充内容。然而,对于很对从事IT安全行业的人来讲,物联网的边缘是非常脆弱的领域,将会出现很多安全漏洞,他们需要不断提供新的修补工具和流程。因此再创造物联网平台的时候,安全性是必须要考虑到的问题。”   ...

Read More