新闻动态

在刚刚落幕的第三届贵阳数博会上,专注工业领域的大数据公司昆仑数据宣布业务模式全面升级,从原有的大数据平台产品及数据科学家服务,演进为对工业企业提供“诊断—试点—规模应用”的全面服务模式。力图针对工业企业面对浩大的数字化转型工程无从下手、投资回报等疑虑,打造价值导向、敏捷、低门槛的工业大数据实践路径。   作为国内最早专注于工业及产业互联网领域的大数据公司,昆仑数据此前着力打造了一款为工业机器数据优化的大数据平台产品KMX,通过优化系统内核、工业语义查询、并行化分析引擎、数字孪生体等技术,让工业大数据的管理分析、价值挖掘及应用落地更为便捷高效。据了解,基于KMX的行业应用方案已服务风电、工程机械、石油、环保等领域,为客户创造了上亿元经济效益。   然而,KMX解决的仅是技术层面的问题。昆仑数据创始人兼CEO陆薇在数博会透露,在大量一线考察中发现,技术之外,工业企业在大数据实施路径如何选择、投入产出如何评估、业务流程如何配合等方面都普遍存在困惑。   [caption id="attachment_5021" align="alignnone" width="1000"] hdr[/caption]   经过近一年的市场验证,陆薇对升级后的“诊断—试点—规模应用”三步走的业务模式,表露出明显的信心:“根据现在的市场反馈,这是一套行之有效的方法论,并且我们正在持续实践。”   陆薇在演讲中提到,现在昆仑数据可以实现“一天诊断”——判断企业业务问题与数据基础是否匹配,找出大数据能解且企业关心的业务问题切入点;“十周试点”——分解业务问题使之变成数学问题,用数据建模以及基于模型的应用开发,交付企业可用于业务流程优化的便捷应用,快速验证技术可行性和投资回报;“规模应用”——实施基于KMX平台的企业全方位数字化战略部署,以数据驱动提质增效、降本控险,实现数据价值落地。   从单个试点、多个试点是否可以顺利跨步到大数据规模应用,陆薇表示“工业企业不用担心用小步快跑的方式,会出现重复冗余的投入,我们对数字化规模部署有成熟的架构,保障企业的每一次尝试都将为他们日后的智能化战略打下坚实的基础。”   “同时,试点规模的扩张会加速我们对行业问题和分析模型的积累,随之我们的项目交付效率还会不断提高。”陆薇认为,对工业问题和工作机理的理解沉淀是工业大数据企业的重要竞争力,因此昆仑数据还在同步扩编,希望引进更多工业背景的业务分析师。   陆薇对未来5-10年内的工业大数据市场潜力十分看好,而面对国际软件巨头、国内工业企业和自动化服务企业纷纷试水工业大户数据,陆薇表示:“出现竞争者并不会限制昆仑数据的发展,因为这个市场足够大,足以培育多个富有生长力的企业。”...

Read More

5月19日,第十届中国R会议(北京)在清华大学隆重召开,上千名数据统计爱好者汇聚于此,共享R语言盛会。     本届R会议邀请昆仑数据首席数据科学家田春华博士任工业制造分会场主席,进行《工业大数据分析:实践与挑战》主题分享,从学术到实践的深入浅出,受到现场数据统计爱好者的高度认可。   致敬R会议十周年,田博士特为中国R语言爱好者和入门者撰写了《RServer源代码解析》系列文章,通过对Rserve的设计初衷、运行机制、核心对象和方法进行粗浅探讨,为利用Rserve做深度产品开发的开发者提供初始帮助。   在工业制造分会场,来自中石油、金风、台达、北大的领域专家一同在工业制造分会场为大家分享自己独到的见解。     中国R会议由统计之都发起,由最初R语言爱好者的聚会发展成为数据科学界举足轻重的盛会,2017年携手清华大学、北京大学两所国内顶级高校,共同举办R会议十周年大会。除工业制造分论坛外,本届R会议另设人工智能、心理科学、机器学习、环境科学、文本挖掘、深度学习、Bioconductor、可视分析等近30个分会场,堪称数据与统计的盛宴。  ...

Read More

上篇回顾:作者介绍了文本分析的应用领域及常见方法,引起大批粉丝的强烈共鸣。今天继续介绍中文文本分析常见问题以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例。   中文文本分析常见的问题   中文的文本分析相对于英文有着很大的不同。英文天然具有分词的标志——空格,每个单词之间一定是以空格进行分离,所里在对于英文文章进行分词变得相对简单,没有分错词的问题。然而对于中文来说,分词是一个十分困难的事情,中文之间并没有诸如空格这样的分词标志,如何对中文进行分词,对于提高中文文本分析的准确率有着很重要的影响。   中文的分词大致可以分为两类,分别是基于字典的机械分词方法和以及基于统计模型的序列标注方法。字典匹配是将文本中的文字切片和已有的字典进行匹配,如果文字切片在字典中出现,则为正确的匹配字符,字典匹配包括最大匹配法和全切分路径选择等方法。序列标注的方法有隐马尔科夫模型(HMM)和条件随机场(CRF),通过统计计算的方式,得出最有可能的文字组合。   基于Stanford CoreNLP Toolkit和Python NLTK的中文分词实例   Stanford CoreNLP Toolkit Stanford NLP是Stanford NLP团队开发的一款基于java的开源自然语言处理工具集,提供了包括统计NLP和深度学习NLP在内的多种自然语言解决方案。Stanford NLP Software有着丰富的文本处理功能,包括分词,词性标注,命名实体辨别,句法依存分析等。Stanford NLP Word Segmenter提供了基于条件随机场(CRF)的中文分词解决方案,拥有两个分别基于 Chinese Penn Treebank Standard和Peking University Standard的模型。 Stanford CoreNLP Online   Stanford NLP...

Read More

文本分析介绍   文本分析顾名思义是对于文字信息的分析,通过一系列文本分析和识别的算法提取文章中关键信息。自从中国的毕昇发明了活字印刷术以及14世纪欧洲的文艺复兴运动以来,文字变成一种十分重要的记录信息的方式,原来难以广泛传播的知识,瞬间变得简单。   我们正处在一个信息爆炸的社会,如何通过大量的阅读文字记录来获得想要的信息已经变成一个十分普遍的问题。可是人的时间是有限的,需要一种能够快速挖掘文本中有用信息的方式,文本分析就起着重要的作用。   计算机技术的发展为文本分析提供了重要的支持,计算机的计算速度正在以指数级别上升,原来人一年的阅读的文献数量,电脑可以几秒钟的时间内完成。深度学习技术的普及应用也促进了文本分析等自然语言技术(NLP)快速的发展,在精度和广度上都得到了很大的提升。   文本分析的应用领域   文本分析在现实生活中有着广泛的应用,大家最熟悉的莫过于以Google和百度为代表的搜索系统,Information Retrieval的核心就是文本分析的算法,当我们输入简单的关键词,系统就能为我们匹配出大量的相关的网页的链接,并按相关程度及网页的重要性程度进行排序。另一个令人深刻的案例就是Google刚刚发布了其基于深度神经网络的机器翻译系统,翻译的水准已经能够一定程度上接近人类的翻译水平。   不论是各大电商的网站的在线问答机器人,还是基于商品,电影,餐厅等的评论数据的情感分析,基于网络海量文章的舆情判断,垃圾邮件的识别,都属于文本分析的范畴。   文本分析的常见方法   针对不同的实际用途,文本分析可有五个常用的方法:文本分类聚类,情感分析,主题分析,摘要提取,关键词提取。 以工业中的应用为例——   文本分类聚类:在工厂中有大量的人工记录的信息,比如人的行为规范判断和设备的报错工单,这类文本信息具有明确分类判断标准和查询需求,且每天都会产生大量文本数据,人工很难去全部阅读,不同部门关心的文本类别也不尽相同。这时就需要我们基于经验和分类标准,对大量的工单数据或者人的行为数据进行分类聚类,将相关的文本归于一起,便于之后的基本统计分析和查询效率的提高。   情感分析:制造业企业最关心的可能就是使用者对自己产品的使用体验的满意度以及产品反馈。不管对于产品的问卷调查,或者是电商网站上的商品的评论,挖掘出使用者对于产品的态度都是一种很好的产品评价指标,利用文本分析的情感分析方法则可以获取使用者对产品处于较为客观的积极或消极态度,这对于产品改进,也提供了一定的指导意义。   摘要提取:在工业中,不管是工单中的具体故障描述,还是员工的行为规范评价,由于人为记录的文本结构,信息量和规范程度千差万别。很多情况下,大量文字描述的并不是关键信息,如何快速提取文本信息中最关键的部分?利用文本分析的摘要提取方法,可以总结大段文字中的主要信息,减少不必要信息的干扰,将会大大提升文本信息的利用效率。   关键词提取:通用词库并不能满足在不同专业领域中的使用,每个不同的工业领域都需要一个领域相关的专业词库,构建专业词库也是文本分析中一项意义重大但又十分繁琐的工作,是为后期提供更精准的文本分析服务的一个基础。   文本分析中的关键词提取方法能帮助我们准确获得该领域最相关的关键词。关键词的提取对工业中的一般统计分析也有很大的帮助,可以做诸如备件来源检测和故障原因检测等分析。在文本中挖掘具体的故障号码或者备件更换信息,统计每个具体故障或者备件的发生频率,可以帮助我们找出频繁发生的事故类型或者经常更换的备件,进而找出诸如经常被更换的备件可能属于特定批次或厂家,或是排查事故频发工厂的设备状态及员工工作规范,提早为工业企业减少不必要的损失。   明日预告——下篇内容包含:中文文本分析常见问题,以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例,欢迎持续关注。   作者:JasonKeine 出身华盛顿大学的数据科学小砖家,92年小鲜肉,180+,K2分析团队颜值担当之一,文艺,深沉……看到这里心动了?人家已脱离单身苦海。这次我们真的不招亲~ ...

Read More

2017年5月5日,以“数据驱动创新 融合引领变革”为主题的2017中国工业大数据大会·钱塘峰会盛大开幕,来自政产学各界的工业大数据领袖齐聚杭州,共同探讨工业大数据技术、应用和商业模式的协同创新及构建工业大数据生态体系。昆仑数据创始人、CEO陆薇应邀出席并演讲。 陆薇作为全国首批涉足工业大数据领域的企业家,与在座领导、嘉宾及听众一同探讨工业大数据。昆仑数据工业大数据精益分析法,提供从问题诊断、试点突破到规模部署的端到端解决方案,结合自主研发的机器大数据管理分析平台KMX,为企业实现低门槛数据价值变现。 原工信部部长、北京大学教授杨学山,工信部软件司副司长李冠宇,中国科学院院士、西安交通大学教授徐宗本,中国工程院院士、浙江大学教授谭建荣等专家学者共同出席本次会议,谋划浙江省工业大数据的发展。北京大学工业工程系主任、美国威斯康辛大学(麦迪逊)终身教授侍乐媛,中国信息通信研究院总工程师余晓晖,清华大学大数据系统软件国家工程实验室常务副主任王建民等顶级专家先后分享了“工业大数据”方面的先进理念;三一、中国电信、阿里巴巴等重点企业代表就企业实践经验各自发表了精彩演讲。 大会同期举办了大数据与智能制造分论坛、大数据与管理变革分论坛和大数据与服务创新分论坛,充分交流和展示工业大数据的理念、解决方案以及应用案例,促进了产业合作,推动了资源集聚。...

Read More