新闻动态

5月19日,第十届中国R会议(北京)在清华大学隆重召开,上千名数据统计爱好者汇聚于此,共享R语言盛会。     本届R会议邀请昆仑数据首席数据科学家田春华博士任工业制造分会场主席,进行《工业大数据分析:实践与挑战》主题分享,从学术到实践的深入浅出,受到现场数据统计爱好者的高度认可。   致敬R会议十周年,田博士特为中国R语言爱好者和入门者撰写了《RServer源代码解析》系列文章,通过对Rserve的设计初衷、运行机制、核心对象和方法进行粗浅探讨,为利用Rserve做深度产品开发的开发者提供初始帮助。   在工业制造分会场,来自中石油、金风、台达、北大的领域专家一同在工业制造分会场为大家分享自己独到的见解。     中国R会议由统计之都发起,由最初R语言爱好者的聚会发展成为数据科学界举足轻重的盛会,2017年携手清华大学、北京大学两所国内顶级高校,共同举办R会议十周年大会。除工业制造分论坛外,本届R会议另设人工智能、心理科学、机器学习、环境科学、文本挖掘、深度学习、Bioconductor、可视分析等近30个分会场,堪称数据与统计的盛宴。  ...

Read More

上篇回顾:作者介绍了文本分析的应用领域及常见方法,引起大批粉丝的强烈共鸣。今天继续介绍中文文本分析常见问题以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例。   中文文本分析常见的问题   中文的文本分析相对于英文有着很大的不同。英文天然具有分词的标志——空格,每个单词之间一定是以空格进行分离,所里在对于英文文章进行分词变得相对简单,没有分错词的问题。然而对于中文来说,分词是一个十分困难的事情,中文之间并没有诸如空格这样的分词标志,如何对中文进行分词,对于提高中文文本分析的准确率有着很重要的影响。   中文的分词大致可以分为两类,分别是基于字典的机械分词方法和以及基于统计模型的序列标注方法。字典匹配是将文本中的文字切片和已有的字典进行匹配,如果文字切片在字典中出现,则为正确的匹配字符,字典匹配包括最大匹配法和全切分路径选择等方法。序列标注的方法有隐马尔科夫模型(HMM)和条件随机场(CRF),通过统计计算的方式,得出最有可能的文字组合。   基于Stanford CoreNLP Toolkit和Python NLTK的中文分词实例   Stanford CoreNLP Toolkit Stanford NLP是Stanford NLP团队开发的一款基于java的开源自然语言处理工具集,提供了包括统计NLP和深度学习NLP在内的多种自然语言解决方案。Stanford NLP Software有着丰富的文本处理功能,包括分词,词性标注,命名实体辨别,句法依存分析等。Stanford NLP Word Segmenter提供了基于条件随机场(CRF)的中文分词解决方案,拥有两个分别基于 Chinese Penn Treebank Standard和Peking University Standard的模型。 Stanford CoreNLP Online   Stanford NLP...

Read More

文本分析介绍   文本分析顾名思义是对于文字信息的分析,通过一系列文本分析和识别的算法提取文章中关键信息。自从中国的毕昇发明了活字印刷术以及14世纪欧洲的文艺复兴运动以来,文字变成一种十分重要的记录信息的方式,原来难以广泛传播的知识,瞬间变得简单。   我们正处在一个信息爆炸的社会,如何通过大量的阅读文字记录来获得想要的信息已经变成一个十分普遍的问题。可是人的时间是有限的,需要一种能够快速挖掘文本中有用信息的方式,文本分析就起着重要的作用。   计算机技术的发展为文本分析提供了重要的支持,计算机的计算速度正在以指数级别上升,原来人一年的阅读的文献数量,电脑可以几秒钟的时间内完成。深度学习技术的普及应用也促进了文本分析等自然语言技术(NLP)快速的发展,在精度和广度上都得到了很大的提升。   文本分析的应用领域   文本分析在现实生活中有着广泛的应用,大家最熟悉的莫过于以Google和百度为代表的搜索系统,Information Retrieval的核心就是文本分析的算法,当我们输入简单的关键词,系统就能为我们匹配出大量的相关的网页的链接,并按相关程度及网页的重要性程度进行排序。另一个令人深刻的案例就是Google刚刚发布了其基于深度神经网络的机器翻译系统,翻译的水准已经能够一定程度上接近人类的翻译水平。   不论是各大电商的网站的在线问答机器人,还是基于商品,电影,餐厅等的评论数据的情感分析,基于网络海量文章的舆情判断,垃圾邮件的识别,都属于文本分析的范畴。   文本分析的常见方法   针对不同的实际用途,文本分析可有五个常用的方法:文本分类聚类,情感分析,主题分析,摘要提取,关键词提取。 以工业中的应用为例——   文本分类聚类:在工厂中有大量的人工记录的信息,比如人的行为规范判断和设备的报错工单,这类文本信息具有明确分类判断标准和查询需求,且每天都会产生大量文本数据,人工很难去全部阅读,不同部门关心的文本类别也不尽相同。这时就需要我们基于经验和分类标准,对大量的工单数据或者人的行为数据进行分类聚类,将相关的文本归于一起,便于之后的基本统计分析和查询效率的提高。   情感分析:制造业企业最关心的可能就是使用者对自己产品的使用体验的满意度以及产品反馈。不管对于产品的问卷调查,或者是电商网站上的商品的评论,挖掘出使用者对于产品的态度都是一种很好的产品评价指标,利用文本分析的情感分析方法则可以获取使用者对产品处于较为客观的积极或消极态度,这对于产品改进,也提供了一定的指导意义。   摘要提取:在工业中,不管是工单中的具体故障描述,还是员工的行为规范评价,由于人为记录的文本结构,信息量和规范程度千差万别。很多情况下,大量文字描述的并不是关键信息,如何快速提取文本信息中最关键的部分?利用文本分析的摘要提取方法,可以总结大段文字中的主要信息,减少不必要信息的干扰,将会大大提升文本信息的利用效率。   关键词提取:通用词库并不能满足在不同专业领域中的使用,每个不同的工业领域都需要一个领域相关的专业词库,构建专业词库也是文本分析中一项意义重大但又十分繁琐的工作,是为后期提供更精准的文本分析服务的一个基础。   文本分析中的关键词提取方法能帮助我们准确获得该领域最相关的关键词。关键词的提取对工业中的一般统计分析也有很大的帮助,可以做诸如备件来源检测和故障原因检测等分析。在文本中挖掘具体的故障号码或者备件更换信息,统计每个具体故障或者备件的发生频率,可以帮助我们找出频繁发生的事故类型或者经常更换的备件,进而找出诸如经常被更换的备件可能属于特定批次或厂家,或是排查事故频发工厂的设备状态及员工工作规范,提早为工业企业减少不必要的损失。   明日预告——下篇内容包含:中文文本分析常见问题,以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例,欢迎持续关注。   作者:JasonKeine 出身华盛顿大学的数据科学小砖家,92年小鲜肉,180+,K2分析团队颜值担当之一,文艺,深沉……看到这里心动了?人家已脱离单身苦海。这次我们真的不招亲~ ...

Read More

2017年5月5日,以“数据驱动创新 融合引领变革”为主题的2017中国工业大数据大会·钱塘峰会盛大开幕,来自政产学各界的工业大数据领袖齐聚杭州,共同探讨工业大数据技术、应用和商业模式的协同创新及构建工业大数据生态体系。昆仑数据创始人、CEO陆薇应邀出席并演讲。 陆薇作为全国首批涉足工业大数据领域的企业家,与在座领导、嘉宾及听众一同探讨工业大数据。昆仑数据工业大数据精益分析法,提供从问题诊断、试点突破到规模部署的端到端解决方案,结合自主研发的机器大数据管理分析平台KMX,为企业实现低门槛数据价值变现。 原工信部部长、北京大学教授杨学山,工信部软件司副司长李冠宇,中国科学院院士、西安交通大学教授徐宗本,中国工程院院士、浙江大学教授谭建荣等专家学者共同出席本次会议,谋划浙江省工业大数据的发展。北京大学工业工程系主任、美国威斯康辛大学(麦迪逊)终身教授侍乐媛,中国信息通信研究院总工程师余晓晖,清华大学大数据系统软件国家工程实验室常务副主任王建民等顶级专家先后分享了“工业大数据”方面的先进理念;三一、中国电信、阿里巴巴等重点企业代表就企业实践经验各自发表了精彩演讲。 大会同期举办了大数据与智能制造分论坛、大数据与管理变革分论坛和大数据与服务创新分论坛,充分交流和展示工业大数据的理念、解决方案以及应用案例,促进了产业合作,推动了资源集聚。...

Read More

前几天,微博上#带着春天去旅行#的话题不知不觉就火了。wuli老大说,来吧伙伴们,咱也放松一下,来一场说走就走的春游~   K2天团集体南下,到达苏州。   游走姑苏   在同里,我们“走三桥”、“绕糖稀”、“夜访巷弄”。在“廊榭阁桥,池荷鱼石”的苏式客栈感受温润江南。退思园的命名故事代入感满满,让K2天团的成员们纷纷化身诗人,在朋友圈吟起诗词。     “进思尽忠、退思补过,虎收爪,独居孤山,静待思变”——这不仅是退思园主的往事,更是K2天团成员审时度势,修炼内功的内心写照。     到苏州必游的四大名园之一“拙政园”、和苏东坡吆喝不游乃憾事的“虎丘”各有千秋,人潮熙攘的“观前街”、“平江路”也自有时代的印记,因建筑风格融汇中西而名声大噪的苏州博物馆,让大家对贝聿铭先生产生了浓厚的兴趣。古运河游船的吴侬评弹衬得江南美景声色俱全。     苏州食光   逛吃逛吃逛吃,有逛必有吃。这些天让K2天团记忆犹新、印象深刻、过口不忘的当属史上最著名苏菜: “太湖三白”——白虾、白鱼、银鱼炒蛋。   不得不说,对于北方的小伙伴来说,真该自带咸盐。     K2天团把水乡美食、苏式菜系、网红小吃尝了个遍,冰激凌、酸奶、大烤肠、碧螺虾仁、青团、松鼠鳜鱼,啊,无法自拔。人事妹妹的攻略,让当地的导游姐姐都开了眼界。     K2天团   我们值得回忆的不仅是美景美食。 有工作太满半途赴会的期待,有夜半讨论工作问题差点被某导航带到沟里的惊悚,也有游园赏花时全程讨论数据分析的执着; 有惦念为妻儿捎一份江南手信的牵挂,有狼人杀时不眠不休的战斗气节,更有深夜陪同就医的老铁情谊,以及无比欢乐的合影造型……       重磅合影   又到了激动人心的合影环节,K2天团首排“团草”身着印有K字标识的卫衣,为集体照平添一分和谐。   ▼高清无码大图送给大家▼     “君到姑苏见,人家尽枕河。古宫闲地少,水港小桥多。”一路欢声笑语、载歌载舞,谈工作时正经、游玩时欢乐,这就是我们共享共担、团结互助的K2天团,你值得加入。   ...

Read More