新闻动态

10月23日,国务院发展研究中心创新发展研究部,马名杰部长、田杰棠副部长、第一研究室沈恒超主任,北京市经信委王兰主任助理,软件服务处尤靖副处长一行莅临由昆仑数据发起并主导运营的北京工业大数据创新中心调研考察。昆仑数据作为国内工业互联网领域领军企业,以工业大数据为驱动,赋能工业互联网发展的整体解决方案,受到政府领导的高度认可。     昆仑数据创始人&CEO陆薇博士向调研组一行全面介绍了公司的发展情况和工作成果,重点介绍了昆仑数据在制造业转型升级方面的行业案例、经验积累,以及以北京、四川、苏州为据点的全国工业大数据创新网络。   昆仑数据认为工业互联网具有极强的行业属性,有较高的准入门槛与安全合规性要求,工业互联网的实施与推行必须深入垂直行业。针对有完整产业链的工业形态,与龙头/枢纽企业合作,通过与上下游企业数据的交流与业务往来积累数据和行业信息,打造服务整个行业的工业互联网平台,提升整个产业链的生产效率;针对没有完整产业链的工业形态,跟当地的政府进行合作,搭建一个平台为集聚产业的企业提供服务,提升它们的管理水平以及关键工艺能力。     陆薇现场展示了昆仑数据的代表性案例,包括中石油、金风科技、国网青海电力“绿能互联”等,呈现了大数据驱动下的工业互联网新生态及实际运行成果。国务院发展研究中心创新发展研究部马名杰部长对昆仑数据以创业公司切入工业互联网并开创出自己的商业模式,以新技术新视角务实解决企业痛点,并在工业互联网领域取得创新应用成果表示高度肯定;同时关心在企业推动工业互联网的发展过程中遇到的问题,以及对国家政策方面的建议,也希望昆仑数据充分发挥自身优势,进一步为政府和企业自身发展服务。 ...

Read More

作为海淀区创新驱动传统企业转型升级的企业代表,在刚刚结束的2018年全国大众创业万众创新活动周中,昆仑数据创始人&CEO陆薇博士接受了北京电视台的专题采访。   在采访中,陆薇提到昆仑数据的愿景是用数据推动中国工业未来:将来肯定是一个万物互联的时代,大量的数据也将随之产生,基于这些数据可以对工业环境的生产经营状况有一个更深度的了解,帮助我们找到方法去改善;我们要做的就是保持空杯心态,不断地去学习新知识新技能,用足够的能力储备抓住未来的每一个机会;她还提出了“影响中国指数”的概念,来统计有多少工业行业企业因我们的技术而得到改变,也希望能有越来越多的工业企业通过我们的技术得到改变。   在工业领域,大数据和人工智能的推进,虽然准入门槛很高,但昆仑数据始终坚持深耕行业,以企业的切实诉求与真实场景为先,作为行业的先行者,昆仑数据已经通过技术赋能,为工业企业带来了可观的业务价值。   本次双创活动周以“高水平双创、高质量发展”为主题,积极打造双创成果的展示平台、双创典型的推介平台、双创资源的汇聚平台和双创智慧的交融平台。期间陆续开展了30余场内容丰富、氛围浓厚、精彩纷呈的双创活动。 ...

Read More

问答机器人(Chatbot)已经渗透到我们生活中的各个角落,如Apple公司的Siri、Amazon的Alexa、阿里的旺旺。它们可以陪你闲聊、设闹钟、订餐厅、控制家电、做商品导购等。在工业场景下,聊天机器人有哪些场景呢?比如,用户可以询问某个品牌风机当月的发电量和故障停机时间;查询机舱加速度超限的可能原因以及需要更换的备件,帮你找到检修该故障最有经验的专家;询问公司的安全生产制度或报销流程。 相比其他领域,工业场景的Chatbot有如下特点: 1.需要领域内专业词库的支持,比如故障、备件名称; 2.需要多数据源的跨库查询,需要大数据平台的支持,比如同时查询海量的生产实时数据和故障事件数据; 3.需要基于专家知识的知识图谱支持,这点类似医疗知识图谱的应用,因为仅靠人工编写对话脚本,是无法穷尽所有可能问题的。 以上特点使得构建工业上好用的Chatbot非常困难,当然困难程度因业务需求而异。另一方面,Chatbot本身技术架构是通用的、可借鉴其他领域的,因此本文重点介绍通用的技术架构部分,先从Chatbot的分类说起。 1. Chatbot分类 Chatbot按照用途,可分为闲聊型和任务型两种。 闲聊型又称为开放域Chatbot,就是可以跟用户谈天说地,比如风靡一时的小黄鸡,用户更关注这类Bot的趣味性和智能性。闲聊技能通常是数以万计的历史问答(QA)对学习训练来的,同时还可以从新对话中学习,实现自我进化。 任务型又称为特定领域Chatbot,比如为用户导购的阿里旺旺,这种场景下用户更关注Bot答案的准确性,对Chatbot的开发者来讲就是可控性。 工业场景与之类似,通常首要考虑的就是回答的准确性,知之为知之不知为,比如用户询问发电机过热怎么办,Bot即便回答不知道,也比回答去吃退烧药强,所以属于任务型Chatbot。 Chatbot按照技术框架可分为检索式、生成式和启发式。 2. Chatbot基本原理 Chatbot原理框图如下图所示: ASR(Auto Speech Recognition)和TTS(Text To Speech)代表语音识别和语音合成,它们分别实现语音转文字和文字转语音功能,是chatbot的入口和出口,是与用户进行语音交互的部分,当然也可以采用其他交互方式,比如文字(微信、浏览器页面等)。 核心对话模块是本文要展开介绍的内容,它包括: NLU(Natural Language Understanding)是采用NLP(Natural Language Processing)技术对用户问题进行意图识别和实体抽取。意图识别是要弄清楚用户到底要问什么,如是查询故障发生次数还是故障原因;实体抽取是这个意图下的具体槽位值。比如问句是“上个月发电机故障次数是多少”,意图就是“查询故障次数”,故障名称的槽位值是“发电机故障”,时间的槽位值是“上个月”。意图识别可以描述成为分类问题,使用机器学习的方法来解决,如SVM、fastText;实体抽取使用NLP里的NER(命名实体识别)相关技术解决。 DM(Dialogue Management)模块根据问题匹配到相应答案(或采取什么动作,如查数据库或调用API);在多轮对话中它还负责对话状态跟踪,根据当前的对话状态(从历史对话内容更新获得),决定如何进行下一轮对话(或直接采取动作)。比如“上个月发电机故障次数是多少”问句除了故障名称和时间两个槽位,还有城市的槽位值(如是北京还是上海),DM模块根据当前这个状态,要决定继续追问用户“要查那个城市的故障?”。常用的DM策略包括有限状态机,HMM和神经网络[1]。 NLG(Natural Language Generation)是将DM模块返回的结果(如关键词、聚合数据)转变成自然语言文本,最常用的方法是通过规则模板生成回答,类似于NLU中问题匹配的逆向过程,另一种是基于深度学习的seq2seq生成方法。 以上介绍了Chatbot的基本框架和原理,从零开始开发Chatbot工作量很大,好在有大量的Chatbot框架可以使用,下面对几个常用的开源框架做简要介绍。 3. 任务式Chatbot构建工具框架 3.1 基于REfO的问句匹配 REfO(Regular Expressions for Objects)并不是一个框架,它把正则表达式的功能扩展到对象级别,它能同时使用关键和槽位匹配用户问句,从而实现DM模块的问句匹配功能,它支持python。举例, 见下图,REfO表达实现了“上个月发电机故障次数是多少”这个问句的匹配,匹配之后可以触发相应动作从数据库中查找问题答案。参见文献[2]提供REfO 匹配问句Python脚本实现例子。REfO虽然能匹配槽位,但是其脚本编写繁琐,也没有对话状态跟踪机制,基于脚本的规则引擎克服了上述缺点。 REfO问句匹配示例 3.2 基于脚本的规则引擎 该引擎根据人工编制的对话脚本,自动匹配问题模式,给出回答(动作),因此开发者只需把精力放在脚本编写上。引擎约定了脚本语法,满足大部分对话编制需求,如随机对话模式、通配符、变量捕获、Topic机制(多轮对话机制)、动作触发(函数调用)等。常见的规则引擎包括AIML[3]、ChatScript[4]、RiveScript[3]、SuperScript[6],引擎诞生时间从早到晚,但其中最有名的还是AIML(支持Python调用)。其中使用AIML和ChatScript开发的Bot,都曾多次赢得年度Loebner Prize[7]人工智能大奖。RiveScript和SuperScript脚本更加简洁,下图是同一个随机问答功能的脚本比较,可见RiveScript要比AIML更简洁友好。此外RiveScript支持多开发语言Go/Java/JavaScript/Perl/Python,SuperScript虽然仅支持JavaScript,但其内嵌了图数据库功能,NLU和DM功能较RiveScript更加强大 。 AIML随机回答模式脚本 今天天气真好 是呀,天气不错。 要不出去走走? 希望每天天气都这么好! RiveScript 随机回答模式脚本 + 今天天气真好 - 是呀,天气不错。 -...

Read More

2018年9月16日,为贺清华大学计算机系60周年,“人工智能 启迪未来”论坛在清华大学举办。昆仑数据创始人&CEO陆薇作为清华计算机系2001年博士毕业生代表参与活动,与多位人工智能的学者、企业家、创业者共同出席,探讨人工智能将如何启迪未来。     中国工程院院士、清华大学计算机系主任吴建平出席活动并致辞。启迪控股董事长王济武,日本工程院院士、欧盟科学院院士、中国人工智能学会副理事长任福继分别发表主题演讲。   吴建平院士在演讲中提到,人工智能为什么这么热?一方面是人工智能遇到了两个对它有最大促进作用的技术,计算机技术和互联网。另一方面,人工智能现在有了很多的应用场景。   任福继理事长谈到对于人工智能的发展,未来30年要做到以下几点:产业上有效利用大数据,做好算法,深挖场景。只有这样,才可能研发出更好的人工智能产品。这仍然是数据加算法驱动。   在清华校友AI大数据专委会秘书长王霞的主持下,清华大学计算机系原党委书记、清华科技园启迪孵化器原董事长罗建北,昆仑数据CEO陆薇,瓜子二手车CTO张小沛,Face++ 创始团队成员陈可卿,速感科技CEO陈震共同就话题“人工智能与产业实践”进行了对话。四位来自不同领域的嘉宾,在对于人工智能未来的趋势分析中,不约而同的提到了一个关键词:产业。     陆薇在圆桌论坛中提到,昆仑数据是一家技术公司,技术很重要,但却不是最重要的。在工业智能的应用中,我们认为有另外三个因素比技术更重要。   第一是场景。一定要从业界觉得非常痛,而你能解决这个痛点的场景出发。   第二是场景所在领域的专业知识。这一点在工业领域尤其重要。例如,对昆仑数据来说,在风力发电领域,我们需要有空气动力学的原理,做石油管道要有流体力学原理。   第三是一定要有相关的数据,没有数据就是巧妇难为无米之炊。   另外,有相关的技术,还要有一个最适合它的算法。比如最近流行的深度学习算法,其实已经被发明了很多年,但是把一个算法应用到场景之后,还要结合这个场景做算法的增强改进,使得它在这个场景下的应用能达到最优的结果。   自1958年建系以来,清华大学计算机系人才辈出。60年中,中国计算机技术的进步,每一步都有清华计算机系校友的贡献。此次活动,来自清华、北大等高校的学子,创业公司CEO,投资人,人工智能领域从业者等近300人来到现场,和与会嘉宾共同探讨人工智能与产业实践的观点与思考。   昆仑数据致力于用大数据和人工智能技术推动中国工业智慧升级,自公司成立之初,昆仑数据的数据科学家就已经尝试使用人工智能技术处理工业问题,并将其应用于一些数据量较大的工业应用案例。如何把统计模型与领域内的知识与机理模型深度融合,让数学模型具有工业语义中的可解释性,将成为我们在工业领域探索和应用人工智能技术的重要方向。...

Read More