新闻动态

问答机器人(Chatbot)已经渗透到我们生活中的各个角落,如Apple公司的Siri、Amazon的Alexa、阿里的旺旺。它们可以陪你闲聊、设闹钟、订餐厅、控制家电、做商品导购等。在工业场景下,聊天机器人有哪些场景呢?比如,用户可以询问某个品牌风机当月的发电量和故障停机时间;查询机舱加速度超限的可能原因以及需要更换的备件,帮你找到检修该故障最有经验的专家;询问公司的安全生产制度或报销流程。 相比其他领域,工业场景的Chatbot有如下特点: 1.需要领域内专业词库的支持,比如故障、备件名称; 2.需要多数据源的跨库查询,需要大数据平台的支持,比如同时查询海量的生产实时数据和故障事件数据; 3.需要基于专家知识的知识图谱支持,这点类似医疗知识图谱的应用,因为仅靠人工编写对话脚本,是无法穷尽所有可能问题的。 以上特点使得构建工业上好用的Chatbot非常困难,当然困难程度因业务需求而异。另一方面,Chatbot本身技术架构是通用的、可借鉴其他领域的,因此本文重点介绍通用的技术架构部分,先从Chatbot的分类说起。 1. Chatbot分类 Chatbot按照用途,可分为闲聊型和任务型两种。 闲聊型又称为开放域Chatbot,就是可以跟用户谈天说地,比如风靡一时的小黄鸡,用户更关注这类Bot的趣味性和智能性。闲聊技能通常是数以万计的历史问答(QA)对学习训练来的,同时还可以从新对话中学习,实现自我进化。 任务型又称为特定领域Chatbot,比如为用户导购的阿里旺旺,这种场景下用户更关注Bot答案的准确性,对Chatbot的开发者来讲就是可控性。 工业场景与之类似,通常首要考虑的就是回答的准确性,知之为知之不知为,比如用户询问发电机过热怎么办,Bot即便回答不知道,也比回答去吃退烧药强,所以属于任务型Chatbot。 Chatbot按照技术框架可分为检索式、生成式和启发式。 2. Chatbot基本原理 Chatbot原理框图如下图所示: ASR(Auto Speech Recognition)和TTS(Text To Speech)代表语音识别和语音合成,它们分别实现语音转文字和文字转语音功能,是chatbot的入口和出口,是与用户进行语音交互的部分,当然也可以采用其他交互方式,比如文字(微信、浏览器页面等)。 核心对话模块是本文要展开介绍的内容,它包括: NLU(Natural Language Understanding)是采用NLP(Natural Language Processing)技术对用户问题进行意图识别和实体抽取。意图识别是要弄清楚用户到底要问什么,如是查询故障发生次数还是故障原因;实体抽取是这个意图下的具体槽位值。比如问句是“上个月发电机故障次数是多少”,意图就是“查询故障次数”,故障名称的槽位值是“发电机故障”,时间的槽位值是“上个月”。意图识别可以描述成为分类问题,使用机器学习的方法来解决,如SVM、fastText;实体抽取使用NLP里的NER(命名实体识别)相关技术解决。 DM(Dialogue Management)模块根据问题匹配到相应答案(或采取什么动作,如查数据库或调用API);在多轮对话中它还负责对话状态跟踪,根据当前的对话状态(从历史对话内容更新获得),决定如何进行下一轮对话(或直接采取动作)。比如“上个月发电机故障次数是多少”问句除了故障名称和时间两个槽位,还有城市的槽位值(如是北京还是上海),DM模块根据当前这个状态,要决定继续追问用户“要查那个城市的故障?”。常用的DM策略包括有限状态机,HMM和神经网络[1]。 NLG(Natural Language Generation)是将DM模块返回的结果(如关键词、聚合数据)转变成自然语言文本,最常用的方法是通过规则模板生成回答,类似于NLU中问题匹配的逆向过程,另一种是基于深度学习的seq2seq生成方法。 以上介绍了Chatbot的基本框架和原理,从零开始开发Chatbot工作量很大,好在有大量的Chatbot框架可以使用,下面对几个常用的开源框架做简要介绍。 3. 任务式Chatbot构建工具框架 3.1 基于REfO的问句匹配 REfO(Regular Expressions for Objects)并不是一个框架,它把正则表达式的功能扩展到对象级别,它能同时使用关键和槽位匹配用户问句,从而实现DM模块的问句匹配功能,它支持python。举例, 见下图,REfO表达实现了“上个月发电机故障次数是多少”这个问句的匹配,匹配之后可以触发相应动作从数据库中查找问题答案。参见文献[2]提供REfO 匹配问句Python脚本实现例子。REfO虽然能匹配槽位,但是其脚本编写繁琐,也没有对话状态跟踪机制,基于脚本的规则引擎克服了上述缺点。 REfO问句匹配示例 3.2 基于脚本的规则引擎 该引擎根据人工编制的对话脚本,自动匹配问题模式,给出回答(动作),因此开发者只需把精力放在脚本编写上。引擎约定了脚本语法,满足大部分对话编制需求,如随机对话模式、通配符、变量捕获、Topic机制(多轮对话机制)、动作触发(函数调用)等。常见的规则引擎包括AIML[3]、ChatScript[4]、RiveScript[3]、SuperScript[6],引擎诞生时间从早到晚,但其中最有名的还是AIML(支持Python调用)。其中使用AIML和ChatScript开发的Bot,都曾多次赢得年度Loebner Prize[7]人工智能大奖。RiveScript和SuperScript脚本更加简洁,下图是同一个随机问答功能的脚本比较,可见RiveScript要比AIML更简洁友好。此外RiveScript支持多开发语言Go/Java/JavaScript/Perl/Python,SuperScript虽然仅支持JavaScript,但其内嵌了图数据库功能,NLU和DM功能较RiveScript更加强大 。 AIML随机回答模式脚本 今天天气真好 是呀,天气不错。 要不出去走走? 希望每天天气都这么好! RiveScript 随机回答模式脚本 + 今天天气真好 - 是呀,天气不错。 -...

Read More

2018年9月16日,为贺清华大学计算机系60周年,“人工智能 启迪未来”论坛在清华大学举办。昆仑数据创始人&CEO陆薇作为清华计算机系2001年博士毕业生代表参与活动,与多位人工智能的学者、企业家、创业者共同出席,探讨人工智能将如何启迪未来。     中国工程院院士、清华大学计算机系主任吴建平出席活动并致辞。启迪控股董事长王济武,日本工程院院士、欧盟科学院院士、中国人工智能学会副理事长任福继分别发表主题演讲。   吴建平院士在演讲中提到,人工智能为什么这么热?一方面是人工智能遇到了两个对它有最大促进作用的技术,计算机技术和互联网。另一方面,人工智能现在有了很多的应用场景。   任福继理事长谈到对于人工智能的发展,未来30年要做到以下几点:产业上有效利用大数据,做好算法,深挖场景。只有这样,才可能研发出更好的人工智能产品。这仍然是数据加算法驱动。   在清华校友AI大数据专委会秘书长王霞的主持下,清华大学计算机系原党委书记、清华科技园启迪孵化器原董事长罗建北,昆仑数据CEO陆薇,瓜子二手车CTO张小沛,Face++ 创始团队成员陈可卿,速感科技CEO陈震共同就话题“人工智能与产业实践”进行了对话。四位来自不同领域的嘉宾,在对于人工智能未来的趋势分析中,不约而同的提到了一个关键词:产业。     陆薇在圆桌论坛中提到,昆仑数据是一家技术公司,技术很重要,但却不是最重要的。在工业智能的应用中,我们认为有另外三个因素比技术更重要。   第一是场景。一定要从业界觉得非常痛,而你能解决这个痛点的场景出发。   第二是场景所在领域的专业知识。这一点在工业领域尤其重要。例如,对昆仑数据来说,在风力发电领域,我们需要有空气动力学的原理,做石油管道要有流体力学原理。   第三是一定要有相关的数据,没有数据就是巧妇难为无米之炊。   另外,有相关的技术,还要有一个最适合它的算法。比如最近流行的深度学习算法,其实已经被发明了很多年,但是把一个算法应用到场景之后,还要结合这个场景做算法的增强改进,使得它在这个场景下的应用能达到最优的结果。   自1958年建系以来,清华大学计算机系人才辈出。60年中,中国计算机技术的进步,每一步都有清华计算机系校友的贡献。此次活动,来自清华、北大等高校的学子,创业公司CEO,投资人,人工智能领域从业者等近300人来到现场,和与会嘉宾共同探讨人工智能与产业实践的观点与思考。   昆仑数据致力于用大数据和人工智能技术推动中国工业智慧升级,自公司成立之初,昆仑数据的数据科学家就已经尝试使用人工智能技术处理工业问题,并将其应用于一些数据量较大的工业应用案例。如何把统计模型与领域内的知识与机理模型深度融合,让数学模型具有工业语义中的可解释性,将成为我们在工业领域探索和应用人工智能技术的重要方向。...

Read More

晚上9点的办公室,同事们都陆续结束了一天的工作,但对于华仔和他的小伙伴来说,另一场战斗却刚刚开始。他们修正数据模型,整理结果,每天要忙到深夜1点。去年,他们所在的队伍在昆仑首席数据科学家田博士的指导下,在业余时间参赛一举拿下了2017PHM竞赛的冠军。今年,考虑到更多客户项目的交付压力,分析团队没有计划参与任何赛事,但年轻的小伙伴还是想挑战自己,于是自行组队,利用愈加宝贵的深夜时段,参加了2018KDD-CUP,最终位列十强。   年轻数据科学家的竞赛之路   KDD-Cup被称为数据挖掘领域“奥运会”, 每年都会吸引来自世界各地数据挖掘领域的顶尖专家、学者和工程师参赛,今年参赛队伍更是突破往年的数量,达4000多支。K2Data的这三位年轻的90后数据分析师,也成为了今年的4000分之一。   比赛由ACM协会的国际顶级会议SIGKDD举办,自1997年以来每年举办一次。该比赛一直以来都强调在实际场景中的应用性。本届赛题十分独特,空气污染物(PM2.5,PM10,O3)预测不仅具有规律性弱、不稳定、易突变的特点,并且因为要预测未来48小时中的每个小时,以及北京/伦敦城市内几十个预测地点,建模时间序列以及地点拓扑关系给机器学习模型带来挑战。   现有的方法针对的预测的时间段较短,没有基于位置拓扑以及利用天气预报进行建模,在机器学习尤其深度学习模型的运用也处于探索阶段。并且,由于比赛赛制每天需提交未来结果,相对于很多基于固定测试集的方案或比赛更接近真实工业界,对模型的稳定性以及迭代开销也有很多挑战。     其中最大的挑战是数据的缺失问题。因为站点有时需要维护或传感器出现故障,可能出现数据延迟或数据缺失的情况,官方提供的训练集数据的缺失情况如图1所示。       由图1可知,缺失最多的是PM10,缺失比例已经超过了25%,不能够直接用来建模。不过华仔和他的小分队发现了PM2.5,PM10之间有着非常好的线性关系,O3与温度之间则有非常好的指数关系,由此可以建立PM2.5与PM10线性模型,利用该模型对PM2.5和PM10进行相互插补(如图2所示)。此外可以建立O3与温度的指数关系模型,利用该模型对O3缺失值进行插补。但是,又发现同一时刻的PM2.5、PM10、O3存在同时缺失的情况,这种情况可以利用空间关系进行缺失值插补。基于上面的思路,建立了3-phase插补算法,有效解决了核心的数据缺失问题,基本就一直锁定了TOP30的排名优势。   在华仔看来,最终保持TOP10成绩主要来自于有效特征的挖掘。以weather type(天气类型)字段为例,挖掘了weather scoring 和binning feature两大类的有效特征,基于上面的数据预处理和特征工程,得出参赛最终提交的整体O3、PM10、PM2.5的预测效果。     昆仑数据:用人工智能解决工业问题   对参加KDD-CUP的夙愿,华仔表示,KDD-Cup是工业界和学术界都非常关注的一个比赛,也产出过很多对业界有影响的技术,比如KDD-Cup 2012产出的XGBOOST和FFM模型对工业界产生了很大的推进作用,而在工业界有了一定应用沉淀后,又不断地对这两种模型进行优化。   随着人工智能AI的红利,越来越多的领域开始尝试使用机器学习来解决现实问题,从KDD-Cup赛事命题方向的变化就可以反映这种趋势。以往的赛题多集中在推荐系统的设计,近年来开始转向机器学习技术在教育、交通等传统行业的实际应用问题。   人工智能已经从技术概念逐步开始了场景化、商业化的落地,随着技术与人才的逐步成熟,用大数据与人工智能技术推动工业智慧升级,将从昆仑数据的使命演进成不远的现实。...

Read More

8月2日-3日,2018中国大数据产业生态大会在北京隆重召开。此次大会以“深挖数据智能•助推数字经济”为主题,由中国电子信息产业发展研究院主办,中国电子信息产业发展研究院卢山院长、工信部党组成员、总工程师张峰,工信部原副部长杨学山等出席并致辞。昆仑数据作为工业大数据行业领军企业受邀出席活动,并获得两项重磅大奖。   会上表彰通过中国大数据产业生态地图调研而评选出的,代表中国大数据中坚力量的“2018中国大数据企业50强” ,这是昆仑数据自2016年该奖项启动以来,连续第三次入选中国大数据企业50强,该奖项评选着重评定企业在大数据业务上的研发投入、创新能力、应用案例、产品及方案成熟度、投资及发展潜力等。一同入选的还有阿里巴巴、华为、腾讯等企业。     2018中国大数据专有领域奖项中,KSTONE工业互联网平台获得业内专家一致认可,被评选为“2018中国大数据工业互联网领域最佳产品”。作为昆仑数据强有力的进阶性产品,昆仑工业互联网平台KSTONE更多强调的是垂直工业领域的资源整合及数据连接。KSTONE集成了KMX平台的原有能力,并扩展了工业智能流水线、工业应用商店等功能,提供工业APP创新端到端支持。不止于底层通用技术平台,KSTONE更强调垂直领域的行业属性与行业服务,携手行业龙头,打造数据价值驱动的新型工业互联网生态。     此次大会重磅发布了《2018中国大数据产业生态地图暨中国大数据产业发展白皮书》,与产业同仁分享赛迪研究院对中国大数据产业发展现状及大数据产业生态格局调查的最新研究成果。来自七十多家国内知名大数据创投机构及产业资本的一百多位投资人,青岛、福州、杭州、武汉、贵阳等地市政府,国内外优秀的大数据企业和用户代表,中国大数据产业生态联盟的专家和企业领袖,知名高校、科研机构及主流媒体,约计1500多人出席了本次会议。 ...

Read More

2018年7月20日,中国机械工业联合会智能制造分会在北京成立,同时召开一届一次理事会。中国机械工业联合会会长王瑞祥、工信部装备司副司长王瑞华出席会议并致辞,昆仑数据CEO/创始人、工业大数据创新中心主任 陆薇博士当选协会理事。     智能制造已成为机械工业调结构、转方式、换动能的重要引擎。目前,机械工业转型升级进入了爬坡过坎的攻坚期。如何抓住机遇,加快智能转型,实现高质量发展,是关系全局与行业长远发展的当务之急。相关企业、研究院所、高校对于智能制造的发展有着迫切需求,根据推动行业技术创新和产业转型升级的需要,中国机械工业联合会成立智能制造分会。   此次分会发起单位84家,其中包括清华大学、北京机床研究所、沈阳重工等企业、研究院所、高校及行业协会,涉及自动化、仪器仪表、工程机械、电工电器、汽车、轨道交通、航空航天等产业,以及人工智能等领域。昆仑数据将联合协会的相关领域的产学研用资源,为智能制造领域成员单位提供产业发展和市场服务,促进成员单位共享资源、共同发展。   ...

Read More