新闻动态

2016年8月1日,由清华大学、北京大学、中国人民大学、北京理工大学、北京邮电大学等高校;冶金自动化研究设计院、中国机械研究总院、中国石油规划设计院、中国软件评测中心等行业院所;金风科技、三一重工、台达电子、昆仑数据、山东临工、雷沃重工、陕鼓动力等工业和大数据企业共同发起,50家企事业单位联合组建的北京工业大数据产业发展联盟在京正式成立。工信部信软司陈英副司长、北京市经信委软件与信息服务处仝海威副处长、清华大学薛其坤副校长、孙家广院士等出席会议并发表致辞,成员单位代表近百人列席会议。     目前,全球都在进行以制造业转型升级为首要任务的新一轮工业变革。发展工业大数据,推动工业企业从自动化、信息化的工业3.0时代向数字化、互联化、智能化的4.0时代迈进,是所有制造大国的共同选择,也是实现《中国制造2025》的必经之路。   工信部信软司陈英副司长以及北京市经信委软件与信息服务处副处长仝海威发表致辞,希望工业大数据产业发展联盟成立后,能够承担起促进产业领域相关主体之间的交流和深度合作,促进供需对接和知识共享,形成优势互补,有效推进工业大数据产业发展,促进工业企业转型升级。     工业大数据产业发展联盟的会员单位,汇集了企事业单位、研究机构及行业龙头企业,致力于提升研发、应用、创新水平和在工业大数据技术领域标准与规范的主导权,引领我国工业大数据软件与产业发展,能够更加坚实地为《中国制造2025》提供支撑。   清华大学薛其坤副校长表示:“清华大学高度重视并全力支持北京工业大数据产业发展联盟的建设,积极发起并倡导工业与大数据产业的优质企业共同加入。 我们将在技术创新、大数据人才培养、中国工业大数据开源社区建设等方面,为北京乃至中国工业大数据行业的蓬勃发展奠定坚实的基础。”   在会上,清华大学孙家广院士对联盟提出了四点要求:发展目标要求实,保证工业大数据分析平台系统能用、管用、好用,使其在联盟单位和国内工业企业广泛应用,并且用出效果;规章要严,对联盟进行规范管理,规矩要可操作、可检查、可报告、可公示、可问责;保证联盟成员间的团结协作;联盟成员要勇攀高峰,争取实现全球范围内技术上的领跑。   清华大学软件学院副院长王建民教授当选首任工业大数据产业发展联盟理事长。他在会上表示,联盟将引领工业大数据技术创新,推动工业大数据共性技术在联盟内成员间的扩散,整体提升北京市工业大数据技术创新、平台研发与产业创新水平,引领工业大数据技术领域标准与规范制定,促进工业大数据在京津冀乃至全国范围内的快速发展。   今后,联盟将以中关村示范园区内企业为基础,积极遴选和吸纳优质企事业单位、科研院所和龙头企业成为联盟成员,聚集工业大数据研发与应用的中坚力量,建设国家级工业大数据产业发展合作与促进平台。...

Read More

题记 概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯   记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。   0.前言   这是一篇关于贝叶斯方法的科普文,我会尽量少用公式,多用平白的语言叙述,多举实际例子。更严格的公式和计算我会在相应的地方注明参考资料。贝叶斯方法被证明是非常 general 且强大的推理框架,文中你会看到很多有趣的应用。   1.历史   托马斯·贝叶斯(Thomas Bayes)同学的详细生平在这里。以下摘一段 wikipedia 上的简介: 所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。 实际上,贝叶斯当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来,贝叶斯方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子,特别地,贝叶斯是机器学习的核心方法之一。   这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的(否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行,还需要对原子模型争吵不休吗?),我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方,我们往往只能知道从里面取出来的球是什么颜色,而并不能直接看到袋子里面实际的情况。   这个时候,我们就需要提供一个猜测(hypothesis,更为严格的说法是“假设”,这里用“猜测”更通俗易懂一点),所谓猜测,当然就是不确定的(很可能有好多种乃至无数种猜测都能满足目前的观测),但也绝对不是两眼一抹黑瞎蒙——具体地说,我们需要做两件事情: 1. 算出各种不同猜测的可能性大小。 2. 算出最靠谱的猜测是什么。第一个就是计算特定猜测的后验概率,对于连续的猜测空间则是计算猜测的概率密度函数。第二个则是所谓的模型比较,模型比较如果不考虑先验概率的话就是最大似然方法。   1.1 一个例子:自然语言的二义性   下面举一个自然语言的不确定性的例子。当你看到这句话: The girl saw the boy with a telescope. 你对这句话的含义有什么猜测?平常人肯定会说:那个女孩拿望远镜看见了那个男孩(即你对这个句子背后的实际语法结构的猜测是:The girl saw-with-a-telescope the boy )。然而,仔细一想,你会发现这个句子完全可以解释成:那个女孩看见了那个拿着望远镜的男孩(即:The girl saw the-boy-with-a-telescope )。那为什么平常生活中我们每个人都能够迅速地对这种二义性进行消解呢?这背后到底隐藏着什么样的思维法则?我们留到后面解释。   1.2 贝叶斯公式   贝叶斯公式是怎么来的? 我们还是使用 wikipedia 上的一个例子: 一所学校里面有 60%...

Read More

上周参加了在硅谷圣何塞举行的的Hadoop Summit 2016 (Hadoop 峰会),从参会人数来说,今年达到了创纪录的5000人,对比去年的4000人增长了25%,这对于一个已经十年的项目来说非常不容易。   看到的一些行业趋势   1)Hadoop及其生态圈(包括Spark等等)在各行各业落地并且得到广泛的应用。   目前在美国,无论行业是IT,金融相关(包括银行保险),电信,制造业,还是餐饮,百货零售都已经广泛的用上了Hadoop。看了一些有意思的演讲,比如说   · Progressive(美国最大的车保公司之一)通过实时采集用户驾驶的数据(比如说加、减速行为;车辆经过的路线等等)来决定是否需要改变用户的车保价格。 · 福特公司也有一个类似的演讲,通过采集汽车里面的设置的传感器,实时反馈给服务端来优化驾驶的体验。   对于这些非IT企业,利用Hadoop生态圈里面的套件能够实现超大的数据处理规模(比如说福特汽车总共产生的数据可以达到一天TB级别),实时性(信用卡反欺诈需要在秒以内返回结果),丰富的分析手段(SQL、机器学习等)。这些新的数据分析的手段能够实实在在的产生商业价值,比如说只要保险公司能够降低1%的风险,产生的利润就非常可观了。   2)物联网 (IOT) + 实时(Realtime) + 机器学习是今年最火的话题   相对于去年来说,这三个话题的曝光率大大提高。今年总共有160多场演讲,其中物联网就有近20场演讲,机器学习有10多场演讲,实时有近10场演讲。   这三个话题其实互相关联,比如说物联网通过传感器采集了N多的数据(飞机引擎能够每小时产生35TB的数据,还有比如上面提到的福特汽车),这些数据需要立刻决定保留或者丢弃,对于保留的那部分数据也要能够很快做出决定。实时起到了很大的作用。在这次的某一个演讲中(忘了是哪家公司了),需要采集飞机上的雷达数据来预测天气是否危险,如果不能做到实时那几乎就是草菅人命了。   对于这种大规模的数据只用传统的SQL进行数据处理是远远不够的,特别是一些非结构化的数据(比如说雷达云图)。那么很多的机器学习的方法就能够排上用场了。这三个方向一定会在未来更火的。   关于Hadoop(YARN/HDFS)项目的趋势   1)继续往易用方向发展   关于易用主要是两个方面,a. 方便安装部署, b. 方便运维。对于安装部署来说这几年的一些工具已经可以把问题解决得很好了,比如说Apache Ambari。对于运维来说则在今年涌现了很多的新的亮点,比如来自Hortonworks的Service Asembly,Service Asembly也就是服务的组合,举个例子来说,一个数据服务需要安装ZooKeeper、Kafka、HBase、Spark,并且需要让他们工作在一起,传统的方式是分别部署这些项目并且手动的把他们互相配置起来。现在可以通过Docker container加上预先写好的配置文件模板让这些服务一次性的在YARN上面启动和关闭。   2)YARN更好的支持长时间服务(Long running service, LRS)   相对于普通的mapreduce、spark程序,长时间服务需要跑几天甚至几个月,YARN对于LRS的支持在近一年内有很大的进展。一些新完成、正在开发中的功能有类似于:   · DNS(每个container有自己的地址, YARN-4757) · Container自动重启(YARN-4725) · Container重复利用(allocation reuse, YARN-4726) · 动态改变运行中Container的资源(Resizing running...

Read More

近日,美的集团董事长方洪波在“云+未来”峰会演讲时提出,智能制造的本质是以数据为核心,把所有业务模式和每个环节连接起来。今天中国制造业所面临的一个最大挑战就是,随着智能制造的推动,企业本质的形态会发生变化。     我来自制造业,大数据和云计算对制造业意味着什么?下一个企业形态会是什么样?   现在制造业普遍性的模式,营销、产品、用户、管理,显然已经跟不上时代的发展,个性化的需求在变化,消费行为都在变化,因此,美的提出了“双智”战略。   到底什么是制造业未来的企业形态?   今天智能制造很时髦,很多媒体都在报道无人工厂,其实这都是非常表面化的理解。   智能制造的本质是什么?是以数据为核心,把所有业务模式和每个环节连接起来。怎么连接呢?从产品销售到采购到物流配送,所有这些业务的环节都是要用数据连接起来。为什么可以用数据连接起来?今天传统的制造业是一个物理形态的状态,是一个机械的状态,有厂房、生产线、设备、生产工人、车辆、配送、渠道、服务机构、网点等等,所有这些都是物理形态的。   但是,我们今天要把这些物理形态的东西变成数字。怎么样变成数字?所有这些环节之间的连接,都可以产生数据的,这就是大数据和云平台。今天存储技术急剧提高,计算成本越来越低,加上移动互联的技术,可以将所有的人和物产生连接。互联网的进步可以让每一台机器设备都被赋予一个独立的IP地址,射频识别技术可以把所有的信息传输出来,传感器可以接收所有的信息,再把这些信息变成信号,输出数据。所有技术都连接起来,就是我们下一步的物联网的趋势。     这些技术连接的可行性是不是我们要进行传统制造业智能改造的本质呢?或者说是必要条件呢?   不是。最根本的原因是现在用户的行为发生了根本变化,他们有强烈的个性化需求。我们怎么样用新的制造模式,有效、快速地满足所有个性化需求,给他们提供个性化的产品和服务?这是我们现有的价值链模式无法适应的。通过智能的连接,每个环节产生数据之后,我们把这些数据带到一个数字的世界,在数字的世界里对数据进行加工:有哪些产品是最好卖的?好卖的产品是由哪些供应链组成的?怎么采购这些零部件?   怎么样进行制造?怎样用最短的时间能够制造出来?产品是放在东北还是放在广东?还是放在新疆?所有这些都是由数据分析产生价值。在这样的数据形态里,我们建立模型,进行数据的分析和优化。优化设计之后,产生了什么更有价值的数据。我们再回到物理形态的世界,回到企划阶段、供应链采购阶段、制造阶段、物流的阶段、配送的阶段,这才是真正的智能制造的内涵所在。   也就是说,今天中国制造业所面临的一个最大挑战就是,随着智能制造的推动,企业本质的形态会发生变化。过去所有制造业的信息系统是以ERP为中心内部化的信息系统,今天显然已经不是,我们要把它外置化,要通过数据为核心,把全价值链进行连接,从物理形态到数字形态,这是智能制造的根本所在。   是不是连接以后就可以了?把数据进行加工分析建模就可以了?不是。这仅仅是第一个层次。第二个层次,我们要通过这些数据对所有的业务环节进行连接之后,建模分析之后,要倒推,对企业现有的所有流程进行改造,这就是要对我们的业务模式进行变革。     在业务模式变革之后,再深层次的就是以用户为中心,来推动整个商业模式的变革。今天你是一个大规模商品的制造者,未来你可能会成为一个个性化产品的提供者,也可以成为一个基于数据的用户经营者,在不同阶段取决于不同选择,这样模式的变革我们需要什么?我们需要大数据、云平台。这样一个云服务的智慧平台,制造业本身可不可以做呢?显然不可以,我们显然需要跟腾讯合作。公有云是腾讯的优势,私有云是根据不同的服务、不同的产品、不同的场景的应用,是我们的优势。所以公有云私有云的结合,这里面有巨大的合作空间。   归纳一下,今天无论是互联网还是物联网,也就是传统的制造业必须要跟上这个大数据和云平台的步伐,我们必须要深刻的理解什么是基于物联网应用的智能制造。大数据和云平台对传统制造业来说,就是一场商业的淘汰赛,就看谁能够在这场淘汰赛中跟上时代的步伐,如果跟不上就要被这场竞争所淘汰。   来源:CCTIME飞象网 作者:文慧...

Read More

摘要:   价值是用户决定的。一杯水,放在沙漠里可以救命,剩在餐桌上就是垃圾。工业大数据也是一样,能否创造价值,首先是要看用在什么场景中。   最近闭幕的十八届五中全会把大数据战略提高到一个前所未有的层面———实施国家大数据战略,推进数据资源开放共享。笔者在此想谈一下对推进工业大数据的一点看法。     大数据的概念与背景   大数据是最近几年才热起来的一个概念。大数据热大约在2012年前后在中国出现。其中,涂子沛先生的《大数据》一书起到了重要的作用。“除了上帝,任何人都必须用数据来说话”这句话,更是得到了时任广东省委书记汪洋(现为国务院副总理)的高度肯定。   读过这本书的人都知道:涂子沛关注的重点是大数据对政治、社会、伦理等方面的影响。后来,各家互联网公司、IT公司将人们关注的热点引向了商业领域,再经股评师的运作,使之成为全社会炙手可热的概念。与此同时,学术界不失时机地将大数据的概念引入了工业界。   然而,工业界重视数据分析早已不是新鲜事了。人们很早就希望通过数据发现客观规律、优化生产过程。例如,笔者25年前就开始涉足工业数据的分析研究,而数据挖掘等理论也早已广泛传播。对数据挖掘的价值,一种流行的观点是:当企业竞争进入白热化、所有手段都已用尽时,数据挖掘提供了领先半步的可能。与现在的观点相比,这个认识是相当低调的。当然,低调背后是有原因的,因为业界真正成功的案例其实非常少。   很多企业急于搭上“工业大数据”这趟快车,然而在现实中遇到了很多的困惑。 人们似乎都认为数据的作用很大,但从事过工业数据分析的人往往有这样的体会:分析过程往往达不到预想的目标,数据似乎并不是传说中的金矿。   这种困惑也体现在商务活动中。企业信息化建设原本应该遵循一个基本原则:用户需求驱动系统开发。从事大数据业务的IT公司对用户说:你说怎么做,我就怎么做;用户却说:我不知道能得到什么,也不知道该怎么做,最好你告诉我怎么做。   谁都不知道怎么做。于是,大家都被畅销书的理念忽悠着做事。然而,畅销书的观点是正确的吗?在笔者看来,畅销书上的观点往往对不上中国企业的现状———或将商务大数据的应用场景套在工业大数据,或将未来的场景套用到现在。   工业大数据与商务大数据有什么不同?   现在关于大数据的流行观点,几乎都是针对商务大数据的。然而,许多观点可能并不适合工业界。笔者认为,工业和商业至少有以下几点不同:   可发现的新知识少。一般来说,发现新知识是大数据分析的一个重要目的。然而,在工业领域,人们对生产过程的研究一般比较深入,专业知识也很丰富,很难从数据中发现新的知识。与之相比,商务活动的大数据分析往往涉及人的喜好,这些恰恰是过去难以量化研究的,故而大数据的含金量高。   对分析结果的质量要求高。工业界对分析结果的精度和可靠度要求高。如果将不可靠、不精确的分析结果用于指导生产,不仅不能创造价值,甚至可能导致极大的损失。与之相比,在许多商务大数据的应用场景下,即便分析错误,损失也不大。   分析难度高。工业系统往往是复杂的人造系统,包含大量复杂的前馈和反馈环节。这意味着,变量间的相关性往往不是自然的因果关系。这个问题很容易误导分析和决策的过程。另外,工业数据的信噪比往往比较低,分析结果很容易出现严重偏离事实的畸变(即所谓的有偏估计)。   相关性包含的信息少。在商务大数据中,数据之间的“相关性”本身往往就具有很大的参考价值,而在工业体系中则未必是这样。   工业大数据体现价值的场景有哪些?   价值是用户决定的。一杯水,放在沙漠里可以救命,剩在餐桌上就是垃圾。工业大数据也是一样,能否创造价值,首先是要看用在什么场景中。   笔者认为,用户对工业大数据提不出需求,是客观现实的真实反映。大数据有用,但合适的应用场景不一定是现在。下面分析几个有用的场景:   质量要求高的生产场景。制造业从什么时候开始重视数据?显然,当我们追求高质量、高稳定性的时候,数据会显得非常重要,数据的价值才得以体现。国外先进企业追求6Sigma(一种改善企业质量流程管理的技术,主要强调通过制定极高的目标、收集数据以及分析结果,来减少产品和服务的缺陷),故而强调数据的重要性;许多企业一味追求低成本,数据的重要性自然就会低。   高度自动化及智能化的生产场景。在高度自动化和智能化的生产单元,人的介入很少,对质量的要求一般也很高。这时,对设备健康状态和产品质量的自动监控就变得非常重要。   工业互联网的场景。工业互联网能使成千上万用户的数据实现共享。多个用户的共享会带来两个过去无法企及的效果。首先是分析结果的可靠性上升。这得益于来自不同用户的实例,可用于对分析结论的重复性认证。其次是分析结果可以在众多的用户中分享,以创造更大的价值。   在当今的中国企业中,符合上述要求的场景是不多见的。多数企业重视成本远甚于质量,智能制造和自动化的水平低,工业互联网尚未起步。由此可见,对中国多数企业来说,工业大数据的价值很可能只是“未来时”,虽然这个未来可能并不遥远。   推进工业大数据现在该做啥?   马云策划淘宝的年代,笔者正在浙江大学攻读博士学位。记得那时学校的网速只有每秒100个字节———这件事启发我们:机会往往发生在条件不太成熟的时候。所以,创新者的起步一定要早。在工业大数据全面应用之前,是我们培养能力、积累技术的时候。   但是,仅起步早是不够的,关键还要走对路子。正如培根所说:“跛足而走对路的人,胜过健步如飞却误入歧途者。”怎样尽早抓住机会呢?笔者认为,可以从以下几个方面做起:   一是理解工业大数据的本质作用   对企业来说,大数据用得好坏的关键是看能否创造出高于成本的价值。所以,笔者赞同从功能的角度定义工业大数据:大数据是过程(生产制造、研发服务、采购销售)痕迹的数字化记录,目的是为“用数据说话”奠定基础,是对已有系统所产生的数据的二次利用。   这意味着,工业大数据平台的建设,应该高度重视数据的组织,避免遗漏重要的数据以及数据之间的联系。例如,实时的设备状态和工艺参数应该与所生产的产品准确对应,相关的时钟不能混乱。   二是以方便“人”的分析为出发点   在商务大数据中,很多人强调机器学习,强调从大量数据中获得规律性、重复性的知识。对于工业大数据,这种认识要做调整:工业知识主要来自人脑,数据的作用是对已有认识的确认、分辨与准确化。这就意味着,大数据平台的要点是方便人从事分析工作。而人的分析工作往往是针对特定事件驱动的。   使得这些过程做到透明化,提高管理水平,通过更有效的管理创造效益。这样,建立大数据平台的一个重要任务是:让相关过程显性化,避免人陷落在信息和数据的海洋中,丧失关注的焦点。按照这个观点,在工业领域,“知识自动化”的重点应该是知识的管理,而非知识的发现。   三是正确认识工业大数据的知识发现   如前所述,由于工业数据体现出来的规律性往往难以突破人已有的认识范围,发现规律性的知识(如工艺与质量之间的关系)是比较困难的。然而,工业大数据往往适合发现另外一类知识,即从数据中提炼信息的知识,将物理量的检测数据转化成产品质量、能耗、效率、设备状态等信息的“软测量”算法,其实就是这种类型的知识。这些知识往往是生产技术人员并不熟悉的盲点。故而,从数据研究者的角度看,它们属于容易出成绩的领域。   过去,学术界对这些问题很热衷,企业却不重视,因为这种知识很难创造价值。不能创造价值的原因,是未能将其纳入管理或者控制的流程中,故而创造价值的途径不畅通。为此,企业可能会需要一个平台,以便将这些知识转化成数字化的模型,并纳入生产制造等流程中,以便创造经济价值。   四是注重与智能制造的结合   在笔者看来,数字化、网络化引发的智能制造大体是这样一个逻辑:信息驱动知识,在决策过程中创造价值、体现智能。其中,信息来自供应链、客户、智能设备、物联网,知识表现为软件化的模型,决策则包括自动或人工的管理与控制。   如前所述,工业大数据在这个逻辑中有两个重要作用:获取“从数据提炼成信息的知识”;决策和专业知识主要来自人脑,但需要用大数据将其验证、矫正和精确化。   五是加强数据分析可靠性理论研究   在工业系统中,可靠分析的结果才有使用价值。可靠性分析原本是统计理论的重要组成部分。但用于大数据明显是不合适的。这些理论的基本假设条件往往都是不成立的。而且,许多理论和著名观点也造成了大量的误导,如盲目强调分析结果的准确性、认为大数据强调相互关系而轻视因果等。   大数据的因果分析是个十分需要重视的领域,但过去主要是科学、哲学研究的范畴,统计学家对其重视不足。笔者认为,其实,可以从杜绝假象、通过证伪等思路来逼近因果。也就是说,重点分析那些容易导致错误结果的情况。同时,逻辑链的完整性和证据的独立性也很重要。   笔者认为,数据的质量和完整性是导致分析错误的重要诱因。因此,建立大数据平台时,不仅要关注数据本身,更要关注数据之间的对应性;不仅要关注数据是什么,还要关注数据的采集过程。数据的采集过程不同,意味着内涵发生了变化。如果数据质量不高,大数据很可能是一堆垃圾。这样看来,盲从商务大数据“非结构化”的观点也是不对的。   来源:中国钢铁新闻网/物联网智库...

Read More