新闻动态

摘要:   价值是用户决定的。一杯水,放在沙漠里可以救命,剩在餐桌上就是垃圾。工业大数据也是一样,能否创造价值,首先是要看用在什么场景中。   最近闭幕的十八届五中全会把大数据战略提高到一个前所未有的层面———实施国家大数据战略,推进数据资源开放共享。笔者在此想谈一下对推进工业大数据的一点看法。     大数据的概念与背景   大数据是最近几年才热起来的一个概念。大数据热大约在2012年前后在中国出现。其中,涂子沛先生的《大数据》一书起到了重要的作用。“除了上帝,任何人都必须用数据来说话”这句话,更是得到了时任广东省委书记汪洋(现为国务院副总理)的高度肯定。   读过这本书的人都知道:涂子沛关注的重点是大数据对政治、社会、伦理等方面的影响。后来,各家互联网公司、IT公司将人们关注的热点引向了商业领域,再经股评师的运作,使之成为全社会炙手可热的概念。与此同时,学术界不失时机地将大数据的概念引入了工业界。   然而,工业界重视数据分析早已不是新鲜事了。人们很早就希望通过数据发现客观规律、优化生产过程。例如,笔者25年前就开始涉足工业数据的分析研究,而数据挖掘等理论也早已广泛传播。对数据挖掘的价值,一种流行的观点是:当企业竞争进入白热化、所有手段都已用尽时,数据挖掘提供了领先半步的可能。与现在的观点相比,这个认识是相当低调的。当然,低调背后是有原因的,因为业界真正成功的案例其实非常少。   很多企业急于搭上“工业大数据”这趟快车,然而在现实中遇到了很多的困惑。 人们似乎都认为数据的作用很大,但从事过工业数据分析的人往往有这样的体会:分析过程往往达不到预想的目标,数据似乎并不是传说中的金矿。   这种困惑也体现在商务活动中。企业信息化建设原本应该遵循一个基本原则:用户需求驱动系统开发。从事大数据业务的IT公司对用户说:你说怎么做,我就怎么做;用户却说:我不知道能得到什么,也不知道该怎么做,最好你告诉我怎么做。   谁都不知道怎么做。于是,大家都被畅销书的理念忽悠着做事。然而,畅销书的观点是正确的吗?在笔者看来,畅销书上的观点往往对不上中国企业的现状———或将商务大数据的应用场景套在工业大数据,或将未来的场景套用到现在。   工业大数据与商务大数据有什么不同?   现在关于大数据的流行观点,几乎都是针对商务大数据的。然而,许多观点可能并不适合工业界。笔者认为,工业和商业至少有以下几点不同:   可发现的新知识少。一般来说,发现新知识是大数据分析的一个重要目的。然而,在工业领域,人们对生产过程的研究一般比较深入,专业知识也很丰富,很难从数据中发现新的知识。与之相比,商务活动的大数据分析往往涉及人的喜好,这些恰恰是过去难以量化研究的,故而大数据的含金量高。   对分析结果的质量要求高。工业界对分析结果的精度和可靠度要求高。如果将不可靠、不精确的分析结果用于指导生产,不仅不能创造价值,甚至可能导致极大的损失。与之相比,在许多商务大数据的应用场景下,即便分析错误,损失也不大。   分析难度高。工业系统往往是复杂的人造系统,包含大量复杂的前馈和反馈环节。这意味着,变量间的相关性往往不是自然的因果关系。这个问题很容易误导分析和决策的过程。另外,工业数据的信噪比往往比较低,分析结果很容易出现严重偏离事实的畸变(即所谓的有偏估计)。   相关性包含的信息少。在商务大数据中,数据之间的“相关性”本身往往就具有很大的参考价值,而在工业体系中则未必是这样。   工业大数据体现价值的场景有哪些?   价值是用户决定的。一杯水,放在沙漠里可以救命,剩在餐桌上就是垃圾。工业大数据也是一样,能否创造价值,首先是要看用在什么场景中。   笔者认为,用户对工业大数据提不出需求,是客观现实的真实反映。大数据有用,但合适的应用场景不一定是现在。下面分析几个有用的场景:   质量要求高的生产场景。制造业从什么时候开始重视数据?显然,当我们追求高质量、高稳定性的时候,数据会显得非常重要,数据的价值才得以体现。国外先进企业追求6Sigma(一种改善企业质量流程管理的技术,主要强调通过制定极高的目标、收集数据以及分析结果,来减少产品和服务的缺陷),故而强调数据的重要性;许多企业一味追求低成本,数据的重要性自然就会低。   高度自动化及智能化的生产场景。在高度自动化和智能化的生产单元,人的介入很少,对质量的要求一般也很高。这时,对设备健康状态和产品质量的自动监控就变得非常重要。   工业互联网的场景。工业互联网能使成千上万用户的数据实现共享。多个用户的共享会带来两个过去无法企及的效果。首先是分析结果的可靠性上升。这得益于来自不同用户的实例,可用于对分析结论的重复性认证。其次是分析结果可以在众多的用户中分享,以创造更大的价值。   在当今的中国企业中,符合上述要求的场景是不多见的。多数企业重视成本远甚于质量,智能制造和自动化的水平低,工业互联网尚未起步。由此可见,对中国多数企业来说,工业大数据的价值很可能只是“未来时”,虽然这个未来可能并不遥远。   推进工业大数据现在该做啥?   马云策划淘宝的年代,笔者正在浙江大学攻读博士学位。记得那时学校的网速只有每秒100个字节———这件事启发我们:机会往往发生在条件不太成熟的时候。所以,创新者的起步一定要早。在工业大数据全面应用之前,是我们培养能力、积累技术的时候。   但是,仅起步早是不够的,关键还要走对路子。正如培根所说:“跛足而走对路的人,胜过健步如飞却误入歧途者。”怎样尽早抓住机会呢?笔者认为,可以从以下几个方面做起:   一是理解工业大数据的本质作用   对企业来说,大数据用得好坏的关键是看能否创造出高于成本的价值。所以,笔者赞同从功能的角度定义工业大数据:大数据是过程(生产制造、研发服务、采购销售)痕迹的数字化记录,目的是为“用数据说话”奠定基础,是对已有系统所产生的数据的二次利用。   这意味着,工业大数据平台的建设,应该高度重视数据的组织,避免遗漏重要的数据以及数据之间的联系。例如,实时的设备状态和工艺参数应该与所生产的产品准确对应,相关的时钟不能混乱。   二是以方便“人”的分析为出发点   在商务大数据中,很多人强调机器学习,强调从大量数据中获得规律性、重复性的知识。对于工业大数据,这种认识要做调整:工业知识主要来自人脑,数据的作用是对已有认识的确认、分辨与准确化。这就意味着,大数据平台的要点是方便人从事分析工作。而人的分析工作往往是针对特定事件驱动的。   使得这些过程做到透明化,提高管理水平,通过更有效的管理创造效益。这样,建立大数据平台的一个重要任务是:让相关过程显性化,避免人陷落在信息和数据的海洋中,丧失关注的焦点。按照这个观点,在工业领域,“知识自动化”的重点应该是知识的管理,而非知识的发现。   三是正确认识工业大数据的知识发现   如前所述,由于工业数据体现出来的规律性往往难以突破人已有的认识范围,发现规律性的知识(如工艺与质量之间的关系)是比较困难的。然而,工业大数据往往适合发现另外一类知识,即从数据中提炼信息的知识,将物理量的检测数据转化成产品质量、能耗、效率、设备状态等信息的“软测量”算法,其实就是这种类型的知识。这些知识往往是生产技术人员并不熟悉的盲点。故而,从数据研究者的角度看,它们属于容易出成绩的领域。   过去,学术界对这些问题很热衷,企业却不重视,因为这种知识很难创造价值。不能创造价值的原因,是未能将其纳入管理或者控制的流程中,故而创造价值的途径不畅通。为此,企业可能会需要一个平台,以便将这些知识转化成数字化的模型,并纳入生产制造等流程中,以便创造经济价值。   四是注重与智能制造的结合   在笔者看来,数字化、网络化引发的智能制造大体是这样一个逻辑:信息驱动知识,在决策过程中创造价值、体现智能。其中,信息来自供应链、客户、智能设备、物联网,知识表现为软件化的模型,决策则包括自动或人工的管理与控制。   如前所述,工业大数据在这个逻辑中有两个重要作用:获取“从数据提炼成信息的知识”;决策和专业知识主要来自人脑,但需要用大数据将其验证、矫正和精确化。   五是加强数据分析可靠性理论研究   在工业系统中,可靠分析的结果才有使用价值。可靠性分析原本是统计理论的重要组成部分。但用于大数据明显是不合适的。这些理论的基本假设条件往往都是不成立的。而且,许多理论和著名观点也造成了大量的误导,如盲目强调分析结果的准确性、认为大数据强调相互关系而轻视因果等。   大数据的因果分析是个十分需要重视的领域,但过去主要是科学、哲学研究的范畴,统计学家对其重视不足。笔者认为,其实,可以从杜绝假象、通过证伪等思路来逼近因果。也就是说,重点分析那些容易导致错误结果的情况。同时,逻辑链的完整性和证据的独立性也很重要。   笔者认为,数据的质量和完整性是导致分析错误的重要诱因。因此,建立大数据平台时,不仅要关注数据本身,更要关注数据之间的对应性;不仅要关注数据是什么,还要关注数据的采集过程。数据的采集过程不同,意味着内涵发生了变化。如果数据质量不高,大数据很可能是一堆垃圾。这样看来,盲从商务大数据“非结构化”的观点也是不对的。   来源:中国钢铁新闻网/物联网智库...

Read More

目录 1 为什么要深入数学的世界 2 集合论:现代数学的共同基础 3 分析:在极限基础上建立的宏伟大厦 3.1 微积分:分析的古典时代——从牛顿到柯西 3.2 实分析:在实数理论和测度理论上建立起现代分析 3.3 拓扑学:分析从实数轴推广到一般空间——现代分析的抽象基础 3.4 微分几何:流形上的分析——在拓扑空间上引入微分结构 4 代数:一个抽象的世界 4.1 关于抽象代数 4.2 线性代数:“线性”的基础地位 4.2.1 泛函分析:从有限维向无限维迈进 4.2.2 继续往前:巴拿赫代数,调和分析,和李代数 5 现代概率论:在现代分析基础上再生   1.为什么要深入数学的世界   作为计算机的学生,我没有任何企图要成为一个数学家。我学习数学的目的,是要想爬上巨人的肩膀,希望站在更高的高度,能把我自己研究的东西看得更深广一些。说起来,我在刚来这个学校的时候,并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目,是对appearance和motion建立一个unified的model。这个题目在当今Computer Vision中百花齐放的世界中并没有任何特别的地方。事实上,使用各种Graphical Model把各种东西联合在一起framework,在近年的论文中并不少见。   我不否认现在广泛流行的Graphical Model是对复杂现象建模的有力工具,但是,我认为它不是panacea,并不能取代对于所研究的问题的深入的钻研。如果统计学习包治百病,那么很多 “下游”的学科也就没有存在的必要了。事实上,开始的时候,我也是和Vision中很多人一样,想着去做一个Graphical Model——我的导师指出,这样的做法只是重复一些标准的流程,并没有很大的价值。经过很长时间的反复,另外一个路径慢慢被确立下来——我们相信,一个图像是通过大量“原子”的某种空间分布构成的,原子群的运动形成了动态的可视过程。微观意义下的单个原子运动,和宏观意义下的整体分布的变换存在着深刻的联系——这需要我们去发掘。     在深入探索这个题目的过程中,遇到了很多很多的问题,如何描述一个一般的运动过程,如何建立一个稳定并且广泛适用的原子表达,如何刻画微观运动和宏观分布变换的联系,还有很多。在这个过程中,我发现了两个事情:   • 我原有的数学基础已经远远不能适应我对这些问题的深入研究。 • 在数学中有很多思想和工具,是非常适合解决这些问题的,只是没有被很多的应用科学的研究者重视     于是,我决心开始深入数学这个浩瀚大海,希望在我再次走出来的时候,我已经有了更强大的武器去面对这些问题的挑战。   我的游历并没有结束,我的视野相比于这个博大精深的世界的依旧显得非常狭窄。在这里,我只是说说,在我的眼中,数学如何一步步从初级向高级发展,更高级别的数学对于具体应用究竟有何好处。   2.集合论:现代数学的共同基础   现代数学有数不清的分支,但是,它们都有一个共同的基础——集合论——因为 它,数学这个庞大的家族有个共同的语言。集合论中有一些最基本的概念:集合(set),关系(relation),函数(function),等价 (equivalence),是在其它数学分支的语言中几乎必然存在的。对于这些简单概念的理解,是进一步学些别的数学的基础。我相信,理工科大学生对于 这些都不会陌生。   不过,有一个很重要的东西就不见得那么家喻户晓了——那就是“选择公理” (Axiom of Choice)。这个公理的意思是“任意的一群非空集合,一定可以从每个集合中各拿出一个元素。”——似乎是显然得不能再显然的命题。不过,这个貌似平常 的公理却能演绎出一些比较奇怪的结论,比如巴拿赫-塔斯基分球理——“一个球,能分成五个部分,对它们进行一系列刚性变换(平移旋转)后,能组合成两个一样大小的球”。正因为这些完全有悖常识的结论,导致数学界曾经在相当长时间里对于是否接受它有着激烈争论。现在,主流数学家对于它应该是基本接受的,因为很多数学分支的重要定理都依赖于它。在我们后面要回说到的学科里面,下面的定理依赖于选择公理:   1.拓扑学:Baire Category Theorem 2.实分析(测度理论):Lebesgue...

Read More

由中国电子信息产业发展研究院主办的2017中国软件  大会顺利闭幕,在工信部指导下,“中国大数据和人工智能百人会”(以下简称百人会)由中国大数据产业生态联盟牵头成立。昆仑数据CEO陆薇作为首批成员之一,和大数据人工智能领域的专家、学者、优秀企业代表共同见证百人会的成立。 与此同时,大会以“新软件激发产业转型新动能”为主题,深度聚焦大数据、人工智能、区块链等当前IT技术热点话题,陆薇与多位行业内专家,就如何让大数据和人工智能融合,使人工智能技术应用于更多的领域,进行了对话。 陆薇提出,大数据与人工智能技术在工业领域的应用,需以场景为王,只有把技术真正落实到工业的各个生产流通环节,对安全、效率、质量等业务指标有所改善,实现了业务价值才能有真正的技术价值。当然,在工业领域要把人工智能落地,要把领域知识、数据、技术有机结合,为工业企业解决问题、增加价值。   中国软件大会专注于促进和传播企业级软件技术的创新,得到了社会和行业的广泛认可,每年吸引“1000+”软件业精英参会,已成为国内软件技术领域影响巨大的年度盛会。工业和信息化部信息化和软件服务业司司长谢少锋,中国电子信息产业发展研究院院长卢山,软件和信息技术服务企业代表、投资机构专家、知名学者等众多嘉宾出席了大会。 人工智能是引领未来的战略性技术。今年7月,国务院发布了《新一代人工智能发展规划》,提出面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施,部署构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国。   昆仑数据已在新能源、石油石化、动力装备、工程机械、电子制造等行业中应用大数据、深度学习、机器学习等技术取得显著成效,未来将进一步深入行业需求,引领人工智能落地工业。...

Read More