联系方式 Contact

北京mg电子游戏娱乐场 信息技术有限公司

地址:北京市朝阳区望京SOHO塔二C座12层

电话:010-84161046/84161048

传真:010-84161046

网站:http://www.boforsik.com

搜索 Search
你的位置:首页 > mg老虎机 > 行业新闻

邬贺铨——未来五年物联网的数据分析市场将年增30%

2016/5/13 11:56:26点击:

邬贺铨——未来五年物联网的数据分析市场将年增30%

中国信息化百人会顾问、中国工程院院士、中国互联网协会理事长邬贺铨 近日在"2016大数据产业峰会"上发表了关于大数据技术发展的趋势的演讲。邬贺铨指出,物联网将是下一个数据分析应用的热点,未来五年,物联网的数据分析市场将会年增30%,同时2015年也是认知和机器学习应用迅速增长的一年。

以下内容根据邬贺铨演讲摘要编辑:

我就大数据技术与产业及影响谈一下我的看法。先看一下数据挖掘的过程,从数据资源、数据采集、数据存储、数据传送到数据分享、数据挖掘、数据呈现、数据应用,产业、安全、法规人才。 并不是所有的数据都要拿来挖掘,首先要进行取样分析,在选择数据的时候要进行提取,标签化。对一些非结构化的数据还要进行变换处理,然后分类收集,最后抽取出原数据,然后把原数据再融合,这个过程是要反馈的。首先看数据融合,传感器的数据是物理空间的数据,网络空间的细分空间,还有政府企业收集的相关数据。

2013年,全世界来自消费企业的数据占三分之一,当然里面很多国家安全、个人隐私的这些数据是不能开放的。大数据里头有一部分的数据是开放的,当然数据本身有结构化的、非结构化的、半结构化的。再看大数据分析的流程, 实际上所谓大数据很多时候既很难说它什么时候开始,也很难说它什么时候会结束。在整个数据获取的过程中是不断的流进来的,我们要通过分析模型来引导和收集。我以阿里云的大数据平台为例,它底层有计算引擎,上面有数据的开发和加速,有数据管理、数据资料保障,数据监控。用到机器学习上,在上层是应用开发,这里面可以根据你的需要选择规则,准备分析,还有评价或者是推荐优选,可视化、具体人群,或者是识别文字、识别语音。最后是面向解决方案的,可以面向智能支付,企业的精准营销,交通路况预测,以及我们监控的安全预警等。

再次,大数据需要实时抽取,这张左边的照片是罗马,这是拍到的古罗马的移植。如果我希望了解当时古罗马的样子,可以把分散的照片以及留下来的一些照片聚合起来,可以形成一个古罗马的最后的全貌。 这是用到信息融合技术。它把分散的数据集合成一个全集的数据。以下的两张图是一样的,右边屏蔽掉我不关注的部分,然后抽取我所关注的部分。在繁杂的大数据中,我需要信息抽取来获取我所感兴趣的数据。

大数据还要做到可视化,这是交通数据的可视化,是以色列的克拉维夫,它有很多摄像头,传统的摄像头是分散的,孤立的,现在通过大数据的可视化技术把它组合成一张图,不同的十年,路上的状况不一样,用不同的颜色标注交通管制等等。

我们再看北京PM2.5,去年PM2.5超标,有些人怀疑自己肺有毛病,到医院做了几个CT,医生看分散的CP照片是很难的,希望通过虚拟化把它还原成一个肺,再看看有没有纤维化。甚至可以用ARER的技术,深入的研究身上有没有病灶和毛病等。还有交通的路矿预测,以及我们监控的安全预警等。当然了,也可以面向媒体、能源等, 所以大数据里头主要的有计算引擎、数据开发和运用开发加速。

我们再看看数据挖掘的算法,首先要通过合并压缩转换,然后是统计分析、支持发现可视化,最后是规则、分论、绪论、序列、路径,涉及到一大堆的算法,我们可以看到这里面有数据获取,转化与存储,然后是数据虚拟化和摘要,最后是决策分析。需要用到一些软件。大数据首先是计算问题,是不是所有数据都可以计算呢?不一定,有些数据是可以判定的,它是容易解释的,可以有多项算法来解释,但是有些数据是比较难解的,这里头有一类是不可近似的,有一类是可近似的。 我们首先要探索数据复杂性的规律和关系的生成机理,然后建立数据复杂性的理论和模型,这里面包括数据的结构和学习,最后还要把数据简化。所以,美国加州大学图像可视化中心已经组成了语音非结构化数据。现在我们高校在大数据研究上还可以,但是做一些数据分析的单位没有数据,而拥有数据的单位有些不会分析。

用得比较多的还是大数据分布存储和冗余备份,它把数据通过冗余配置来提高可靠性,这样的话,简易服务器仍然可以在一个低的价钱下,低的成本下得到比较可靠的服务。我们通过调度再分组组合,这是我们需要的结果。这个图可以比较形象的说明,左边是数据的来源,当然每个来源可能都有各种各样的数据,需要进行认识,进行分类提取,我们可以把它分到不同的地方,这样一来,才可能简化我们数据挖掘的工作。

我再举个例子,这是在无锡,对太湖的污染状况的传感器数据分析。它使用了很多种传感器,有硝酸盐、有氨氮的、溶解氧的、水温的,但是并不是所有的传感器获得的数据都是等同对待的。我们可以看到各类数据都一样。但是与太湖的蓝藻爆发强度有关的,首先是溶解氧,然后是水温,基于氨氮、硝酸盐的关联没那么大,所有的数据是需要加权处理的,根据它的影响角度不同,我们给它的值也不一样,只有这样才可以反映出我们最终的分析结果。

另外,还是以太湖为例,我们不但有地基系统的水质探测的传感器,有卫星探测传感器,还有人工采集传感器,多种数据要放到数据采集以后,要利用已知的湖泊模型,还要把历史数据拿出来对比,然后才能判断这些数据是不是可能产生蓝藻。这个判断后台需要用到3S技术,云计算技术,数据中心与数据挖掘,所以我们讲究的是要一元数据协同处理。 大数据最难的是非结构化数据,图象、照片、视频是非结构化的,目前计算识别图象视频还是有一定难度的,谷歌前几年的做法是计算机识别猫,有15%—20%的识别率,一般的非结构化数据需要把它转化成结构化数据,然后再来进行处理。 我觉得非结构化数据本身要进行收集、规律、组织,然后再解释,编辑,再通过上下文的关联增进理解。

不过目前对非结构化数据处理已经有了一定的进展,这是一张照片,照片本身通过计算机是看不出来是什么的,谷歌的工程师已经在照片旁边附加了一段文字,他通过一定的算法来分析。他说一群人在室外的市场上购物,在水果摊上有很多蔬菜,将来计算机扫描的时候只要扫描这个摘要就行了,不需要关注照片是什么样子。也就是说把非结构化的照片变成结构化的文字。那么我们再看如果你出差到俄罗斯,或者到俄罗斯旅游,现在会俄文的人很少,但不要紧,你拿手机拍下来,直接上到云端搜索,它会用英文或者中文显示。 实际上所有的非结构化数据都可以转成结构化数据来处理,比如说通常视频都会有音频和字幕,用语音识别的办法把音频抽出来可以转成文字,在这方面科大迅飞已经做得相当不错了。另外,很多视频里头还会嵌入文字的字幕。对一些照片、标语里的文字也可以扫描,所以说非结构化数据也是可以转化为结构化数据处理的。

我们再来看这是运用大数据进行的,右边的屏幕上打出声音翻译成了中文。这里面没有同声传译,它是基于微软掌握的大数据技术、神经网络技术、机器学习技术以及上百万素材,一边讲话一边翻译成中文,这是大数据应用,同时反过来大数据需要应用人工智能技术进行非结构化数据的处理。

这是医疗大数据虚拟化的应用。大数据究竟会用到什么样的技术,IDC公司在去年说,2015年富媒体、音视频和图象的分析在未来5年会增长100%,在北美有板数公司报告在大数据分析项目里已经使用了富媒体数据。也就是说虽然是非结构化的,但是在大数据里头分析还是很有用处的。

另外,数据即服务,过去有IaaSPaaS,现在有DaaS,就是将大数据作为服务,现在DaaS已经成为云平台和大数据分析提供商的战略供应链。

还有物联网是下一个数据分析应用的热点,在今后五年,物联网的数据分析市场会年增30%,另外2015年是认知和机器学习应用迅速增长的一年。

大数据分析在企业的应用,目前来看,大部分企业是把大数据分析用于客户分析,然后是运营分析,然后是诚信分析,还有10%是新产品和业务创新,另外10%是企业数据仓库优化。 大数据支撑最大的产业,一是离散制造,二是银行,三是流程制造。

大数据在供应链里头也有很好的使用,包括供应链的规划、分析和挖掘,电子数据交换,贸易管理、仓库与分销中心管理。大数据在供应链的应用场景中供应链的可视化数据56%,位置和映射数据47%,产品和可追溯数据42%,温度与产品流数据24%RFID数据18%

数据挖掘服务,我这里举的是中国联通的例子,中国联通把他的BSSOSS数据都收集起来,OSS数据包括上网流量、IP地址,BSS包括用户详单、资费等等,通过数据源处理、采集、加载、格式转换、模型转换、数据脱敏然后再进行,这边是数据的产生提取,这边是根据需求,客户有些什么数据挖掘的需求,然后他审核这个需求,然后从数据集里准备,再通过一定的模型,发掘出来申请发布,再通过集团的审核,服务包装最后输出。

中国联通已经为大众汽车提供数据,它的原始数据中国联通是不提供的,大众汽车请中国联通提供究竟购买汽车的用户对汽车有什么需求,中国联通准备了100页的PPT交给大众汽车,大众汽车付了100万元,也就是说每页PPT值一万块钱。

上下游支撑大数据的技术和产业有什么呢?宽带网、存储器、云计算、数据库、人工智能、分析软件,大数据支撑的产业就多了,包括建筑业、能源矿业、交通运输业等等。不能把存储、云计算全都算到大数据行业,只能把为大数据做分析的产业,云计算和网络算到大数据产业。而广义的大数据产业一般大于大数据信息产业,大数据本身服务业的属性大于大数据软硬件的制造业,而大数据对其他产业的影响是大于对信息产业的影响的, 大数据的社会效应大于直接经济效益。所以,大数据影响之大和受到广泛重视也是因为它的溢出效益明显。

提到麦肯锡说的大数据价值,大家都知道,一年能给美国保健带来3000亿美元的潜在价值,能给欧洲公共管理带来2500亿欧元,能给服务业带来6000亿美元的盈余,能给制造业降低50%的成本,政府的数据开放会给全世界经济带来32200亿到54000亿美元的红利,教育将近一万亿美元,运输7000—900亿美元等等。

这是WikiBon统计的,主要分为硬件软件的服务,软件占22%,硬件38%,服务占40%,这是当时的统计,时间段是2013—2017年的。今年又发布了2011年到2026年的。2014年,全世界大数据市场是273.6亿美元,到2020年是840亿美元,都是在增长,连增17%

IDC的统计,以上这个表是从2010—2016年,统计的大概是什么呢?大概是238亿美元,这里面的数字是百万美元,翻成亿,就是238亿美元,这是2016年。2017324亿美元,2019年是486亿美元,这个看上去跟WikiBon的统计有点区别。

Statista的统计又不一样,2016年是273亿美元,2020年是573亿美元,2026922亿美元,也就是说差不多十年以后,接近一千亿美元的规模,当然这个数字还不算很大,估计到2026年华为也可能到这个水平了,所以,我们大数据这个值不是很大,大家如果把所有的服务器都算进去就比较大了。

另外一个咨询公司Frost Sullivan给出的数据增量到2025年是到100,全数据大市场产生的收入,2025年是122亿美元,各个公司的估计是有所不一样的。这是大数据产业链,做分析的有这么多企业,做应用的也有这么多,做交叉关联的和分析的有这么多。

这些知名的大数据技术企业,IBM、英特尔、甲骨文、SAP、惠普、红帽、SAS、微软、谷歌、EMC,亚马逊,我加了两个,阿里云、百度云,也就是说我们中国的企业在这里面还是少数。

中国各个地方纷纷布局大数据产业,目前已经有23个省出台了74项跟大数据相关的政策。目前,全国已建和在建的大数据产业超过10个,有证券公司分析,2016年中国通信大数据市场要达到342亿元。刚才会前放的视频说2015年我们是150多亿元,如果这个数字对的话,这两个数字一比就增加100%。这里说较上年增长163%。其中大数据基础设施占60.5%,市场规模207亿元。

国家在去年出台了促进大数据发展的行动纲要,要培育高端智能新兴产业发展新生态,要推动大数据、互联网跟移动互联网的融合,培育新的增长点,形成满足大数据应用需求的产品系统和解决方案。要求到十三五结束时,大数据产品和服务要达到国际先进水平,看来我们现在还有一定的差距。要培育一批企业,要形成产业生态。

这是今年3月份全国人大通过的十三五规划,专门有一章是关于促进大数据产业健康发展的,提到了深化大数据在各行业的创新应用,探索和传统行业协同发展的新业态、新模式,加快完善大数据的产业链。还有加快海量数据的采集、存储、清晰、可视化、安全、隐私保护等领域的关键技术攻关,促进大数据软硬件产业的发展,加强标准体系和质量技术基础建设等。

习总书记在2013年考察中科院时提到,研究表明,工业化时期数据量大约每十年翻一番,现在数据量每两年翻一番,浩瀚的数据海洋就如同工业社会的石油资源,蕴含着巨大的生产力和商机,谁掌握了大数据技术,谁就掌握了发展的资源和主动权。20156月,在贵州调研时, 习总书记提到,我国大数据采集应用刚刚起步,要加强研究,加大投入,力争走在世界前列。