首页 » 创新资讯 » 行业新闻

联合实验室能否解开大数据难题

来源:中国电子报、电子信息产业网   作者:李佳师  发布时间:2014-08-29

  近来,大数据被炒得热得发“烫”,只要和数据有关的事情全部都被冠以了“大数据”之名。从目前在中国开展大数据服务的情况来看,投身其中最积极、见效最快的是互联网公司,尤其是BAT,因为互联网服务提供商拥有庞大的数据,是天然的大数据服务提供商。从大数据应用来看,精准营销是目前用得最多也是最成功的大数据服务。但应该说我们今天所看到的仅仅是大数据应用这个汪洋大海中的冰山一角,甚至可以说是沧海一粟,我们要打开大数据应用的大门,让大数据真正成为我们经济社会转型升级的“石油”,需要各界机构勇敢地联姻ICT公司,需要大家跨界融合。

  眼下,最值得关注的事情,是各种与大数据相关的联合实验室的建立。不久前百度与联合国开发署建立了大数据联合实验室,研究的领域是环保健康,未来还会拓展到教育和灾害管理等。首个项目是设立“百度回收站”应用,让用户手机一拍废旧电器,就能够显示电子垃圾类别和回收价格,用户填写准确信息,就会有回收厂商进行联系,破解电子垃圾回收难的问题。也是在最近,北京市环境保护科学研究院与IBM建立了联合实验室,目标是利用认知计算、大数据分析、物联网等相关技术,助力北京市加速雾霾治理。同样是在最近,浪潮集团与交通运输部公路科学院建立“现代物流大数据应用实验室”,目标是运用大数据加速物流的智能化转型。还是在不久前,电子科技大学与朗玛信息公司建立医疗大数据联合实验室,目标是利用大数据破解健康难题。如此多大数据联合实验室的建立,说明一个重要的事实,即大数据利用需要“融合智慧”。大数据之难事实上是难在对数据的理解和分析上,如何建立每一个领域的大数据分析模型,如何获得大数据的洞察,既需懂“数学”又需要懂“行业”,二者缺一不可,也只有各个行业与ICT企业融合才有可能真正找到大数据中蕴含的“智慧”。而联合实验室的建立正是孵化“你中有我”、“我中有你”的“融合智慧”最有效的路径。

  大数据是一个真正“融合”的产业,无论是传统产业还是ICT产业都需要融合其他领域的智慧。而抢占融合的机会,也是需要趁早行动的,也是需要占位的。也许大家还记得当年阿里巴巴联合天弘基金推出“余额宝”的事,就在他们联手推出余额宝后不久,各种理财的“宝”、各种消费的“白条”纷纷推出,向市场抛出了高回报的理财产品,但是谁也抢不走“余额宝”的头筹,无论是用户数还是资金量或是市场号召力和影响力,都没能敌过他们,就因为他们是进入市场的第一个。在这个到处是“融合”和“混搭”的移动互联时代,你必须成为第一,才能摘得最大的果子,移动互联网如此,大数据的利用同样如此。要想抢占某个领域的大数据“山头”,必须动手,现在就要动手。

  在刚刚举行的中国互联网大会的大数据论坛上,尽管有很多业内人士看到目前中国的大数据应用,也泼出了很多的凉水,但就和所有的产业启动一样,每一个产业的开启一定会遇到各种各样的问题,用户接受度、数据共享、标准、缺位等等,而这些问题一定是在产业不断推进、演进的过程中不断克服,不断解决的。只有走出去、迈开步子,才有可能知道路上的绊脚石,先搬哪一块,用什么方法搬,走一步解决一步,大家一起探索,大家一起推动,才有可能真正迎来大数据应用的春天。而要拥抱大数据,推动大数据的发展,现在需要让ICT与其他各个产业界都勇敢地拥抱对方,大家一起来“跨界”。

  百度大数据部总经理陶海亮

  百度大数据应用已有很多落地成果

  百度已发布了大数据引擎战略,把百度的大数据应用技术能力开放出来,让各行各业都可以去使用。

  今年4月份,百度发布了大数据引擎战略,把百度多年来积累的大数据应用技术能力开放出来,让各行各业都可以去使用。这个大数据引擎包括了三个部分,最底层叫做开放云,大家理解为云计算,但是百度的云的规模更大一些,因为我们有一些独有的技术。在开放云上面我们还有数据工厂,数据工厂是新一代数据库管理的技术,还有挖掘方法。数据工厂的上面是百度技术核心,叫做百度的大脑。百度大脑已经达到了非常先进的程度。

  今年我们推出了一些大数据的应用产品。比如旅游预测。旅游预测有两个部分,一个部分叫景点预测,这是我们跟旅游局和各地的旅游管理机构合作,对未来一周,或者是几天,每一个景点的人流情况进行预测。另一个是基于我们旅游的数据去对道路和城市、旅游的出发地的预测,这个预测结果对于我们的旅行社和管理部门很有价值。疾病预测,是6月份上线的,我们从中国疾病控制中心拿到了一些数据,将这些数据跟我们百度的数据相结合,我们可以对全国所有的地级市,以及全国2800个县区的多种疾病的发病态势进行预测。高考预测,这是我们今年高考之前上线的产品,这个高考预测产品有很多的内容,比如作文高考命题在什么方向,我们给出了六个方向,每个方向给出了三套题,给出了内容和范文。百度司南,这是我们基于大数据的商业决策平台,我们的司南能够对市场行为进行评估,对消费者动态进行洞察,比如我们知道很多的企业会请代言人,什么样的代言人跟你产品比较吻合,过去没有一个很好的基于数据的指标。我们的司南这个产品,可以直接给出答案,你的产品跟哪一个代言人比较匹配,如果你是卖“马自达6”的话可能请吴莫愁和王菲比较合适,请周杰伦不太合适,我们的产品可以数据化告诉你营销应该怎么做,客户是什么样的,市场格局是什么样的。

  缔元信网络数据CEO秦雯

  技术伦理不解决中国大数据永远有泡沫

  大数据领域面临很多问题,包括企业深受其害的广告虚假点击等,这些问题不解决大数据永远有泡沫。

  目前大数据领域存在认知混乱问题。首先是很多做数据中心的公司号称自己是大数据公司,我们知道数据中心是所有互联网业务的网络基础设施,大数据只是他要支撑的业务的一部分。其次做云计算的,也认为自己是大数据公司。云计算是大数据的系统基础设施,当然海量数据的处理,没有云计算是不可能实现的。但云计算只是大数据整个产业或者说是应用的组成部分。但是云计算不等于大数据。再者,很多人把大数据等同于数字化信息,并不是所有的数字化信息一定产生大数据。我们认为大数据是数字化信息的生产和被消费的过程数据。最后的一个误区是认为大数据就是海量数据。究竟什么是大数据,我们认为大数据是行为环境的过程记录数据。

  大数据的发展有两个关键都与互联网有关。一个是因为有互联网,所以我们能搜集到非常细致的数据。第二个是互联网技术能够以非常低的成本采集和使用大数据。

  数据应用存在生态环境问题,我想讲几个方面,第一个是公共数据,公关数据涉及几个层面,一个是用户隐私,一个是数据开放,一个是技术伦理。我想讲一下公共数据问题,很多人认为中国政府拥有最多的数据,但是我们细看其实有很多的问题,首先绝大部分政府在业务上的数据都是统计数据。另外数据质量有很大的问题,因为中国全社会没有养成数据培育和数据管理的习惯,政府部门也不例外。另外很多数据是缺位的,我举一个例子我相信今天做的互联网的相关业务人员都有感触,中国的IP地址数和IP地址分布情况,现在市场上流行的是民间整理的,这个事情应该由政府来做,并且作为公共数据开放出来,这些方面现在是缺失的。技术的伦理问题,我们知道互联网技术能做很多的事情,而且这样技术工作常常是道高一尺,魔高一丈。我们大家都熟悉的,很多企业身受其害的广告虚假点击等问题,给我们带来的思考是我们的技术应用是不是需要讲究商业道德和伦理,如果这个问题不解决,说实话在中国大数据落地永远是泡沫。

  北京航空航天大学计算机学院副院长胡春明

  大数据处理要“3I”

  每次讲大数据的特征我们都讲4V,对于大数据的处理我们认为也存在三个特征,叫做3I。

  大数据链条中仍然存在一些问题,比如很多人认为多元的大数据集就代表了真实的世界,但是实际上是吗?我们观察发现其实在采样的过程中就有偏差,所以从这个角度讲,数据是有质量的问题。第二个问题是我们讲了大数据之大,大到我们处理不了,我们应该如何来处理大数据?在处理的过程中我们需要把大变小,就会要丢掉一部分的数据,这是第二个面临的问题。第三个问题是如何从数据中寻找知识和预测。这个预测的方法比之前的数据挖掘更进一步,需要新的统计理论和数学工具,新的计算理论和算法、设计方法,新的大数据分布式计算机基础设施找到知识和预测,这是第三个问题。

  每次讲大数据的特征我们都讲4V,对于大数据的处理我们认为也存在三个特征,叫做3I。第一个I叫做非精确。第一个层面是我们今天做的很多的计算或数值、术语不一样,不需要那么精确,我们往往需要知道的是一个大的方向和态势。另一方面是我们面临的环境没有办法做得那么精确,数据在不断的变化,没有办法得到一个稳定的视图,所以没有办法严格地去做,我们就放松要求,我们在计算里面坚持非精确的一个思路,当然非精确不意味着随便去做,我们仍然需要有一些最基本的服务质量的保证。需要有一些办法来避免这个通过非精确来减少计算成本的同时,保证一定的服务质量,这是我们认为的第一个I的特征。第二个I的特征可能和大数据里的动态持续变化紧密相关。数据因为是持续变化的,可能新来的数据占到过去历史上所有数据的很小比例。如果我们能够把我们的计算变得增量化,我只是针对新到来的比较小的数据块做计算,然后能把这个计算的结果融合到已有的计算结果里面,这样的话我们就在一定程度上减轻我们讲的大数据之大的影响。当然这个增量本身依赖一些前提条件,有一些算法或者是问题适合增量处理,有一些算法并不一定适合。所以说从这个角度来讲,我们可能要运用一些新的思想和方法来设计,支持增量的算法,同时我们在分布式的计算系统里面支持这样一种增量计算的处理的能力,这是我们认为三个I里面的第二个I。第三个I叫做归纳性。大数据是多元融合的数据,这些数据代表了现实世界,代表了我们统计学上所谓的总体。那么从这个角度来讲我们往往会有这样的思想,我们如果能够把来自不同源的数据,及时相互参照,有所发现,就会给我们带来机会,这是我们利用一种相互的参照来简化计算,同时能够解决前面两个非精确带来的误差。这是我们人为的大数据计算的三个I。

责任编辑:李尚峰
相关评论
新产品展示
促进会会员征集
设为首页  |  关于我们  |  会员服务  |  友情链接  |  联系我们
中国·广西工业创新促进会 ©版权所有  桂ICP备14000625号-2