大数据报告
大数据—未来的石油
小组成员:韦德城,彭浩宇,孙亚威 指导老师:苗俊杰
2013/12/14
摘要:
大数据有三个重要的特征:数据的量很大、数据的形态更多样、数据产生和处理的速度极快。大数据包含两个方面的内涵,一方面它是指那些具备以上三个特征的海量数据资源本身,另一个方面是对这些庞大而又杂乱无章数据的处理和深度挖掘。大数据对决策、设备管理、基层管理等社会的各个方面都有它独特的应用,有利于我们更好的分析和处理问题。但是大数据现阶段的发展也有他自身的问题:技术不够完善,成本消耗过高,不够环保,占用很大的内存空间,缺乏时效性等等。不过随着科技的发展和越来越多的机构企业对大数据的重视和投入,大数据的前景十分宽广,相信未来人类会从大数据这个“未来的石油”中得到更大的益处。 关键词:大数据、未来的石油、数据挖掘分析
2
目录
摘要: ......................................................... 2 1 引言 ......................................................... 4 2 大数据的定义 ................................................. 4 2.1三个特征 ................................................ 5 2.2一些背景 ................................................ 5 2.3有趣的例子 .............................................. 6 2.4大数据的分析对象 ........................................ 7 3 大数据的作用 ................................................ 7 3.1 商业智能 ................................................ 7 3.2决策 ................................................ 7 3.3公共服务 ................................................ 7 4 处理技术 ..................................................... 8 4.1 hadoop .................................................. 8 4.2 NoSQL ................................................... 8 4.3分析型数据库 ............................................ 9 4.4流数据 ................................................. 10 5.弊端和展望 .................................................. 10 5.1大数据本身存在的问题: ................................. 10 5.2大数据所产生的问题 ..................................... 11 5.3发展前景 ............................................... 12 参考文献 ...................................................... 12
3
1 引言
大数据是如今最热门的话题之一,无论是微软、谷歌还是苹果都将大数据看为了最重要的战略方向。其实所谓的大数据已经不只是一个方向,而是正在成为一个现实,人类已经进入了大数据时代,数据的影响已经渗入到了产业、科研、教育、家庭和社会等各个层面。本文主要大数据的特征、产生背景、处理方法、作用和弊端以及其发展的前景等几个部分进行简要分析,使读者们对大数据有个初步和直观的认识。
2 大数据的定义
什么是大数据呢?
麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《Big data: The next frontier for innovation, competition, and productivity》中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB 值的数据集才能算是大数据。
国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
亚马逊的大数据科学家John Rauser 给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。
百度百科中是这样介绍大数据的:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
而维基百科中则是这样介绍大数据的:大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。 “对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。”微软公司全球资深副总裁、微软亚太研发集团张亚勤博士接受记者采访时说。
大数据是一个宽泛的概念,见仁见智。上面几个定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。 而我们认知的大数据包含两个方面的内容,一方面它是指那些具备3V特征(Volume、Variety、Velocity)的数据本身,就是海量的数据资源。另一个方面是对这些庞大数据的处理和深度挖掘。
4
2.1三个特征
第一,数据的量很大(Volume),以现在的技术,它一般是指至少是10TB以上的数据。当然随着技术的进步,这个数值也会不断的增大,也许几年后只有EB级以上的数据才能称得上是大数据了。
第二,数据的形态更多样(Variety),即是说数据来源的多样性。比如除了传统的销售,库存等数据,现在企业所采集和分析的数据还包括像网站日志数据、呼叫中心电话记录、Twitter和等社交媒体中的数据、智能手机中内置的GPS所产生的位置、时刻生成的传感数据,甚至还有图片和视频等数据资源,甚至连你打开一个网页都会被记录下来,然后被用来分析。
第三,数据产生和处理的速度极快(Velocity)。例如,整个日本的便利店在24小时内产生的POS(Point Of Sales)数据,电商网站中由用户访问人产生的网站点击流量数据,高峰时高达每秒7000条的Twitter推文,日本全国路上安装的交通堵塞传感器和路面状况传感器(可检测结冰,积雪等路面状况),每天都产生庞大的数据。
2.2一些背景
从2008年中到2009年末很短的时间段内,IT领域的四个不同的部分不断取得新进展,大幅度提高了现有的计算能力,为大数据的应用迎来了发展的机遇. ① 内存容量翻番;
② 网络速度显著提升,而价格却持续下降;
③ 在存储介质上,普通硬盘逐渐被固态硬盘和闪存取代; ④ CPU性能增强(计算能力增强,核数增加)
这些技术进步多年来一直持续,只是步调不同,有的节奏更快,有的较为平稳.但到了2009年中期,几乎在同一时间点上,四方面同时取得突破,促成了计算能力的大幅度提升,成为大数据广泛应用个的触发力量.进入2012年,这种计算能力的全面提升,再加上对社交网络数据、机器数据等分析需求的释放。一个有利于大数据产生兴起的外部环境应运而生。大数据驱动了包括、公用事业及企业等各种机构在IT方面新支出的产生。
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。“麦肯锡的报告发布后,大数据迅速成为了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。”随着互联网技术的不断发展,数据本身是资产,这一点在业界已经形成共识。“如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。”事实上,全球互联网巨头都已意识到了在“大数据”时代数据的重要意义。包括EMC、惠普、IBM、微软在内的全球IT 巨头纷纷通过收购“大数据”相关厂商来实现技术整合,亦可见其对“大数据”的重视。“大数据”作为一个较新的概念,目前尚未直接以专有名词被我国提出来给予支持。不过,在2011年12月8日工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。
5
2.3有趣的例子
三百多年前,一个名叫约翰.格朗特的英国缝纫用品商提出了一个很有新意的方法——样本分析法。他用了新方法推算出鼠疫时期伦敦的人口数。它不需要一个一个地计算,虽然这个方法比较粗糙,但是采用这个方法,人们可以利用少量有用的样本来获取人口的整体情况。
虽然后来证实他能够得出正确的数据仅仅是因为运气好,但是当时他的方法还是大受欢迎。样本分析法,一直都有较大的漏洞,无论是进行一次人口普查还是其他大数据类的任务,人们还是使用一一清点这种野蛮的方法。考虑到人口普查的复杂性及耗时耗费的特点,极少进行普查。而统计学家们证明采样分析的精确性随着采样随机性的增加而大幅度高,但是要做到随机性是很难的。以前我们采用随机抽样是因为技术有限,现在技术进步了,计算和制表不再像过去那样困难了。采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据时,它就没有什么意义了。采样有很多缺陷,特别是在今天这个对精确度要求越来越高的社会,在很多领域,从收集部分数据到收集尽可能多的数据转变已经发生了。因此如果可能的话,我们会收集所有的数据来进行分析,即“样本=总体”
正如我们所看到的,“样本=总体”是指我们对数据进行深度探讨的方法,而采样几乎无法达到这个效果。就拿人口普查来说,用采样方法分析整个人口情况,精确率可达到97%,但是还有3%的错误率,虽然可以接受,但是你还是无法得到一些微观细节的信息,甚至还会失去对某些特定子类别进一步研究的能力。生活中有趣的事情常常隐匿在细节之中,而有些时候用采样分析却无法捕捉到这些细节。
2008年出现了一种新的流感病毒。这种病毒叫甲型H1N1,在短短几周之内迅速蔓延。全球公共卫生机构都担心一场致命的流行病几将来临。当时和糟糕的事,研究机构还没有研究出新药,公共卫生专家所能做的只是减慢它的传播速度。但要做到这一点就必须知道这种流感出现在哪里。美国和其他国家一样,都要求医生在发现新型流感病例时高速疾病控制和预防中心。但是人们有可能患病多日直到实在受不了才去医院,同时这个消息传回疾控中心也需要时间,因此,通知新流感病例时往往会有一两周的延迟。而且疾控中心每周只进行一次汇总。然而,对于一种飞速传播的疾病,信息滞留一两周是致命的。这种滞后导致公共卫生机构在疫情爆发时期反而无所适从。在甲型H1N1流感爆发的几周前,互联网巨头公司谷歌的工程师们在《自然》杂志上发表了一篇引人注目的文章。它令公共卫生们和计算机科学家们感到震惊。文章解释了谷歌为什么能够预测到冬季流感的传播,不仅是全美范围内的传播,而且可以具体到特定的地区和州!谷歌通过观察网上的搜索记录来完成这个预测,这个方法以前是一直被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都有来自全球的30亿条新的搜索指令,如此庞大的数据资源足以支撑和帮助他们完成任务。谷歌公司吧5000万条美国人最频繁的检索词条和美国疾控中心在2003年到2008年间季节性流感传播时的数据进行了比较。他们希望通过分析人们的搜索记录来判断人们是否患上了疾病,其他公司也曾试图确定这些相关词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和分析技术。
谷歌流感趋势预测并不是依赖于对随机样本的分析,而是分析了整个美国十亿条互联网检索记录。分析了整个数据库,而不是对小样本进行分析,能够提高微观层面分析的精确性,甚至还能够推测出某个特定城市的流感状况。有一个在计算机行业非常精通的人说了一句话:“这是一个暂时的数据,随着你收集的数据越多,你的精确性就越高。” 大数据采用的不是随机分析法这样的捷径而是对所有数据进行分析的方法。
6
2.4大数据的分析对象
我们来说一下大数据分析的基础。它要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本,我需要接受数据的纷繁复杂,有些人可能会认为对全部数据进行分析,精确性不高,并且耗时耗力。但是从上面的例子可以看出,“样本=总体”的分析方法,确实会提高精确度。因此,对研究对象的总体进行分析是可取的。
3 大数据的作用
3.1 商业智能
商务智能可有效提高企业运营活动的效率。如在零售行业,由于同类产品的差异小,可替代性强的特点,零售企业销售收入的提高离不开出色的购物体验和客户服务。零售企业需要根据销售有特色的本地化商品并增加流行款式和生命周期短的产品,零售企业需要运用最先进的计算机和各种通信技术对变化中的消费需求迅速做出反应。通过对大数据的挖掘,零售企业在选择上架产品时,为确保提供式样新颖的商品,需要对消费者的消费行为以及趋势进行分析;在制定定价、广告等策略时,需进行节假日、天气等大数据分析;在稳定收入源时,需要对消费群体进行大数据分析,零售企业可以利用电话、Web、电子邮件等所有联络渠道的客户的数据进行分析,并结合客户的购物习惯,提供一致的个性化购物体验,以提高客户忠诚度。同时,从微博等社交媒体中挖掘实时数据,再将它们同实际销售信息进行整合,能够为企业提供真正意义上的智能,了解市场发展趋势、理解客户的消费行为并为将来制定更加有针对性的策略;
3.2决策
通过对大数据的挖掘,可有效提高决策的科学性和时效性。如:日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制定了详细的应急方案,并将制作的海啸影响模型发布在等网站。
3.3公共服务
一方面,利用大数据技术把积累的海量历史数据进行挖掘利用,可以提供更为广深的公共服务,另一方面,可以通过对卫生、环保等领域的大数据进行实时分析,提高危机的预判能力,为实现更好、更科学的危机响应提供了技术基础。如在交通系统,
7
随着汽车工业的发展,车辆保有量的不断攀升,车与路、车与环境之间的矛盾日趋加剧,诸如交通堵塞、事故增多、能源浪费和环境污染等问题的恶化,需要通过对历史以及现在的车辆情况、路网情况的实时大数据分析,制定更为优化的系统方案,使车辆行驶在最佳路径上,缩小行车时间、节省燃料、减少环境污染,提高路网通行能力和服务质量。比较典型的例子就是谷歌公司在08年对流感病毒的预测。
4 处理技术
4.1 hadoop
数据之大,对他的处理显然需要很高的技术。目前支持大数据分析的关键技术之一就是Hadoop,它就是以开源形式发布的一种对大规模数据进行分布式处理的技术。关于MapReduce和Hadoop的关系,MapReduce指的是一种分布式处理的处理方法,而Hadoop则是将MapReduce通过开源的方式进行实现的框架的名称。简单的说,MapReduce指的是一种方法,而对其实现的形式并非只有Hadoop一种。反过来说,提到Hadoop,则是基于Apache授权协议,以一种开源的形式发布的软件。Hadoop由三大部分组成,即用于分布式存储大容量文件的HDFS分布式文件系统,用于对大量数据进行高效分布式处理的Hadoop MapReduce框架,以及超大型数据表HBase。从数据处理来看MapReduce是其中最重要的部分。他并非用于配备高性能CPU和磁盘的计算机,而是一种工作在由多台通用型计算机组成的集群上,对大规模数据进行分布式框架处理。在Hadoop中,是将应用程序细分为集群中任意节点上都可以执行的成千上万个工作负载,并分配给多个节点来执行。然后通过对个节点瞬间返回的信息进行重组,得出最终答案。虽然存在其他功能类似的程序,但是Hadoop依靠其处理的高速性脱颖而出。Hadoop一大优势在于,过去由于成本,处理时间的而不得不放弃对大量非结构化数据的处理,现在则得以成为可能。也就是说,由于Hadoop集群的规模可以很容易地扩展到PB级甚至是EB级别,因此,企业的数据分析师和市场营销人员过去只能依靠抽样数据来分析,而现在可以将分析对象扩展到全部数据的范围了。而且由于处理速度比过去也有了飞跃的提升,现在我们可以进行若干次重复的分析,也可以用不同的查询来进行测试,从而有可能获得过去无法获取的更有价值的东西。
4.2 NoSQL
作为大数据的分析技术,与Hadoop平起平坐的越来越受关注的就是NOSQL数据库了。在传统上使用的关系型数据库管理系统(RDBMS)中,是通过SQL这种标准语言来对数据库进行操作的。而相对的NOSQL数据库并不是使用SQL语言。因此,有时候人们会将其误认为是对使用SQL的现有的RBDMS的否定,并将要取代RBDMS,而
8
实际上并非如此。NOSQL是对RBDMS的补充,应该理解为”NOT ONLY SQL”
SQL与NOSQL之间的区别: RBDMS NOSQL 数据类型 结构化数据 主要是非结构化数据 数据库结构 需要事先定义,是固定的 不需要事先定义,并可以灵活改变 数据一致性 扩展性 通过ACID特性保持严密的存在临时的不保持严密一致性状一致性 态(结果匹配性) 基本是向上扩展。由于需要通过横向扩展可以在不降低成本保持数据的一致性,因此性的前提下应对大量访问,实现线性能下降明显 扩展 以在一台服务器上工作为以分布协作式工作为前提 前提 为了提高故障容忍性需要有很多无单一故障点的解决方案,很高的成本 成本低 SQL 支持多种非SQL语言 (和NoSQL相比相对)较(和RBDMS相比相对)较大规模小规模数据 数据 服务器 故障容忍性 查询语言 数据量 NOSQL数据库结构简单,不需要数据库结构定义,非常灵活,可,不对数据一致性进行严格保证,通过横向扩展可以实现很高的扩展性。简而言之,就是一种以牺牲一定数据一致性为代价,追求灵活性、扩展性的数据库。但是目前他的发展还不够成熟,缺乏这方面的工程师,很难普及它。
4.3分析型数据库
对于大多数企业来说,要抛弃已经习惯的现有平台,从零开始搭建一个新的平台来进行数据分析,显然是不现实的。因此有些数据仓库产商提出这样的一种方案,用Hadoop将数据处理成现有数据仓库能够进行存储的形式(即用作前处理),在装载数据之后再使用传统的商业智能工具来进行分析。这就是对大数据进行处理的另外一种方式——分析型数据库。分析型数据库的一些特征如下:(1)MPP架构,这种架构可以将数据处理分割成多个的处理进程,并通过在多个节点上进行并处理,使得处理性能实现飞跃性的提高。(2)Shared Nothing 架构,这种架构是指,各个计算机节点除了网络以外不分享任何资源,而是各自地、自律地进行工作。这样的好处是可以消除单一故障点,即便某个节点发生故障,也不会影响到其他节点的工作。(3)面向列,现有的关系型数据库都是以行为单位来管理数据的,相对地,面向列的数据库则是以列为单位来管理数据的。这样,在对大规模数据进行分析时,就不必像关系型数据库一样必须要读取整个一行,而是只要读取所需的列就可以了,因此其性能可以实现大幅的提升。(4)数据压
9
缩功能,在面向列的数据库中,同一列中的数据具有相同的类型(自负、数值等)的可能性很大,这种特性能够提高数据的压缩效率。根据产品的不同,可以将数据容量压缩到原始的1/10左右,这对于大量数据的存储来说是一个不可或缺的功能。(5)可以工作在通用型硬件上,除了某些特例以外,大多数产品都是以可以工作在通用型硬件为前提进行设计的。这种设计的好处是,只需要很低的成本就可以完成横向扩展。(6)作为设备销售,如果将硬件和软件进行捆绑,并事先做好各种配置、测试、优化等工作,就可以作为一个设备模块进行销售。这样一来,只需要进行最低的限度的调优,就可以立即使用了。(7)对Hadoop的支持,如果需要将Hadoop/MapReduce处理的数据(输出的结果)快速导入分析型数据库中,可以使用相应的连接器。此外也可以使用像Teradata所收购的Aster Data 这样,就可以通过标准的SQL来进行MapReduce处理产品。综上所述,分析型数据库作为下一代数据仓库,主要是针对大数据的容量方面来设计的,但是通过对Hadoop的支持,也可以对多样性方面的应付(对非结构化数据的支持)进行强化。正如前面所讲,作为传统数据仓库的用户,可以利用Hadoop将非结构化数据转换为结构化数据,然后导入数据仓库中,并使用传统的SQL来进行分析工作,这是一个优点。此外,通过将结构化数据与非结构化数据整合起来进行分析,来获得过去所无法获得的判断力,这样的用户需求也可以得到满足。例如,将CRM系统和呼叫中心应用程序等所存储的客户数据,与中记录的用户的兴趣爱好等信息相结合,就会带来新的发现。
4.4流数据
在描述大数据特征的三个特征Volume(容量)和Variety(多样性),我们可以通过
Hadoop、NoSQL数据库、分析型数据库等技术来应付,而对于剩下的一个V,即Velocity(产生频率、更新频率),用上述技术是难以应付的。因此我们需要的是能够对不断流入的大量数据(流数据)进行实时处理的流数据处理技术。在关系型数据库中数据需要先保存到位于硬盘上的表中。然后,在应用程序发出查询的时间点上,再对所有的数据一起进行处理,并将结果输到内存中。由于这样的搜索、运算处理每次发出查询时都要执行一遍,因次随着数据量的增加,性能就会逐步恶化。相对地,在流数据处理中,数据输入时并不会被写入到硬盘上,而是在内存中对数据进行处理,因而能够实现高速处理。此外,上一次处理的结果会作为中间数据保存下来,因此并不需要每次都处理所有的数据,而只需要处理流入内存的数据与中间数据的差异部分就可以了。通过这样的方式,从输入数据到输出结果之间的延迟可以控制在百万分之一秒的级别,也就是实现了每秒数十万次到数百万次的高速处理。
5.弊端和展望
5.1大数据本身存在的问题:
1、技术不够完善
我们真的有处理和分析大数据的能力吗?现在大数据分析工具并不发达,我们所用
10
到的绝大部分工具都是用来解决小数据问题的,用来解决常态数据的,而对异态数据的统计工具,现在基本上没有。最近《科学》杂志发表的一篇文章中报告了用于大数据两元相关分析的一种方法,而相对的小数据的两元相关分析则是一百多年前就有的,也就是说,我们处理大数据的能力还是处在起步的阶段,想当于19世纪80年代的小数据水平。当然,我们肯定不需要再用120年的时间才能使大数据分析能力达到今天小数据的水平,但是我们必须对大数据分析能力的现状有客观和足够的认识。 2,成本问题;
从大数据集的硬件支出管理方面来看,最初可能只需要10节点的Hadoop集群,但是如果你对数据速度要求很高,那么这个集群会很快增加到100+节点。届时,你需要面对的是大量的支出:额外的人员和技术资源用以管理整体环境,比如系统管理及监控,通过不同业务系统而来的附加软件,管理集群的工具等。 3,不够环保,占用很大的内存空间;
大量数据的存放需要占用大量内存空间,且大数据也并不环保,大数据需要大量的计算机集群,大量的服务器会消耗大量的电力资源。虽然这是不可避免的现象,但是这和大数据所提倡的环保理念是不相符的。谷歌拥有一个有70万台计算机的机房。比如有数据表明平均使用一次Google搜索需要耗电0.1度。大数据的发展会促使建造越来越多的云计算中心,从而会消耗更多的电力,而且因为成本的原因,污染环境的煤电将会成为首选,而不是其他可再生能源,所以云计算大数据等IT技术将会引起环境的恶化。
4,缺乏时效性
时效性是指信息仅在一定时间内对决策具有价值的属性。大数据的价值,不在于数据分析本身,而在于实时性。通过数据分析要迅捷知道用户在某个时间点最想要的是什么。调查发现,以后大数据时代如果数据结构和IT基础设施没有能够在10秒内处理并分析100TB的数据,一些IT用户则表示这是无法接受的。
5.2大数据所产生的问题
大数据的发展会造成个人隐私问题,虽然很多互联网公司一贯宣扬不作恶的理念,而大部分企业也会宣称自己秉承类似的价值观。但是作为必须要盈利的组织,企业的价值观有时候并不可信。最近登事件给全世界电脑用户的隐私安全敲响了警钟,思科、谷歌、苹果等大公司一直在凭借自己的强大数据系统掌握了大量用户数据,而这些数据随时有可能会由于各种原因被用作用户不希望的用途。虽然我们已经习惯了无处不在的摄像头,但网络高科技公司通过分析大量用户行为数据,可以精准判断我们的喜好乃至性格,让我们的隐私受到重大威胁。数据被谁掌握,怎样能够保证安全,是我们一直比较困惑的问题,这一问题在大数据时代下又再一次被放大。在信息化社会,保护隐私安全不仅仅是我们所谈到的大数据或者技术或者个人的单独行为,它是整个社会行为。个人无法抵抗类似“人肉搜索”的网络暴力,所有东西都不可能通过单一的技术手段解决,我们需要在大数据时代来前强化法制建设,把一切寄希望于道德建设明显是无法得到有效安全保证的。工具没有好坏,看用在谁的手上。这取决于我们的手段,取决于我们对于建设的投入和关注。
11
5.3发展前景
1、2013年3月22日,奥巴马宣布投资2亿美元拉动大数据相关产业发展,将
“大数据战略”上升为国家意志。奥巴马将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。 2、联合国也在2012年发布了大数据政务,指出大数据对于联合国和各国来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析,帮助更好地响应社会和经济运行。
3、而最为积极的还是众多的IT企业。麦肯锡在一份名为《Big data: The next frontier for innovation, competition, and productivity》的专题研究报告中提出,“对于企业来说,海量数据的运用将成为未来竞争和增长的基础”,该报告在业界引起广泛反响。
4、IBM则提出,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”
5、在国内,百度已经致力于开发自己的大数据处理和存储系统;腾讯也提出2013年已经到了数据化运营的黄金时期,如何整合这些数据成为未来的关键任务。
事实上,自2009年以来,有关“大数据” 主题的并购案层出不穷,且并购数量和规模呈逐步上升的态势。其中,Oracle对Sun、惠普对Autonomy两大并购案总金额高达176亿美元,大数据的产业价值由此可见一斑。
参考文献
[1]陈嘉恒,大数据挑战与NOSQL数据库技术. 北京:电子工业出版社,2013. [2]郭昕,孟晔.大数据的力量.北京:机械工业出版社,2013.
[3]张诤.大规模复杂数据关联规则挖掘方法研究及其应用.兰州:兰州大学出版社,2009. [4]Anand Rajaraman,Jeffrey David Ullman. Mining of Massive Datasets.Cambridge University Press,USA,2012.
[5] 野杜综合研究所(日本)城田真琴,大数据的冲击.北京:人民邮电出版社. 2013.
[6]Viktor Mayer-Schonberger. BIG DATE A REVOLUTION That Will TRANSFORM HOW WE LIVE ,WORK ,AND THINK. Houghton Mifflin Harcourt,USA,2013
[7]参考网站
http://www.cyzone.cn/a/20131009/245970.html http://cloud.yesky.com/425/35325425.shtml
http://cloud.yesky.com/more/119030_61673_dsj_1.shtml http://dev.yesky.com/31/34881031.shtml http://www.ciotimes.com/bi/sjck/62990.html http://bbs.pinggu.org/bigdata/
http://book.51cto.com/art/201303/386187.htm
12
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- aiwanbo.com 版权所有 赣ICP备2024042808号-3
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务