Loading... ## 大数据的定义 * **维基百科**:大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。 * **互联网数据中心**:满足4V[种类(Variety),流量(Velocity),容量(Volume),价值(Value)],即种类多,流量大,容量大,价值高的数据成为大数据。 * **麦肯锡**:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。该定义有两个方面的内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。 大数据经过多年的发展,目前在概念上已经有了更多的含义,从不同的角度来看待大数据也会有不同的定义,但是总的来说,大数据可以用三个方面来进行概括,其一是“**新的价值领域**”;其二是“**数据价值化**”;其三是“**产业互联网的基础**”。 ## 大数据思想的产生和发展 网上查了许多关于大数据思想的相关文献,并没有明确指出哪个事件形成了大数据思想,以下是理解后的个人的看法: 数据在信息化时代之前就存在了,在漫长的数据累积过程中,由于数学和统计学组件发展,人们开始注意对数据的量化分析,如:黄仁宇先生对宋朝经济的分析中发现了“数目字管理”(即定量分析)的广泛应用;孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据,利用庞涓的量化分析习惯对其进行诱杀,等等。 再来说说大数据,最先运用数据管理和数据分析的莫过于商业。约莫90年代,第一个数据仓库是为宝洁做的。而第一个太字节的数据仓库是沃尔玛,他的第一个应用是基于retaillink的供应链优化,把数据与供应商共享,指导它们的产品设计、生产、定价、配送、营销等整个流程,同时供应商可以优化库存、及时补货;第二则是大家耳熟能详的购物篮分析,也就是常说的啤酒加尿布。 再到后来00年代的科研大数据,当时提出的第四范式,是数据方法论的一次提升。实验、理论、模拟、数据探索,是大数据的理论基奠之一。各种科研数据井喷式迸发,这时候的数据已经大到当时的软硬件处理不了的程度,所以要更新数据处理架构,这才是真正的大数据开始! 与此同时,谷歌的三驾马车登场了:(2003)Google FS、(2004)MapReduce、(2006)BigTable,三者一出便奠定了大数据的基础。不过要说在当时引发地震的,是克里斯·安德森在2008年发表的《理论的终结》当中的思想。既:在大数据时代,要相关性,不要因果性!他在文中说,因为数据变得如此之大,那些所谓的理论也好、模型也好,变得不再重要。只需要让数据说话,因为数据不会说谎。我们只需在乎结论,至于理论和方法全部靠边站。它的例证就是谷歌。谷歌的研发主管也跳出来,推波助澜,声称所有的模型都是错误的。这在当时以至现在都是颠覆性的认知。 我觉得,这一思想才是大数据思想的起源。(麦肯锡的《麦肯锡大数据指南》对大数据的定义为2016年) 谷歌的Google翻译的实现、前谷歌人工实验室主任李飞飞在TED演讲的AI认猫;这些都是最好的证明例子。当然这些大都是建立在无法建模和因果性并不重要的基础上。 因果性同样重要。中药大多都只到了相关性这一步,只知道果,而西药则在发现相关性后做了大量的随机对照试验,最后得出因,这样更能获得解释性也对医学研究更有价值。而以建模为基础的因果性思想,则适合探索没有数据积累的未知领域。 除了以上决策智能化之外,大数据思想的另一方面则是数据价值化,运用马云的话来说,便是“信息的出发点是我认为我比别人聪明,数据的出发点是认为别人比我聪明;信息是你拿到数据编辑以后给别人,而数据是你搜集数据以后交给比你更聪明的人去处理。”这便是当下大数据相关业界所做的了。 ### 大数据发展的三个阶段 | 阶段 | 时间 | 内容 | | ---------------------- | ---------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | | 第一阶段:萌芽期 | 上世纪90年代至本世纪初 | 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。 | | 第二阶段:成熟期 | 本世纪前十年 | Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道 | | 第三阶段:大规模应用期 | 2010年以后 | 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高 | ### 大数据的思维方式 * 全样而非抽样 * 效率而非精确 * 相关而非因果 ## 大数据技术 ### 大数据技术不同技术层面及功能  ### 两大核心技术  ### 大数据计算模式及代表产品  ### 大数据相关产业及内容  ## 大数据与云计算、物联网 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。  ### 云计算 > 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。 **关键技术**:虚拟化、分布式存储、分布式计算、多租户等 **云计算数据中心**:是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等。为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境。  ### 物联网 > 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。  **关键技术**:识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等  Last modification:August 11, 2022 © Allow specification reprint Like 0 喵ฅฅ