凯发天生赢家一触即发首页

全国径流数据

作者:凯发天生赢家一触即发首页 阅读量: 发布时间:2025-02-19 10:52:38

  所开发的开源分布式计算平台,可以构建具有高容错性、可伸缩性、低成本、和良好扩展的高效分布式系统,允许用户将部署在大量廉价硬件设备所组成的集群上,为应用程序提供一组稳定可靠的接口,充分利用集群的存储和计算能力,完成海量数据的处理。

  由于Hadoop优势突出,得到了众多企业和个人的青睐,尤其是㊣在㊣互联网领域。Yahoo!通过Hadoop集群支持广告系统和Web搜索研究;Faceb✅ook借助Hadoop集群支持数据分析和机器学习;Baidu使用Hadoop进行搜索日志的分析和网页数据的挖掘;TaobaoHadoop系统用于存储并处理电子商务交易的相关数据;中国移动研究院基于Hadoop的“Big Cloud”系统用于对数据进行分析和对外提供服务等。

  PS:Hadoop之父Doug Cutting解释H㊣adoop的得名:“这个名字是我孩子给一个棕黄色的大象㊣玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”

  说到Hadoop,不得不从云计算说起,主流互联网公司为了✅抢占云计算的市场份额,纷纷提出各自的云计算思路以及解决方案。Google、Yahoo、Amazo㊣n、Salesforce与Microsoft等公司㊣作为行业领军者,它们的云计㊣算平台解决方案的详情如下表所示:

  从上表可以看出Google和Yahoo云计算平台的关键技术非常相似,的确,Hadoop是Goo✅gle云计算的开源实现。

  Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

  HBas✅e:基于HDFS,是一㊣个开源的、基于列存储模型的分布式数据库。类似Google BigTable的分布式N㊣oSQL列数据库。

  Hi㊣ve:数据仓库工具,由Facebook贡献。使得㊣存储在ha㊣doop里面的海量数据的汇总,即席查询简✅单㊣化。

  Zookeeper:分布✅式锁设施,一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同✅✅步、组服务等。类似Goog㊣le Chubby,由Facebo㊣ok贡献。

  Hadoop是一个集成了分布式文件系统HDFS和大规模并行计算模型MapReduce 的开源框架。HDFS和MapReduce是Hadoop的两大核心,而整个Hadoop的体系架构主要是通过HDFS来实现对分布式存储的底层支持,并通过MapReduce来实现对分布式并行任务处理的程序支持。

  HDFS的底层实现原理是当有输入文件提交到Master节点后,Master将输入文件切割成多个Block(通常为64M)并为每个Block拷贝数㊣份副本,然后将这些Block分散地存储在不同的Slave节点上。如果DataNode不能发送心跳消息,NameNode将采取修复措施,重新复制在该节点上丢失的块,从而实现㊣容错处理。NameNode是整个文件管理系统的核心,负责维护文件系统的NameSpace(名字空间),NameSpace上记录着输入文件的分割情况、每个Block的存储位置以及每个Block所在节点的状态信息。HDFS内部的所有通信都基于标准的TCP/IP协议。

  MapReduce并行计✅算模型以一种高容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理功能。它也采用了Master/Slav㊣e结构,其中Master称为JobTracker,负责调度构成一个作业的所有任务,这些任务分布在不同的Slav㊣e上,同时监控它们的执行情况,并重新执行之前失败的任务;Slave称为TaskTracker,仅负责由主节点指派的任务,并向JobTracker汇报自身运行的任务执行情况。用户提交的计算称为Job,每一个Job会被划分成若干个Tasks。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。其执行流程如㊣下图所示:

  简单地说,Map 函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一个键/✅值对)缩小键/值对列表。下图以图形计数为例形象地说明了这两个过程:

  MapReduce是依赖于HDFS实现的。通常MapReduce会将被计算的数据分为✅很多小块,HDFS会将每个块复制若干份以确保系统的可靠性,同时它按照一定的规则将数据块放置在集群中的不同机器上,以便MapReduce在数据宿主机器上进行最便捷的计算。

  Cloudera公司的两个新项目:Impala和Trevni使得Hadoop有望在今年实现实时查询。Impala是开源版的Dremel(Google大数据查询解决方案,“交互式”数据分㊣✅析系统,可以组建成规模上千的集群,PB级别㊣数据处理时间缩短到秒级),允许㊣用户在Hadoop的HDFS、 Hba✅se和Hive之上运行实时查询。不必迁移。Tr㊣evni是一种新的列式(columnar)数据存储格式,可保证读取大型列式存储数据集有极好性能。Impala+Trevni已经完全实现了Dremel的查询性能,而且在SQL功能上还超过了它。

  Hadoop具有如下优势:(1)可伸缩性,能够处理PB级数据,并可以无限扩充存储和计算能力。(2)✅可靠✅性,可以维护同一份数据的多份副本并自动对失败的节点重新分布处理全国径流数据。(3)高效性,Hadoop能并行地处理数据。同时,Hadoop也是低成本的,因为它对硬件的要求不高,所以可✅以运行在普通的微机㊣集群上。

  Hadoop从单一应用(Web数据抓取)发展到现在庞大的Hadoop生态系统(Hadoop Ecosystem),自成一派的技术架构体系,叩开了大数据时代的海量数据处理的大门,开辟了海量数据存储、处理与㊣应✅用的新领地。

  [1]杨来,史忠植,梁帆,等.基于Hadoop云平台的并行数据挖掘方法[J].系统仿线]朱剑.

  Hadoop云平台的海量数字图像数据挖掘的研究[D].上海:上海交通大学,2010.[6]夏大㊣文,

上一篇:flume中文网
下一篇:数字化政务服务中心