阿里云 Elastic MapReduce(E-MapReduce) 是一种大数据解决的系统处理方案。构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让使用户能方便地用Hadoop和Spark生态系统中的其余周边系统(如 Apache Hive、Apache Pig、HBase 等)来分析和解决自己的数据。使用户还能通过E-MapReduce将数据非常方便的导入和导出到阿里云其余的云数据存储系统和数据库系统中,如阿里云 OSS、阿里云 RDS 等。
评估业务特点
选择机器类型
采购机器
准备硬件环境
安装操作系统
部署 Hadoop 和 Spark 等 app
启动集群
编写应使用程序
运行作业
获取数据等一系列的步骤
当使用户想要用 Hadoop、Spark 等分布式解决系统的时候,通常需要经历如下的步骤:
在这些流程中,真正跟使用户的应使用逻辑相关的是从第8步才开始,第1-7步的各项工作都是前期的准备工作,通常这个前期工作都非常冗长繁琐。而 E-MapReduce 提供了集群管理工具的集成处理方案,如主机选型、环境部署、集群搭建、集群配置、集群运行、作业配置、作业运行、集群管理、性可以监控等。
通过用 E-MapReduce,使用户能从集群构建各种繁琐的采购、准备、运维等工作中解放出来,只关心自己应使用程序的解决逻辑就可。此外,E-MapReduce 还给使用户提供了灵活的搭配组合方式,使用户能根据自己的业务特点选择不同的集群服务。例如,假如使用户的需求是对数据进行日常统计和简单的批量运算,则能只选择在 E-MapReduce 中运行 Hadoop 服务;而假如使用户还需要流式计算和实时计算的需求,则能在 Hadoop 服务基础上再加入 Spark 服务。
E-MapReduce 的组成
E-MapReduce 最核心也是使用户直接面对的组件是集群。一个 E-MapReduce 集群是由一个或者多个阿里云 ECS instance 组成的 Hadoop 和 Spark 集群。以 Hadoop 为例,在每一个 ECS instance 上,通常都运行了少量 daemon 进程(如 namenode、datanode、resoucemanager 和 nodemanager),这些 daemon 进程就组成了 Hadoop 集群。运行 namenode 和 resourcemanager 的节点被称为 master 节点,而运行 datanode 和 nodemanager 的节点被称为 slave 节点。
教学课程:阿里云 E-MapReduce学习
(课程主要详情阿里云 E-MapReduce 的用方法)
教学大纲 : http://click.aliyun.com/m/50104/
教学课时
课时1:E-Mapreduce基本详情 13:52
课时2:E-Mapreduce基本详情(PPT)
课时3:E-Mapreduce数据同步 13:12
课时4:E-Mapreduce数据同步(PPT)
课时5:E-Mapreduce离线解决 15:47
课时6:E-Mapreduce离线解决(PPT)
课时7:E-Mapreduce流式解决 15:38
课时8:E-Mapreduce流式解决(PPT)