当前位置：首页 > 资讯 > 系统环境 > 服务器应用

大数据两大核心技术 Hadoop和spark哪个比较好其异同点有哪些

时间：2018-07-23 22:52 作者：码农视界来源：码农视界阅读：914
扫一扫，手机访问

摘要：Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。都说分享是程序员的一大优良传统，很多程序员都喜欢写少量技术博客，跟网友分享自己的技术，千锋大数据李老师就是一个活生生的例子，小编今天就向李老师请教了这样一个问题：Hadoop和spark两者的异同点是什么？而后老师

Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。都说分享是程序员的一大优良传统，很多程序员都喜欢写少量技术博客，跟网友分享自己的技术，千锋大数据李老师就是一个活生生的例子，小编今天就向李老师请教了这样一个问题：Hadoop和spark两者的异同点是什么？

而后老师就开始了他的讲课模式，巴拉巴拉，说了一大堆，小编真的有认真听讲，还记下了笔记：

Hadoop实质上更多是一个分布式数据基础设备: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。同时，Hadoop还会索引和跟踪这些数据，让大数据解决和分析效率达到史无前例的高度。

Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加迅速, Spark 是一种与 Hadoop 类似的开源集群计算环境，但是两者之间还存在少量不同之处，这些有使用的不同之处使 Spark 在某些工作负载方面体现得更加优越，换句话说，Spark 启使用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 使用作其应使用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

虽然创立 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。

尽管 Spark 与 Hadoop 有类似之处，但它提供了具备有使用差异的一个新的集群计算框架。首先，Spark 是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重使用工作数据集（比方机器学习算法）的工作负载。为了优化这些类型的工作负载，Spark 引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问推迟。

大数据技术真的是博大精深，想要学习大数据，真的是要下一大番功夫的，幸运的是，自己一直都有在学习，一直都有千锋老师的专业指导！

全部评论(0)

上一篇：mysql数据库-SQL语句的分类-DDL语句
下一篇：javaweb中Maven的思想，Maven的好处

鱼掌柜

店铺

推荐商品

大数据两大核心技术 Hadoop和spark哪个比较好 其异同点有哪些

大数据两大核心技术 Hadoop和spark哪个比较好其异同点有哪些