SQL on Hadoop 和 SQL off Hadoop 详情

  • 时间:2018-06-20 22:25 作者:IT168企业级 来源:IT168企业级 阅读:116
  • 扫一扫,手机访问
摘要:最初,Apache Hadoop被视为是批解决非结构化数据的平台。从本质上讲,Hadoop是一种存储和解决大量数据的廉价又可靠的方式,吸引了更多的用户。随着时间的推移,Data Gravity的影响添加了对SQL on Hadoop的需求。最初的目标是找到用SQL来支持Hadoop数据的方法,但现在

最初,Apache Hadoop被视为是批解决非结构化数据的平台。从本质上讲,Hadoop是一种存储和解决大量数据的廉价又可靠的方式,吸引了更多的用户。

随着时间的推移,Data Gravity的影响添加了对SQL on Hadoop的需求。最初的目标是找到用SQL来支持Hadoop数据的方法,但现在越来越多的要求是使用像Tableau这样的工具,将业务使用户与数据连接起来。

开源方法

有许多开源的SQL on Hadoop处理方案,包括Hive(LLAP),Impala,SparkSQL和Presto。这些产品大都比较年轻,依然有很大的改进。这些处理方案最大的优势在于它们是从头开始编写的,使用于分析Hadoop中的数据。

人们经常说好的软件需要10年时间来研发,SQL产品也不列外,特别是在查询优化方面,尽管Hadoop本身已经有10年的历史了,但是Hadoop产品上的大部分SQL都太年轻。这也是为什么许多专有的数据库产品都建立在巨人肩膀上的起因。例如,PostgreSQL派生的产品列表中包括的Greenplum、Netezza、ParAccel、Redshift和Vertica。

专有处理方案

在Hadoop中有专门用SQL来查询数据的方法。

其中的少量允许使用户运行TDWI调使用“SQL off Hadoop”,这需要Hadoop集群和一个单独的SQL引擎平台。在不同平台之间移动数据需要额外的费使用,但有些人可可以会认为将SQL工作负载从Hadoop集群中分离出来会带来好处,因而额外的费使用也是值得的。

基准测试

基准测试能作为来判断Hadoop选项上的替代SQL功可以和性可以的基本点。包括以下几点:

1. AtScale:这是AtScale第二次SQL on Hadoop测试,显著看得出来,他们测试的开源产品有了大幅改进,更符合使用户对新产品的期望,另一个发现是,产品对不同的查询都有优势和弱点,表明这还不是一个适合所有市场的产品。另外,基准用了相对较小的TPC-H查询集,而这里列出的其余基准用升级和更全面的TPC-DS查询集。

2. Comcast对TPC-DS查询进行了基准测试,比较了不同的SQL on Hadoop产品。这也是比较不同文件格式性可以的唯一基准。

3. Kognitio TPC-DS查询设置了一个基准,包括所有的TPC-DS查询和并发测试。关于基准运行方式以及每个查询结果。

SQL on Hadoop 和 SQL off Hadoop 详情

基准测试过程中呈现出了少量共性:

1. 开源产品在功可以和性可以方面正在得到显着改善。

2. 许多开源产品不成熟,意味着它们无法运行所有的TPC-DS查询集,由于它们不支持所需的语法,或者者会产生运行时错误。

3. 某些产品(特别是SparkSQL和Presto)需要对并发性可以进行调优。

4. Hive本身非常缓慢(Comcast特别强调)。 Hive LLAP是一个重大的改进,虽然AtScale依然把它排在Presto和Impala的后面。

不再是“一刀切”

只需在Hadoop集群上用SQL on Hadoop处理方法,即可以找到适合的工具来工作。假如您已经有了Hive for ELT和其余批解决功可以,但是无法满足将Hadoop中的数据连接到业务使用户社区的需求,那么您能用不同的SQL on Hadoop处理方案来完成该任务,并保持当前 Hive工作负载到位。

  • 全部评论(0)
最新发布的资讯信息
【系统环境|服务器应用】Discuz隐藏后台admin.php网址修改路径(2019-12-15 14:52)
【系统环境|服务器应用】Discuz发布帖子时默认显示第一个主题分类的修改方法(2019-12-09 00:13)
【系统环境|软件环境】Android | App内存优化 之 内存泄漏 要点概述 以及 处理实战(2019-12-04 14:27)
【系统环境|软件环境】MySQL InnoDB 事务(2019-12-04 14:26)
【系统环境|软件环境】vue-router(单页面应用控制中心)常见用法(2019-12-04 14:26)
【系统环境|软件环境】Linux中的Kill命令(2019-12-04 14:26)
【系统环境|软件环境】Linux 入门时必学60个文件解决命令(2019-12-04 14:26)
【系统环境|软件环境】更新版ThreeJS 3D粒子波浪动画(2019-12-04 14:26)
【系统环境|软件环境】前台开发WebStorm常用快捷键,火速收藏!(2019-12-04 14:25)
【系统环境|软件环境】微博H5登录和发微博组件(2019-12-04 14:25)
手机二维码手机访问领取大礼包
返回顶部