登录
首页精彩阅读sparkSQL和spark有什么区别?
sparkSQL和spark有什么区别?
2020-05-14
收藏

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。简而言之,sparkSQL是Spark的前身,是在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。


sparkSQL提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。

SparkSql有哪些特点呢?

1)引入了新的RDD类型SchemaRDD,可以像传统数据库定义表一样来定义SchemaRDD

2)在应用程序中可以混合使用不同来源的数据,如可以将来自HiveQL的数据和来自SQL的数据进行Join操作。

3)内嵌了查询优化框架,在把SQL解析成逻辑执行计划之后,最后变成RDD的计算。

数据分析咨询请扫描二维码

客服在线
立即咨询