sparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
Shark也就是Hive on Spark,Shark在HiveQL方面重用了Hive里HiveQL的解析、逻辑执行计划、翻译执行计划优化等逻辑,通过Hive中HiveQL解析,把HiveQL翻译成Spark上的RDD操作。Shark的设计导致了两个问题:
(1)执行计划优化完全依赖于Hive,对于添加新的优化策略很是不便;
(2)Spark是线程级并行,而MapReduce是进程级并行。Spark在兼容Hive的实现上存在线程安全问题,因而使得Shark必须使用另外一套独立维护的打了补丁的Hive源码分支;
Spark团队在汲取了shark的优点基础上,重新设计了sparkSQL,使sparkSQL在数据兼容、性能优化、组件扩展等方面有很大的提升
1.数据兼容:支持从Hive表、外部数据库(JDBC)、RDD、Parquet 文件、以及JSON 文件中获取数据;
2.组件扩展:SQL 语法解析器、分析器、优化器都能够重新定义;
3.性能优化:内存列存储、动态字节码生成等优化技术,内存缓存数据;
4.多语言支持:Scala、Java、Python;
三、 DataFrame
1.DataFrame让Spark具备了处理大规模结构化数据的能力,比起原有的RDD转化方式,更加简单易用,而且计算能力也有显著提高。
RDD是分布式的Java对象的集合,但是,RDD对于对象内部结构并不可知。
DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息。
Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。
2.创建DataFrame
import org.apache.spark.sql.SparkSession val spark = SparkSession.builder().getOrCreate() //是支持RDDs转换为DataFrames及后续sql操作 import spark.implictis._ val df = spark.read.json("file://usr/local/spark/examples/src/main/resources/people.json") df.show() //打印模式信息 df.printSchema() df.select(df("name"), df("age")+1).show() //分组聚合 df.groupBy("age").count().show()
数据分析咨询请扫描二维码
寻找数据分析之路 学习路径选择: 数据分析领域广泛,包括统计学、编程(如Python、SQL)、数据可视化等。建议从基础概念开始 ...
2024-12-02数据分析领域是一个广阔而令人兴奋的领域,涉及众多强大工具和软件。掌握这些工具不仅可以提升我们的工作效率,还能让数据讲述更 ...
2024-12-02在当今信息爆炸的时代,数据成为引领业务决策和创新的关键。数据分析作为一项关键技能,已经成为各行业中备受追捧的职业。本文将 ...
2024-12-02在当今竞争激烈的职场环境中,掌握数据分析技能已然成为职业发展中不可或缺的一环。无论你是刚入行的菜鸟还是希望获得更多机会的 ...
2024-12-02重要性和影响 数据分析技能对职业发展具有显著影响。不仅在就业市场竞争激烈,个人职业路径上也起着关键作用。数据分析需求广泛 ...
2024-12-02在追求数据分析师梦想的道路上,最常问及的问题之一是:“最佳学习时间究竟是多久?”这个问题承载着我们对知识获取和实践运用的 ...
2024-12-02在当今信息爆炸的时代,数据早已成为企业决策和发展的核心。掌握数据分析技能不仅可以让你更好地理解数据背后的故事,还可以在职 ...
2024-12-02数学课程对数据分析师的重要性 数据分析师的角色在当今信息时代变得至关重要。他们扮演着解读数据、发现趋势以及为业务决策提供 ...
2024-12-02作为数据分析领域的探险家,我们身处一个充满机遇与挑战的时代。数据分析师不仅面临着广阔的职业前景,还要应对技术进步、人才竞 ...
2024-12-02就业前景与挑战 数据分析师在当前和未来的就业市场中面临着广阔的机遇和挑战。随着大数据时代的到来,企业对数据分析师的需求不 ...
2024-12-02作为数据分析师,掌握数据可视化技术是至关重要的。通过有效的数据呈现和分析,我们能够从数据中提炼出有意义的见解,为业务决策 ...
2024-12-02在今天的数字化时代,数据扮演着至关重要的角色。对于数据分析师而言,熟练掌握各种数据可视化技术至关重要。通过恰到好处的数据 ...
2024-12-02在追求数据分析技能提升的漫漫征途上,制定科学合理的学习计划和精准的时间管理至关重要。本文将为您呈现一份系统且实用的数据分 ...
2024-12-02在当今信息爆炸的时代,数据分析已成为许多行业中不可或缺的一环。然而,要想在这个领域脱颖而出,除了熟练掌握技术工具外,科 ...
2024-12-02在当今数字化时代,数据分析已成为各行各业中至关重要的一环。掌握数据分析技能不仅可以拓宽个人职业发展道路,还能为企业决策提 ...
2024-12-02在追求数据分析职业发展的道路上,合适的学习路径和认证至关重要。从基础到高级,多样化的课程和证书为不同层次的学习者提供了丰 ...
2024-12-02在追求数据分析领域的深度和广度时,建立坚实的基础至关重要。这些基础不仅承载着理解数据的能力,还支撑着对数据进行精确处理和 ...
2024-12-02数据分析基础知识 学习数据分析是一项渐进的过程,从掌握基础知识开始可以帮助我们更好地理解数据的本质以及处理方法。以下是学 ...
2024-12-02在当今信息爆炸的时代,数据分析已成为各行各业提升效率、发现洞见的重要工具。不过,对于初学者来说,学习数据分析可能显得十分 ...
2024-12-02明确学习目标与需求 对于新手,选择入门级课程掌握基础概念和工具。 深入学习统计学、机器学习等高级主题则需要进阶或专业化课 ...
2024-12-02