2.1 初识Spark

一、Spark的概述 (一)Spark的组件 Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是…

Parquet存储的数据模型以及文件格式

文章目录 数据模型Parquet 的原子类型Parquet 的逻辑类型嵌套编码 Parquet文件格式 本文主要参考文献:Tom White. Hadoop权威指南. 第4版. 清华大学出版社, 2017.pages 363. Aapche Parquet是一种能有效存储嵌套数据的列式存储格式,在Spark中应用较多。 …

spark运行流程

Spark的运行流程可以分为以下几个步骤: 创建SparkSession:在开始使用Spark之前,需要创建一个SparkSession对象。SparkSession是与Spark集群连接的入口点,可以用它来创建DataFrame、执行SQL查询等操作。 加载数据:通过…

Spark基础-任务提交相关参数

整理一下用过的spark相关的参数 spark应用提交命令spark-submit的常用参数(使用spark-submit --help可以查看所有参数, 有一些参数在下面的spark配置属性定义了,也没有额外列出) 参数默认值含义--master local[*]spark集群的mast…

大数据处理技术:从Hadoop到Spark的演进和比较

在过去的十年中,大数据技术的发展突飞猛进,各种开源大数据处理框架层出不穷,其中Hadoop和Spark是最受欢迎的两个框架。Hadoop是最早的开源大数据处理框架之一,而Spark则是在Hadoop之后出现的,它在内存计算和数据处理方…

大数据编程实验一:HDFS常用操作和Spark读取文件系统数据

大数据编程实验一:HDFS常用操作和Spark读取文件系统数据 文章目录大数据编程实验一:HDFS常用操作和Spark读取文件系统数据一、前言二、实验目的与要求三、实验内容四、实验步骤1、HDFS常用操作2、Spark读取文件系统的数据五、最后我想说一、前言 这是我…

Spark集群的运行基本流程是怎样的?

Spark集群的运行架构 Spark是基于内存计算的大数据并行计算框架,比MapReduce计算框架具有更高的实时性,同时具有高效容错性和可伸缩性,在学习Spark操作之前,首先介绍Spark运行架构,如图所示。 在上图中,Sp…

RDD 、 DataFrame 和 DataSet 详解

RDD、DataFrame和DataSet的区别 RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但…

03-第一个Spark程序WordCount

Scala版 1)创建项目 增加 Scala 插件 Spark 由 Scala 语言开发的,咱们当前使用的 Spark 版本为 3.2.0,默认采用的 Scala 编译版本为 2.13,所以后续开发时。我们依然采用这个版本。开发前请保证 IDEA 开发工具中含有 Scala 开发…

3.2 掌握RDD算子

一、准备工作 (一)准备文件 1、准备本地系统文件 2、把文件上传到HDFS (二)启动Spark Shell 1、启动HDFS服务 2、启动Spark服务 3、启动Spark Shell 二、掌握转换算子 (一)映射算子 - map() …

spark.read.textFile读取.tar.gz文件数据问题

spark.read.textFile()读取.tar.gz文件数据问题 从官网的描述中spark.textFile方法是可以读取压缩文件.tar.gz. 当我测试的时候发现文件从一个文件读取到另外一个文件的时候,spark会在值中加入“文件名 0ustar root root”放到下个读取文件的第一个行。 我想问一下是我写的…

大数据面试题:说下Spark中的Transform和Action,为什么Spark要把操作分为Transform和Action?

面试题来源: 《大数据面试题 V4.0》 大数据面试题V3.0,523道题,679页,46w字 可回答:Spark常见的算子介绍一下 参考答案: 我们先来看下Spark算子的作用: 下图描述了Spark在运行转换中通过算…

为什么说新一代流处理器Flink是第三代流处理器(论点:发展历史、区别、适用场景)

Flink 被认为是第三代流处理器,这是因为 Flink 在设计时参考了前两代流处理器的经验教训并引入了一些新的技术和思想,从而使得 Flink 具有更高的性能和更广泛的应用场景。下面我带大家了解一下流处理器从第一代到第三代的发展历史。 对于有状态的流处理&…

Spark on Yarn

承接上一篇文档《Spark案例练习-打包提交》 将spark应用运行在yarn集群上 官网地址:http://spark.apache.org/docs/2.0.2/running-on-yarn.html 1. 在spark-env.sh中配置HADOOP_CONF_DIR 或者 YARN_CONF_DIR HADOOP_CONF_DIR/opt/bigdata/hadoop-2.7.3/etc/hadoop …

Hive on Spark调优(大数据技术8)

第8章 任务并行度优化 8.1 优化说明 对于一个分布式的计算任务而言,设置一个合适的并行度十分重要。在Hive中,无论其计算引擎是什么,所有的计算任务都可分为Map阶段和Reduce阶段。所以并行度的调整,也可从上述两个方面进行调整。 …

Spark做日志分析

使用数据: 选用1天的搜狗搜索引擎网页查询日志数据。数据格式为 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用…