1.
Spark基础
1.
Spark on YARN
2.
本地运行Spark Standalone - I
3.
本地运行Spark Standalone - II
4.
查看应用日志
5.
RDD、DataFrame、DataSet
6.
AWS上的Spark产品
2.
Spark DataFrame操作
1.
环境搭建 - EMR
2.
DataFrame操作 - I
3.
DataFrame操作 - II
4.
RDD操作
5.
在EMR集群上运行PySpark
6.
Spark ETL
7.
Spark UDF
8.
Spark Join操作
3.
Spark SQL Shell
1.
Spark SQL Shell基础操作
2.
SQL Shell加载数据与Schema on Read
3.
Spark History Server
4.
conf参数更改Warehouse目录
5.
External Table - 外部表
6.
创建Parqeut形式的表
7.
Table Partition
8.
Spark项目 - 准备数据
9.
Spark项目 - ETL
10.
Spark项目 - 分析数据
4.
Data Sources
1.
Spark读写MySQL
2.
Spark与S3交互
3.
Spark读取JSON数据
4.
读写AVRO数据
5.
读写Parquet数据
6.
Spark Scala
1.
IDEA开发环境搭建
2.
Scala基础语法
7.
Zeppelin
1.
Zeppelin的基础操作
2.
Spark Interpreter
3.
Hive Interpreter
4.
Dynamic Input Elements
清除历史
Introduction
>
Spark基础
> AWS上的Spark产品
Glue
EMR
AWS上的Spark产品
Glue
全托管的Serverless Spark,可以做图形化的ETL
适合小型的、
Event-driven
的任务
EMR
托管的YARN及Hadoop
适合大规模的、长期跑的作业任务
EMR同时有EMR Serverless和EMR on EKS