Spark History Server

在上一节中我们执行了select *操作:

image-20240218113546659

直接操作hdfs文件,将employee.txt复制一份:

hdfs dfs -cp /user/spark/warehouse/mydb.db/employees/employee.txt /user/spark/warehouse/mydb.db/employees/employee_copy.txt

image-20240218113624407

此时再执行select操作,查询出来的结果是6条:

image-20240218113703801

Spark History Server

Spark History Server是一个用于查看和分析Spark应用程序运行历史记录的工具。它可以在Spark应用程序运行完毕后,将运行日志保存在磁盘上,并提供一个Web界面用于查看这些日志

在EMR中打开Spark History Server

image-20240218113757620

spark history server中能看到任务执行的细节:

image-20240218113849900

Spark History Server是一个非常有用的工具,可以帮助你查看和分析Spark应用程序的运行历史记录,从而更好地优化和调试你的应用程序。

image-20240218114042601