环境搭建 - EMR

打开AWS控制台,进入EMR页面

选择创建集群

image-20240305085921654

选择以下组件:

image-20240305090032654

在Cluster termination部分,选择Manually termiate cluster, 否则不使用的时候emr会自动terminate:

image-20240305090745470

选择Keypair,service roleinstance profile

image-20240305090311766

其他选项保持默认。点击创建集群,创建过程会持续十几分钟

在创建完成后,集群的状态将变为Waiting

image-20240305090650539

使用Jupyter Notebook

打开EMR控制台,找到JupyterHub地址, 并打开:-

image-20240305100422858

选择信任证书并打开:

image-20240305100517688

注意:chrome浏览器可能提示证书风险问题,加载不出该页面。如果出现这种情况,可以使用safari浏览器打开。

使用用户名jovyan和密码jupyter登录

image-20240305100557248

登录成功后,创建一个新的PySpark Notebook:

image-20240307085430472