如果想要运行python代码,默认需要将%pyspark放在每个code block的开头,否则Zeppelin会使用默认的Scala API:

在第一次运行时可能会出现上面的报错,可能是EMR的bug。参考 https://stackoverflow.com/questions/69145849/aws-emr-python-process-is-abnormally-exited-error
如果遇到这个报错重启interpreter进行修复。打开Intepreter:

找到spark并进行重启:

此时再运行代码,成功输出:

Zeppelin将SparkContext和SparkSession已经保存到两个变量中:

所以不要覆盖这两个变量。
每次编辑notebook,都可以为它创建新的版本

这样可以用版本来回退之前做的修改。