如果想要运行python代码,默认需要将%pyspark
放在每个code block的开头,否则Zeppelin会使用默认的Scala API:
在第一次运行时可能会出现上面的报错,可能是EMR的bug。参考 https://stackoverflow.com/questions/69145849/aws-emr-python-process-is-abnormally-exited-error
如果遇到这个报错重启interpreter进行修复。打开Intepreter:
找到spark并进行重启:
此时再运行代码,成功输出:
Zeppelin将SparkContext
和SparkSession
已经保存到两个变量中:
所以不要覆盖这两个变量。
每次编辑notebook,都可以为它创建新的版本
这样可以用版本来回退之前做的修改。