Zeppelin的基础操作

Zeppelin的基础操作

执行python代码

如果想要运行python代码,默认需要将%pyspark放在每个code block的开头,否则Zeppelin会使用默认的Scala API:

image-20240217064519442

在第一次运行时可能会出现上面的报错,可能是EMR的bug。参考 https://stackoverflow.com/questions/69145849/aws-emr-python-process-is-abnormally-exited-error

如果遇到这个报错重启interpreter进行修复。打开Intepreter:

image-20240217065027514

找到spark并进行重启:

image-20240217064455106

此时再运行代码,成功输出:

image-20240217065105512

sc与spark变量

Zeppelin将SparkContextSparkSession已经保存到两个变量中:

image-20240217065213137

所以不要覆盖这两个变量。

版本控制

每次编辑notebook,都可以为它创建新的版本

image-20240309215032495

这样可以用版本来回退之前做的修改。