环境搭建章节,介绍了CoLab或EMR,两者选择其一即可
CoLab(Colaboratory)是一个免费的Jupyter Notebook环境,运行在Google Cloud上,适合机器学习和大数据的开发场景。本节我们将搭建CoLab开发环境
在GCP上进入到CoLab服务,进行创建:

创建完成后,打开COLAB页面:

新建笔记本:

在新的页面上,可以输入命令:

以前在Colab上安装PySpark还要先配置Java环境并下载Spark程序,但现在只需要执行:
!pip install pyspark
安装完成后进行测试:
from pyspark.sql import DataFrame, SparkSession
# 启动SparkSession
spark = SparkSession \
.builder \
.appName("Our First Spark example") \
.getOrCreate()
spark # 查看SparkSession信息
# 创建dataFrame测试
df = spark.createDataFrame([{"Google": "Colab","Spark": "Scala"} ,{"Google": "Dataproc","Spark":"Python"}])
df.show()
