环境搭建 - CoLab

环境搭建章节,介绍了CoLab或EMR,两者选择其一即可

CoLab(Colaboratory)是一个免费的Jupyter Notebook环境,运行在Google Cloud上,适合机器学习和大数据的开发场景。本节我们将搭建CoLab开发环境

在GCP上进入到CoLab服务,进行创建:

image-20220603090231104

创建完成后,打开COLAB页面:

image-20220603090444176

新建笔记本:

image-20220603090612354

在新的页面上,可以输入命令:

image-20220603090734960

在Colab上安装PySpark

以前在Colab上安装PySpark还要先配置Java环境并下载Spark程序,但现在只需要执行:

!pip install pyspark

安装完成后进行测试:

from pyspark.sql import DataFrame, SparkSession

# 启动SparkSession
spark = SparkSession \
       .builder \
       .appName("Our First Spark example") \
       .getOrCreate()
       
spark  # 查看SparkSession信息

# 创建dataFrame测试
df = spark.createDataFrame([{"Google": "Colab","Spark": "Scala"} ,{"Google": "Dataproc","Spark":"Python"}])
df.show()

image-20220603110822362