当前位置：首页 > news >正文

pycharm连接虚拟机中的spark

news 来源：原创 2024/5/16 7:01:44

1.打开pycharm

2.解压hadoop，解压到windows下面，切记不要有中文路径

在这里插入图片描述

3.解压spark，解压到windows下面，切记不要有中文路径

在这里插入图片描述

4. 把haoop，sprk对应的环境变量配置到pycharm中

4.1新建一个项目

在这里插入图片描述

4.2在项目中新建一个python文件

在这里插入图片描述

4.3把hadoop添加到pycharm中

在这里插入图片描述

HADOOP_HOME

在这里插入图片描述

4.4winutils.exe 插件放到hadoop/bin下面

在这里插入图片描述

4.5把spark添加到pycharm中

在这里插入图片描述

SPARK_HOME、PYTHONPATH

在这里插入图片描述

5.安装插件

在这里插入图片描述

6.测试

6.1把以下代码放到我们4.2步哪里新建的testspark.py文件中

import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("WordCount").getOrCreate()
spark.sparkContext.textFile("file:///D:/ruanjian/spark/spark-2.4.6-bin-hadoop2.7/README.md")\
        .flatMap(lambda x: x.split(' '))\
        .map(lambda x: (x, 1))\
        .reduceByKey(lambda x, y: x + y)\
        .foreach(print)