当前位置: 首页 > news >正文

pycharm连接虚拟机中的spark

1.打开pycharm

2.解压hadoop,解压到windows下面,切记不要有中文路径

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.解压spark,解压到windows下面,切记不要有中文路径

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 把haoop,sprk对应的环境变量配置到pycharm中

4.1新建一个项目

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4.2在项目中新建一个python文件

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4.3把hadoop添加到pycharm中

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

HADOOP_HOME

在这里插入图片描述

4.4winutils.exe 插件放到hadoop/bin下面

在这里插入图片描述

4.5把spark添加到pycharm中

在这里插入图片描述

SPARK_HOME、PYTHONPATH

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.安装插件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.测试

6.1把以下代码放到我们4.2步哪里新建的testspark.py文件中

import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("WordCount").getOrCreate()
spark.sparkContext.textFile("file:///D:/ruanjian/spark/spark-2.4.6-bin-hadoop2.7/README.md")\
        .flatMap(lambda x: x.split(' '))\
        .map(lambda x: (x, 1))\
        .reduceByKey(lambda x, y: x + y)\
        .foreach(print)

注意注意注意
在这里插入图片描述

6.2 安装pyspark和findspark

在这里插入图片描述

6.3测试

在这里插入图片描述
在这里插入图片描述

相关文章:

  • 解决服务器系统磁盘满了的问题
  • 玩转易知微社区,就差你了
  • 认识数据库管理工具 dbForge Edge,您的多数据库解决方案!
  • 「微报告」智驾芯片收敛“前夜”
  • 代码随想录Day36
  • 二维字符数组与char** 关系 段错误打印
  • 医学图像增强系统的设计_kaic
  • 【Python机器学习】——入门
  • 学习+刷题:239. 滑动窗口最大值
  • 测试老鸟手把手教你python接口自动化测试项目实战演示
  • FB使用入口点函数例子
  • Vue 04 - Vue模板语法
  • 【算法题】2498. 青蛙过河 II
  • 【Java】自定义注解和AOP切面的使用
  • 论文心得笔记
  • 等保部作业
  • ASIC-WORLD Verilog(3)第一个Verilog代码
  • jquery基础之效果
  • 爬虫-day1-正则表达式作业
  • 【SSM】Spring6(一.IOC的实现)
  • 电加热油锅炉工作原理_电加热导油
  • 大型电蒸汽锅炉_工业电阻炉
  • 燃气蒸汽锅炉的分类_大连生物质蒸汽锅炉
  • 天津市维修锅炉_锅炉汽化处理方法
  • 蒸汽汽锅炉厂家_延安锅炉厂家
  • 山西热水锅炉厂家_酒店热水 锅炉
  • 蒸汽锅炉生产厂家_燃油蒸汽发生器
  • 燃煤锅炉烧热水_张家口 淘汰取缔燃煤锅炉
  • 生物质锅炉_炉
  • 锅炉天然气_天燃气热风炉