# studyPySpark

**Repository Path**: goeoeo/study-py-spark

## Basic Information

- **Project Name**: studyPySpark
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-06-27
- **Last Updated**: 2024-09-07

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 依赖
* python 3.8.12
* pyspark 3.2.0

# 安装spark-hadoop 环境
https://blog.csdn.net/weixin_52785140/article/details/130458013
1. 在docker-compose-spark-1 中安装pyspark
```
pip install pyspark=3.2.0
```

2. 重新打镜像
```shell
docker commit docker-compose-spark-1 s1mplecc/spark-hadoop-pyspark:3
```


# 端口
Web UI	默认网址	备注
* Spark Application	http://localhost:4040	由 SparkContext 启动，显示以本地或 Standalone 模式运行的 Spark 应用
Spark Standalone Master	http://localhost:8080	显示集群状态，以及以 Standalone 模式提交的 Spark 应用
* HDFS NameNode	http://localhost:9870	可浏览 HDFS 文件系统
* YARN ResourceManager	http://localhost:8088	显示提交到 YARN 上的 Spark 应用
YARN NodeManager	http://localhost:8042	显示工作节点配置信息和运行时日志
MapReduce Job History	http://localhost:19888	MapReduce 历史任务


# python on spark
Python> JVM代码>JVM Driver>RPC>调度JVM Executor> PySpark中转>Python Executor进程

## 分布式代码执行的重要特征是什么
代码在集群上运行，是被分布式运行的  
在spark中，非任务处理部分由Driver执行（非RDD代码）  
任务处理部分由Executor执行（RDD代码）
Executor的数量可以很多，所以任务的计算是分布式在运行的 

## PySpark架构
Python on Spark Driver端由JVM执行，Executor端由JVM做命令转发，底层由Python解释器进行工作