# studyPySpark **Repository Path**: goeoeo/study-py-spark ## Basic Information - **Project Name**: studyPySpark - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-06-27 - **Last Updated**: 2024-09-07 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 依赖 * python 3.8.12 * pyspark 3.2.0 # 安装spark-hadoop 环境 https://blog.csdn.net/weixin_52785140/article/details/130458013 1. 在docker-compose-spark-1 中安装pyspark ``` pip install pyspark=3.2.0 ``` 2. 重新打镜像 ```shell docker commit docker-compose-spark-1 s1mplecc/spark-hadoop-pyspark:3 ``` # 端口 Web UI 默认网址 备注 * Spark Application http://localhost:4040 由 SparkContext 启动,显示以本地或 Standalone 模式运行的 Spark 应用 Spark Standalone Master http://localhost:8080 显示集群状态,以及以 Standalone 模式提交的 Spark 应用 * HDFS NameNode http://localhost:9870 可浏览 HDFS 文件系统 * YARN ResourceManager http://localhost:8088 显示提交到 YARN 上的 Spark 应用 YARN NodeManager http://localhost:8042 显示工作节点配置信息和运行时日志 MapReduce Job History http://localhost:19888 MapReduce 历史任务 # python on spark Python> JVM代码>JVM Driver>RPC>调度JVM Executor> PySpark中转>Python Executor进程 ## 分布式代码执行的重要特征是什么 代码在集群上运行,是被分布式运行的 在spark中,非任务处理部分由Driver执行(非RDD代码) 任务处理部分由Executor执行(RDD代码) Executor的数量可以很多,所以任务的计算是分布式在运行的 ## PySpark架构 Python on Spark Driver端由JVM执行,Executor端由JVM做命令转发,底层由Python解释器进行工作