更多
当前位置: 首页 > 蔬菜

天天热门:PySpark的交互式命令行如何操作?如何提交任务?

发布时间:2023-01-20 19:51:07 来源:哔哩哔哩

0PySpark下载及安装

首先PySpark需要从PyPi上面安装,如下URL:https://pypi.org/project/pyspark/#files

若安装PySpark需要首先具备Python环境,这里使用Anaconda环境,安装过程可直接参考部署文档即可 <<spark部署文档.doc>> 中关于PySpark的安装操作。

up同名公众号内回复【spark部署】获取资料。


(相关资料图)

PySpark视频安装教程

补充-conda命令

conda虚拟环境 命令

查看所有环境

conda info --envs

新建虚拟环境

conda create -n myenv python=3.6 

删除虚拟环境

conda remove -n myenv --all 

激活虚拟环境

conda activate myenv

source activate base 

退出虚拟环境

conda deactivate myenv

02 测试PySpark案例-圆周率

Spark框架自带的案例Example中涵盖圆周率PI计算程序,可以使用【$SPARK_HOME/bin/spark-submit】提交应用执行,运行在本地模式。

· 自带案例pi脚本:【/export/server/spark/examples/src/main/python/pi.py】

· 提交运行PI程序

SPARK_HOME=/export/server/spark

${SPARK_HOME}/bin/spark-submit \

--master local[2] \

${SPARK_HOME}/examples/src/main/python/pi.py \

10

03  参数解释

(1)基本语法

(2)参数说明:

--master 指定Master的地址,默认为Local

--class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)

--deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)

--conf: 任意的Spark配置属性, 格式key=value. 如果值包含空格,可以加引号“key=value” 

application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。比如hdfs:// 共享存储系统, 如果是 file:// path, 那么所有的节点的path都包含同样的jar

application-arguments: 传给main()方法的参数

--executor-memory 1G 指定每个executor可用内存为1G

--total-executor-cores 2 指定每个executor使用的cup核数为2个

上一篇:浚县土圆粮仓上榜!全国最美公共文化空间大赛年度榜单出炉

下一篇:最后一页