入门操作

最近更新时间: 2019-10-31 02:40:20

当前场景下,用户将待处理数据存储在本地计算机,需要将其上传至 HDFS 再进行计算处理。 程序准备 这里将会以计算 pi(圆周率)为例来演示离线任务处理。 用户可以使用spark-submit命令来提交 SPARK 任务。spark-submit 具体使用可以通过 spark-submit --help 查看。 注意:此包由官方提供,因此无需上传 jar 包 程序提交 在命令行中执行如下命令

yarn-client  
#spark spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 4g --num-executors 2 --executor-memory 2g --executor-cores 2 /usr/hdp/2.4.0.0-169/spark/lib/spark-examples.jar 10 2>/dev/null  
yarn-cluster  
#spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --driver-memory 4g --num-executors 2 --executor-memory 2g --executor-cores 2 /usr/hdp/2.4.0.0-169/spark/lib/spark-examples.jar 10 2>/dev/null  

注意:因为是 yarn cluster 模式,所以在终端看不到任何输出信息(这里仅指有效输出信息,debug 的标准输出已被屏蔽),需要在 yarn 的控制台 查看打印的日志 log,可通过: AMBARI > YARN > Quick Links > ResourceManager UI来查看 相关参数说明

参数 参考值 说明
class org.apache.spark.examples.SparkP 作业的主类,程序的入口
master yarn 托管HADOOP使用Yarn的模式(也支持Standalone模式,后接集群master的URL,如local或者spark:\/\/host:port,生产环境下推荐使用YARN)
yarn-client 简写,等效--masteryarn--deploy-modeclient,即--masteryarn-client
yarn-cluster 简写,等效--masteryarn--deploy-modecluster,即--masteryarn-cluster
deploy-mode client 部署方式(client\/cluster),client模式表示作业的ApplicationMaster会放在Master节点上运行。注意,该参数需要和--masteryarn连用_
cluster cluster模式表示作业的ApplicationMaster会随机的在core节点中的任意一台上启动运行。注意,该参数需要和--masteryarn连用
river-memory 4G driver使用的内存
num-executors 2 创建executor的数量
executor-memory 2G 每个executor使用的最大内存,不能超过单机的最大可使用内存
executor-cores 2 各个executor使用的并发线程数目,也即每个executor最大可并发执行的Task数目
补充:上面仅是 spark-submit 一部分参数,详情请点击此处。 spark-submit 参数填写完毕,后跟 jar 包所在路径,最后 2>/dev/null 是为了屏蔽程序 debug 信息的标准输出。