入门操作
最近更新时间: 2019-10-31 02:40:20
当前场景下,用户将待处理数据存储在本地计算机,需要将其上传至 HDFS 再进行计算处理。 程序准备 这里将会以计算 pi(圆周率)为例来演示离线任务处理。 用户可以使用spark-submit命令来提交 SPARK 任务。spark-submit 具体使用可以通过 spark-submit --help 查看。 注意:此包由官方提供,因此无需上传 jar 包 程序提交 在命令行中执行如下命令
yarn-client
#spark spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 4g --num-executors 2 --executor-memory 2g --executor-cores 2 /usr/hdp/2.4.0.0-169/spark/lib/spark-examples.jar 10 2>/dev/null
yarn-cluster
#spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --driver-memory 4g --num-executors 2 --executor-memory 2g --executor-cores 2 /usr/hdp/2.4.0.0-169/spark/lib/spark-examples.jar 10 2>/dev/null
注意:因为是 yarn cluster 模式,所以在终端看不到任何输出信息(这里仅指有效输出信息,debug 的标准输出已被屏蔽),需要在 yarn 的控制台 查看打印的日志 log,可通过: AMBARI > YARN > Quick Links > ResourceManager UI来查看 相关参数说明
参数 | 参考值 | 说明 |
---|---|---|
class | org.apache.spark.examples.SparkP | 作业的主类,程序的入口 |
master | yarn | 托管HADOOP使用Yarn的模式(也支持Standalone模式,后接集群master的URL,如local或者spark:\/\/host:port,生产环境下推荐使用YARN) |
yarn-client | 简写,等效--masteryarn--deploy-modeclient,即--masteryarn-client | |
yarn-cluster | 简写,等效--masteryarn--deploy-modecluster,即--masteryarn-cluster | |
deploy-mode | client | 部署方式(client\/cluster),client模式表示作业的ApplicationMaster会放在Master节点上运行。注意,该参数需要和--masteryarn连用_ |
cluster | cluster模式表示作业的ApplicationMaster会随机的在core节点中的任意一台上启动运行。注意,该参数需要和--masteryarn连用 | |
river-memory | 4G | driver使用的内存 |
num-executors | 2 | 创建executor的数量 |
executor-memory | 2G | 每个executor使用的最大内存,不能超过单机的最大可使用内存 |
executor-cores | 2 | 各个executor使用的并发线程数目,也即每个executor最大可并发执行的Task数目 |