Spark 离线任务处理

最近更新时间: 2019-10-31 02:40:20

所谓离线任务,就是用户已经将待处理的数据存储在对象存储上或者是 HDFS 中,这些数据是“过去”产生的,并不是实时产生的。用户在提交任务(job)以后,由集群自动完成计算并得出结果。 一般情况下,在进行数据清洗时,大多采用离线处理的方式。具体到场景来说,比如日志分析、用户行为分析(日志分析的一种)等。这些数据大都具有一次写入,多次读取的特点。一般要处理具有这种特点的数据大都采用离线处理的方式。 以下会有几个例子,用来熟悉两个经常遇到的场景的处理方法。 以下内容不做特殊说明的情况下,凡是执行 SPARK 相关的命令时,请确保您的系统用户已经由 root用户 切换到 spark 用户; 切换当前工作目录到 /home/spark #切换系统用户为 spark #su spark #切换工作目录到当前用户的 home 目录 #cd ~