文档首页

租户端大数据托管Hadoop 最佳实践 Spark 离线任务处理

Spark 离线任务处理

最近更新时间: 2019-10-31 02:40:20

所谓离线任务，就是用户已经将待处理的数据存储在对象存储上或者是 HDFS 中，这些数据是“过去”产生的，并不是实时产生的。用户在提交任务（job）以后，由集群自动完成计算并得出结果。一般情况下，在进行数据清洗时，大多采用离线处理的方式。具体到场景来说，比如日志分析、用户行为分析（日志分析的一种）等。这些数据大都具有一次写入，多次读取的特点。一般要处理具有这种特点的数据大都采用离线处理的方式。以下会有几个例子，用来熟悉两个经常遇到的场景的处理方法。以下内容不做特殊说明的情况下，凡是执行 SPARK 相关的命令时，请确保您的系统用户已经由 root用户切换到 spark 用户；切换当前工作目录到 /home/spark #切换系统用户为 spark #su spark #切换工作目录到当前用户的 home 目录 #cd ~