租户端 大数据 托管Hadoop 最佳实践 场景二:非结构化数据处理

场景二:非结构化数据处理

最近更新时间: 2019-10-30 06:30:22

处理非结构化数据的逻辑是先将其转换为结构化数据再进行处理 处理流程为:people.txt --> RDD --> DataFrame -- saveAs Parquet;load Parquet -->重构 DataFrame -->注册临时表 --> SQL 查询 这里以上文中提到的people.txt为例 项目名:ParquetFile 项目核心代码(具体代码,您可以点这里,自行下载):

val people = sqlContext.read.parquet(dirIn)
peopleDF.write.parquet(dirOut)

提交 job,同上RDDToDataFrame submit 过程

sudo -u spark spark-submit --class com.托管Hadoop.parquet.Demo --master yarn-client /home/spark/ParquetFile-1.0-SNAPSHOT.jar "file:///usr/hdp/2.4.0.0-169/spark/examples/src/main/resources/people.txt" "hdfs:///user/spark/out/person2.parquet"