场景二:非结构化数据处理
最近更新时间: 2019-10-30 06:30:22
处理非结构化数据的逻辑是先将其转换为结构化数据再进行处理 处理流程为:people.txt --> RDD --> DataFrame -- saveAs Parquet;load Parquet -->重构 DataFrame -->注册临时表 --> SQL 查询 这里以上文中提到的people.txt为例 项目名:ParquetFile 项目核心代码(具体代码,您可以点这里,自行下载):
val people = sqlContext.read.parquet(dirIn)
peopleDF.write.parquet(dirOut)
提交 job,同上RDDToDataFrame submit 过程