读取实木复合地板文件时为什么出现“不是实木复合地板文件”错误

时间:2020-06-04 14:28:12

标签: apache-spark hdfs parquet

从hdfs读取实木复合地板文件时发生以下错误

2020-06-04 14:11:23 WARN  TaskSetManager:66 - Lost task 44.0 in stage 1.0 (TID 3514, 192.168.16.41, executor 1): java.lang.RuntimeException: hdfs://data-hadoop-hdfs-nn.hadoop:8020/somedata/serviceName=someService/masterAccount=ma/siteAccount=sa/systemCode=111/part-00170-7ff5ac19-98b7-4a5a-b93d-9e988dff07eb.c000.snappy.parquet is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [55, 49, 98, 48]

我在互联网上发现了类似的问题,但是大多数人都尝试读取实木复合地板以外的其他文件类型。 我100%确信此文件是以镶木地板格式编写的,从日志中可以看到。文件名是part-00170-7ff5ac19-98b7-4a5a-b93d-9e988dff07eb.c000.snappy.parquet。

只有一个作业写入此somdata文件夹,而这个作业仅写入镶木地板(火花结构化流作业) 结局还说这是一个实木复合地板文件。 由同一作业编写的其他拼花地板文件不会引发此错误

0 个答案:

没有答案