如何过滤无效的XML

时间:2019-03-01 23:15:42

标签: apache-spark

我必须处理多个xml,下面是示例xml

<?xml version="1.0"?>
  <Root>
    <Row>
      <info>            
         <name>Mich</name>          
         <id>123</id>       
      </info>       
      <detail>          
        <type>ind</type>        
     </detail>
 </Row>
 ......

有时xml结构可以是,请注意下面的xml中只有一行

<Root>
  <Row>
   <detail>
    <type>invalid</type>
   </detail>
  </Row>
</Root>

将数据读入spark df后,我想过滤类型为无效的所有行。问题是,当存在一个只有一个Row元素的xml时,数据帧的架构被推断为Struct,而如果XML中存在多个Row元素,则将其推断为Struct数组 如何处理这个???

0 个答案:

没有答案