使用Apache Tika从Hadoop RCfile Gzip中提取文本

时间:2017-02-14 17:01:20

标签: hadoop apache-tika

我正在使用Apache Tika从我创建的Apache Hadoop RCfile示例文件中提取文本(使用Hadoop的GZip压缩),看起来Tika的mime类型检测对此文件无法正常工作。任何想法如何构建支持(通过XML配置,或构建一个检测器)来正确解析这种格式?

java -jar tika-app-1.14.jar /dev/sample_data/sample_gen_hadoop_rcfile

返回

<?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="X-Parsed-By" content="org.apache.tika.parser.EmptyParser"/>
<meta name="resourceName" content="sample_gen_hadoop_rcfile"/>
<meta name="Content-Length" content="20224466"/>
<meta name="Content-Type" content="application/octet-stream"/>
<title/>
</head>

我创建的RCfile是gzip格式 - 下面的

转储
   :sample_data $ xxd sample_gen_hadoop_rcfile |head -n 50
    00000000: 5243 4601 0127 6f72 672e 6170 6163 6865  RCF..'org.apache
    00000010: 2e68 6164 6f6f 702e 696f 2e63 6f6d 7072  .hadoop.io.compr
    00000020: 6573 732e 477a 6970 436f 6465 6300 0000  ess.GzipCodec...
    00000030: 011c 6869 7665 2e69 6f2e 7263 6669 6c65  ..hive.io.rcfile
    00000040: 2e63 6f6c 756d 6e2e 6e75 6d62 6572 0231  .column.number.1

0 个答案:

没有答案