我有两个电子邮件测试文件:
如果我用
提供文件curl -T filename http://localhost:9998/detect/stream
我收到两个文件的回复“message / rfc822”。
如果我跑
curl -T filename http://localhost:9998/meta
我得到了元数据,但是在(1)的情况下我没有提取日期,而在案例(2)中我没有。
我理解,当然,.eml文件包含完整的原始标头,而.txt文件只包含一个非常简短的标头。但是,即使是缩写标题也包含“日期”字段,因此我认为Tika应该提取它。这是一个错误还是故意的?在后一种情况下,我是否可以采取任何措施让Tika在案例(1)中提取日期?
我正在运行Tika-server 1.14。
答案 0 :(得分:1)
感谢您开放TIKA-1970;潜在的詹姆斯' mime4j库无法解析格式日期" 2016年5月16日格林威治标准时间09:30:32 + 1"。我们将添加额外的日期解析代码以捕获mime4j在Tika级别无法识别的日期格式。
再次感谢您注意并在我们的JIRA上打开问题。