来自电子邮件的Tika元数据未命中日期

时间:2016-05-14 12:46:39

标签: date metadata apache-tika rfc822

我有两个电子邮件测试文件:

  1. 使用Mac Mail中的“另存为”创建的文件(这会创建.txt文件)
  2. 通过将电子邮件从Mac Mail拖到桌面创建的文件(这会创建.eml文件)
  3. 如果我用

    提供文件
    curl -T filename http://localhost:9998/detect/stream
    

    我收到两个文件的回复“message / rfc822”。

    如果我跑

    curl -T filename http://localhost:9998/meta
    

    我得到了元数据,但是在(1)的情况下我没有提取日期,而在案例(2)中我没有。

    我理解,当然,.eml文件包含完整的原始标头,而.txt文件只包含一个非常简短的标头。但是,即使是缩写标题也包含“日期”字段,因此我认为Tika应该提取它。这是一个错误还是故意的?在后一种情况下,我是否可以采取任何措施让Tika在案例(1)中提取日期?

    我正在运行Tika-server 1.14。

1 个答案:

答案 0 :(得分:1)

感谢您开放TIKA-1970;潜在的詹姆斯' mime4j库无法解析格式日期" 2016年5月16日格林威治标准时间09:30:32 + 1"。我们将添加额外的日期解析代码以捕获mime4j在Tika级别无法识别的日期格式。

再次感谢您注意并在我们的JIRA上打开问题。