apache - Apache OpenNLP中的日期问题

最近帮助我学习NLP的项目我正在处理一些文件，每个文件都包含一个日期。我希望能够做的是读取非结构化数据并识别其中的日期或日期，将其转换为数字格式并可能将其设置为文档元数据。（注意：由于使用的文档都是伪信息，因此读入的文件的实际元数据是错误的。）

最近，我一直试图将OpenNLP与Lucene结合使用，并且它在某种程度上起作用。但是，如果日期写为＆＃34; 1990年1月13日＆＃34;或者＆＃34; 2010/01/05＆＃34;，OpenNLP仅识别＆＃34; 1990年1月＆＃34;和＆＃34; 2010＆＃34;分别，但不是整个日期。其他日期格式也可能有问题，我还没有尝试过。虽然我认识到OpenNLP是基于统计学而不是基于格式的，但我无法帮助，但却感觉到我犯了一个基本错误。

我犯了错误吗？如果没有，是否有一种简单的方法来纠正这个问题？

据我所知，我可以根据训练数据集构建自己训练有素的模型。 Apache OpenNLP是免费提供的，所以我可以扩展它吗？还有其他免费提供的吗？

有更好的方法吗？我听说过Apache UIMA，我去OpenNLP的主要原因是由于Manning在Taming Text中的提及。我应该注意，日期的提取是项目的第一阶段，其他数据也将在稍后提取。

非常感谢您的回应。

Apache OpenNLP中的日期问题

1 个答案: