我在谈论哪种人工智能?

时间:2015-12-03 13:31:19

标签: artificial-intelligence

想象一下,你给一个系统提供了一堆pdf,你和你只知道这些相关的“如何”(例如它们都是论文,新闻或发票)。系统知道批次已连接,但不知道它们之间的关系。

系统然后扫描这些pdf,并为每个文档建议索引及其各自的值。

以下是一个示例:您向系统提供公司获得的所有发票。系统处理这些文档并建议索引“供应商”,“发票成本”和“到期日”。 Foreach pdf系统还提取条目的值。

所以我的问题是:什么样的人工智能系统最适合这种情况?神经网络?组合?

2 个答案:

答案 0 :(得分:1)

如果您知道机器应该查找的关键字,并且所有文档都遵循相同的格式,您可以通过关键字搜索来完成此操作。

但是,如果每个类别中的格式不一致,那么您需要考虑某种语言处理,以便机器能够理解正在进行的操作。

尝试对自然语言处理进行一些研究,这可能与您正在寻找的内容类似: NLP Wiki

答案 1 :(得分:1)

您正在寻找无监督学习算法。更具体地说,你的问题是clustering,因为你的系统对它要分析的数据一无所知,它必须对文档(或它们的属性)进行正确的分类。

在您的示例中,通过使用群集算法,您的系统可以学习区分您提供的文档并提取字段" Invoice"," Supplier" ...

我链接的维基页面应足以大致了解您需要的算法类别。在Google上,你会发现关于这个主题的大量演讲幻灯片。