创建自己的地名词典列表

时间:2014-03-26 02:43:56

标签: java nlp gate

我是自然语言处理和GATE的新手。目前我正在学习使用GATE / ANNIE。 ANNIE的默认地名词典很棒,但显然它们并不提供所有内容的列表。  我需要在故事书中创建一个字符列表 从GATE Gazetteer Editor(如门手册13.2.2中提到)或使用文本编辑器创建列表并向每个列表添加条目似乎并不可行。所以任何人都知道创建我们自己的地名词典列表的方法,除了,直接通过GATE或使用文本编辑器创建/编辑?

2 个答案:

答案 0 :(得分:2)

GATE manual中所述,您可以在文本编辑器中编辑任何现有列表。可能最直接的方式是以编程方式创建这些列表。即如果你在数据库中有它们,则以地名词典格式转储记录(基本上每行一个字)。如果您将它们放在csv或网页中,请将它们导出为正确的格式。

另一个选择是使用更高级的地名词典,它使用本体或语义库。请参阅上面的手册链接,了解不同的地名录以及如何使用它们。

答案 1 :(得分:2)

我使用上面建议的数据库表中的列的内容创建了一个列表。只需使用Notepad ++将其保存为.lst文件,与所有其他.lst文件(我使用ANNIE gazetteer)在同一目录中,然后使用gazetteer编辑器添加它。 我遇到的一个问题是没有以正确的编码(UTF-8)保存它。 GATE不喜欢它,它在加载时显示在消息中。一旦我弄清楚了并纠正了它,它就运行良好。

如果您需要从文本中创建实体列表,您可以查看地名词典列表收集器 - http://gate.ac.uk/sale/tao/splitch13.html - 13.7

相关问题