Question

我有一个字典，它将字映射到id，如：

at: 0
hello: 1
school: 2
fortune:3
high:4
we: 5
eat: 6
....
high_school: 17
fortune_cookie: 18
....

然后，我有一份文件。将文档内容传输到id的最快捷有效的方法是什么。例如：

"At high school, we eat fortune cookie."
=>  "0 17, 5 6 18"

希望看到你的建议。感谢readinng。

Answer 1

如果文档没有那么多重复，您可以尝试trie数据结构或红黑树。特里是便宜得多。您还可以将trie与通配符结合使用：http://phpir.com/tries-and-wildcards

Answer 2

这实际上取决于文档的大小，关键字列表是否为静态，以及是否需要查找多字词短语。天真的方法是从字典中的文档中查找每个单词。因为字典查找是O（1），所以查找每个单词将花费O（n）时间，其中n是文档中的单词数。如果您需要查找多字短语，可以对输出进行后处理以找到它们。

这不是最有效的做事方式，但它实施起来非常简单，速度相当快，而且如果您的文件不是很大，那么效果会很好

如果您有非常大的文档，那么您可能需要Aho-Corasick string matching algorithm之类的内容。该算法分两个阶段进行。首先，它从你的字典中的单词构建一个trie，然后它只通过文档并输出所有的匹配。实施起来比天真的方法更复杂，但是一旦构建了trie，它就能很好地工作。而且，说实话，难以实施。从维基百科文章链接的原始论文很好地解释了算法，并且将它们的伪代码转换为工作程序并不困难。

但请注意，您可能会得到一些意想不到的结果。例如，如果您的词典包含单词＆＃34; high＆＃34;和＃34;学校＆＃34;以及两个单词的短语＆＃34;高中＆＃34;，Aho-Corasick会在看到短语＆＃34;高中＆＃34;时为你提供所有三个匹配。

查找字典的有效方法

2 个答案: