Question

我们多年来一直使用Lucene.NET来搜索基于搜索词的用户输入从文件中提取的文本。但是，我们最近遇到了客户报告的问题，其中搜索带有多个正斜杠的术语不返回匹配项。

示例是SB/ABC/1234-123的索引值，用户输入SB/*以匹配具有该前缀的所有文档。但是，不会根据该查询返回任何结果。奇怪的是，搜索ABC/*会返回值为SB/ABC/1234-123的文档，完全忽略SB/组件。

最初报告的问题是正斜杠和通配符的组合（SB/*不会返回SB/1234-123的匹配项）但是使用QueryParser和{ {1}}除了之前的KeywordAnalyzer只有QueryParser。

这是当前使用的代码（简化为可以重现问题的关键元素）。

StandardAnalyzer

KeywordAnalyzer

我的假设是，使用两个正斜杠使其将其视为正则表达式。问题是我们如何让它正确匹配结果而不是将其视为正则表达式。在搜索条件中转义斜杠并未更改上面看到的已解析查询或返回的结果。

我们目前的要求是它必须同时支持标记化/停止词搜索（用于文本短语等）以及完全匹配（我们存储大量不应该被标记化的发票号等）和都处理通配符。 Cannot parse '+((Title:sb/abc/*) (Title:sb/abc/*))': '*' or '?' not allowed as first character in WildcardQuery.查询是完全匹配值方案的通配符搜索示例。

希望这是有道理的。如果需要，我可以添加额外的说明。

编辑：我们的数据被组织成许多列，可以存储任何文本值。示例：某些客户将唯一/ ID值（发票编号等）的值放入字段1中，用于doctype A.同一客户可以将字段1用作doctype B的文本块（全名等）.Doctypes是高级别描述特定文档应表示的文档的分类，例如发票，采购订单等。示例数据：

SB/*

带有多个正斜杠的Lucene.NET查询

0 个答案: