Question

我有一个db查询，它会导致使用like子句进行全表扫描，并且遇到了一个我很好奇的问题......

以下哪项应该在Mysql中运行得更快，或者它们都以相同的速度运行？在我的案例中，基准测试可能会回答它，但我想知道答案的原因。正在过滤的列包含几千个字符，如果这很重要的话。

SELECT * FROM users WHERE data LIKE '%=12345%'

或

SELECT * FROM users WHERE data LIKE '%proileId=12345%'

我可以提出为什么每一个都可以执行另一个的原因，但我很想知道逻辑。

Answer 1

在所有条件相同的情况下，较长的匹配字符串应该运行得更快，因为它允许跳过具有更大步骤的测试字符串并执行更少的匹配。

有关sting匹配背后算法的示例，请参阅示例Boyer Moore Algorithm on Wikipedia。

当然并非所有事情都是平等的，所以我肯定会对它进行基准测试。

在mysql reference docs以下段落中找到了一个快速检查：

如果使用... LIKE'％string％'且字符串超过三个字符，MySQL使用Turbo Boyer-Moore算法初始化字符串的模式，然后使用此模式执行搜索更快。

Answer 2

无论如何都没有区别。因为您在LIKE表达式的开头有一个％符号，所以完全排除了索引的使用，索引只能用于匹配字符串的前缀。

所以无论哪种方式都是全表扫描。

在一个大型数据库（即不适合32G服务器的RAM）上，IO是一个非常大的成本，所以我担心字符串模式匹配算法不相关。